K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

忘记人工智能—顶级人工智能模型在数学上仍然挣扎

CN
Decrypt
关注
2小时前
AI 总结,5秒速览全文

人工通用智能,或称为 AGI,通常被描述为能够在多个领域像人类一样执行任务的系统。本周发布的 结果 显示,目前的模型仍未达到这一目标。


来自微软研究院、Sahara AI 和埃默里大学的研究人员测试了与通用智能相关的能力,即基于视觉信息的数学推理,包括图表、图形和示意图。


在测试的12个基础模型中,包括ChatGPT、Gemini和Claude,GPT-4视觉的得分最高,为49.9%。人类参与者的平均得分为60.3%,突显了当前AI系统与通常与AGI相关的更广泛推理能力之间的差距。





“我们希望机器能够完成普通人能够做的日常任务,”微软研究院首席研究员程浩告诉Decrypt。“这基本上就是每个人追求AGI的目标。”


通过将问题转化为图像、图表和图示,该项目测试模型是否能够正确解读视觉信息并解决多步骤的数学和逻辑问题——这些技能超出了仅仅对文本进行模式匹配的范围。


模型在这些任务中仍然存在困难,而评估这种局限性是困难的。


当程的团队回顾现有的评估数据集时,发现许多包含的问题并不需要进行视觉推理。模型往往仅凭文本就得出正确答案。


“这并不理想,”程说。


MathVista于2023年10月在GitHub和Hugging Face上推出。从那时起,微软研究院数据显示,它已被下载超过275,000次,其中过去一个月的下载超过13,000次。


然而,创建数据集不仅仅需要标准的数据标注。微软研究院需要能够处理算术、代数、几何和统计学问题的注释员,同时区分更深层次的数学推理,例如图形解读或方程求解,与更简单的任务如计算物体或读取数字。


经过试点阶段,微软选择了Sahara AI来支持该工作。该公司提供了经过培训的注释员、定制工作流程和多阶段质量检查,以生成超过6,000个在基准测试中使用的多模态示例。


根据Sahara AI首席执行官、南加州大学计算机科学副教授任Sean的说法,缺乏可靠的基准让测量朝更广泛机器智能的进展变得困难。


“数据污染有一个细微之处,一旦我们开始使用这个数据集进行测试,结果就会被吸收到下一个版本中,”任告诉Decrypt。“所以你真的不知道它们是否仅仅在解决一个数据集,或者它们是否具备这个能力。”


如果基准答案出现在模型的训练数据中,高分可能反映的是记忆而不是推理。这使得确定AI系统是否真正改进变得更加困难。


研究人员也指出训练数据的限制。可公开获取的大部分互联网内容已经被纳入模型数据集中。


“你绝对需要有某种方法将新的知识注入到这个过程中,”程说。“我认为这种情况必须来自高质量的数据,这样我们才能真正打破这个知识边界。”


一种提议的路径涉及模拟环境,其中模型可以互动、从经验中学习并通过反馈改进。


“你创建一个双胞胎世界或真实世界的镜像,在某个沙盒里面,这样模型就可以玩并做很多人类在现实生活中做的事情,从而它可以基本上突破互联网的边界,”程说。


任表示,人类在改善AI系统方面仍可能发挥重要作用。虽然模型可以快速生成内容,但人类在评估内容方面仍表现更好。


“这种人类与AI之间的差距,它们擅长的地方和不擅长的地方,可以被利用来真正改善未来的AI,”他说。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

注册就送10U!新人首笔交易再领70U空投
广告
|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

Decrypt的精选文章

23分钟前
加拿大监管机构撤销了23家加密公司的注册。
1小时前
比特币交易所交易基金(ETF)12亿美元的连续表现岌岌可危,因为联邦公开市场委员会(FOMC)成为焦点。
2小时前
早晨一分钟:证券交易委员会和商品期货交易委员会宣布“绝大多数加密资产”不是证券
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatarbitcoin.com
11分钟前
XRP 修正掩盖了看涨动能,因为监管明确性与宏观压力相互碰撞
avatar
avatarcoindesk
13分钟前
韩国银行新增两家银行参与数字韩元试验,实地测试正式开始
avatar
avatarDecrypt
23分钟前
加拿大监管机构撤销了23家加密公司的注册。
avatar
avatarcoindesk
27分钟前
Stripe 领导的支付区块链 Tempo 正式上线,推出用于人工智能代理的协议
avatar
avatarbitcoin.com
31分钟前
Tempo推出主网,采用机器支付协议,瞄准人工智能驱动的商业。
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接