据苹果研究人员发现,领先的AI模型在推理方面仍存在显著困难,这表明通用人工智能(AGI)的开发道路依然漫长。
苹果研究人员在6月发表的一篇名为《思考的幻觉》的论文中指出,尽管领先的AI大型语言模型(LLMs)如OpenAI的ChatGPT和Anthropic的Claude最近更新中整合了大型推理模型(LRMs),但它们的基础能力、扩展特性和局限性"至今仍未被充分理解"。
他们强调,当前的评估体系主要关注既定的数学和编程基准,"过度强调最终答案的准确性"。
然而,研究人员表示,这种评估方法并不能真正揭示AI模型的推理能力。
该研究结果与业界预期通用人工智能仅需几年即可实现的观点形成了鲜明对比。
研究团队设计了多种不同的益智游戏,用于测试Claude Sonnet、OpenAI的o3-mini和o1以及DeepSeek-R1和V3聊天机器人的"思考"和"非思考"变体,评估范围超越了标准数学基准。
他们发现,"前沿LRMs在超出特定复杂度后会面临完全的准确性崩溃",无法有效泛化推理能力,且随着问题复杂性增加,它们的优势逐渐消失,这与人们对AGI能力的期望大相径庭。"我们发现LRMs在精确计算方面存在明显局限性:它们无法运用明确的算法,且在不同谜题中的推理过程缺乏一致性。"
研究人员观察到模型推理不一致且肤浅,同时还发现了过度思考现象,即AI聊天机器人早期能生成正确答案,随后却陷入错误的推理路径。
研究团队得出结论认为,LRMs仅是模仿推理模式,而未能真正内化或泛化这些模式,这与AGI级推理能力的要求相去甚远。"这些发现挑战了业界对LRM能力的普遍假设,并表明当前方法可能正面临泛化推理的根本障碍。"
AGI被视为AI发展的终极目标,指的是机器能够像人类一样思考和推理,达到与人类智能相当的状态。
今年1月,OpenAI首席执行官Sam Altman表示,该公司比以往任何时候都更接近构建AGI。他当时表示:"我们现在确信我们知道如何构建传统意义上的AGI。"
去年11月,Anthropic首席执行官Dario Amodei预测,AGI将在未来一两年内超越人类能力。他说:"如果你仅从这些能力增长的速率来判断,确实会让人认为我们将在2026年或2027年实现这一目标。"
相关推荐:反腐监察机构就LIBRA加密货币丑闻为Javier Milei洗清嫌疑
原文: 《 苹果研究人员认为人工智能(AI)模型离达到AGI级推理能力仍相距甚远 》
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。