在周二,谷歌将启动一场国际象棋比赛,旨在让领先的人工智能模型相互对抗,以直接测试机器推理能力。
这项活动紧随埃隆·马斯克周一的声明,他表示他的聊天机器人Grok展现了“卓越的推理”能力。
该活动作为新的Kaggle游戏竞技场的一部分启动,这是一个在实时竞争环境中测试通用人工智能代理的平台。
首场比赛将包括六个领先语言模型的每日国际象棋对局:ChatGPT、Gemini、Claude、Grok、Deepseek和Kimi。
与标准基准测试不同,谷歌在一份声明中表示,这种格式通过评估模型在压力下的思考、适应和恢复能力,将人工智能策略公之于众。
谷歌表示,希望这场比赛能够突出其他基准未能检测到的推理能力差异。这场比赛是谷歌用来测试人工智能推理的其他游戏基准的延续,包括Atari的游戏、AlphaGo和AlphaStar。
“提交的结果使用贝叶斯技能评分系统进行排名,该系统会定期更新,从而实现严格的长期评估,”谷歌表示。
贝叶斯系统使用概率根据与其他竞争者的表现,随时间更新玩家的技能评分。
首场国际象棋对局将是OpenAI的o4 mini与DeepSeek-R1、Gemini 2.5 Pro与Claude Opus 4、Moonshot AI的Kimi K2 Instruct与OpenAI的o3,以及Grok 4对阵Gemini 2.5 Flash。
国际象棋长期以来一直是人工智能的试金石。
在1997年的一场历史性比赛中,IBM的深蓝击败了俄罗斯国际象棋大师和前世界国际象棋冠军加里·卡斯帕罗夫。谷歌的新比赛在这一传统的基础上发展,但现在是语言模型的对抗。
比赛将通过YouTube进行直播。每轮比赛采用四局三胜制,获胜者通过单淘汰赛晋级。前两名模型将在决赛中争夺金牌。
“游戏非常适合人工智能评估,因为它们帮助我们理解模型如何处理复杂的推理任务,”谷歌在X上写道。“许多游戏是现实世界技能的代理,可以测试模型在战略规划、适应和记忆等领域的能力。”
观众将能够看到每个模型每一步背后的推理。根据谷歌的说法,这种透明度对于评估模型是否真正思考问题,还是仅仅模仿训练数据至关重要。
然而,在Kaggle游戏竞技场的讨论板上,关于大型语言模型在比赛开始后会如何表现仍然存在疑问。
“一旦所有允许的重新思考用尽,如果模型继续建议非法走法,会发生什么?”一位用户问道。“它会立即输掉比赛、跳过回合,还是以某种方式被取消资格?”
“这让我真的很想知道,我们看到的是真正的推理,还是仅仅是基于模式的猜测?”另一位用户问道。
谷歌表示,计划在未来的活动中将Kaggle游戏竞技场扩展到国际象棋以外的领域。就目前而言,这场初始比赛将作为对当今最先进模型在实时战略决策中表现的公共压力测试。
“游戏一直是人工智能的有用试金石,包括我们在AlphaGo和AlphaZero上的工作,”谷歌DeepMind的联合创始人兼首席执行官德米斯·哈萨比斯在X上写道。“我们期待看到这个基准将推动的进展,因为我们将更多的游戏和挑战加入竞技场——我们预计会看到快速的改进!”
谷歌尚未立即回应Decrypt的评论请求。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。