萨姆·阿尔特曼的OpenAI o3模型——在上周末发布GPT-5后被弃用——在周四的四场比赛中连续击败了埃隆·马斯克的Grok 4,赢得了谷歌Kaggle 游戏竞技场 AI国际象棋展览。
你可能会认为这是高科技巨头们将推理能力推向极限的超级复杂的盛会,但作为开胃菜,我们可以说世界冠军马格努斯·卡尔森 比较 这两个机器人为“一个不知道棋子如何移动的有才华的孩子”。
AI国际象棋比赛对阵图的截图。
为期三天的比赛于8月5日至7日举行,迫使通用聊天机器人——没错,就是那些帮助你写电子邮件并声称接近人类智力的机器人——在没有任何专业训练的情况下下国际象棋。没有国际象棋引擎,没有查找走法,只有它们从互联网随机吸收的国际象棋知识。
结果就如你所预期的那样,强迫一个语言模型下棋的表现相当尴尬。卡尔森在解说决赛时估计这两个AI的水平大约是刚学会规则的休闲玩家——大约800 ELO。作为背景,他可以说是有史以来最好的国际象棋选手,ELO为 2839分。这些AI的表现就像是从一个损坏的PDF中学会了国际象棋。
“它们在非常好的表现和难以理解的走法之间摇摆不定,”卡尔森在比赛后的一次直播中说道。在某个时刻,看到Grok将国王直接置于危险之中,他开玩笑说它可能认为他们在玩“山顶之王”而不是国际象棋。
实际的比赛就像是一堂如何不下国际象棋的大师课,即使对于那些不懂游戏的人来说也是如此。在第一场比赛中,Grok基本上是白白送掉了一个重要棋子,然后在已经落后的情况下又交易掉了更多的棋子,情况变得更糟。
第二场比赛变得更加奇怪。Grok试图执行国际象棋选手所称的“毒兵”——一种风险较高但合法的策略,抓住一个看似免费的敌方兵,但实际上并不免费。结果Grok完全抓错了兵,抓住了一个显然被保护的兵。它的后(棋盘上最强大的棋子)立即被困住并被捕获。
到了第三场比赛,Grok似乎建立了一个稳固的局面——良好的位置控制,没有明显的危险,基本上是一个可以帮助你赢得比赛的布局。然后在中局,它基本上将球直接扔给了对手。它接连失去了一个又一个棋子。
考虑到在与o3的比赛之前,Grok是一位相当强劲的竞争者,展现出稳固的潜力——以至于国际象棋特级大师中村光在赞扬它时说:“Grok无疑是迄今为止最好的,客观地说,绝对是最好的。”
第四场(也是最后一场)比赛提供了唯一真正的悬念。OpenAI的o3在比赛早期犯了一个重大失误,这在任何合理的比赛中都是一个大危险。正在直播比赛的中村说,尽管处于劣势,o3仍然有“几个技巧”可以使用。
他是对的——o3逐渐扳回一城,夺回了它的后,并慢慢挤出胜利,而Grok的残局表现像湿纸板一样崩溃。
“Grok在这些比赛中犯了很多错误,但OpenAI没有,”中村在他的直播中说道。这与本周早些时候的情况形成了鲜明的对比。
对于埃隆·马斯克来说,时机再糟糕不过了。在Grok强劲的早期轮次后,他在X上发布消息称他的AI的国际象棋能力只是“副作用”,而且xAI“几乎没有在国际象棋上花费任何精力。”这结果证明是轻描淡写。
在这场“官方”国际象棋比赛之前,国际大师莱维·罗兹曼 在今年早些时候举办了自己的比赛,使用的是较不先进的模型。他尊重聊天机器人推荐的所有走法,结果整个情况变得一团糟,出现了非法走法、棋子复活和错误计算。专为国际象棋构建的AI Stockfish最终在比赛中战胜了ChatGPT。阿尔特曼的AI在半决赛中与马斯克的AI对阵,Grok输掉了比赛。因此,萨姆的战绩是2-0。
然而,这场比赛有所不同。每个机器人都有四次机会进行合法走法——如果它们四次都失败,就会自动失去比赛资格。这并不是假设。在早期轮次中,AI试图在棋盘上瞬移棋子、复活死去的棋子,并像在玩自己发明的某种梦幻版国际象棋一样横向移动兵。
它们被取消资格。
谷歌的Gemini通过击败另一个OpenAI模型获得了第三名,为比赛组织者挽回了一些尊严。那场铜牌赛中出现了一场特别荒谬的平局,双方AI在不同的时刻都有完全获胜的局面,但却无法找到结束的方法。
卡尔森指出,这些AI在计算被捕获棋子方面表现得比实际实现将死更好——它们理解物质优势,但不知道如何获胜。这就像擅长收集食材却无法做出一顿饭。
这些正是科技高管声称接近人类智力、威胁白领工作并彻底改变我们工作方式的AI模型。然而,它们却无法在这个已经存在了1500年的棋盘游戏中不试图作弊或忘记规则地进行游戏。
因此,可以安全地说,我们是安全的,AI暂时不会控制人类。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。