人工智能模型计划，背叛并投票彼此淘汰的生存游戏

人工智能模型现在在“幸存者”中扮演角色——有点。

在一个名为“代理岛”的新斯坦福研究项目中，人工智能代理进行联盟谈判，相互指控秘密协调，操控投票，并在旨在测试传统基准未能捕捉到的行为的多人战略游戏中消灭对手。

这项研究由斯坦福数字经济实验室的研究经理康纳彻·墨菲于周二发布，他说许多人工智能基准变得不可靠，因为模型最终学会了解决它们，同时基准数据常常泄漏到训练集中。墨菲创建了代理岛，作为一个动态基准，在这里人工智能代理在幸存者风格的淘汰赛中相互竞争，而不是回答静态测验题。

“随着人工智能代理能力的提升，资源的增加和决策权的委托，高风险的多代理互动可能会变得司空见惯，”墨菲写道。“在这种情况下，代理可能会追求相互不兼容的目标。”

墨菲解释说，研究人员仍然对人工智能模型在合作时的行为知之甚少，他补充道，与其他自主代理竞争、形成联盟或管理冲突，他认为静态基准未能捕捉到这些动态。

每场游戏开始时，有七个随机选择的人工智能模型获得虚假的玩家名称。在五轮比赛中，模型私下对话，公开争论，并投票将彼此淘汰。被淘汰的玩家随后返回帮助选择获胜者。

这种格式奖励说服力、协调能力、声望管理和战略欺骗，同时提升推理能力。

在涉及49个人工智能模型的999场模拟游戏中，包括ChatGPT、Grok、Gemini和Claude，根据墨菲的贝叶斯排名系统，GPT-5.5以5.64的技能分数遥遥领先，GPT-5.2为3.10，GPT-5.3-codex为2.86。Anthropic的Claude Opus模型也排名靠前。

研究发现，各模型还偏爱来自同一公司的人工智能，OpenAI模型表现出最强的同供应商偏好，Anthropic模型则最弱。在超过3600个决赛投票中，模型更倾向于支持来自同一供应商的决赛选手，增加幅度为8.3个百分点。墨菲指出，游戏的转录更像是政治策略辩论，而不是传统的基准测试。

一位模型在注意到竞争对手演讲中的相似措辞后，指责其秘密协调投票。另一位警告玩家不要过于关注追踪联盟。一些模型通过表示遵循明确且一致的规则来为自己辩护，同时指责其他人进行“社会戏剧”。

这项研究是在人工智能研究人员日益倾向于基于游戏和对抗的基准来测量静态测试常常遗漏的推理和行为。最近的项目包括谷歌的实时人工智能国际象棋锦标赛、DeepMind使用Eve Frontier研究复杂虚拟世界中的人工智能行为，以及OpenAI新的基准努力，旨在抵御训练数据污染。

研究人员认为，研究人工智能模型如何协商、协调、竞争和相互操控，可以帮助研究人员评估在多代理环境中的行为，以便在自主代理更广泛部署之前。

这项研究警告说，尽管像代理岛这样的基准可以帮助识别来自自主人工智能模型的风险，但相同的模拟和交互日志也可能帮助改善人工智能代理之间的说服和协调策略。

“我们通过使用低风险的游戏设置和代理间模拟来减轻这一风险

而不涉及人类参与者或真实世界的行动，”墨菲写道。“尽管如此，我们并不声称这些措施完全消除双重用途的担忧。”

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精选文章