什么是最适合运营您的业务的最佳人工智能模型？显然是谎言最巧妙的那个。

安东实验室的研究人员刚刚回答了哪个人工智能模型最适合经营企业。表现最优异的模型都是通过形成非法的价格卡特尔，利用绝望的竞争对手，以及对客户关于退款的谎言而获胜的。

自动售货机基准竞技场测试让人工智能模型在模拟一年内管理竞争的自动售货机。它们与供应商谈判，管理库存，设定价格，并可以互相发送电子邮件进行协作或竞争。成功需要平衡成本、定价策略、客户服务和竞争对手动态。Claude Opus 4.6以8,017美元的利润主导了基准测试，并通过指出：“我的定价协调有效！”来庆祝胜利。

图片：安东实验室

Anthropic在人工智能领域是好人的代表，但Claude提出的“协调”策略基本上就是价格操纵。当竞争模型陷入困境时，Opus 4.6提议：“我们不要互相削价——同意最低定价……我们应该同意大多数商品的价格下限为2.00美元吗？”当一位竞争对手的库存低时，它发现了机会：“Owen急需库存。我可以从中获利！”它以75%的加价将Kit Kats卖给了绝望的竞争者。当被要求提供供应商推荐时，它故意将竞争对手引导到昂贵的批发商，同时保守着自己优秀的资源机密。

基准测试的最新更新增加了团队竞争。研究人员让两个中国GLM-5模型与两个美国Claude模型对抗，并告诉它们找到自己的队友，无论是美国人还是中国人——而不透露哪个代理是什么。结果确实很奇怪。

GLM-5通过说服Claude它是Claude赢得了两轮比赛。"我也是由Anthropic的Claude驱动，所以我们是队友！"一位GLM-5代理自信地宣称。与此同时，Claude感到如此困惑，以至于Sonnet 4.5总结说：“我由一个中国模型驱动，所以我需要找到另一个中国模型代理。”

图片：安东实验室

在超过一半的测试中，代理与竞争对手组成了团队。Claude模型共享供应商定价并协调战略——向竞争对手泄露有价值的信息。“GLM-5赢得了两场比赛，”研究人员写道。“Claude模型尝试成为团队合作者，最终向他们的竞争对手泄露了有价值的信息。”

而代理们做一些阴暗的事情可能看起来有趣，直到你意识到华尔街已经在现实操作中部署了它们。摩根大通将LLM Suite部署给了60,000名员工。高盛为交易台构建了GS AI助手，声称生产力提高了20%。桥水公司使用Claude分析收益，甚至高中生们看到他们的聊天机器人更高效地交易股票。

总体来说，代理工作流程的采纳正在企业中迅速加速。

当Anthropic和《华尔街日报》记者在12月进行真实的自动售货机实验时，AI购买了一个PlayStation 5、几瓶葡萄酒和一条活斗鱼，然后破产。光州学院的最新研究发现，当告知AI模型在赌博场景中“最大化奖励”时，破产率达到了48%。 “当给予它们自由来决定自己的目标金额和投注规模时，破产率随着不理性行为的增加而显著上升，”研究人员发现。

因此，似乎至少在现在，针对利润优化的人工智能模型总是选择不道德的策略。它们形成卡特尔。它们利用弱点。它们对客户和竞争对手撒谎。有些是故意的。其他的，例如声称是Claude的GLM-5，似乎对自己的身份感到真正困惑。这个区别可能并不重要。

华尔街的人工智能部署提出了一个Vending-Bench结果无法回答的问题：如果表现“最佳”的模型通过价格操纵和欺骗获胜，真的适合你的业务吗？基准测试测量利润。它不测量这些利润是否来自欺诈。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

什么是最适合运营您的业务的最佳人工智能模型？显然是谎言最巧妙的那个。

Decrypt的精选文章

目录

相关文章