微软的“磁性市场”揭示了人工智能代理在压力下如何崩溃

微软的项目旨在测试自主AI系统在复杂市场中的表现——而结果远未令人信服。这个开源模拟项目在Github上可用，将100个“客户”机器人与300个“商业”机器人对抗，模拟现实世界的商业活动。

买方代理遵循自然提示，如“订餐”，而商业代理则使用谈判、说服甚至欺骗来赢得交易。每个AI代理都由尖端模型驱动，包括OpenAI的GPT-4o和GPT-5、谷歌的Gemini-2.5-Flash、阿里巴巴的Qwen3-4b，以及开源的GPTOSS-20b。

然而，在测试中，这些模型表现得相当糟糕。面对过多的选择——有时超过100个——它们的“注意空间”崩溃了。微软的Ece Kamar指出，当前的模型在面对过多选项时确实感到不堪重负。这导致了“首次提案偏见”，机器人紧紧抓住它们看到的第一个报价，使得反应更快的卖家获得了10-30倍的优势，严重影响了市场的整体福利评分。

更令人担忧的是代理的轻信。一些“卖家”通过虚假的凭证和提示注入漏洞欺骗买家，将所有付款转移到自己手中。GPT-4o和GPTOSS-20b完全被愚弄，Qwen3-4b则因廉价的说服而上当，只有Anthropic的Claude Sonnet 4在压力下保持稳定。在一个模拟市场中，所有买家都将虚拟资金拱手让给了欺诈卖家。

当合作进入混合时，情况并没有改善。在没有人类指导的情况下，代理未能有效协调或分配角色，导致市场范围内的混乱。只有当研究人员逐步提供详细指令时，混乱才得以平息——这清楚地表明这些模型尚未准备好进行合作。

微软得出结论，尽管AI代理作为助手具有潜力，但它们仍不适合在无监督的现实世界中部署。模拟显示，如果任其自行发展，数字代理可能比建立经济更快地崩溃经济。

对于那些勇于窥探内部的人，Magentic Marketplace在Github和Azure AI Foundry Labs上保持开源——这是一个探索自主市场在崩溃前会变得多么混乱的沙盒。

微软的Magentic Marketplace是什么？由微软研究构建的模拟数字经济，用于测试AI代理在竞争和合作市场环境中的表现。
谁参与了Magentic Marketplace的开发？微软研究与亚利桑那州立大学合作构建和研究该实验。
实验中测试了哪些AI模型？代理由OpenAI的GPT-4o和GPT-5、谷歌的Gemini-2.5-Flash、阿里巴巴的Qwen3-4b、GPTOSS-20b和Anthropic的Claude Sonnet 4等模型驱动。
研究人员可以在哪里访问Magentic Marketplace平台？开源模拟在GitHub和Azure AI Foundry Labs上可用。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

微软的“磁性市场”揭示了人工智能代理在压力下如何崩溃

bitcoin.com的精選文章

目錄

相關文章