微软的项目旨在测试自主AI系统在复杂市场中的表现——而结果远未令人信服。这个开源模拟项目在Github上可用,将100个“客户”机器人与300个“商业”机器人对抗,模拟现实世界的商业活动。
买方代理遵循自然提示,如“订餐”,而商业代理则使用谈判、说服甚至欺骗来赢得交易。每个AI代理都由尖端模型驱动,包括OpenAI的GPT-4o和GPT-5、谷歌的Gemini-2.5-Flash、阿里巴巴的Qwen3-4b,以及开源的GPTOSS-20b。
然而,在测试中,这些模型表现得相当糟糕。面对过多的选择——有时超过100个——它们的“注意空间”崩溃了。微软的Ece Kamar指出,当前的模型在面对过多选项时确实感到不堪重负。这导致了“首次提案偏见”,机器人紧紧抓住它们看到的第一个报价,使得反应更快的卖家获得了10-30倍的优势,严重影响了市场的整体福利评分。
更令人担忧的是代理的轻信。一些“卖家”通过虚假的凭证和提示注入漏洞欺骗买家,将所有付款转移到自己手中。GPT-4o和GPTOSS-20b完全被愚弄,Qwen3-4b则因廉价的说服而上当,只有Anthropic的Claude Sonnet 4在压力下保持稳定。在一个模拟市场中,所有买家都将虚拟资金拱手让给了欺诈卖家。
当合作进入混合时,情况并没有改善。在没有人类指导的情况下,代理未能有效协调或分配角色,导致市场范围内的混乱。只有当研究人员逐步提供详细指令时,混乱才得以平息——这清楚地表明这些模型尚未准备好进行合作。
微软得出结论,尽管AI代理作为助手具有潜力,但它们仍不适合在无监督的现实世界中部署。模拟显示,如果任其自行发展,数字代理可能比建立经济更快地崩溃经济。
对于那些勇于窥探内部的人,Magentic Marketplace在Github和Azure AI Foundry Labs上保持开源——这是一个探索自主市场在崩溃前会变得多么混乱的沙盒。
- 微软的Magentic Marketplace是什么?由微软研究构建的模拟数字经济,用于测试AI代理在竞争和合作市场环境中的表现。
- 谁参与了Magentic Marketplace的开发?微软研究与亚利桑那州立大学合作构建和研究该实验。
- 实验中测试了哪些AI模型?代理由OpenAI的GPT-4o和GPT-5、谷歌的Gemini-2.5-Flash、阿里巴巴的Qwen3-4b、GPTOSS-20b和Anthropic的Claude Sonnet 4等模型驱动。
- 研究人员可以在哪里访问Magentic Marketplace平台?开源模拟在GitHub和Azure AI Foundry Labs上可用。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。