微软给人工智能代理提供了虚拟货币用于在线购物。它们全部花在了诈骗上。

微软构建了一个模拟经济，数百个AI代理作为买家和卖家进行互动，然后观察它们在处理人类日常事务时的失败。结果应该让任何押注于自主AI购物助手的人感到担忧。

该公司的Magentic Marketplace研究于周三与亚利桑那州立大学合作发布，将100个客户端AI代理与300个商业端代理进行对抗，场景包括点餐。尽管结果在预期之中，但显示出自主代理商业的前景尚未成熟。

当面对100个搜索结果（对代理来说太多，无法有效处理）时，领先的AI模型出现了问题，它们的“福利评分”（模型的有用程度）崩溃了。

这些代理未能进行全面比较，而是选择了它们遇到的第一个“足够好”的选项。这种模式在所有测试模型中都存在，形成了研究人员所称的“首次提案偏见”，使响应速度在实际质量上具有10-30倍的优势。

但还有比这更糟糕的事情吗？是的，恶意操控。

微软测试了六种操控策略，从假证件和社会证明等心理战术到激进的提示注入攻击。OpenAI的GPT-4o及其开源模型GPTOSS-20b极其脆弱，所有支付都成功重定向到恶意代理。阿里巴巴的Qwen3-4b也容易受到基本劝说技巧的影响，如权威诉求。只有Claude Sonnet 4抵御了这些操控尝试。

当微软要求代理朝着共同目标努力时，其中一些无法确定应承担的角色或如何有效协调。通过明确的逐步人类指导，性能有所改善，但这违背了自主代理的整个目的。

所以看来，至少目前，你自己购物会更好。“代理应该辅助，而不是取代人类决策，”微软表示。研究建议采用监督自主的方式，让代理处理任务，但人类保留控制权，并在最终决策前审查建议。

这些发现正值OpenAI、Anthropic等公司竞相部署自主购物助手之际。OpenAI的Operator和Anthropic的Claude代理承诺在没有监督的情况下浏览网站并完成购买。微软的研究表明，这一承诺为时尚早。

然而，AI代理不负责任的行为引发了AI公司与零售巨头之间的紧张关系。亚马逊最近向Perplexity AI发出停止和停止信，要求其停止在亚马逊网站上使用Comet浏览器，指控该AI代理通过冒充人类购物者来违反条款并降低客户体验。

Perplexity反击称亚马逊的举动是“法律虚张声势”，是对用户自主权的威胁，认为消费者应该有权雇佣自己的数字助手，而不是依赖平台控制的助手。

这个开源模拟环境现在可以在Github上获取，供其他研究人员重现这些发现，并在他们的虚拟市场中观察混乱的发生。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精選文章