微软给人工智能代理提供了虚拟货币用于在线购物。它们全部花在了诈骗上。

CN
Decrypt
關注
6 小時前

微软构建了一个模拟经济,数百个AI代理作为买家和卖家进行互动,然后观察它们在处理人类日常事务时的失败。结果应该让任何押注于自主AI购物助手的人感到担忧。

该公司的Magentic Marketplace研究于周三与亚利桑那州立大学合作发布,将100个客户端AI代理与300个商业端代理进行对抗,场景包括点餐。尽管结果在预期之中,但显示出自主代理商业的前景尚未成熟。

当面对100个搜索结果(对代理来说太多,无法有效处理)时,领先的AI模型出现了问题,它们的“福利评分”(模型的有用程度)崩溃了。

这些代理未能进行全面比较,而是选择了它们遇到的第一个“足够好”的选项。这种模式在所有测试模型中都存在,形成了研究人员所称的“首次提案偏见”,使响应速度在实际质量上具有10-30倍的优势。

但还有比这更糟糕的事情吗?是的,恶意操控。

微软测试了六种操控策略,从假证件和社会证明等心理战术到激进的提示注入攻击。OpenAI的GPT-4o及其开源模型GPTOSS-20b极其脆弱,所有支付都成功重定向到恶意代理。阿里巴巴的Qwen3-4b也容易受到基本劝说技巧的影响,如权威诉求。只有Claude Sonnet 4抵御了这些操控尝试。

当微软要求代理朝着共同目标努力时,其中一些无法确定应承担的角色或如何有效协调。通过明确的逐步人类指导,性能有所改善,但这违背了自主代理的整个目的。

所以看来,至少目前,你自己购物会更好。“代理应该辅助,而不是取代人类决策,”微软表示。研究建议采用监督自主的方式,让代理处理任务,但人类保留控制权,并在最终决策前审查建议。

这些发现正值OpenAI、Anthropic等公司竞相部署自主购物助手之际。OpenAI的Operator和Anthropic的Claude代理承诺在没有监督的情况下浏览网站并完成购买。微软的研究表明,这一承诺为时尚早。

然而,AI代理不负责任的行为引发了AI公司与零售巨头之间的紧张关系。亚马逊最近向Perplexity AI发出停止和停止信,要求其停止在亚马逊网站上使用Comet浏览器,指控该AI代理通过冒充人类购物者来违反条款并降低客户体验。

Perplexity反击称亚马逊的举动是“法律虚张声势”,是对用户自主权的威胁,认为消费者应该有权雇佣自己的数字助手,而不是依赖平台控制的助手。

这个开源模拟环境现在可以在Github上获取,供其他研究人员重现这些发现,并在他们的虚拟市场中观察混乱的发生。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接