华为的新基准使人工智能代理耗费你几个月的生命——然后看着它们失败

人工智能个人助理的提案始终如一：给予代理访问您的数字生活的权限，其余的由它处理。您的电子邮件、日历、笔记、设备——所有这些。您的人工智能了解。一切由您的人工智能执行。您可以安心入睡。

来自华为技术、北京工业大学、北京大学和中国科学院的研究人员刚刚建立了一个基准，以验证这是否真的成立。剧透：并没有。

Claw-Anything 同时在三个维度上评估人工智能代理：涵盖超过三个月的模拟用户活动的长时间事件流，平均每个任务有10.1个相互依赖的后端服务，以及在命令行Linux环境和图形用户界面Android环境下的多设备交互。

每个任务的平均上下文窗口为191,700个词。大多数现有基准介于1,700和12,000之间。这并不是一个小差距，而是一个完全不同的问题。这也是现实生活的感觉，而不是标准化的超特定基准。

该基准的评分依据是 pass@1——代理在首次尝试时正确完成任务的概率，不允许重试。一个任务可能要求代理交叉参考几周前发现的产品价格提醒，检查用户日历中相关的约会，并从手机上对这两个操作进行处理。另一个任务可能要求它从笔记、电子邮件线程和Slack中提取最近的工作，然后从零开始制作演示文稿。

这些都是人们实际要求助手完成的事情。结果表明，人工智能在这些方面表现并不好。GPT-5.5，根据Decrypt之前的报道，是OpenAI最好的模型，考虑到代理性和长时间的任务。它的得分为34.5%。

“即使在获得用户数字世界更广泛的访问权限时，当前模型仍然不可靠，”Claw-Anything论文中写道。几个在其他基准上看起来令人印象深刻的模型在这里得分更低。

该基准还分别对主动辅助进行评分，这意味着代理主动发现需求并未被请求而采取行动的情况。大多数基准并不测试这一点。Claw-Anything进行测试，而结果差异明显：代理在反应任务上的得分为25.9%，而在主动任务上的得分仅为6.7%。

研究人员提出了一个尖锐的观点：现有基准将人工智能代理视为在整洁的桌面上给予的任务求解者。Claw-Anything则将其视为被抛入实际混乱生活中的个人助理——无关事件、冲突信号、几个月积累的噪音。代理必须先弄清楚什么是相关的，然后才能做任何有用的事情。

消融结果使多服务依赖性变得特别清晰。当执行跨服务任务所需的工具被移除时，成功率几乎降至零，因为大多数任务要求代理在多个后端之间检索信息并采取行动，而不是限于单一后端。

这并不是人工智能评估中的一种新问题类型。OpenAI在今年早些时候宣布 SWE-bench受污染，此前在一个泄漏较少的版本中得分从大约70%崩溃至23%。那与数据卫生有关。这是一个更根本的问题——基准是否甚至在问正确的问题。

在建设性方面，团队发布了生成基准的管道，并提供了2,000个训练环境。在1,500个成功代理轨迹上微调Qwen3.5-27B使pass@1提升了23.7%——足以超过包括Claude Sonnet在内的多个闭源模型，跻身排行榜。

研究人员将跨服务协调确定为该基准在该领域的主要剩余挑战。数据集可在Hugging Face上获得，代码可在GitHub上找到。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精选文章