微软的免费人工智能刚刚在网页浏览方面击败了开放人工智能和谷歌。

想象一下告诉你的计算机查找度假出租房，比较五个网站，填写预订表格，并确认离海滩最近的那一个。你去泡咖啡。当你回来时，一切都完成了。这就是“计算机使用代理”的承诺——一种能够读取你的浏览器屏幕并像人类一样点击、滚动和输入的人工智能，无需特殊插件。

OpenAI首次尝试了这个，推出了Operator，于2025年1月以每月200美元的价格发布，后来被整合到ChatGPT代理中，并于8月停用。谷歌有Gemini 2.5计算机使用。两者都是专有的、基于云的，运行成本高昂。

本周，微软研究发布了一个名为Fara1.5的小型模型——在重要的基准测试中，它超越了这两个模型。

该家族有三种规模：40亿、90亿和270亿参数，均基于Qwen3.5，这是一个阿里巴巴基础模型，微软为浏览器工作进行了微调，并公开发布了所有权重。（参数决定了人工智能模型的知识广度，更多通常意味着更高的能力。）

要实现这一目标，需要从头开始重新思考整个开发过程。“我们从一个简单的问题开始：要让小型模型真正擅长代理任务需要什么？”人工智能前沿团队写道。“答案涵盖整个生命周期——数据生成、训练目标、模型设计和编排必须共同重新设计，而不是孤立进行。”

基准测试

Online-Mind2Web是微软希望在任务中表现优异的基准。它测试一个AI代理在136个流行的实时网站上如何成功完成300个多样化的实际任务——例如比较产品、填写表格和预订服务——并根据实际、变化中的互联网完成任务的百分比进行评分。

Fara1.5-27B得分为72%。OpenAI Operator得分为58.3%。谷歌的Gemini 2.5计算机使用得分为57.3%。Yutori的Navigator n1，最顶尖的专有替代品，得分为64.7%。即使是Fara1.5-9B这种中型模型也打破了63.4%的得分，超过了OpenAI和谷歌。

开源竞争对手也未能达到这一标准。阿里巴巴的GUI-Owl-1.5以80亿参数得分为48.6%。AI2的MolmoWeb得分为35.3%。微软自己之前的模型Fara-7B得分为34.1%——使得这个版本的成绩几乎是其同等规模的前一版本的两倍。

在WebVoyager上，第二个基准测量实时网络上的任务成功率，以相同的方式得分，Fara1.5-27B达到88.6%，超越OpenAI Operator的87.0%和H公司的300亿参数Holo2的83.0%。

它是如何学习的

秘密在于训练管道。微软使用了一个名为FaraGen1.5的系统来生成训练数据。这里的聪明之处在于：他们使用GPT-5.4——OpenAI的模型——作为“教师代理”，来演示如何完成浏览器任务。这些演示成为Fara1.5的训练数据。你实际上是在用OpenAI最强大的模型来训练一个竞争的开源模型。

他们还创建了六个虚假的、完全功能的真实网站副本——电子邮件客户端、日历、市场——以便模型可以练习需要登录或不可逆操作的任务（如实际发送电子邮件或预订航班），而不接触真实账户。这被称为合成领域训练，这也是Fara1.5在处理“门控”任务时表现更佳的重要原因。

每个模型都设计为在进行无法撤销的操作之前停下来询问。“平衡关键点等强大保障措施与无缝用户旅程是关键，”微软研究的高级PM负责人Yash Lara在接受VentureBeat采访时表示。“拥有一个用户界面，比如微软研究的Magentic-UI，对于在必要时让用户有机会进行干预至关重要，同时也有助于避免批准疲劳。”

这很重要，因为当OpenAI推出ChatGPT代理时，并没有对风险含糊其辞。“当你在网站上登录ChatGPT代理或启用连接器时，它将能够访问来自这些来源的敏感数据，例如电子邮件、文件或账户信息，”该公司写道。

Fara1.5通过MagenticLite运行，该环境是一个沙盒浏览器环境，记录每一个操作，并允许用户在任何时候暂停代理。

浏览器AI已成为一场竞争激烈的竞赛——谷歌的Gemini在Chrome中，Perplexity的Comet，Anthropic的Claude for Chrome。Fara1.5的优势在于它是开放的：公开权重，开放推理代码在GitHub上，运行在你控制的硬件上。Fara1.5-9B现在在Azure AI Foundry上线；4B和27B型号很快就会到来。微软表示，计划将Fara1.5扩展到浏览器之外，并进入桌面和企业软件。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

微软的免费人工智能刚刚在网页浏览方面击败了开放人工智能和谷歌。

基准测试

它是如何学习的

Decrypt的精选文章

目录

相关文章