想象一下告诉你的计算机查找度假出租房,比较五个网站,填写预订表格,并确认离海滩最近的那一个。你去泡咖啡。当你回来时,一切都完成了。这就是“计算机使用代理”的承诺——一种能够读取你的浏览器屏幕并像人类一样点击、滚动和输入的人工智能,无需特殊插件。
OpenAI首次尝试了这个,推出了Operator,于2025年1月以每月200美元的价格发布,后来被整合到ChatGPT代理中,并于8月停用。谷歌有Gemini 2.5计算机使用。两者都是专有的、基于云的,运行成本高昂。
本周,微软研究发布了一个名为Fara1.5的小型模型——在重要的基准测试中,它超越了这两个模型。
该家族有三种规模:40亿、90亿和270亿参数,均基于Qwen3.5,这是一个阿里巴巴基础模型,微软为浏览器工作进行了微调,并公开发布了所有权重。(参数决定了人工智能模型的知识广度,更多通常意味着更高的能力。)
要实现这一目标,需要从头开始重新思考整个开发过程。“我们从一个简单的问题开始:要让小型模型真正擅长代理任务需要什么?”人工智能前沿团队写道。“答案涵盖整个生命周期——数据生成、训练目标、模型设计和编排必须共同重新设计,而不是孤立进行。”
基准测试
Online-Mind2Web是微软希望在任务中表现优异的基准。它测试一个AI代理在136个流行的实时网站上如何成功完成300个多样化的实际任务——例如比较产品、填写表格和预订服务——并根据实际、变化中的互联网完成任务的百分比进行评分。
Fara1.5-27B得分为72%。OpenAI Operator得分为58.3%。谷歌的Gemini 2.5计算机使用得分为57.3%。Yutori的Navigator n1,最顶尖的专有替代品,得分为64.7%。即使是Fara1.5-9B这种中型模型也打破了63.4%的得分,超过了OpenAI和谷歌。
开源竞争对手也未能达到这一标准。阿里巴巴的GUI-Owl-1.5以80亿参数得分为48.6%。AI2的MolmoWeb得分为35.3%。微软自己之前的模型Fara-7B得分为34.1%——使得这个版本的成绩几乎是其同等规模的前一版本的两倍。
在WebVoyager上,第二个基准测量实时网络上的任务成功率,以相同的方式得分,Fara1.5-27B达到88.6%,超越OpenAI Operator的87.0%和H公司的300亿参数Holo2的83.0%。
它是如何学习的
秘密在于训练管道。微软使用了一个名为FaraGen1.5的系统来生成训练数据。这里的聪明之处在于:他们使用GPT-5.4——OpenAI的模型——作为“教师代理”,来演示如何完成浏览器任务。这些演示成为Fara1.5的训练数据。你实际上是在用OpenAI最强大的模型来训练一个竞争的开源模型。
他们还创建了六个虚假的、完全功能的真实网站副本——电子邮件客户端、日历、市场——以便模型可以练习需要登录或不可逆操作的任务(如实际发送电子邮件或预订航班),而不接触真实账户。这被称为合成领域训练,这也是Fara1.5在处理“门控”任务时表现更佳的重要原因。
每个模型都设计为在进行无法撤销的操作之前停下来询问。“平衡关键点等强大保障措施与无缝用户旅程是关键,”微软研究的高级PM负责人Yash Lara在接受VentureBeat采访时表示。“拥有一个用户界面,比如微软研究的Magentic-UI,对于在必要时让用户有机会进行干预至关重要,同时也有助于避免批准疲劳。”
这很重要,因为当OpenAI推出ChatGPT代理时,并没有对风险含糊其辞。“当你在网站上登录ChatGPT代理或启用连接器时,它将能够访问来自这些来源的敏感数据,例如电子邮件、文件或账户信息,”该公司写道。
Fara1.5通过MagenticLite运行,该环境是一个沙盒浏览器环境,记录每一个操作,并允许用户在任何时候暂停代理。
浏览器AI已成为一场竞争激烈的竞赛——谷歌的Gemini在Chrome中,Perplexity的Comet,Anthropic的Claude for Chrome。Fara1.5的优势在于它是开放的:公开权重,开放推理代码在GitHub上,运行在你控制的硬件上。Fara1.5-9B现在在Azure AI Foundry上线;4B和27B型号很快就会到来。微软表示,计划将Fara1.5扩展到浏览器之外,并进入桌面和企业软件。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。