英伟达创造了能够通过人工智能编码代理自我训练的机器人

在Nvidia的GEAR实验室，一支由八个机器人手臂组成的队伍在过去几周自学插入针、安装显卡和剪切扎带。唯一参与的人类是那些事后撰写论文的人。

这一技能来自于ENPIRE，这是Nvidia、卡内基梅隆大学和加州大学伯克利分校的研究人员于周二发表论文详细描述的框架。ENPIRE将训练机器人的整个工作交给AI编码代理，这种软件已经能够编写和测试自己的代码，并允许它们直接在物理硬件上运行该过程。

像OpenAI的Codex、Anthropic的Claude Code和Moonshot的Kimi Code这样的编码代理在过去一年里进行了研究人员称之为自我研究的工作——编写代码、测试代码，并再次重写代码，而不需要人工介入。这个循环大多保持在屏幕上，重置失败的实验没有任何成本。ENPIRE将其拖入物理世界，在那里重置实验意味着移动一个真实的机器人手臂。

构建“王国”

该系统将工作分为两个阶段。在第一阶段，人类指导代理构建两个永久工具：一个返回工作空间到新起始位置的重置例程，一个观察摄像头录像以评分成功的奖励函数——基本上是一个永不眨眼且永不休息的裁判。这种设置只进行一次，然后在随后的每次尝试中重用。

一旦这些工具存在，代理就完全接管。它搜索已发布的研究寻找灵感，在模仿学习、强化学习或手动规则等训练方法之间进行选择，然后重写自己的代码并在机器人上测试结果。在这个循环中没有任何环节需要人类观察，这在你对机器人无监督使用剪刀的看法上，或许是解放的，或许是略显不安的。

Nvidia在八个双手机器人站点上进行了实验，每个站点都有自己的硬件、计算机和编码代理。这些站点通过Git交换进展，这是编码人员用于合并代码的工具，因此一个获胜的想法可以在几分钟内传播到整个车队。

研究人员测量了“Push-T”的回报，这是一个任务，机器人仅通过推力将一个T形块滑入目标区域，以及针插入任务，机器人将针穿入4毫米的孔中。从一个机器人扩展到八个，掌握Push-T的时间从大约五个小时减少到两个小时，而针插入的时间从超过90分钟减少到大约40分钟。

根据论文，在四个测试的现实世界任务中，代理的政策达到了99%的成功率。在针插入任务中，代理比需要人来监督的传统人工方法更快地达到了几乎完美的可靠性，这种传统方法每个早晨仍需要有人到场。

Nvidia的Jim Fan，GEAR实验室的联合负责人，负责公司的AI研究，称这个项目是第一次使物理世界中的自我研究成为可能。Fan表示，团队给予代理一支机器人队伍、一组GPU资源和一个代币预算，然后退后一步让机器人接管。

模拟和现实之间的差距几乎立刻显现出来。论文中提到，所有三个编码代理都在模拟器内解决了Push-T，但三者中有两个在同一任务转移到物理机器人时失败了。

模拟器没有摩擦问题。真实桌子有。

Nvidia还在RoboCasa中测试了ENPIRE，这是一个模拟的厨房基准，通过成功率评分，评估机器人在打开橱柜或关闭炉子等家务活的表现，幸运的是没有任何火灾的风险。在那里，ENPIRE的表现超过了Nvidia自己的端到端模型GR00T和CaP-X，这是一种完全跳过自我研究循环的工具使用代理。

ENPIRE扩展了Nvidia首次提出的一个想法， Eureka，这是一个2023年系统，它使用语言模型在模拟器内为机器人编写奖励函数，而不是由人类工程师手动完成。ENPIRE将这一自我改进循环从模拟器转移到真实硬件，代理设计自己的测试，而不仅仅是自己的奖励。

发布的时机与阿里巴巴推出自己的具身AI推进，Qwen-Robot Suite，一组用于机器人导航、操控和物理模拟的基础模型相同。阿里巴巴正在为其不制造的机器人身体构建软件大脑；Nvidia正在测试代理是否能够在其拥有的硬件上端到端地运行整个研究循环。两者都指向同一趋势：物理机器人正成为编码代理竞争的下一个舞台。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

英伟达创造了能够通过人工智能编码代理自我训练的机器人

构建“王国”

Decrypt的精選文章

目錄

相關文章