谷歌的机器人现在可以思考、搜索网络并自学新技能

CN
Decrypt
關注
4 小時前

谷歌DeepMind本周推出了两个AI模型,旨在使机器人变得比以往更智能。更新后的Gemini Robotics 1.5及其伴侣Gemini Robotics-ER 1.5不再专注于跟随指令,而是让机器人思考问题、在互联网上搜索信息,并在不同的机器人代理之间传递技能。

根据谷歌的说法,这些模型标志着“一个基础性步骤,可以以智能和灵活性应对物理世界的复杂性”。

谷歌在公告中表示:“Gemini Robotics 1.5标志着在物理世界中解决AGI的重要里程碑。通过引入代理能力,我们正在超越仅仅对指令做出反应的模型,创造能够真正推理、规划、主动使用工具和进行概括的系统。”

而这个“概括”一词非常重要,因为模型在这方面存在困难。

这些模型驱动的机器人现在可以处理诸如按颜色分类洗衣、根据在线天气预报打包行李,或检查当地回收规则以正确丢弃垃圾等任务。现在,作为人类,你可能会说:“呃,那又怎么样?”但要做到这一点,机器需要一种称为概括的技能——将知识应用于新情况的能力。

机器人——以及算法通常——在这方面通常会遇到困难。例如,如果你教一个模型折叠一条裤子,它将无法折叠一件T恤,除非工程师提前编程每一步。

新的模型改变了这一点。它们可以捕捉线索、读取环境、做出合理假设,并执行以前难以实现的多步骤任务——或者至少是极其困难的——对于机器来说。

但更好并不意味着完美。例如,在一次实验中,团队向机器人展示了一组物体,并要求它们将物品放入正确的垃圾桶。机器人使用其相机视觉识别每个物品,在线查找旧金山最新的回收指南,然后将物品放置在理想的位置,完全像当地人一样。

这个过程结合了在线搜索、视觉感知和逐步规划——做出超越旧机器人能力的上下文感知决策。注册的成功率在20%到40%之间;虽然不理想,但对于一个以前无法理解这些细微差别的模型来说,令人惊讶。

谷歌如何将机器人变成超级机器人

这两个模型分工合作。Gemini Robotics-ER 1.5像大脑一样,确定需要发生的事情并创建逐步计划。当需要信息时,它可以调用谷歌搜索。一旦有了计划,它就将自然语言指令传递给Gemini Robotics 1.5,后者负责实际的物理动作。

更技术性地说,新的Gemini Robotics 1.5是一个视觉-语言-动作(VLA)模型,将视觉信息和指令转化为运动指令,而新的Gemini Robotics-ER 1.5是一个视觉-语言模型(VLM),用于创建多步骤计划以完成任务。

例如,当机器人分类洗衣时,它会通过一系列思维过程在内部推理任务:理解“按颜色分类”意味着白色衣物放在一个箱子里,彩色衣物放在另一个箱子里,然后分解出捡起每件衣物所需的具体动作。机器人可以用简单的英语解释其推理过程,使其决策不再是一个黑箱。

谷歌首席执行官桑达尔·皮查伊在X平台上发表了看法,指出新模型将使机器人能够更好地推理、提前规划、使用搜索等数字工具,并将学习从一种类型的机器人转移到另一种。他称之为谷歌“朝着真正有用的通用机器人迈出的下一大步”。

此次发布使谷歌与特斯拉、Figure AI和波士顿动力等开发者共享聚光灯,尽管每家公司采取的方式不同。特斯拉专注于为其工厂进行大规模生产,埃隆·马斯克承诺到2026年生产数千台。波士顿动力则继续推动机器人运动能力的边界,推出了可以后空翻的Atlas。与此同时,谷歌则押注于使机器人能够适应任何情况的AI,而无需特定编程。

时机至关重要。美国机器人公司正在推动国家机器人战略,包括在中国将AI和智能机器人作为国家优先事项的背景下,建立一个专注于促进该行业的联邦办公室。根据德国国际机器人联合会的数据,中国是全球最大的工业机器人市场,2023年约有180万台机器人在工厂和其他工业环境中运行。

DeepMind的方法与传统的机器人编程不同,后者要求工程师仔细编写每一个动作。相反,这些模型通过示范学习,并能够即时适应。如果一个物体从机器人的抓握中滑落,或者有人在任务进行中移动了某个物品,机器人会毫不迟疑地进行调整。

这些模型建立在DeepMind早期的工作基础上,早在三月份,机器人只能处理单一任务,如拉开包或折叠纸张。现在,它们正在处理许多挑战人类的序列任务——例如,在查看天气预报后,适当地为旅行打包。

对于希望进行实验的开发者,提供了不同的可用性选择。Gemini Robotics-ER 1.5于周四通过谷歌AI工作室的Gemini API发布,这意味着任何开发者都可以开始使用该推理模型进行构建。行动模型Gemini Robotics 1.5则仍然仅限于“精选”(意味着“富有”,可能)合作伙伴。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接