阿里巴巴的Qwen团队在周二发布了Qwen-Robot套件:三个基础模型构成了他们所称的“体现智能的全栈”。Qwen-RobotNav负责移动性。Qwen-RobotManip负责操控。Qwen-RobotWorld模拟使两者成为可能的物理。每个模型独立工作。它们的结合是机器人技术的Android时刻——操作系统,而非硬件。
阿里巴巴目前是中国唯一一家涵盖芯片、云计算、模型、服务平台和应用程序的公司。对该公司而言,机器人技术是这一投资最实在的表现,被称为体现AI。
目前,AI代理依赖大型语言模型(LLM)来推动其决策。机器人工作的通常方式是通过机器学习模型,尽管这些模型先进,但缺乏生成AI的适应能力。物理代理面临着不同且更复杂的失败模式:物理,而非提示。
针对这些使用案例,阿里巴巴推出了这个新的AI套件,包含不同的组件:
Qwen-RobotNav统一了五项导航任务——遵循指令、点目标导航、物体搜索、目标跟踪和自主驾驶——每项任务要求不同的视觉记忆策略。大多数模型硬编码一种策略。Qwen-RobotNav暴露了一个参数化接口:令牌预算、时间衰减、每摄像头权重,规划者可以在剧集进行中重新配置。
经过对1560万个样本的训练,涵盖所有参数随机化,它在VLN-CE RxR上取得了76.5%的成功率,这是一个用于现实环境中视觉与语言导航的基准,在EVT-Bench上跟踪成功率为90%,该基准评估代理持续跟踪移动目标的能力。
Qwen-RobotManip解决了机器人操控中最大的挑战之一:不同的机器人以根本不同的方式表示动作。一只Franka手臂(一种具有七个运动轴的机器人)通过关节角度操作,而一台ALOHA机器人(广泛用于机器人研究的低成本双手机器人平台)则通过其抓手(末端执行器位置)的位置和方向表示动作。类人机器人增加了另一个复杂层面,使用全身坐标。
为了桥接这些不兼容的动作空间,阿里巴巴从开源机器人数据集和人类视频中合成了约38100小时的训练数据——没有依赖专业的数据收集。该模型在RoboChallenge Table30-v1上排名第一,超过了之前的方法20%。
Qwen-RobotWorld是最雄心勃勃的:一个语言条件的视频世界模型,将自然语言视为普遍的动作接口。“拿起红色杯子并将水倒在花上”适用于无论执行者是抓手、自动驾驶汽车,还是移动导航代理。
Embodied World Knowledge语料库跨越860万个视频-文本对——2亿帧——涵盖了操控(590万个样本,1300多项技能,20多种形态)、自主驾驶(Waymo,NVIDIA PhysicalAI-AD,Bench2Drive)、室内导航(VLNVerse),以及跨14个机器人手臂的人机转移。
它在EWMBench和DreamGen Bench上排名第一,这两个基准评估世界模型是否能预测和生成逼真的物理环境。它还在WorldModelBench和PBench上超越了所有开源模型,并在物理遵从性上得分完美:牛顿定律、质量守恒、流体动力学、重力。
机器人的ChatGPT?
尽管西方实验室(谷歌DeepMind、英伟达、Figure、Physical Intelligence)追求类似目标,但大多数专注于导航或操控,而不是一个统一的可组合套件。阿里巴巴从芯片到应用的垂直整合意味着他们控制着整个技术栈。开源基础则使其区别于依赖私有机器人数据的竞争对手。
一些可能值得澄清的误解是:这些不是机器人,而是软件模型——大脑,而不是身体。它们运行在来自AgileX、Franka、Universal Robots、Unitree等公司的硬件上。
此外,尽管这些是用于机器人的生成AI模型,但这些并不是像典型的ChatGPT那样的LLM。语言模型预测令牌。这些模型必须理解物理、空间关系和物理行动的后果。语言模型告诉你一个玻璃杯摔落时会破掉。Qwen-RobotWorld预测它是如何破掉的——破碎模式、流体动力学、次级碰撞。Qwen-RobotManip计划一个避免全面摔落的抓取。
请不要期待很快拥有自己的家政机器人。从控制演示机器人将水果放入篮子到机器人可靠地在您家中工作之间的差距是巨大的。RoboCasa365、LIBERO-Plus、RoboTwin-Clean2Rand——这些都是模拟基准。现实世界的部署引入了传感器噪声、执行器漂移,以及在历史上让每个机器人努力都感到沮丧的边缘案例的长尾,而阿里巴巴对此心知肚明。
然而,技术成就确实存在。RobotManip的对齐优先方法解决了跨体现训练中的一个真实瓶颈。RobotNav的参数化观察接口是解决上下文-策略问题的聪明解决方案。RobotWorld的语言作为普遍动作接口是跨领域世界建模的正确抽象。
阿里巴巴尚未披露定价、时间表或哪些客户在试点项目之外获得访问权限。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。