机器人和多模态人工智能仍然无法理解物理世界,一位知名研究者表示,这是该领域目前最大的障碍。
费菲·李,斯坦福大学的计算机科学家,被广泛认为是现代计算机视觉的先驱,她表示,人工智能与物理现实之间的差距已成为技术领域最紧迫的问题,并认为要缩小这一差距,需要围绕空间推理而非仅仅是语言构建系统。
李在周一发布的一份报告中表示,人工智能正迅速接近基于文本学习的极限,进展最终将依赖于“世界模型”。
“解锁空间智能的核心在于世界模型的开发——一种新型的生成性人工智能,必须面对与大型语言模型根本不同的一系列挑战,”李在X上写道。“这些模型必须生成遵循物理法则的空间一致的世界,处理从图像到动作的多模态输入,并预测这些世界如何随时间演变或被互动。”
这些模型到底是什么?
“世界模型”的概念可以追溯到20世纪40年代初,当时苏格兰哲学家和心理学家肯尼斯·克雷克进行认知科学研究。
这一理念在现代人工智能中重新浮现,源于大卫·哈和尤尔根·施密特胡伯在2018年发表的论文,该论文表明神经网络可以学习环境的紧凑内部模型,并将其用作规划和控制的模拟器。
李认为,世界模型之所以重要,是因为机器人和多模态系统仍然在基于实际的空间推理方面存在困难,使它们无法判断距离和场景变化,或预测基本的物理结果。
“作为人类合作者的机器人,无论是在实验室帮助科学家,还是协助独居老人,都可以扩展急需更多劳动力和生产力的部分劳动力,”李写道。李认为,真实环境遵循当前机器无法捕捉的规则。
从重力塑造运动到材料影响光线,解决这一问题需要能够存储空间记忆并在超过两个维度中建模场景的系统。
在九月份,李的公司World Labs发布了Marble的测试版,这是一种早期的世界模型,可以从文本或图像提示生成可探索的三维环境。
用户可以在这些世界中自由漫游,没有时间限制或场景漂移,环境保持一致,而不是变形或破裂,该公司声称。
“Marble只是我们创建真正空间智能世界模型的第一步,”李写道。“随着进展的加速,研究人员、工程师、用户和商业领袖们开始认识到它的非凡潜力。下一代世界模型将使机器在全新的层面上实现空间智能——这一成就将解锁今天的人工智能系统中仍然缺失的基本能力。”
李表示,世界模型的应用案例包括支持一系列应用,因为它们为人工智能提供了对环境行为的内部理解。
创作者可以利用它们实时探索场景,机器人可以依赖它们更安全地导航和处理物体,而科学和医疗领域的研究人员可以进行空间模拟或改善成像和实验室自动化。
李将空间智能研究与早期生物学研究联系起来,指出人类在发展语言之前就已经学会了感知和行动。
“在书面语言出现很久之前,人类就已经讲述故事——在洞穴墙壁上绘画,通过世代传递,建立在共享叙事上的整个文化,”她写道。“故事是我们理解世界的方式,是我们跨越距离和时间的连接,是我们探索人类意义的方式,最重要的是,在我们自己内心找到生命和爱的意义。”
李表示,人工智能需要同样的基础才能在物理世界中运作,并认为它的角色应该是支持人类,而不是取代他们。然而,进展将依赖于理解世界运作方式的模型,而不仅仅是描述它。
“人工智能的下一个前沿是空间智能,这项技术将把视觉转化为推理,把感知转化为行动,把想象转化为创造,”李说。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。