谷歌DeepMind的新AI代理像人类一样学习、适应和玩游戏

谷歌DeepMind在周四推出了SIMA 2，这是一种新的AI代理，该公司声称它在虚拟世界中表现得像一个“伴侣”。随着SIMA 2的推出，DeepMind旨在超越简单的屏幕操作，朝着能够规划、自我解释并通过经验学习的AI迈进。

“这是朝着人工通用智能（AGI）迈出的重要一步，对未来的机器人技术和AI具身化有重要影响，”该公司在其网站上表示。

SIMA的第一个版本（可扩展可指令多世界代理）于2024年3月发布，通过观察屏幕并使用虚拟键盘和鼠标控制学习了数百种基本技能。谷歌表示，SIMA的新版本更进一步，让AI能够独立思考。

“SIM 2是我们在虚拟3D世界中最强大的AI代理，”谷歌DeepMind在X上写道。“由Gemini驱动，它超越了遵循基本指令的能力，能够在互动环境中思考、理解并采取行动——这意味着你可以通过文本、语音甚至图像与它对话。”

通过使用Gemini AI模型，谷歌表示SIMA能够解释高层次目标，讲述它打算采取的步骤，并在游戏中进行合作，达到原系统无法实现的推理水平。

DeepMind报告称，在虚拟环境中表现出更强的泛化能力，SIMA 2完成了更长、更复杂的任务，包括逻辑提示、屏幕上绘制的草图和表情符号。

“由于这种能力，SIMA 2在广泛任务上的表现显著接近人类玩家，”谷歌写道，并指出SIMA 2的任务完成率为65%，而SIMA 1为31%。

该系统还在由Genie 3生成的全新3D世界中解释指令并采取行动，Genie 3是去年发布的另一个DeepMind项目，它从单个图像或文本提示创建互动环境。SIMA 2能够定位自己，理解目标，并在测试前的瞬间采取有意义的行动。

“现在，SIMA 2在执行详细指令方面远远优于以前，即使是在它从未见过的世界中，”谷歌写道。“它可以将一个游戏中的‘采矿’等学习概念转移到另一个游戏中的‘收获’——在类似任务之间建立联系。”

在从人类演示中学习后，研究人员表示该代理切换到了自我导向的游戏中，利用试错法和Gemini生成的反馈创建新的经验数据，包括一个训练循环，其中SIMA 2生成任务，尝试这些任务，然后将自己的轨迹数据反馈到模型的下一个版本中。

尽管谷歌称赞SIMA 2是人工智能的一次进步，但研究也识别出仍需解决的差距，包括在非常长的多步骤任务中遇到困难、在有限的记忆窗口内工作，以及面临3D AI系统常见的视觉解释挑战。

尽管如此，DeepMind表示该平台作为技能的试验场，最终可以迁移到机器人技术和导航中。

“我们的SIMA 2研究为机器人技术的应用提供了强有力的路径，并朝着现实世界中的AGI迈出了又一步，”它说。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精选文章