谷歌推出了双子星全能—一种下一代人工智能视频制作工具，可以“模拟世界”。

谷歌在周二推出了Gemini Omni，一个新的多模态人工智能模型，将公司的Gemini人工智能模型与其媒体生成工具结合在一起，包括Veo、Nano Banana和Genie。

此公告是在谷歌I/O 2026上发布的，DeepMind首席执行官Demis Hassabis将Gemini Omni描述为“我们可以从任何输入中创建任何东西的新模型。”

“它结合了Gemini的智能与我们最佳生成媒体模型的优点，达到了世界理解、多模态性和编辑的新水平，”Hassabis说。

谷歌表示，首个发布，Gemini Omni Flash，将通过公司的人工智能电影制作平台Flow和专注于AI辅助音乐创作的Flow Music推出。

Hassabis称Omni是“迈向人工通用智能的一步”，他表示谷歌在过去的一年中致力于将Gemini扩展为“一个可以理解和模拟世界的世界模型人工智能。”

谷歌的Omni发布基于Nano Banana的受欢迎程度，这是公司早期的AI图像编辑模型，帮助Gemini在去年九月跃升至苹果应用商店的顶端。Nano Banana被广泛用于生成表情包和进行对话式图像编辑，短暂帮助Gemini在应用下载和谷歌搜索兴趣上超过ChatGPT，这是自OpenAI的聊天机器人在2022年推出以来的首次。

在Decrypt本月初的比较中，Nano Banana 2在动漫插图和空间构图测试中表现优于OpenAI的GPT Image 2，而OpenAI的模型在照片真实感和文本渲染方面表现更佳。谷歌现在似乎正在通过Gemini Omni将许多这些编辑功能扩展到视频中。

在演示中，谷歌展示了Omni生成的粘土动画风格的教育视频，解释蛋白质折叠。公司还展示了对话式编辑工具，通过添加新的视觉元素和改变周围环境，修改了一段自拍视频。

谷歌表示，Omni可以在用户对视频进行更改后保持相同的角色、背景和动作一致性——这是许多AI视频模型所面临的挑战。公司还表示，Omni利用Gemini的推理能力来理解更广泛的指令，因此用户可以描述他们希望的场景类型，而无需手动解释每一个细节。

公司还推出了Flow Agent，这是一个集成到谷歌Flow中的人工智能助手，可以进行场景头脑风暴、组织资产、推荐情节更改和批量编辑项目。

其他更新包括Flow工具，允许用户使用自然语言提示创建自定义编辑工作流程，无需编码经验。

Hassabis表示，谷歌从视频生成开始，但计划扩大对Omni的访问，称其是Gemini多模态设计背后的长期愿景。

“这始终是我们与Gemini的目标，因此我们从一开始就构建它为多模态，”他说。

谷歌未立即对Decrypt的评论请求作出回应。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

谷歌推出了双子星全能—一种下一代人工智能视频制作工具，可以“模拟世界”。

Decrypt的精选文章

目录

相关文章