谷歌在周二推出了Gemini Omni,一个新的多模态人工智能模型,将公司的Gemini人工智能模型与其媒体生成工具结合在一起,包括Veo、Nano Banana和Genie。
此公告是在谷歌I/O 2026上发布的,DeepMind首席执行官Demis Hassabis将Gemini Omni描述为“我们可以从任何输入中创建任何东西的新模型。”
“它结合了Gemini的智能与我们最佳生成媒体模型的优点,达到了世界理解、多模态性和编辑的新水平,”Hassabis说。
谷歌表示,首个发布,Gemini Omni Flash,将通过公司的人工智能电影制作平台Flow和专注于AI辅助音乐创作的Flow Music推出。
Hassabis称Omni是“迈向人工通用智能的一步”,他表示谷歌在过去的一年中致力于将Gemini扩展为“一个可以理解和模拟世界的世界模型人工智能。”
谷歌的Omni发布基于Nano Banana的受欢迎程度,这是公司早期的AI图像编辑模型,帮助Gemini在去年九月跃升至苹果应用商店的顶端。Nano Banana被广泛用于生成表情包和进行对话式图像编辑,短暂帮助Gemini在应用下载和谷歌搜索兴趣上超过ChatGPT,这是自OpenAI的聊天机器人在2022年推出以来的首次。
在Decrypt本月初的比较中,Nano Banana 2在动漫插图和空间构图测试中表现优于OpenAI的GPT Image 2,而OpenAI的模型在照片真实感和文本渲染方面表现更佳。谷歌现在似乎正在通过Gemini Omni将许多这些编辑功能扩展到视频中。
在演示中,谷歌展示了Omni生成的粘土动画风格的教育视频,解释蛋白质折叠。公司还展示了对话式编辑工具,通过添加新的视觉元素和改变周围环境,修改了一段自拍视频。
谷歌表示,Omni可以在用户对视频进行更改后保持相同的角色、背景和动作一致性——这是许多AI视频模型所面临的挑战。公司还表示,Omni利用Gemini的推理能力来理解更广泛的指令,因此用户可以描述他们希望的场景类型,而无需手动解释每一个细节。
公司还推出了Flow Agent,这是一个集成到谷歌Flow中的人工智能助手,可以进行场景头脑风暴、组织资产、推荐情节更改和批量编辑项目。
其他更新包括Flow工具,允许用户使用自然语言提示创建自定义编辑工作流程,无需编码经验。
Hassabis表示,谷歌从视频生成开始,但计划扩大对Omni的访问,称其是Gemini多模态设计背后的长期愿景。
“这始终是我们与Gemini的目标,因此我们从一开始就构建它为多模态,”他说。
谷歌未立即对Decrypt的评论请求作出回应。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。