OpenAI Build Hour 深度解析：GPT-Realtime-2 如何重塑语音交互与实时智能体

撰文：Techub News 整理

在 OpenAI 最新一期的「Build Hour」技术分享会上，产品经理 Terry、解决方案工程师 Erica 与来自 AI 智能体公司 Sierra 的工程师 Ken 和研究负责人 Soham，共同深入探讨了刚刚发布的 GPT-Realtime-2 模型及其相关技术。这场对话不仅展示了新模型在实时翻译、语音交互和智能工具调用上的飞跃，更揭示了企业如何利用这些能力构建可靠、可规模化部署的生产级 AI 应用。

GPT-Realtime-2：将顶级推理能力注入实时语音

上周，OpenAI 一次性发布了三个新的音频相关模型：实时翻译模型、GPT-Realtime Whisper 模型，以及最核心的 GPT-Realtime-2。这场发布标志着 OpenAI 正将其在文本领域已臻成熟的强大推理能力，全面推向实时语音交互的前沿。

实时翻译模型支持超过 70 种输入语言和 13 种输出语言，能够实现低延迟的流式翻译，旨在消除视频通话、直播和客户服务中的语言障碍。而 GPT-Realtime Whisper 模型则提供了可调节的低至 200 毫秒的延迟流式功能，支持 80 种输入语言，显著提升了实时字幕、会议笔记等场景的响应速度和准确性。

但真正的焦点是 GPT-Realtime-2。官方将其描述为“最智能的语音模型”，它将 GPT-4o 级别的推理能力带入了语音领域。这意味着模型在遵循指令、调用工具和多语言性能方面都非常强大，这些特性对于语音生产流程至关重要。新模型带来了多项关键升级：

上下文窗口大幅扩展：从之前的规模扩大了 4 倍，达到 128K，这大致相当于能处理近一个小时的对话内容，极大地提升了指令遵循和智能水平，因为无需频繁截断上下文。
并行工具调用：模型不再需要按顺序（瀑布式）调用工具，可以并行处理多个工具请求，这使交互流程更加高效。
可控的表达力：开发者可以指令模型以特定的情绪或风格说话，例如“轻声说”、“兴奋地说”或“带点嫉妒地说”，这为创造更自然、更具个性的语音交互打开了空间。
领域词汇理解增强：在医疗健康、AI术语等专业领域的词汇理解上表现更好。
上下文感知术语：带来更好的智能体行为。

这些改进在基准测试中带来了智能、指令遵循和工具调用能力的显著跃升。OpenAI 认为，这预示着下一波 AGI 浪潮将更加全球化、无需手动操作（hands-free），并对世界各地的人们更加易用。

实战演示：从语音购物到数据分析，智能体成为操作核心

为了具体展示 GPT-Realtime-2 的能力，Erica 进行了两场生动的实时演示。第一个演示构建了一个语音驱动的电商搜索智能体。

在一个名为 Supply Co 的徒步装备电商网站演示中，用户可以通过语音与购物助手自然交谈。助手不仅能理解用户需求（如“提醒我上次购物还缺什么”、“找一款 450 美元以下、适合 3-4 人的帐篷”），还能主动操作网站界面：执行搜索、筛选商品、查看产品详情、阅读用户评论（甚至专门查看低星评价）、添加商品到购物车。更令人印象深刻的是，当用户不确定天气是否适合所选帐篷时，助手能调用外部工具（查询天气），获取 Seattle 地区周末的天气预报，并据此给出购买建议（“风暴风险中等，那款帐篷可能适合普通的雨天周末，但我建议使用帐篷底垫和坚固的钉子”）。整个过程流畅自然，智能体在后台并行调用多达 15-20 个工具，并基于推理结果更新用户的视觉体验。

Erica 强调，这不再是简单的“语音输入，单一动作输出”旧模式，而是一个能够跨工具推理并实时更新视觉体验的真正购物助手。

第二个演示则切换了视角，展示了“语音驱动行动”在内部工作流程中的应用。扮演 Supply Co 产品经理的 Erica，面对一个复杂的产品分析仪表板，通过语音指令让 AI 助手协助分析欧洲市场近期出现的用户激活率下降问题。

她只需说出指令：“筛选欧洲数据”、“查看过去七天并与前七天对比”、“指出其他相关筛选条件”、“启动根因调查”、“比较移动端 Safari 和 Chrome”。AI 助手便默默地执行这些操作——过滤数据、生成图表、进行比较分析——只在被明确要求时才进行语音总结（“调查显示是移动端 Safari 特有的问题，产品详情页尺寸选择器验证未能正确更新…”）。模型出色的指令遵循能力使其只在需要时说话，而非每一步都进行确认，这让它像一个嵌入工作流的分析师，能够处理大量模拟数据，甚至编写代码、创建仪表板。

这两个演示共同凸显了 GPT-Realtime-2 的核心价值：它是一个能够跨工具路由、维持调查状态、并将实时工作流转化为对话形式的实时智能体，同时开发者仍能完全掌控数据和 UI。

Sierra 的实践：从强大模型到可信赖的生产级智能体

OpenAI 的模型提供了强大的基础，但将其转化为企业级、高可靠的应用则需要额外的架构与经验。来自 Sierra 的 Ken 和 Soham 分享了他们如何利用 GPT-Realtime-2 构建服务于众多 Fortune 100 公司的客户服务智能体。

Sierra 的智能体不仅要生成回应，更要决定何时行动、调用什么工具、如何使用庞大的知识库信息，并判断某个动作是否被允许。在面向客户的场景中，微小的错误率会迅速转化为真实的商业风险。一个即使只有 0.1% 概率违反政策或采取错误行动的智能体，都是不可交付的。

因此，Sierra 构建了一套“智能体管理框架”（agent harness），来处理所有确保智能体在生产环境中可靠、安全运行的额外基础设施。这套框架为每个客户定义所需的工作流，包括智能体可使用的工具、应遵循的语言和品牌规范、必要的防护栏，以及确保其符合客户特定政策的 grounding（信息锚定）。

在语音交互方面，Sierra 使用自家定制调校的 VAD（语音活动检测）模型来判断用户何时停止说话。这在对背景噪音大、有口音、 interruptions（打断）频繁、用户中途改变话题的真实世界音频中，提供了比通用模型更好的控制力。此外，该框架还处理敏感信息追踪与遮蔽、PCI 合规的支付流程等一系列生产级功能。

Ken 指出，正是这套生产层，将强大的基础模型（如 Realtime-2）转变为可控、可观察、安全到足以让全球最大公司信任其与客户直接交互的系统。

在初步测试中，Sierra 已经观察到显著的性能提升：与传统的级联（语音转文本+文本模型+文本转语音）系统相比，使用 Realtime-2 的呼叫在 P50（中位数）延迟上快了约 30%，在 P90（高延迟情况）上甚至快了多达 200%。语音质量也很强，能与他们使用的某些专业合成提供商竞争。

但 Sierra 更看重的是端到端的任务成功率。他们使用模拟测试，回放针对每个客户工作流定制的真实客户呼叫，来衡量智能体是否真正完成了任务，而非仅仅听起来不错。Soham 进一步阐述了语音智能体面临的独特挑战：生产中的呼叫充满 interruptions、口音、背景噪音（如高速公路旁或车内带着孩子），信息传递并非清晰无损。智能体需要在处理这些复杂情况的同时，推进任务完成。

常见的失败模式包括：拼写姓名和数字时的错误（一个字母错误可能导致后续工具调用失败）、逻辑误解（如取消错误的航班）、以及难以处理人类对话中常见的“back channeling”（如“嗯”、“啊”、“对的”等应忽略还是应答的信号）。Soham 兴奋地指出，“思考模型”（Thinking Models）的出现是语音到语音模型的真正变革。Realtime-2 作为思考模型，能够在语音对话中“思考”（例如说“给我一分钟”），即使被打断也能维持状态，这在多语言场景下尤其重要。他认为 OpenAI 在这方面取得了重大进展，Realtime-2 显著更优，语音到语音模型的主流化令人兴奋。

开发者问答：中断处理、上下文管理与生产考量

在问答环节，团队解答了开发者关心的几个核心问题。

关于中断（interruption）处理，Sierra 建议根据具体用例选择。Realtime-2 自带语音活动检测（VAD）模型，效果不错，但 Sierra 因其特定于客服呼叫音频（高背景噪音等）的环境而使用自定义模型。OpenAI 方面则指出，开发者可以按对话轮次（turn-by-turn）禁用中断功能。例如，如果需要模型完整说完一段免责声明，可以在该轮次禁用 VAD，确保用户无法打断，说完后再启用。这提供了比单纯依赖指令遵循更可靠的控制。

关于语音与文本的取舍，团队认为语音在“快速捕捉、快速意图识别”场景中优势明显，更便捷，适用于驾驶、移动场景或仅有模糊想法时。语音允许更亲密、随意的交互方式，用户能以“意识流”方式提供更多上下文（如描述想买的房子或汽车）。此外，在一些“语音优先”的国家（如巴西、印度），语音交互可能是更自然的入口。

对于超过一小时的长会话，建议保存会话状态，并在需要时开启新会话并“注入”（hydrate）之前的上下文。得益于 128K 的扩展上下文窗口，现在可以携带更多历史信息进入新会话。

关于何时需要“升级”到更强大的模型（如 GPT-4o），Sierra 分享了两种生产策略：一是设置异步监督器，监控对话并在需要时注入额外上下文以纠正轨迹；二是根据智能体复杂度选择模型——对需要极快响应的场景使用 Realtime-2，对更复杂的智能体则仍使用传统的文本模型。OpenAI 补充道，开发者可以随时通过“对话项创建”（conversation item create）注入上下文而不触发模型响应，实现后台异步工具调用。

最后，关于实时智能体如何在多工具交互中维持上下文和决策一致性，团队指出 Realtime-2 本身是一个推理模型，具有“思维链”（train of thought）能力，其并行工具调用方式与其他前沿模型一致，不会在调用中丢失上下文。默认情况下，模型会自动维护轮次间的状态和上下文。开发者也可以动态地进行上下文工程管理。团队特别强调了该模型卓越的指令遵循能力，甚至建议开发者可以让模型自身优化提示词，检查是否存在冲突指令。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

OpenAI Build Hour 深度解析：GPT-Realtime-2 如何重塑语音交互与实时智能体

GPT-Realtime-2：将顶级推理能力注入实时语音

实战演示：从语音购物到数据分析，智能体成为操作核心

Sierra 的实践：从强大模型到可信赖的生产级智能体

开发者问答：中断处理、上下文管理与生产考量

Techub News的精选文章

目录

相关文章