撰文:Techub News 整理
在 OpenAI 最新一期的「Build Hour」技术分享会上,产品经理 Terry、解决方案工程师 Erica 与来自 AI 智能体公司 Sierra 的工程师 Ken 和研究负责人 Soham,共同深入探讨了刚刚发布的 GPT-Realtime-2 模型及其相关技术。这场对话不仅展示了新模型在实时翻译、语音交互和智能工具调用上的飞跃,更揭示了企业如何利用这些能力构建可靠、可规模化部署的生产级 AI 应用。
GPT-Realtime-2:将顶级推理能力注入实时语音
上周,OpenAI 一次性发布了三个新的音频相关模型:实时翻译模型、GPT-Realtime Whisper 模型,以及最核心的 GPT-Realtime-2。这场发布标志着 OpenAI 正将其在文本领域已臻成熟的强大推理能力,全面推向实时语音交互的前沿。
实时翻译模型支持超过 70 种输入语言和 13 种输出语言,能够实现低延迟的流式翻译,旨在消除视频通话、直播和客户服务中的语言障碍。而 GPT-Realtime Whisper 模型则提供了可调节的低至 200 毫秒的延迟流式功能,支持 80 种输入语言,显著提升了实时字幕、会议笔记等场景的响应速度和准确性。
但真正的焦点是 GPT-Realtime-2。官方将其描述为“最智能的语音模型”,它将 GPT-4o 级别的推理能力带入了语音领域。这意味着模型在遵循指令、调用工具和多语言性能方面都非常强大,这些特性对于语音生产流程至关重要。新模型带来了多项关键升级:
- 上下文窗口大幅扩展:从之前的规模扩大了 4 倍,达到 128K,这大致相当于能处理近一个小时的对话内容,极大地提升了指令遵循和智能水平,因为无需频繁截断上下文。
- 并行工具调用:模型不再需要按顺序(瀑布式)调用工具,可以并行处理多个工具请求,这使交互流程更加高效。
- 可控的表达力:开发者可以指令模型以特定的情绪或风格说话,例如“轻声说”、“兴奋地说”或“带点嫉妒地说”,这为创造更自然、更具个性的语音交互打开了空间。
- 领域词汇理解增强:在医疗健康、AI术语等专业领域的词汇理解上表现更好。
- 上下文感知术语:带来更好的智能体行为。
这些改进在基准测试中带来了智能、指令遵循和工具调用能力的显著跃升。OpenAI 认为,这预示着下一波 AGI 浪潮将更加全球化、无需手动操作(hands-free),并对世界各地的人们更加易用。
实战演示:从语音购物到数据分析,智能体成为操作核心
为了具体展示 GPT-Realtime-2 的能力,Erica 进行了两场生动的实时演示。第一个演示构建了一个语音驱动的电商搜索智能体。
在一个名为 Supply Co 的徒步装备电商网站演示中,用户可以通过语音与购物助手自然交谈。助手不仅能理解用户需求(如“提醒我上次购物还缺什么”、“找一款 450 美元以下、适合 3-4 人的帐篷”),还能主动操作网站界面:执行搜索、筛选商品、查看产品详情、阅读用户评论(甚至专门查看低星评价)、添加商品到购物车。更令人印象深刻的是,当用户不确定天气是否适合所选帐篷时,助手能调用外部工具(查询天气),获取 Seattle 地区周末的天气预报,并据此给出购买建议(“风暴风险中等,那款帐篷可能适合普通的雨天周末,但我建议使用帐篷底垫和坚固的钉子”)。整个过程流畅自然,智能体在后台并行调用多达 15-20 个工具,并基于推理结果更新用户的视觉体验。
Erica 强调,这不再是简单的“语音输入,单一动作输出”旧模式,而是一个能够跨工具推理并实时更新视觉体验的真正购物助手。
第二个演示则切换了视角,展示了“语音驱动行动”在内部工作流程中的应用。扮演 Supply Co 产品经理的 Erica,面对一个复杂的产品分析仪表板,通过语音指令让 AI 助手协助分析欧洲市场近期出现的用户激活率下降问题。
她只需说出指令:“筛选欧洲数据”、“查看过去七天并与前七天对比”、“指出其他相关筛选条件”、“启动根因调查”、“比较移动端 Safari 和 Chrome”。AI 助手便默默地执行这些操作——过滤数据、生成图表、进行比较分析——只在被明确要求时才进行语音总结(“调查显示是移动端 Safari 特有的问题,产品详情页尺寸选择器验证未能正确更新…”)。模型出色的指令遵循能力使其只在需要时说话,而非每一步都进行确认,这让它像一个嵌入工作流的分析师,能够处理大量模拟数据,甚至编写代码、创建仪表板。
这两个演示共同凸显了 GPT-Realtime-2 的核心价值:它是一个能够跨工具路由、维持调查状态、并将实时工作流转化为对话形式的实时智能体,同时开发者仍能完全掌控数据和 UI。
Sierra 的实践:从强大模型到可信赖的生产级智能体
OpenAI 的模型提供了强大的基础,但将其转化为企业级、高可靠的应用则需要额外的架构与经验。来自 Sierra 的 Ken 和 Soham 分享了他们如何利用 GPT-Realtime-2 构建服务于众多 Fortune 100 公司的客户服务智能体。
Sierra 的智能体不仅要生成回应,更要决定何时行动、调用什么工具、如何使用庞大的知识库信息,并判断某个动作是否被允许。在面向客户的场景中,微小的错误率会迅速转化为真实的商业风险。一个即使只有 0.1% 概率违反政策或采取错误行动的智能体,都是不可交付的。
因此,Sierra 构建了一套“智能体管理框架”(agent harness),来处理所有确保智能体在生产环境中可靠、安全运行的额外基础设施。这套框架为每个客户定义所需的工作流,包括智能体可使用的工具、应遵循的语言和品牌规范、必要的防护栏,以及确保其符合客户特定政策的 grounding(信息锚定)。
在语音交互方面,Sierra 使用自家定制调校的 VAD(语音活动检测)模型来判断用户何时停止说话。这在对背景噪音大、有口音、 interruptions(打断)频繁、用户中途改变话题的真实世界音频中,提供了比通用模型更好的控制力。此外,该框架还处理敏感信息追踪与遮蔽、PCI 合规的支付流程等一系列生产级功能。
Ken 指出,正是这套生产层,将强大的基础模型(如 Realtime-2)转变为可控、可观察、安全到足以让全球最大公司信任其与客户直接交互的系统。
在初步测试中,Sierra 已经观察到显著的性能提升:与传统的级联(语音转文本+文本模型+文本转语音)系统相比,使用 Realtime-2 的呼叫在 P50(中位数)延迟上快了约 30%,在 P90(高延迟情况)上甚至快了多达 200%。语音质量也很强,能与他们使用的某些专业合成提供商竞争。
但 Sierra 更看重的是端到端的任务成功率。他们使用模拟测试,回放针对每个客户工作流定制的真实客户呼叫,来衡量智能体是否真正完成了任务,而非仅仅听起来不错。Soham 进一步阐述了语音智能体面临的独特挑战:生产中的呼叫充满 interruptions、口音、背景噪音(如高速公路旁或车内带着孩子),信息传递并非清晰无损。智能体需要在处理这些复杂情况的同时,推进任务完成。
常见的失败模式包括:拼写姓名和数字时的错误(一个字母错误可能导致后续工具调用失败)、逻辑误解(如取消错误的航班)、以及难以处理人类对话中常见的“back channeling”(如“嗯”、“啊”、“对的”等应忽略还是应答的信号)。Soham 兴奋地指出,“思考模型”(Thinking Models)的出现是语音到语音模型的真正变革。Realtime-2 作为思考模型,能够在语音对话中“思考”(例如说“给我一分钟”),即使被打断也能维持状态,这在多语言场景下尤其重要。他认为 OpenAI 在这方面取得了重大进展,Realtime-2 显著更优,语音到语音模型的主流化令人兴奋。
开发者问答:中断处理、上下文管理与生产考量
在问答环节,团队解答了开发者关心的几个核心问题。
关于中断(interruption)处理,Sierra 建议根据具体用例选择。Realtime-2 自带语音活动检测(VAD)模型,效果不错,但 Sierra 因其特定于客服呼叫音频(高背景噪音等)的环境而使用自定义模型。OpenAI 方面则指出,开发者可以按对话轮次(turn-by-turn)禁用中断功能。例如,如果需要模型完整说完一段免责声明,可以在该轮次禁用 VAD,确保用户无法打断,说完后再启用。这提供了比单纯依赖指令遵循更可靠的控制。
关于语音与文本的取舍,团队认为语音在“快速捕捉、快速意图识别”场景中优势明显,更便捷,适用于驾驶、移动场景或仅有模糊想法时。语音允许更亲密、随意的交互方式,用户能以“意识流”方式提供更多上下文(如描述想买的房子或汽车)。此外,在一些“语音优先”的国家(如巴西、印度),语音交互可能是更自然的入口。
对于超过一小时的长会话,建议保存会话状态,并在需要时开启新会话并“注入”(hydrate)之前的上下文。得益于 128K 的扩展上下文窗口,现在可以携带更多历史信息进入新会话。
关于何时需要“升级”到更强大的模型(如 GPT-4o),Sierra 分享了两种生产策略:一是设置异步监督器,监控对话并在需要时注入额外上下文以纠正轨迹;二是根据智能体复杂度选择模型——对需要极快响应的场景使用 Realtime-2,对更复杂的智能体则仍使用传统的文本模型。OpenAI 补充道,开发者可以随时通过“对话项创建”(conversation item create)注入上下文而不触发模型响应,实现后台异步工具调用。
最后,关于实时智能体如何在多工具交互中维持上下文和决策一致性,团队指出 Realtime-2 本身是一个推理模型,具有“思维链”(train of thought)能力,其并行工具调用方式与其他前沿模型一致,不会在调用中丢失上下文。默认情况下,模型会自动维护轮次间的状态和上下文。开发者也可以动态地进行上下文工程管理。团队特别强调了该模型卓越的指令遵循能力,甚至建议开发者可以让模型自身优化提示词,检查是否存在冲突指令。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。