OpenAI 在 2026 年 5 月 7 日发布了新一代 Realtime API 语音模型,重点不只是“说得更像人”,而是让语音代理可以在实时对话中理解、推理、调用工具、翻译和转写。
这次更新包括三个模型:
GPT-Realtime-2:面向实时语音 Agent 的主模型,支持更强推理、工具调用和长上下文。GPT-Realtime-Translate:实时语音翻译模型,支持 70 多种输入语言到 13 种输出语言。GPT-Realtime-Whisper:低延迟流式语音转文字模型,用于字幕、会议记录和实时工作流。
如果说早期语音助手更像“问一句、答一句”,这次更新的方向更接近“边听边做事”的语音界面。
GPT-Realtime-2:语音 Agent 的主力模型
GPT-Realtime-2 面向实时语音交互场景。它不仅要回答问题,还要在用户说话、改口、插话、补充约束时保持上下文,并在必要时调用工具完成任务。
官方重点提到的能力包括:
- 可以在回答前输出简短提示,例如“我查一下”,让用户知道系统正在处理。
- 支持并行工具调用,适合日程、搜索、订单、客服系统等多工具场景。
- 失败恢复更自然,避免语音会话突然中断或沉默。
- 上下文窗口从 32K 提升到 128K,适合更长的对话和复杂任务流。
- 对专业术语、专有名词、医疗词汇等场景有更好的保持能力。
- 语气和表达方式更可控,可以根据场景调整为冷静、同理、确认或更有活力的语气。
- reasoning effort 可调,支持
minimal、low、medium、high、xhigh,默认是low。
这意味着开发者可以把语音 Agent 用在更复杂的业务里,而不是只做简单问答。例如客服可以边听用户描述边查订单;旅行应用可以根据航班变化主动给出下一步建议;房产应用可以根据用户口头条件筛选房源并安排看房。
实时翻译:面向跨语言语音产品
GPT-Realtime-Translate 的定位是实时语音翻译。用户可以用自己的语言说话,对方听到翻译后的语音,同时还能看到实时转写。
它适合的场景比较明确:
- 多语言客服。
- 跨境销售和售前沟通。
- 在线教育和直播活动。
- 国际会议与活动主持。
- 视频平台和创作者内容本地化。
实时翻译的难点不只是“翻译准”,还包括低延迟、自然停顿、语气保留、口音适应和专业词汇处理。OpenAI 这次强调的是让跨语言对话更接近自然交流,而不是等一整段说完后再翻译。
流式转写:让语音内容马上进入工作流
GPT-Realtime-Whisper 是新的流式语音转文字模型。它的价值在于把语音在发生时就变成可处理文本,而不是等录音结束再统一转写。
常见应用包括:
- 会议实时字幕。
- 课堂和直播字幕。
- 实时会议纪要。
- 语音 Agent 的连续听写输入。
- 客服、医疗、招聘、销售等高频语音场景的后续流程。
对产品来说,流式转写可以明显缩短“说话到可操作文本”的时间。字幕更快出现,会议记录可以边说边生成,后续摘要、任务提取、CRM 写入等流程也能更早启动。
价格与可用性
这三个模型都已经在 Realtime API 中可用。官方给出的价格是:
| 模型 | 价格 |
|---|---|
GPT-Realtime-2 |
音频输入 $32 / 1M tokens,缓存输入 $0.40 / 1M tokens,音频输出 $64 / 1M tokens |
GPT-Realtime-Translate |
$0.034 / 分钟 |
GPT-Realtime-Whisper |
$0.017 / 分钟 |
OpenAI 还提到,Realtime API 支持 EU Data Residency,并受到企业隐私承诺覆盖。对于欧洲企业或有数据驻留要求的语音产品,这是一个需要单独评估的点。
对开发者意味着什么
这次发布的重点,是语音能力开始从“输入输出层”变成“产品交互层”。
过去很多语音功能只是把语音转成文字,再把文字回复转成语音。真正难的是中间那层:理解用户意图、处理打断、补全上下文、调用工具、告诉用户系统正在做什么、在失败时自然恢复。
GPT-Realtime-2 试图把这部分能力直接放进实时语音模型里。对开发者来说,最值得关注的不是单次回答质量,而是它能否支撑持续会话和多步骤任务。
比较适合优先尝试的产品包括:
- 客服语音 Agent。
- 车载和移动端语音助手。
- 旅游、订票、房产、金融等需要边问边查的服务。
- 多语言会议和跨境沟通工具。
- 实时字幕、会议纪要和通话质检系统。
也要注意安全和告知
OpenAI 在发布页中强调,Realtime API 会包含多层安全措施,例如对会话进行主动分类,必要时中止违反政策的内容。开发者也可以通过 Agents SDK 增加自己的安全护栏。
还有一个容易被忽略的要求:当终端用户正在与 AI 交互时,开发者需要清楚告知,除非场景本身已经足够明显。
这对客服、销售、教育、医疗等场景都很重要。语音越自然,越需要在产品设计上明确边界:用户知道自己在和 AI 沟通,也知道哪些操作会被记录、转写或触发工具调用。
总结
OpenAI 这次 Realtime API 更新,把实时语音从“能听能说”推进到“能边听边处理任务”。
GPT-Realtime-2 负责更复杂的语音 Agent,GPT-Realtime-Translate 负责跨语言实时交流,GPT-Realtime-Whisper 负责低延迟转写。三者合在一起,覆盖了语音产品里最常见的三个基础能力:对话、翻译和转写。
如果你正在做客服、车载、会议、教育、跨境沟通或移动端语音助手,这次更新值得重点测试。真正需要验证的,不只是模型听起来是否自然,而是它在长对话、打断、工具调用、失败恢复和成本控制上的表现。
参考链接: