OpenAI 新一代 Realtime 语音模型:GPT-Realtime-2、实时翻译与流式转写

整理 OpenAI 2026 年 5 月发布的新一代 Realtime API 语音模型,包括 GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper 的能力、适用场景、价格和开发者影响。

OpenAI 在 2026 年 5 月 7 日发布了新一代 Realtime API 语音模型,重点不只是“说得更像人”,而是让语音代理可以在实时对话中理解、推理、调用工具、翻译和转写。

这次更新包括三个模型:

  • GPT-Realtime-2:面向实时语音 Agent 的主模型,支持更强推理、工具调用和长上下文。
  • GPT-Realtime-Translate:实时语音翻译模型,支持 70 多种输入语言到 13 种输出语言。
  • GPT-Realtime-Whisper:低延迟流式语音转文字模型,用于字幕、会议记录和实时工作流。

如果说早期语音助手更像“问一句、答一句”,这次更新的方向更接近“边听边做事”的语音界面。

GPT-Realtime-2:语音 Agent 的主力模型

GPT-Realtime-2 面向实时语音交互场景。它不仅要回答问题,还要在用户说话、改口、插话、补充约束时保持上下文,并在必要时调用工具完成任务。

官方重点提到的能力包括:

  • 可以在回答前输出简短提示,例如“我查一下”,让用户知道系统正在处理。
  • 支持并行工具调用,适合日程、搜索、订单、客服系统等多工具场景。
  • 失败恢复更自然,避免语音会话突然中断或沉默。
  • 上下文窗口从 32K 提升到 128K,适合更长的对话和复杂任务流。
  • 对专业术语、专有名词、医疗词汇等场景有更好的保持能力。
  • 语气和表达方式更可控,可以根据场景调整为冷静、同理、确认或更有活力的语气。
  • reasoning effort 可调,支持 minimallowmediumhighxhigh,默认是 low

这意味着开发者可以把语音 Agent 用在更复杂的业务里,而不是只做简单问答。例如客服可以边听用户描述边查订单;旅行应用可以根据航班变化主动给出下一步建议;房产应用可以根据用户口头条件筛选房源并安排看房。

实时翻译:面向跨语言语音产品

GPT-Realtime-Translate 的定位是实时语音翻译。用户可以用自己的语言说话,对方听到翻译后的语音,同时还能看到实时转写。

它适合的场景比较明确:

  • 多语言客服。
  • 跨境销售和售前沟通。
  • 在线教育和直播活动。
  • 国际会议与活动主持。
  • 视频平台和创作者内容本地化。

实时翻译的难点不只是“翻译准”,还包括低延迟、自然停顿、语气保留、口音适应和专业词汇处理。OpenAI 这次强调的是让跨语言对话更接近自然交流,而不是等一整段说完后再翻译。

流式转写:让语音内容马上进入工作流

GPT-Realtime-Whisper 是新的流式语音转文字模型。它的价值在于把语音在发生时就变成可处理文本,而不是等录音结束再统一转写。

常见应用包括:

  • 会议实时字幕。
  • 课堂和直播字幕。
  • 实时会议纪要。
  • 语音 Agent 的连续听写输入。
  • 客服、医疗、招聘、销售等高频语音场景的后续流程。

对产品来说,流式转写可以明显缩短“说话到可操作文本”的时间。字幕更快出现,会议记录可以边说边生成,后续摘要、任务提取、CRM 写入等流程也能更早启动。

价格与可用性

这三个模型都已经在 Realtime API 中可用。官方给出的价格是:

模型 价格
GPT-Realtime-2 音频输入 $32 / 1M tokens,缓存输入 $0.40 / 1M tokens,音频输出 $64 / 1M tokens
GPT-Realtime-Translate $0.034 / 分钟
GPT-Realtime-Whisper $0.017 / 分钟

OpenAI 还提到,Realtime API 支持 EU Data Residency,并受到企业隐私承诺覆盖。对于欧洲企业或有数据驻留要求的语音产品,这是一个需要单独评估的点。

对开发者意味着什么

这次发布的重点,是语音能力开始从“输入输出层”变成“产品交互层”。

过去很多语音功能只是把语音转成文字,再把文字回复转成语音。真正难的是中间那层:理解用户意图、处理打断、补全上下文、调用工具、告诉用户系统正在做什么、在失败时自然恢复。

GPT-Realtime-2 试图把这部分能力直接放进实时语音模型里。对开发者来说,最值得关注的不是单次回答质量,而是它能否支撑持续会话和多步骤任务。

比较适合优先尝试的产品包括:

  • 客服语音 Agent。
  • 车载和移动端语音助手。
  • 旅游、订票、房产、金融等需要边问边查的服务。
  • 多语言会议和跨境沟通工具。
  • 实时字幕、会议纪要和通话质检系统。

也要注意安全和告知

OpenAI 在发布页中强调,Realtime API 会包含多层安全措施,例如对会话进行主动分类,必要时中止违反政策的内容。开发者也可以通过 Agents SDK 增加自己的安全护栏。

还有一个容易被忽略的要求:当终端用户正在与 AI 交互时,开发者需要清楚告知,除非场景本身已经足够明显。

这对客服、销售、教育、医疗等场景都很重要。语音越自然,越需要在产品设计上明确边界:用户知道自己在和 AI 沟通,也知道哪些操作会被记录、转写或触发工具调用。

总结

OpenAI 这次 Realtime API 更新,把实时语音从“能听能说”推进到“能边听边处理任务”。

GPT-Realtime-2 负责更复杂的语音 Agent,GPT-Realtime-Translate 负责跨语言实时交流,GPT-Realtime-Whisper 负责低延迟转写。三者合在一起,覆盖了语音产品里最常见的三个基础能力:对话、翻译和转写。

如果你正在做客服、车载、会议、教育、跨境沟通或移动端语音助手,这次更新值得重点测试。真正需要验证的,不只是模型听起来是否自然,而是它在长对话、打断、工具调用、失败恢复和成本控制上的表现。

参考链接:

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计