OpenAI 在 2026 年 5 月 7 日發布了新一代 Realtime API 語音模型,重點不只是「說得更像人」,而是讓語音代理可以在即時對話中理解、推理、呼叫工具、翻譯和轉寫。
這次更新包括三個模型:
GPT-Realtime-2:面向即時語音 Agent 的主模型,支援更強推理、工具呼叫和長上下文。GPT-Realtime-Translate:即時語音翻譯模型,支援 70 多種輸入語言到 13 種輸出語言。GPT-Realtime-Whisper:低延遲串流語音轉文字模型,用於字幕、會議記錄和即時工作流。
如果說早期語音助手更像「問一句、答一句」,這次更新的方向更接近「邊聽邊做事」的語音介面。
GPT-Realtime-2:語音 Agent 的主力模型
GPT-Realtime-2 面向即時語音互動場景。它不只是回答問題,還要在使用者說話、改口、插話、補充限制時保持上下文,並在必要時呼叫工具完成任務。
官方重點提到的能力包括:
- 可以在回答前輸出簡短提示,例如「我查一下」,讓使用者知道系統正在處理。
- 支援並行工具呼叫,適合日程、搜尋、訂單、客服系統等多工具場景。
- 失敗恢復更自然,避免語音會話突然中斷或沉默。
- 上下文窗口從 32K 提升到 128K,適合更長的對話和複雜任務流。
- 對專業術語、專有名詞、醫療詞彙等場景有更好的保持能力。
- 語氣和表達方式更可控,可以根據場景調整為冷靜、同理、確認或更有活力的語氣。
- reasoning effort 可調,支援
minimal、low、medium、high、xhigh,預設是low。
這意味著開發者可以把語音 Agent 用在更複雜的業務裡,而不是只做簡單問答。例如客服可以邊聽使用者描述邊查訂單;旅行應用可以根據航班變化主動給出下一步建議;房產應用可以根據使用者口頭條件篩選房源並安排看房。
即時翻譯:面向跨語言語音產品
GPT-Realtime-Translate 的定位是即時語音翻譯。使用者可以用自己的語言說話,對方聽到翻譯後的語音,同時還能看到即時轉寫。
它適合的場景比較明確:
- 多語言客服。
- 跨境銷售和售前溝通。
- 線上教育和直播活動。
- 國際會議與活動主持。
- 影片平台和創作者內容在地化。
即時翻譯的難點不只是「翻譯準」,還包括低延遲、自然停頓、語氣保留、口音適應和專業詞彙處理。OpenAI 這次強調的是讓跨語言對話更接近自然交流,而不是等一整段說完後再翻譯。
串流轉寫:讓語音內容馬上進入工作流
GPT-Realtime-Whisper 是新的串流語音轉文字模型。它的價值在於把語音在發生時就變成可處理文字,而不是等錄音結束再統一轉寫。
常見應用包括:
- 會議即時字幕。
- 課堂和直播字幕。
- 即時會議紀要。
- 語音 Agent 的連續聽寫輸入。
- 客服、醫療、招聘、銷售等高頻語音場景的後續流程。
對產品來說,串流轉寫可以明顯縮短「說話到可操作文字」的時間。字幕更快出現,會議記錄可以邊說邊生成,後續摘要、任務提取、CRM 寫入等流程也能更早啟動。
價格與可用性
這三個模型都已經在 Realtime API 中可用。官方給出的價格是:
| 模型 | 價格 |
|---|---|
GPT-Realtime-2 |
音訊輸入 $32 / 1M tokens,快取輸入 $0.40 / 1M tokens,音訊輸出 $64 / 1M tokens |
GPT-Realtime-Translate |
$0.034 / 分鐘 |
GPT-Realtime-Whisper |
$0.017 / 分鐘 |
OpenAI 還提到,Realtime API 支援 EU Data Residency,並受到企業隱私承諾覆蓋。對於歐洲企業或有資料駐留要求的語音產品,這是需要單獨評估的一點。
對開發者意味著什麼
這次發布的重點,是語音能力開始從「輸入輸出層」變成「產品互動層」。
過去很多語音功能只是把語音轉成文字,再把文字回覆轉成語音。真正難的是中間那層:理解使用者意圖、處理打斷、補全上下文、呼叫工具、告訴使用者系統正在做什麼、在失敗時自然恢復。
GPT-Realtime-2 試圖把這部分能力直接放進即時語音模型裡。對開發者來說,最值得關注的不是單次回答品質,而是它能否支撐持續會話和多步驟任務。
比較適合優先嘗試的產品包括:
- 客服語音 Agent。
- 車載和行動端語音助手。
- 旅遊、訂票、房產、金融等需要邊問邊查的服務。
- 多語言會議和跨境溝通工具。
- 即時字幕、會議紀要和通話質檢系統。
也要注意安全和告知
OpenAI 在發布頁中強調,Realtime API 會包含多層安全措施,例如對會話進行主動分類,必要時中止違反政策的內容。開發者也可以透過 Agents SDK 增加自己的安全護欄。
還有一個容易被忽略的要求:當終端使用者正在與 AI 互動時,開發者需要清楚告知,除非場景本身已經足夠明顯。
這對客服、銷售、教育、醫療等場景都很重要。語音越自然,越需要在產品設計上明確邊界:使用者知道自己在和 AI 溝通,也知道哪些操作會被記錄、轉寫或觸發工具呼叫。
總結
OpenAI 這次 Realtime API 更新,把即時語音從「能聽能說」推進到「能邊聽邊處理任務」。
GPT-Realtime-2 負責更複雜的語音 Agent,GPT-Realtime-Translate 負責跨語言即時交流,GPT-Realtime-Whisper 負責低延遲轉寫。三者合在一起,覆蓋了語音產品裡最常見的三個基礎能力:對話、翻譯和轉寫。
如果你正在做客服、車載、會議、教育、跨境溝通或行動端語音助手,這次更新值得重點測試。真正需要驗證的,不只是模型聽起來是否自然,而是它在長對話、打斷、工具呼叫、失敗恢復和成本控制上的表現。
參考連結: