OpenAI剛剛發布GPT-Realtime，AI Agent進入超逼真對話時代

2025-08-29 09:06:57

GPT-realtime是一個專用于語音AIAgent的多模態模型，能夠生成更加自然流暢的語音，完美模仿人類豐富多樣的語調、情感以及語速，支持圖像理解并將其與語音或文本對話相結合使用，非常適用于客服、教育、金融、醫療等領域打造語音智能體。

今天凌晨1點，OpenAI進行了技術直播發布了語音模型GPT-realtime。

GPT-realtime還新增了Marin與Cedar兩種極具特色的語音，同時對原有的8種語音也進行了全面升級。

與傳統純語音模型不同的是，GPT-realtime還具備智力、推理和理解能力，例如，能夠敏銳捕捉笑聲等非語言信號，在句子中間自如地切換語言，并根據場景需求靈活調整語氣。

根據評估數據顯示，在多種語言環境下，GPT-realtime對字母數字序列的檢測準確率大幅提升，在用于衡量推理能力的BigBenchAudio評估中，準確率高達82.8%成為目前最強智能語音模型。

指令遵循能力的改進也是GPT-realtime的一大亮點。在構建語音應用時，開發者可對模型進行一系列指令自定義，包括如何說話、特定場景下該說什么、該做什么以及不該做什么等。

GPT-realtime針對這一點進行了深度優化，即便是極為細微的指令，也能對其產生顯著的引導效果。在衡量指令遵循準確率的MultiChallenge音頻基準測試中，GPT-realtime的得分從舊模型的20.6%提升到30.5%，進步十分顯著。

在函數調用能力方面，GPT - realtime 從調用相關函數、把握調用時機以及選用合適的參數調用函數這三個關鍵維度進行了全方位優化。在 ComplexFuncBench測試中，得分從舊模型的49.7%飆升至66.5%。

異步函數調用功能也得到了極大改進，長時間運行的函數調用不再會成為會話流程的絆腳石，模型在耐心等待結果的同時，依然能夠絲滑進行對話，并且這一強大功能無需開發者更新代碼，開箱即用。

支持圖像輸入是GPT–realtime特色功能之一，開發者可在Realtime API 會話中，可以自由地將圖像、照片、截圖與音頻或文本一并添加。模型由此具備了基于用戶實際所見內容展開對話的能力，用戶能夠提出諸如 “你看到了什么？” 或 “讀取這張截圖中的文字” 等多樣化問題。

值得一提的是，該系統并非將圖像視為實時視頻流，而是巧妙地將其類比為在對話中插入的一張圖片，開發者可通過應用自主決定向模型分享哪些圖像以及分享的時機，從而牢牢掌握模型看到的內容與響應時機，實現更加個性化、精準化的交互體驗。

與GPT - realtime 模型同步上線的，還有Realtime API 的一系列全新功能。從今天開始，在 Realtime API 會話中，開發者只需在會話配置中輕松傳入遠程 MCP 服務器的 URL，即可快速啟用 MCP 支持。

連接建立后，API 會自動承擔起工具調用的重任，無需開發者再手動搭建繁瑣的集成環境。這種配置方式為擴展智能體功能提供了極大的便利，開發者只需將會話指向不同的 MCP 服務器，相應的工具便能即刻投入使用，大大提高了開發效率。

此外，Realtime API還新增了多項功能，旨在進一步提升其集成便捷性與生產使用靈活性。其中，會話初始協議支持使得Realtime API能夠直接與公共電話網絡、專用分組交換機系統、桌面電話及其他SIP終端建立連接，極大地拓展了應用的連接范圍。

而可復用提示功能則允許開發者像在Responses API中一樣，保存并在多個Realtime API會話中重復使用提示，這些提示涵蓋了開發者消息、工具、變量以及用戶/助理示例消息等豐富信息，為開發工作帶來了極大的便利，有效減少了重復性勞動，提高了開發效率。

在安全與隱私保障方面，Realtime API內置了多層嚴密的防護與緩解措施，全力防止濫用情況的發生。通過采用主動分類器，在會話過程中實時監測對話內容，一旦檢測到對話違反有害內容準則，會立即終止相關會話，從源頭上保障了使用環境的安全與健康。

開發者還可借助Agents SDK輕松添加自定義安全防護措施，實現更加個性化、精細化的安全管理。在使用政策上，明確禁止將服務輸出用于垃圾郵件、欺詐或其他有害用途，并要求開發者在上下文未明確表明的情況下，必須向終端用戶清晰告知其正在與人工智能進行交互。此外，Realtime API采用預設語音，有效防止了惡意人員冒充他人的風險。

在定價與可用性方面，自發布之日起，所有開發者均可自由使用正式開放的Realtime API與全新的GPT-realtime模型。與之前的gpt-4o-realtime-preview相比，GPT-realtime的價格降低了20%，具體為音頻輸入token單價32美元/百萬個（緩存輸入token單價0.40美元/百萬個），音頻輸出token單價64美元/百萬個。

此外，OpenAI還為對話上下文新增了精細控制功能，開發者可靈活設置智能token限制，一次性截斷多輪對話內容，從而大幅降低長會話的成本。

API詳情：https://platform.openai.com/docs/guides/realtime

責任編輯：張燕妮來源： AIGC開放社區

AI 語音生成智能體