多年AI頑疾被攻克!OpenAI前CTO團隊攻克AI隨機性難題,大模型可靠性迎來飛躍 原創
?
在AI領域,有一個存在已久的問題,那便是模型輸出的不確定性。例如,當我們多次向 ChatGPT 詢問相同的問題時,會產生不同的結果。這導致從大型語言模型中獲得可重復的結果非常困難。
?
即使在溫度參數設為 0 的情況下,傳統大語言模型仍會對相同輸入產生不同輸出。
?
但今天,這一難題被攻克了。
?
近日,前 OpenAI 首席技術官 Mira Murati 創辦的 Thinking Machines Lab 發布最新萬字研究報告,成功解決了大語言模型輸出不確定性問題。這項突破意味著 AI 生成將首次實現 100% 一致性輸出,為 AI 技術在企業關鍵場景的應用鋪平道路。
?

?
Thinking Machines Lab 成立僅 7 個月,專注于 AI 基礎技術研究。該實驗室此前已獲得 20 億美元種子輪融資,并計劃在未來幾個月推出首款產品。
?
回到這項研究。對于 LLM 推理引擎的不確定性,過去常見的假設是,浮點非結合性和并發執行的某種組合導致了非確定性。研究團隊稱之為「并發+浮點數」假設。
?
然而,團隊深度研究后發現這種假設并沒有完全揭示全貌,并發現了導致 LLM 推理引擎不確定性的兩個核心技術原因。
?
首先,浮點數加法的非結合性問題在GPU并行計算環境中會導致細微計算差異,例如,(a+b)+ c 與 a + (b+c) 的計算結果可能存在細微差異,這些差異在復雜的神經網絡中會被逐層放大。
?
更關鍵的是,并行計算策略的變化會因不同批量大小、序列長度和KV緩存狀態影響GPU內核選擇策略,從而改變計算執行順序。這也是輸出不確定性的根本原因。
?
針對這一挑戰,研究團隊提出了 batch-invariant 解決方案。該方案要求所有關鍵計算核在處理不同批量大小或序列分割時,都能保持相同的計算順序和結果。團隊還針對 RMSNorm、矩陣乘法和注意力機制等具體計算模塊提供了詳細優化方法。
?

?
為驗證方案有效性,研究團隊選用擁有 2350 億參數的 Qwen3-235B-A22B-Instruct-2507 模型進行實驗。經過 1000 次重復測試,該模型在相同輸入條件下實現了 100% 的輸出一致性,這在大語言模型發展史上尚屬首次。
?

?
這項技術突破的重要意義在于,在一些對準確性和一致性要求極高的應用場景,例如金融風控、醫療診斷、法律文書審核等,確定性的結果能提高決策可靠性、減少誤診風險以及準確性。AI 系統的可靠性和實用性也會獲得顯著提升。
?
該研究不僅解決了模型輸出的可預測性問題,也為 AI 系統從實驗工具向生產工具的轉型提供了技術基礎。
?
對整個 AI 行業來說,這代表著技術成熟度的重要提升。

















