少花 85% 算力,推理能力反超 SOTA?Meta 新方法 DeepConf 太能打!
在大模型領域,我們一直遵循著一個簡單卻代價高昂的準則:要得到更智能的答案,就投入更多計算資源。這種“暴力計算”方法,以“自一致性”等技術為典型代表,已成為解決復雜推理任務的標準方式。其核心思路是讓模型“思考”多種可能的解決方案——我們稱之為“推理軌跡”——然后通過多數投票來選出最終答案。
這種方法確實有效。但它的代價高得驚人。
想象一下,向一個大型語言模型提出一道研究生級別的數學競賽題。要將其準確率從“不錯”提升到“真正卓越”,你可能需要生成的推理路徑不是10條,不是50條,而是超過500條并行的思路。我們今天剖析的這篇論文《Deep Think with Confidence》揭示,在某個基準測試中,用這種方法將準確率從68%提升到82%,可能需要額外消耗1億個標記。
這就是大型語言模型的困境:在“高性能”與“高成本”之間存在一種殘酷且不可持續的權衡。每向推理性能的階梯上邁進一步,我們都要付出線性增長且往往高得令人望而卻步的計算代價。這一現實使得最強大的推理技術被束之高閣,只有擁有行星級計算預算的機構才能觸及。
直到現在。
Meta AI和加州大學圣地亞哥分校的研究人員發表的一篇新論文,介紹了一種簡單、精妙且高效的方法——Deep Think with Confidence(DeepConf)。它不需要更多計算資源,而是以精準的方式利用我們已有的計算能力。通過讓模型實時識別并放棄自身前景不佳的推理路徑,DeepConf在實現最先進準確性的同時,將生成的標記數量減少了高達84.7%。
這不僅僅是一種漸進式改進。這是我們處理機器推理方式的范式轉變。
上:AIME 2025上的DeepConf。下:使用DeepConf的并行思考,展示了在AIME 2025基準測試中,與自一致性(cons@512)和單輪生成(pass@1)等基線相比,DeepConf顯著的準確率提升和標記減少。
上:AIME 2025上的DeepConf。下:使用DeepConf的并行思考,展示了在AIME 2025基準測試中,與自一致性(cons@512)和單輪生成(pass@1)等基線相比,DeepConf顯著的準確率提升和標記減少。
大型語言模型的困境:高性能與高成本之間的殘酷權衡
在深入探討DeepConf的工作原理之前,我們先對它所要解決的問題建立一個清晰的認知。可以把一個試圖解決難題的標準大型語言模型,想象成一個獨自工作的專家。他們的第一次嘗試可能不錯,但可能包含一個關鍵錯誤。
為了改進這一點,行業開發了“自一致性”技術——論文中稱之為“并行思考”。這就像組建一個專家委員會。不再是一個專家,而是有數百個專家,都獨立解決同一個問題。
“
在這種模式下,標準的多數投票就像一個混亂的委員會會議室。每個專家——無論是才華橫溢的、平庸的,還是完全困惑的——都在喊出自己的最終答案。我們完全忽略他們的思考過程,只統計哪個答案被喊得最多。
這種方法存在兩個根本性缺陷:
- 效率低下:它把每個專家的時間視為同等寶貴。那些在第一步就迷失方向、花幾個小時在角落里涂鴉的專家,與那些有條不紊解決問題的專家獲得了相同的“計算時長”。
- 過于 naive:它假設所有觀點都是平等的。一個源自混亂、冗長且矛盾的推理路徑的最終答案,與一個源自清晰、邏輯嚴謹且直接的解決方案的答案被賦予同等權重。當大多數“專家”都自信地犯錯時,這可能導致次優結果。
這就是DeepConf出現之前的世界:一個充滿昂貴、嘈雜且低效的頭腦風暴會議的世界。
DeepConf登場:更聰明地思考,而非更費力地思考
DeepConf為我們的專家委員會會議室引入了一位熟練的主持人。這位主持人不只是等待最終答案,而是在每位專家的推理展開過程中仔細傾聽。
其核心思路極其直觀:推理軌跡的質量可以通過模型自身的內部置信度來判斷。
當大型語言模型生成一個標記時,它不只是挑選一個詞。它會計算整個詞匯表上的概率分布。如果模型高度自信,“正確”下一個標記的概率會非常高,而其他標記的概率會很低。如果模型不確定,概率會分散到許多可能的標記上。
DeepConf的主持人經過訓練,能夠識別這種不確定性。如果一位專家開始含糊其辭、猶豫不決或回溯(例如生成“等等,讓我再想想……”這樣的短語),主持人會將此視為低質量推理路徑的信號。不會讓他們浪費更多時間和精力,主持人會禮貌地介入:“感謝你的貢獻,但讓我們把資源集中在更有前景的方向上。”
置信度測量和帶置信度的離線思考。
這就是DeepConf的魔力。它是一個動態的、基于置信度的過濾系統。它主要以兩種模式運行:
- 離線模式:所有專家完成推理后,主持人會回顧他們的推理記錄。然后,最終投票會根據每位專家在整個推理過程中的自信程度進行加權。低置信度的論證會被降權或完全過濾掉。
- 在線模式(真正的游戲規則改變者):這是實現巨大效率提升的關鍵。主持人會實時傾聽。一旦推理軌跡的置信度降至某個臨界閾值以下,生成過程就會停止。“專家”會在句子中途被打斷,從而節省了本會浪費在完成一個有缺陷論證上的所有計算資源。
這種在線的早期停止機制,使得DeepConf能將標記生成量削減80%以上,同時往往還能提高最終準確率。它不再為糟糕的想法買單。
在線生成過程中的DeepConf。
傾聽的藝術:DeepConf如何測量模型的置信度
那么,“主持人”究竟如何測量置信度呢?這不是尋找特定關鍵詞,而是基于模型內部狀態的純數學過程。論文探討了多種指標,但最有效的指標超越了簡單的標記級分析。
- 標記置信度:這是最基本的單位。它由最可能的下一個標記的對數概率計算得出。高標記置信度意味著模型對其即將邁出的下一步非常“確定”或有把握。
- 組置信度:單次猶豫并不意味著整個論證有缺陷。為了避免過于草率,DeepConf使用“組置信度”。它會計算最近一段時間(例如過去2048個標記)內標記置信度的平均值。這為推理軌跡的當前健康狀態提供了一個更平滑、更可靠的信號。
- 最低組置信度:事實證明,這是一個極具預測力的指標。整個推理鏈的質量往往由其最薄弱的環節決定。DeepConf發現,一條軌跡中所有滑動窗口的最低置信度得分,是判斷整個軌跡是否可信的絕佳指標。正是這個指標構成了早期停止機制的核心。如果這個移動平均置信度下降,就強烈表明出現了關鍵的推理錯誤。
從全局的、事后評估轉向局部的、實時信號,這一轉變是解鎖如此巨大效率的核心技術創新。
技術深入:早期停止與加權投票的機制
對于那些想深入了解的人,我們來剖析一下其機制。尤其是在線模式下的過程,設計十分精妙。
上:AIME 2025上的DeepConf。下:使用DeepConf的并行思考,展示了DeepConf的類Python偽代碼。這為讀者提供了清晰的、按步驟的邏輯流程。
以下是在線算法(論文中的“算法2”)的分解:
1. 離線預熱:在處理主要問題之前,DeepConf會運行少量初始推理軌跡(例如N_init = 16)。這有兩個目的:一是提供一組初始答案,更重要的是,讓DeepConf能夠建立一個置信度基線。
2. 設置閾值(s):從這個預熱集合中,DeepConf會計算16條軌跡中每條的“最低組置信度”。然后,它會基于這些分數的某個百分位設置一個停止閾值s。例如,“DeepConf-low”(高效模式)會將閾值設置為只保留最自信的前10%軌跡。任何新軌跡的組置信度低于這個s,都會被終止。
3. 自適應生成:現在,主生成循環開始。模型逐標記地生成一條新軌跡。
- 每生成一個標記后,“組置信度”(過去約2048個標記的移動平均值)會更新。
- 這個分數會與閾值
s進行比較。
if group_confidence < s: stop_generation()else: continue_generation()4. 共識檢查:每完成一條軌跡(未被提前停止的)后,系統會檢查到目前為止生成的答案是否達成共識。如果領先的答案獲得了絕對多數(例如>95%的加權投票),整個過程可以停止,從而節省更多計算資源。這被稱為“自適應采樣”。
這種經過校準的早期停止閾值與整體共識檢查相結合,創造了一個既高效又能動態響應問題難度的系統。
結果出爐:效率與準確性的巨大飛躍
論文中呈現的實證結果令人矚目。DeepConf在多種具有挑戰性的推理基準測試(AIME、HMMT、GPQA)以及最先進的開源模型(如DeepSeek、Qwen3和Meta自己的GPT-OSS系列)上進行了測試。
離線設置下的置信度測量基準測試。報告的是準確率(%)。Cons@512和mean@512分別表示使用512條軌跡的多數投票和平均置信度。所有實驗重復64次。
離線設置下的置信度測量基準測試。報告的是準確率(%)。Cons@512和mean@512分別表示使用512條軌跡的多數投票和平均置信度。所有實驗重復64次。
- 大幅減少標記使用:在在線設置中,“DeepConf-low”始終能減少40-85%的標記使用量。在AIME 2025基準測試中,使用GPT-OSS-120B時,它將標記使用量削減了 84.7% 。這徹底改變了高端推理的經濟性。
- 提升準確率:這種效率提升并未以性能為代價。在許多情況下,準確率反而提高了。通過過濾掉低質量軌跡的“噪音”,最終的多數投票變得更清晰、更準確。DeepSeek-8B在AIME24上的準確率從86.7%躍升至 92.5% (使用DeepConf后)。
- 達到SOTA飽和:在極具難度的數學競賽AIME 2025上,DeepConf與GPT-OSS-120B結合,實現了令人難以置信的99.9%準確率,實際上達到了該基準測試的飽和狀態。
在線設置下的DeepConf基準測試。在投票規模預算為512時,多數投票和DeepConf(高/低)的準確率(%)和標記數(×10^8)。
這些結果并非偶然。在不同模型和數據集上,這種模式始終一致。DeepConf為大型語言模型推理提供了一條全新的、性能更優的效率-性能曲線。
為何意義重大:計算高效推理的黎明
這項工作的意義遠不止于學術基準測試。DeepConf代表著向讓復雜AI推理變得實用且可及邁出的關鍵一步。
- 普及SOTA性能:通過大幅降低成本,曾經只有科技巨頭才能使用的技術,現在初創公司、研究人員和小型企業也能切實部署。
- 賦能復雜智能體:AI的未來在于能夠執行多步驟任務的自主智能體。這些智能體依賴于長推理鏈,其中一個薄弱環節就可能破壞整個過程。DeepConf能夠及早修剪不良推理路徑,使這些智能體更可靠且運行成本更低。
- 更快的實時應用:標記減少直接轉化為更低的延遲。這為需要復雜推理但不能容忍長時間等待的應用打開了大門,例如實時數據分析、復雜的客戶支持機器人和交互式創意工具。
- 更綠色的AI:雖然不是主要關注點,但近85%的標記生成減少意味著推理所需的能源消耗大幅降低,有助于打造更可持續的AI生態系統。
前路展望:克服“自信的錯誤”與規劃未來
沒有任何方法是完美無缺的。作者正確地指出,DeepConf的有效性取決于一個假設:模型的置信度與正確性相關。當模型“自信地犯錯”時會發生什么?在這種情況下,DeepConf可能會激進地過濾掉正確但“猶豫”的推理路徑,而偏向于一個有缺陷但斷言自信的路徑。
這凸顯了未來研究的一個關鍵領域:提高大型語言模型置信度的校準度。我們需要的模型不僅知道正確答案,還知道“自己何時不知道”。
盡管如此,DeepConf仍是一項里程碑式的成就。它挑戰了在大型語言模型推理中占主導地位的“越多越好”理念,提供了一條更智能、更具可擴展性且更實用的前進道路。它提醒我們,有時最重大的突破并非來自制造更大的引擎,而是來自安裝更智能的節流閥。
核心要點
- 問題:通過自一致性實現的高質量大型語言模型推理成本極高,為廣泛采用設置了障礙。
- 解決方案(DeepConf):一種新方法,利用模型自身的內部置信度信號動態過濾低質量推理軌跡,通常是實時過濾。
- 機制:通過對標記的滑動窗口計算“最低組置信度”,DeepConf能夠識別并及早終止前景不佳的生成路徑,節省大量計算資源。
- 結果:DeepConf能將標記生成量減少高達85%,同時在具有挑戰性的推理基準測試上保持甚至提高最先進的準確率。
- 影響:這項工作為更經濟、可擴展且高效的AI智能體和推理系統鋪平了道路,普及了頂級性能的獲取途徑。
參考文獻
Fu, Y., Wang, X., Tian, Y., & Zhao, J. (2025).Deep Think with Confidence . arXiv:2508.15260v1































