少花 85% 算力，推理能力反超 SOTA？Meta 新方法 DeepConf 太能打！

2025-08-29 08:40:21

在深入探討DeepConf的工作原理之前，我們先對它所要解決的問題建立一個清晰的認知。可以把一個試圖解決難題的標準大型語言模型，想象成一個獨自工作的專家。他們的第一次嘗試可能不錯，但可能包含一個關鍵錯誤。

在大模型領域，我們一直遵循著一個簡單卻代價高昂的準則：要得到更智能的答案，就投入更多計算資源。這種“暴力計算”方法，以“自一致性”等技術為典型代表，已成為解決復雜推理任務的標準方式。其核心思路是讓模型“思考”多種可能的解決方案——我們稱之為“推理軌跡”——然后通過多數投票來選出最終答案。

這種方法確實有效。但它的代價高得驚人。

想象一下，向一個大型語言模型提出一道研究生級別的數學競賽題。要將其準確率從“不錯”提升到“真正卓越”，你可能需要生成的推理路徑不是10條，不是50條，而是超過500條并行的思路。我們今天剖析的這篇論文《Deep Think with Confidence》揭示，在某個基準測試中，用這種方法將準確率從68%提升到82%，可能需要額外消耗1億個標記。

這就是大型語言模型的困境：在“高性能”與“高成本”之間存在一種殘酷且不可持續的權衡。每向推理性能的階梯上邁進一步，我們都要付出線性增長且往往高得令人望而卻步的計算代價。這一現實使得最強大的推理技術被束之高閣，只有擁有行星級計算預算的機構才能觸及。

直到現在。

Meta AI和加州大學圣地亞哥分校的研究人員發表的一篇新論文，介紹了一種簡單、精妙且高效的方法——Deep Think with Confidence（DeepConf）。它不需要更多計算資源，而是以精準的方式利用我們已有的計算能力。通過讓模型實時識別并放棄自身前景不佳的推理路徑，DeepConf在實現最先進準確性的同時，將生成的標記數量減少了高達84.7%。

這不僅僅是一種漸進式改進。這是我們處理機器推理方式的范式轉變。

上：AIME 2025上的DeepConf。下：使用DeepConf的并行思考，展示了在AIME 2025基準測試中，與自一致性（cons@512）和單輪生成（pass@1）等基線相比，DeepConf顯著的準確率提升和標記減少。

大型語言模型的困境：高性能與高成本之間的殘酷權衡

為了改進這一點，行業開發了“自一致性”技術——論文中稱之為“并行思考”。這就像組建一個專家委員會。不再是一個專家，而是有數百個專家，都獨立解決同一個問題。

“
在這種模式下，標準的多數投票就像一個混亂的委員會會議室。每個專家——無論是才華橫溢的、平庸的，還是完全困惑的——都在喊出自己的最終答案。我們完全忽略他們的思考過程，只統計哪個答案被喊得最多。

這種方法存在兩個根本性缺陷：

效率低下：它把每個專家的時間視為同等寶貴。那些在第一步就迷失方向、花幾個小時在角落里涂鴉的專家，與那些有條不紊解決問題的專家獲得了相同的“計算時長”。
過于 naive：它假設所有觀點都是平等的。一個源自混亂、冗長且矛盾的推理路徑的最終答案，與一個源自清晰、邏輯嚴謹且直接的解決方案的答案被賦予同等權重。當大多數“專家”都自信地犯錯時，這可能導致次優結果。

這就是DeepConf出現之前的世界：一個充滿昂貴、嘈雜且低效的頭腦風暴會議的世界。

DeepConf登場：更聰明地思考，而非更費力地思考

DeepConf為我們的專家委員會會議室引入了一位熟練的主持人。這位主持人不只是等待最終答案，而是在每位專家的推理展開過程中仔細傾聽。

其核心思路極其直觀：推理軌跡的質量可以通過模型自身的內部置信度來判斷。

當大型語言模型生成一個標記時，它不只是挑選一個詞。它會計算整個詞匯表上的概率分布。如果模型高度自信，“正確”下一個標記的概率會非常高，而其他標記的概率會很低。如果模型不確定，概率會分散到許多可能的標記上。

DeepConf的主持人經過訓練，能夠識別這種不確定性。如果一位專家開始含糊其辭、猶豫不決或回溯（例如生成“等等，讓我再想想……”這樣的短語），主持人會將此視為低質量推理路徑的信號。不會讓他們浪費更多時間和精力，主持人會禮貌地介入：“感謝你的貢獻，但讓我們把資源集中在更有前景的方向上。”

置信度測量和帶置信度的離線思考。

這就是DeepConf的魔力。它是一個動態的、基于置信度的過濾系統。它主要以兩種模式運行：

離線模式：所有專家完成推理后，主持人會回顧他們的推理記錄。然后，最終投票會根據每位專家在整個推理過程中的自信程度進行加權。低置信度的論證會被降權或完全過濾掉。
在線模式（真正的游戲規則改變者）：這是實現巨大效率提升的關鍵。主持人會實時傾聽。一旦推理軌跡的置信度降至某個臨界閾值以下，生成過程就會停止。“專家”會在句子中途被打斷，從而節省了本會浪費在完成一個有缺陷論證上的所有計算資源。

這種在線的早期停止機制，使得DeepConf能將標記生成量削減80%以上，同時往往還能提高最終準確率。它不再為糟糕的想法買單。

在線生成過程中的DeepConf。

傾聽的藝術：DeepConf如何測量模型的置信度

那么，“主持人”究竟如何測量置信度呢？這不是尋找特定關鍵詞，而是基于模型內部狀態的純數學過程。論文探討了多種指標，但最有效的指標超越了簡單的標記級分析。

標記置信度：這是最基本的單位。它由最可能的下一個標記的對數概率計算得出。高標記置信度意味著模型對其即將邁出的下一步非常“確定”或有把握。
組置信度：單次猶豫并不意味著整個論證有缺陷。為了避免過于草率，DeepConf使用“組置信度”。它會計算最近一段時間（例如過去2048個標記）內標記置信度的平均值。這為推理軌跡的當前健康狀態提供了一個更平滑、更可靠的信號。
最低組置信度：事實證明，這是一個極具預測力的指標。整個推理鏈的質量往往由其最薄弱的環節決定。DeepConf發現，一條軌跡中所有滑動窗口的最低置信度得分，是判斷整個軌跡是否可信的絕佳指標。正是這個指標構成了早期停止機制的核心。如果這個移動平均置信度下降，就強烈表明出現了關鍵的推理錯誤。

從全局的、事后評估轉向局部的、實時信號，這一轉變是解鎖如此巨大效率的核心技術創新。

技術深入：早期停止與加權投票的機制

對于那些想深入了解的人，我們來剖析一下其機制。尤其是在線模式下的過程，設計十分精妙。

上：AIME 2025上的DeepConf。下：使用DeepConf的并行思考，展示了DeepConf的類Python偽代碼。這為讀者提供了清晰的、按步驟的邏輯流程。

以下是在線算法（論文中的“算法2”）的分解：

1. 離線預熱：在處理主要問題之前，DeepConf會運行少量初始推理軌跡（例如N_init = 16）。這有兩個目的：一是提供一組初始答案，更重要的是，讓DeepConf能夠建立一個置信度基線。

2. 設置閾值（s）：從這個預熱集合中，DeepConf會計算16條軌跡中每條的“最低組置信度”。然后，它會基于這些分數的某個百分位設置一個停止閾值s。例如，“DeepConf-low”（高效模式）會將閾值設置為只保留最自信的前10%軌跡。任何新軌跡的組置信度低于這個s，都會被終止。

3. 自適應生成：現在，主生成循環開始。模型逐標記地生成一條新軌跡。

每生成一個標記后，“組置信度”（過去約2048個標記的移動平均值）會更新。
這個分數會與閾值s進行比較。

if group_confidence < s:    stop_generation()else:    continue_generation()

4. 共識檢查：每完成一條軌跡（未被提前停止的）后，系統會檢查到目前為止生成的答案是否達成共識。如果領先的答案獲得了絕對多數（例如>95%的加權投票），整個過程可以停止，從而節省更多計算資源。這被稱為“自適應采樣”。

這種經過校準的早期停止閾值與整體共識檢查相結合，創造了一個既高效又能動態響應問題難度的系統。

結果出爐：效率與準確性的巨大飛躍

論文中呈現的實證結果令人矚目。DeepConf在多種具有挑戰性的推理基準測試（AIME、HMMT、GPQA）以及最先進的開源模型（如DeepSeek、Qwen3和Meta自己的GPT-OSS系列）上進行了測試。

離線設置下的置信度測量基準測試。報告的是準確率（%）。Cons@512和mean@512分別表示使用512條軌跡的多數投票和平均置信度。所有實驗重復64次。

大幅減少標記使用：在在線設置中，“DeepConf-low”始終能減少40-85%的標記使用量。在AIME 2025基準測試中，使用GPT-OSS-120B時，它將標記使用量削減了 84.7% 。這徹底改變了高端推理的經濟性。
提升準確率：這種效率提升并未以性能為代價。在許多情況下，準確率反而提高了。通過過濾掉低質量軌跡的“噪音”，最終的多數投票變得更清晰、更準確。DeepSeek-8B在AIME24上的準確率從86.7%躍升至 92.5% （使用DeepConf后）。
達到SOTA飽和：在極具難度的數學競賽AIME 2025上，DeepConf與GPT-OSS-120B結合，實現了令人難以置信的99.9%準確率，實際上達到了該基準測試的飽和狀態。

在線設置下的DeepConf基準測試。在投票規模預算為512時，多數投票和DeepConf（高/低）的準確率（%）和標記數（×10^8）。

這些結果并非偶然。在不同模型和數據集上，這種模式始終一致。DeepConf為大型語言模型推理提供了一條全新的、性能更優的效率-性能曲線。

為何意義重大：計算高效推理的黎明

這項工作的意義遠不止于學術基準測試。DeepConf代表著向讓復雜AI推理變得實用且可及邁出的關鍵一步。

普及SOTA性能：通過大幅降低成本，曾經只有科技巨頭才能使用的技術，現在初創公司、研究人員和小型企業也能切實部署。
賦能復雜智能體：AI的未來在于能夠執行多步驟任務的自主智能體。這些智能體依賴于長推理鏈，其中一個薄弱環節就可能破壞整個過程。DeepConf能夠及早修剪不良推理路徑，使這些智能體更可靠且運行成本更低。
更快的實時應用：標記減少直接轉化為更低的延遲。這為需要復雜推理但不能容忍長時間等待的應用打開了大門，例如實時數據分析、復雜的客戶支持機器人和交互式創意工具。
更綠色的AI：雖然不是主要關注點，但近85%的標記生成減少意味著推理所需的能源消耗大幅降低，有助于打造更可持續的AI生態系統。

前路展望：克服“自信的錯誤”與規劃未來

沒有任何方法是完美無缺的。作者正確地指出，DeepConf的有效性取決于一個假設：模型的置信度與正確性相關。當模型“自信地犯錯”時會發生什么？在這種情況下，DeepConf可能會激進地過濾掉正確但“猶豫”的推理路徑，而偏向于一個有缺陷但斷言自信的路徑。

這凸顯了未來研究的一個關鍵領域：提高大型語言模型置信度的校準度。我們需要的模型不僅知道正確答案，還知道“自己何時不知道”。

盡管如此，DeepConf仍是一項里程碑式的成就。它挑戰了在大型語言模型推理中占主導地位的“越多越好”理念，提供了一條更智能、更具可擴展性且更實用的前進道路。它提醒我們，有時最重大的突破并非來自制造更大的引擎，而是來自安裝更智能的節流閥。

核心要點

問題：通過自一致性實現的高質量大型語言模型推理成本極高，為廣泛采用設置了障礙。
解決方案（DeepConf）：一種新方法，利用模型自身的內部置信度信號動態過濾低質量推理軌跡，通常是實時過濾。
機制：通過對標記的滑動窗口計算“最低組置信度”，DeepConf能夠識別并及早終止前景不佳的生成路徑，節省大量計算資源。
結果：DeepConf能將標記生成量減少高達85%，同時在具有挑戰性的推理基準測試上保持甚至提高最先進的準確率。
影響：這項工作為更經濟、可擴展且高效的AI智能體和推理系統鋪平了道路，普及了頂級性能的獲取途徑。

參考文獻

Fu, Y., Wang, X., Tian, Y., & Zhao, J. (2025).Deep Think with Confidence . arXiv:2508.15260v1

責任編輯：武曉燕來源： AIGC深一度