大模型推理新范式!清華&螞蟻:用編程思維來思考,用自然語言來表達
該論文的第一作者是清華大學計算機系研究生溫佳鑫,螞蟻技術研究院副研究員關健為共同第一作者。
大模型應該以什么形式進行推理?自然語言是表示推理路徑的最佳方案嗎?
2024 年 9 月,OpenAI 攜 o1 模型吹響推理革命的號角,以驚人的思維鏈長度刷新認知邊界。在這場技術革命中,中國力量迅速崛起:DeepSeek R1 以極低的訓練成本成功復現 o1 性能,引發全球熱議。然而,在振奮的結果背后,上述「靈魂拷問」似乎并沒有得到解答。
事實上,在這場推理大潮來臨之前,本文研究團隊就一直在圍繞這些問題進行思考和探討。自然語言形式的推理范式雖然從思維鏈開始就主導了推理模型的構建,其本身卻存在著不可忽視的缺陷:推理過程中常見邏輯斷裂、焦點漂移、冗余重復等系統性問題。這就像一名博學卻缺乏系統訓練的學生,知識有余而邏輯不足。
研究團隊認為這些問題源自自然語言的雙面性:表達自由靈活,卻難以傳遞嚴謹的結構化思維。更本質的挑戰在于:文本中蘊含的推理結構往往被埋藏在自然語言冗余的表達形式之下。這些隱含的邏輯模式難以被模型有效捕捉和復用。對于參數量較小的模型而言,這一困境更為嚴峻。
為應對這一困境,研究團隊在 ICLR 2025 上提出了 CodePlan 方法。這一創新框架將「代碼形式的規劃」(Code-Form Planning)引入推理過程,讓大模型先用「編程思維」來思考,再用自然語言來表達。
得益于編程語言的嚴謹特性,代碼規劃能夠精確構建包含條件分支、循環迭代、函數調用等結構的推理藍圖,就像為大模型裝上了一個邏輯嚴密的「操作系統」。更有趣的是,由于編程語言存在海量的數據,這種方法無需繁重的人工標注,能夠自動從已有數據中提取隱含的規劃信號;并且由于已有代碼覆蓋了各個領域的問題,CodePlan 除了解決復雜推理問題外,還可以很好地泛化到其它任務上。
在 13 個具有挑戰性的基準測試中,CodePlan 實現了平均 25.1% 的相對性能提升。目前,研究團隊已開源了 200 萬條包含代碼形式規劃的推理數據,以期推動這一方向的研究。

- 論文標題:CodePlan: Unlocking Reasoning Potential in Large Language Models by Scaling Code-form Planning
- 論文地址:https://arxiv.org/pdf/2409.12452
- Github: https://github.com/thu-coai/CodePlan
- Dataset: https://huggingface.co/datasets/jiaxin-wen/CodePlan
一、推理能力的阿喀琉斯之踵
在大模型推理能力突飛猛進的表象之下,隱藏著一個被忽視的現象:隨著研究者不斷追逐更大的參數規模、更龐大的數據量,模型的「思維熵增」現象反而愈發嚴重。這種反?,F象主要表現在兩個方面:一是推理過度膨脹,即便是回答 「2+3=?」這樣的簡單問題,o1 模型也會生成長達 200 多個 token 的冗長思維鏈;二是推理不夠專注,在解決復雜問題時頻繁跳躍于不同思路之間,卻始終無法深入任何一個方向得出正確答案。
這一現象暴露出當前技術路線中一個根本性矛盾:自然語言固有的非結構化特性,與系統化推理所需的嚴謹規劃框架之間存在著難以調和的沖突。
深入分析這一現象,研究團隊發現現有的推理模型主要依賴兩個步驟:首先通過自然語言形式隨機探索生成海量的推理路徑,然后借助強化學習算法從中篩選優質軌跡。這種方法雖然拓寬了推理的探索空間,卻像在茫茫沙漠中漫無目的地搜尋綠洲,缺乏有效的導航機制必然導致效率低下。更為致命的是,這種基于自然語言的自由推理方式難以沉淀出可復用的結構化知識,導致模型每次面對新問題時都需要從零開始探索。
因此,現有方法雖然培養了模型強大的直覺能力,卻忽視了人類思維最本質的特征 —— 通過高層規劃將零散知識系統化的能力。
CodePlan 在 5 類核心推理任務上取得顯著提升。Vaniila: 不使用規劃的基線方法;Natural Language Plan:基于自然語言的規劃方法。
二、CodePlan:為大模型裝載結構化思維引擎
面對大模型推理能力的瓶頸,研究團隊提出了 CodePlan 框架,其核心創新在于引入「代碼形式規劃」(Code-Form Planning)作為思維的中間表征。
這一創新建立在對推理結構的精確表達之上。通過將編程語言的嚴謹結構引入推理過程,CodePlan 為大模型構建了一個可靠的「思維操作系統」。這個系統通過兩個層次來實現思維的結構化:先用 Python 風格的偽代碼勾勒出高層次的推理框架;再基于這個框架,系統性地展開具體推理步驟。
如下圖所示,這種基于代碼的表達方式具有四大核心優勢:
- 條件分支能力:通過 if 語句動態調整推理路徑,實現靈活的上下文適應;
- 循環迭代結構:利用 for 循環高效處理序列數據和重復操作;
- 模塊化工具:通過函數定義和調用,增強模型對工具的創建和使用能力;
- 層次化架構:通過變量定義、子任務分解和嚴謹的邏輯編排,支持復雜推理任務的模塊化分解。

相比傳統的自然語言規劃,CodePlan 的優勢突出。Python 代碼不僅能夠以更簡潔的方式傳遞規劃信息,而且這種表達方式在預訓練語料中分布更廣,使模型在訓練階段就已經建立起對代碼結構的深層理解。
這種與生俱來的「代碼素養」讓模型能夠更自然地生成和理解規劃信息,大大降低了學習成本。更重要的是,這種規劃方式展現出驚人的通用性——從數學推理到指令理解,從符號運算到開放式問題,都能構建出清晰的代碼形式規劃表示。
三、廣泛提升模型推理能力
為驗證 CodePlan 的效果,研究團隊構建了一套高效的規劃信息自動挖掘方法。如下圖所示,該方法包含兩個關鍵創新:首先通過代碼預訓練模型精準解析文本中潛藏的推理結構,將其轉化為顯式的偽代碼表示;其次設計了基于啟發式評分的動態過濾機制,確保所提取規劃的質量。
基于這一方法,團隊成功構建了一個包含 200 萬個「< 用戶提示,代碼規劃,回復 >」三元組的大規模數據集。

訓練數據構建流程。
實驗結果令人振奮。研究團隊以 Mistral 和 Llama 為基座模型,在跨越數學推理、符號運算、指令理解、多跳問答和決策等五大領域的 13 個具有挑戰性的基準測試中進行了系統評估。
結果顯示,相比于直接從用戶指令生成推理步驟的基線方法(Vanilla)和使用自然語言形式規劃的傳統方法(PS Prompting),CodePlan 在所有任務上都實現了顯著提升。特別是在復雜度較高的任務上,性能提升更為明顯。例如,在 Last Letter 任務上,Mistral-7B 的準確率提升了超過 20 個百分點,展示出 CodePlan 在處理高難度推理問題時的獨特優勢。


1. 任務越復雜,提升越顯著
深入分析實驗結果揭示了 CodePlan 一個令人矚目的特性:隨著任務復雜度的提升,其性能優勢愈發顯著。研究團隊以多跳問答任務為例進行了精細化分析,通過將數據集按推理步數(2 跳、3 跳、4 跳)劃分,清晰地展示了這一規律。

多跳問答任務的性能對比
如上圖所示,在相對簡單的 2 跳問題上,CodePlan 相比基線模型已有穩定提升;而在需要三次以上推理跳轉的復雜問題中,性能差距急劇擴大。特別是在最具挑戰性的 4 跳問題上,CodePlan 的優勢達到最大,這充分說明其在處理深層次推理時的卓越能力。
這種「難者愈強」的特性,正是源于 CodePlan 的結構化推理框架。通過將復雜推理過程分解為清晰的代碼步驟,模型能夠更好地把控長程依賴關系,避免了傳統方法在多步推理中常見的邏輯斷裂和注意力發散問題。
2. 更高效、更穩定的后訓練
研究團隊在探索 CodePlan 的訓練特性時,發現了另一個重要優勢:它為大模型的后訓練提供了一條更高效、更可靠的路徑。
CodePlan 的訓練曲線
如上圖所示,在 GSM8K 數學推理和 MuSiQue 多跳問答這兩個具有代表性的任務上,CodePlan 展現出顯著的訓練優勢。傳統的后訓練方法(藍線)在訓練過程中表現出明顯的性能波動。相比之下,CodePlan(橙線)不僅實現了更快的性能提升,更重要的是保持了穩定的上升趨勢。
這一現象揭示了 CodePlan 的核心優勢:通過引入結構化的代碼規劃作為中間表示,它成功建立了一個更加普適的學習框架。這個框架能夠有效降低不同任務之間的表達差異,使得模型可以更專注于學習本質的推理模式,從而實現知識的高效遷移和穩定積累。這不僅提高了訓練效率,更為大模型能力的持續進化提供了可靠保障。
3. 案例分析:化繁為簡的結構化思維
讓我們來看看「數值比較」(9.8 和 9.11 誰更大)和「字母計數」(統計 strawberry 中字母 r 的出現次數)這兩個看似簡單,卻常常難倒模型的問題。

如上表所示,CodePlan 通過引入代碼形式的規劃,優雅地解決了這些問題。與之形成鮮明對比的是,沒有規劃輔助的模型往往給出模糊或錯誤的答案。它們要么直接下結論,要么陷入冗長卻不準確的解釋中,反映出缺乏系統化思維方法的局限。
這個對比表明:CodePlan 不是簡單地告訴模型「該做什么」,而是教會模型「如何思考」。通過將復雜任務分解為清晰的代碼步驟,CodePlan 為模型提供了一個可靠的問題解決范式。
結語:開辟大模型結構化思維新思路
CodePlan 的提出為大模型推理能力發展提供了一個新思路。這項創新通過將代碼形式規劃引入推理過程,成功解決了自然語言表達中的結構化缺陷;更重要的是,它開創了一種全新的方法論,為大模型注入了系統化的問題解決能力。通過開源 200 萬條規劃數據,研究團隊為整個社區貢獻了資源。在此基礎上,期待在金融、醫療等高要求場景中有更多激動人心的應用突破。


































