精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型推理新范式!清華&螞蟻:用編程思維來思考,用自然語言來表達

人工智能 新聞
CodePlan 的提出為大模型推理能力發展提供了一個新思路。

該論文的第一作者是清華大學計算機系研究生溫佳鑫,螞蟻技術研究院副研究員關健為共同第一作者。

大模型應該以什么形式進行推理?自然語言是表示推理路徑的最佳方案嗎?

2024 年 9 月,OpenAI 攜 o1 模型吹響推理革命的號角,以驚人的思維鏈長度刷新認知邊界。在這場技術革命中,中國力量迅速崛起:DeepSeek R1 以極低的訓練成本成功復現 o1 性能,引發全球熱議。然而,在振奮的結果背后,上述「靈魂拷問」似乎并沒有得到解答。

事實上,在這場推理大潮來臨之前,本文研究團隊就一直在圍繞這些問題進行思考和探討。自然語言形式的推理范式雖然從思維鏈開始就主導了推理模型的構建,其本身卻存在著不可忽視的缺陷:推理過程中常見邏輯斷裂、焦點漂移、冗余重復等系統性問題。這就像一名博學卻缺乏系統訓練的學生,知識有余而邏輯不足。 

研究團隊認為這些問題源自自然語言的雙面性:表達自由靈活,卻難以傳遞嚴謹的結構化思維。更本質的挑戰在于:文本中蘊含的推理結構往往被埋藏在自然語言冗余的表達形式之下。這些隱含的邏輯模式難以被模型有效捕捉和復用。對于參數量較小的模型而言,這一困境更為嚴峻。

為應對這一困境,研究團隊在 ICLR 2025 上提出了 CodePlan 方法。這一創新框架將「代碼形式的規劃」(Code-Form Planning)引入推理過程,讓大模型先用「編程思維」來思考,再用自然語言來表達

得益于編程語言的嚴謹特性,代碼規劃能夠精確構建包含條件分支、循環迭代、函數調用等結構的推理藍圖,就像為大模型裝上了一個邏輯嚴密的「操作系統」。更有趣的是,由于編程語言存在海量的數據,這種方法無需繁重的人工標注,能夠自動從已有數據中提取隱含的規劃信號;并且由于已有代碼覆蓋了各個領域的問題,CodePlan 除了解決復雜推理問題外,還可以很好地泛化到其它任務上。

在 13 個具有挑戰性的基準測試中,CodePlan 實現了平均 25.1% 的相對性能提升。目前,研究團隊已開源了 200 萬條包含代碼形式規劃的推理數據,以期推動這一方向的研究。

圖片

  • 論文標題:CodePlan: Unlocking Reasoning Potential in Large Language Models by Scaling Code-form Planning
  • 論文地址:https://arxiv.org/pdf/2409.12452
  • Github: https://github.com/thu-coai/CodePlan
  • Dataset: https://huggingface.co/datasets/jiaxin-wen/CodePlan

一、推理能力的阿喀琉斯之踵

在大模型推理能力突飛猛進的表象之下,隱藏著一個被忽視的現象:隨著研究者不斷追逐更大的參數規模、更龐大的數據量,模型的「思維熵增」現象反而愈發嚴重。這種反?,F象主要表現在兩個方面:一是推理過度膨脹,即便是回答 「2+3=?」這樣的簡單問題,o1 模型也會生成長達 200 多個 token 的冗長思維鏈;二是推理不夠專注,在解決復雜問題時頻繁跳躍于不同思路之間,卻始終無法深入任何一個方向得出正確答案。

這一現象暴露出當前技術路線中一個根本性矛盾:自然語言固有的非結構化特性,與系統化推理所需的嚴謹規劃框架之間存在著難以調和的沖突。

深入分析這一現象,研究團隊發現現有的推理模型主要依賴兩個步驟:首先通過自然語言形式隨機探索生成海量的推理路徑,然后借助強化學習算法從中篩選優質軌跡。這種方法雖然拓寬了推理的探索空間,卻像在茫茫沙漠中漫無目的地搜尋綠洲,缺乏有效的導航機制必然導致效率低下。更為致命的是,這種基于自然語言的自由推理方式難以沉淀出可復用的結構化知識,導致模型每次面對新問題時都需要從零開始探索。

因此,現有方法雖然培養了模型強大的直覺能力,卻忽視了人類思維最本質的特征 —— 通過高層規劃將零散知識系統化的能力。

圖片CodePlan 在 5 類核心推理任務上取得顯著提升。Vaniila: 不使用規劃的基線方法;Natural Language Plan:基于自然語言的規劃方法。

二、CodePlan:為大模型裝載結構化思維引擎

面對大模型推理能力的瓶頸,研究團隊提出了 CodePlan 框架,其核心創新在于引入「代碼形式規劃」(Code-Form Planning)作為思維的中間表征。

這一創新建立在對推理結構的精確表達之上。通過將編程語言的嚴謹結構引入推理過程,CodePlan 為大模型構建了一個可靠的「思維操作系統」。這個系統通過兩個層次來實現思維的結構化:先用 Python 風格的偽代碼勾勒出高層次的推理框架;再基于這個框架,系統性地展開具體推理步驟。

如下圖所示,這種基于代碼的表達方式具有四大核心優勢:

  1. 條件分支能力:通過 if 語句動態調整推理路徑,實現靈活的上下文適應;
  2. 循環迭代結構:利用 for 循環高效處理序列數據和重復操作;
  3. 模塊化工具:通過函數定義和調用,增強模型對工具的創建和使用能力;
  4. 層次化架構:通過變量定義、子任務分解和嚴謹的邏輯編排,支持復雜推理任務的模塊化分解。

圖片

相比傳統的自然語言規劃,CodePlan 的優勢突出。Python 代碼不僅能夠以更簡潔的方式傳遞規劃信息,而且這種表達方式在預訓練語料中分布更廣,使模型在訓練階段就已經建立起對代碼結構的深層理解。

這種與生俱來的「代碼素養」讓模型能夠更自然地生成和理解規劃信息,大大降低了學習成本。更重要的是,這種規劃方式展現出驚人的通用性——從數學推理到指令理解,從符號運算到開放式問題,都能構建出清晰的代碼形式規劃表示。

三、廣泛提升模型推理能力

為驗證 CodePlan 的效果,研究團隊構建了一套高效的規劃信息自動挖掘方法。如下圖所示,該方法包含兩個關鍵創新:首先通過代碼預訓練模型精準解析文本中潛藏的推理結構,將其轉化為顯式的偽代碼表示;其次設計了基于啟發式評分的動態過濾機制,確保所提取規劃的質量。

基于這一方法,團隊成功構建了一個包含 200 萬個「< 用戶提示,代碼規劃,回復 >」三元組的大規模數據集。 

圖片

訓練數據構建流程。

實驗結果令人振奮。研究團隊以 Mistral 和 Llama 為基座模型,在跨越數學推理、符號運算、指令理解、多跳問答和決策等五大領域的 13 個具有挑戰性的基準測試中進行了系統評估。

結果顯示,相比于直接從用戶指令生成推理步驟的基線方法(Vanilla)和使用自然語言形式規劃的傳統方法(PS Prompting),CodePlan 在所有任務上都實現了顯著提升。特別是在復雜度較高的任務上,性能提升更為明顯。例如,在 Last Letter 任務上,Mistral-7B 的準確率提升了超過 20 個百分點,展示出 CodePlan 在處理高難度推理問題時的獨特優勢。 

圖片

圖片

1. 任務越復雜,提升越顯著

深入分析實驗結果揭示了 CodePlan 一個令人矚目的特性:隨著任務復雜度的提升,其性能優勢愈發顯著。研究團隊以多跳問答任務為例進行了精細化分析,通過將數據集按推理步數(2 跳、3 跳、4 跳)劃分,清晰地展示了這一規律。

圖片

多跳問答任務的性能對比

如上圖所示,在相對簡單的 2 跳問題上,CodePlan 相比基線模型已有穩定提升;而在需要三次以上推理跳轉的復雜問題中,性能差距急劇擴大。特別是在最具挑戰性的 4 跳問題上,CodePlan 的優勢達到最大,這充分說明其在處理深層次推理時的卓越能力。

這種「難者愈強」的特性,正是源于 CodePlan 的結構化推理框架。通過將復雜推理過程分解為清晰的代碼步驟,模型能夠更好地把控長程依賴關系,避免了傳統方法在多步推理中常見的邏輯斷裂和注意力發散問題。

2. 更高效、更穩定的后訓練

研究團隊在探索 CodePlan 的訓練特性時,發現了另一個重要優勢:它為大模型的后訓練提供了一條更高效、更可靠的路徑。

圖片CodePlan 的訓練曲線

如上圖所示,在 GSM8K 數學推理和 MuSiQue 多跳問答這兩個具有代表性的任務上,CodePlan 展現出顯著的訓練優勢。傳統的后訓練方法(藍線)在訓練過程中表現出明顯的性能波動。相比之下,CodePlan(橙線)不僅實現了更快的性能提升,更重要的是保持了穩定的上升趨勢。

這一現象揭示了 CodePlan 的核心優勢:通過引入結構化的代碼規劃作為中間表示,它成功建立了一個更加普適的學習框架。這個框架能夠有效降低不同任務之間的表達差異,使得模型可以更專注于學習本質的推理模式,從而實現知識的高效遷移和穩定積累。這不僅提高了訓練效率,更為大模型能力的持續進化提供了可靠保障。

3. 案例分析:化繁為簡的結構化思維

讓我們來看看「數值比較」(9.8 和 9.11 誰更大)和「字母計數」(統計 strawberry 中字母 r 的出現次數)這兩個看似簡單,卻常常難倒模型的問題。

圖片

如上表所示,CodePlan 通過引入代碼形式的規劃,優雅地解決了這些問題。與之形成鮮明對比的是,沒有規劃輔助的模型往往給出模糊或錯誤的答案。它們要么直接下結論,要么陷入冗長卻不準確的解釋中,反映出缺乏系統化思維方法的局限。

這個對比表明:CodePlan 不是簡單地告訴模型「該做什么」,而是教會模型「如何思考」。通過將復雜任務分解為清晰的代碼步驟,CodePlan 為模型提供了一個可靠的問題解決范式。

結語:開辟大模型結構化思維新思路

CodePlan 的提出為大模型推理能力發展提供了一個新思路。這項創新通過將代碼形式規劃引入推理過程,成功解決了自然語言表達中的結構化缺陷;更重要的是,它開創了一種全新的方法論,為大模型注入了系統化的問題解決能力。通過開源 200 萬條規劃數據,研究團隊為整個社區貢獻了資源。在此基礎上,期待在金融、醫療等高要求場景中有更多激動人心的應用突破。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-11-24 19:31:41

機器學習神經網絡人工智能

2025-06-26 09:06:59

2020-12-07 08:16:39

自然語言查詢數據庫數據庫查詢

2023-10-11 12:32:53

AI模型

2023-08-01 13:09:42

代碼開發

2025-01-10 10:30:00

大模型統計評估

2025-05-16 08:44:01

2020-12-24 10:00:12

PythonPython基礎阿姆斯特朗數

2025-06-09 09:32:35

2025-11-04 01:43:00

循環語言模型架構

2024-06-21 13:15:27

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-10-10 01:25:00

大模型訓練數據OpenAI

2013-07-16 10:08:51

MIT編程語言

2024-12-12 09:00:00

2023-08-07 08:41:45

自然語言模型因果推理

2025-11-04 02:22:00

AgenticAI多智能

2025-04-08 09:16:00

推理模型AI

2025-05-30 02:00:00

獎勵模型RRMAI

2021-03-25 16:01:11

編程語言CPU機器語言
點贊
收藏

51CTO技術棧公眾號

国产色播av在线| 国产日本精品视频| 国产在线观看91一区二区三区 | 亚洲国内精品在线| 日韩亚洲不卡在线| 一级做a爰片久久毛片16| 神马久久av| 欧美亚洲国产bt| 成人国产在线看| 欧美人体大胆444www| 精品一区二区三区在线观看 | 久久se精品一区二区| 欧美成人精品xxx| 韩国无码一区二区三区精品| 91久久久久久白丝白浆欲热蜜臀| 亚洲人一二三区| 久久综合给合久久狠狠色| 一级片在线免费观看视频| 激情综合自拍| 日韩三级成人av网| 中文字幕一区二区人妻在线不卡| 亚洲香蕉久久| 黄色91在线观看| 91视频国产一区| 国产福利拍拍拍| 亚洲欧洲中文字幕| 亚洲视频第一页| 中文字幕一区二区三区人妻在线视频 | 99a精品视频在线观看| 在线精品视频一区二区| 男女猛烈激情xx00免费视频| 国产调教视频在线观看| 国产午夜精品一区二区三区嫩草| 久久久久久久久久久久av| 中文字幕免费在线看线人动作大片| 最新精品在线| 91精品国产欧美一区二区| 中国一级黄色录像| 青青青草网站免费视频在线观看| 国产伦理一区| 欧美国产日韩视频| 欧美爱爱免费视频| 日韩免费视频| 怡红院精品视频| aaaaa级少妇高潮大片免费看| 综合激情网...| 欧美精品一卡两卡| 久久久久久三级| 国产玉足榨精视频在线观看| 热久久一区二区| 91地址最新发布| 全部毛片永久免费看| 国产一区二区中文| 久久综合伊人77777尤物| 亚洲成人精品在线播放| 动漫一区二区三区| 欧美精品一级二级三级| 一区二区三区网址| v天堂福利视频在线观看| 国产精品123| 亚洲自拍偷拍视频| 国产黄色片网站| 国产精一品亚洲二区在线视频| 国产美女精彩久久| 91激情在线观看| 极品少妇xxxx精品少妇偷拍| 国产综合香蕉五月婷在线| 亚洲一区二区人妻| 亚洲国产影院| 亚洲午夜久久久久久久| 男人午夜视频在线观看| **国产精品| 日韩欧美国产成人一区二区| 香蕉视频免费网站| 青青草这里只有精品| 欧美日韩精品三区| 日本高清一区二区视频| 欧美影院精品| 精品国产99国产精品| a级一a一级在线观看| 日韩aaa久久蜜桃av| 亚洲天堂色网站| 东京热无码av男人的天堂| 婷婷综合社区| 午夜精品视频网站| 无码人妻黑人中文字幕| 国产精品第十页| 7m精品福利视频导航| 中文字幕69页| 亚洲激情二区| 国产国语刺激对白av不卡| 一级片视频网站| 成人自拍视频在线| 欧美三级网色| 在线视频观看国产| 国产精品午夜久久| 欧美成熟毛茸茸复古| avav免费在线观看| 亚洲一区二区精品3399| 日本免费黄视频| 日日夜夜亚洲| 日韩大片免费观看视频播放| 精品一区二区6| 欧美日韩三级| 国产精品99久久久久久久久| 国内老熟妇对白hdxxxx| 成人高清视频免费观看| 亚洲一区二区三区涩| av男人的天堂在线观看| 欧美日韩国产欧美日美国产精品| 国产黑丝一区二区| 国产国产精品| 欧美孕妇性xx| 国产69精品久久久久久久久久 | 日韩在线不卡一区| 美腿丝袜亚洲图片| 久久伊人免费视频| 中文字幕 国产精品| 成人高清视频在线| www.69av| 亚洲狼人综合| 国产一区二区三区毛片| 日韩精品久久久久久久| 久久99最新地址| 欧美一二三区| 国产黄色在线| 偷偷要91色婷婷| 手机在线播放av| 成人羞羞动漫| 亚洲最大在线视频| a v视频在线观看| 国产成人精品亚洲日本在线桃色| 亚洲福利av在线| 二吊插入一穴一区二区| 欧美色图片你懂的| 少妇饥渴放荡91麻豆| 韩国久久久久| 成人av中文| 中文在线免费| 91精品欧美久久久久久动漫| 美国美女黄色片| 日韩黄色一级片| 国产精品久久久久av| 一区二区视频播放| 国产盗摄女厕一区二区三区 | 98在线视频| 在线看一区二区| 国产一区二区三区四区五区六区 | 欧美污在线观看| 亚洲久久久久| 成人性生交大片免费观看嘿嘿视频 | 久久久成人av毛片免费观看| 欧美三级中文字幕在线观看| 性猛交ⅹxxx富婆video | 性欧美1819| 日韩欧美视频| 成人激情视频在线播放| 日韩av中文| 91精品国产欧美一区二区18| 91aaa在线观看| 国产91高潮流白浆在线麻豆| 精品少妇人欧美激情在线观看| 日本不良网站在线观看| 在线视频欧美区| 中文字幕有码在线播放| 久久人人超碰| 亚洲欧美日本国产有色 | 欧美高清视频www夜色资源网| 国产一级淫片久久久片a级| 美女脱光内衣内裤视频久久影院| 亚洲欧美日本国产有色| 亚洲国产一区二区三区网站| 欧美极品xxxx| 日韩精品系列| 欧美日免费三级在线| 777777国产7777777| 国产成人免费在线视频| 国产午夜福利在线播放| 国产欧美日韩影院| 国产在线精品成人一区二区三区| 成人在线app| 精品久久五月天| 欧美精品韩国精品| 国产精品久久久久久久久免费桃花 | 日韩电影在线观看网站| 99热这里只有精品7| 91精品国产自产精品男人的天堂| 2020国产精品视频| 午夜视频成人| 亚洲国产精久久久久久久| 无码人妻丰满熟妇奶水区码| 亚洲欧美日韩国产手机在线| 波多野结衣视频播放| 麻豆精品一二三| 成人免费在线网| 日韩av专区| 国内成+人亚洲| 国产91在线精品| 久久久综合免费视频| 成人三级黄色免费网站| 日韩欧美一区在线观看| 天天干天天操天天爱| 亚洲人一二三区| 精品人妻无码一区二区三区换脸| 国产精品一区二区男女羞羞无遮挡| 国产精品免费入口| 在线一区电影| 日韩中文一区二区三区| 国产另类在线| 成人国产亚洲精品a区天堂华泰| 少妇视频一区| 欧美高跟鞋交xxxxhd| 成年人免费在线视频| 亚洲高清在线观看| 国产精品一区二区av白丝下载 | 亚洲国产成人久久综合| 中文字幕理论片| 婷婷六月综合网| 亚洲av无码一区二区三区在线| 久久久久久9999| 东京热av一区| 国内外成人在线| 日韩欧美在线免费观看视频| 亚洲国产裸拍裸体视频在线观看乱了中文 | 精品av一区二区| 韩国成人av| 亚洲精品在线播放| 国产一区二区在线免费| 美女福利一区二区| 91精品国产高清久久久久久91| av激情在线| 久久精品夜夜夜夜夜久久| 成人一区二区不卡免费| 亚洲乱码国产乱码精品精天堂| 亚洲国产精彩视频| 欧美一区二区免费视频| 国产精品老熟女视频一区二区| 91久久精品网| 中文字幕69页| 日韩欧美有码在线| av黄色在线看| 精品福利免费观看| 日本天堂网在线观看| 亚洲一区中文日韩| 久草网在线观看| 亚洲一二三四在线| 久久免费精彩视频| 亚洲综合999| 国产一级大片在线观看| 亚洲最大成人网4388xx| 麻豆影视在线播放| 亚洲一线二线三线久久久| 久久国产免费观看| 亚洲无人区一区| 亚洲天堂日韩av| 日韩欧美成人区| 免费看一级视频| 欧美伊人久久久久久久久影院| 久久午夜鲁丝片| 欧美午夜电影网| 国产又粗又大又黄| 欧美一区二区人人喊爽| 亚洲精品国偷拍自产在线观看蜜桃| 日韩欧美国产麻豆| 日本韩国免费观看| 亚洲精品国产精品国自产在线| 香蕉视频黄色片| 亚洲天堂第一页| 午夜在线免费观看视频| 久久亚洲精品一区二区| 欧美精品videossex少妇| 国产做受高潮69| 一级毛片久久久| 国产精品最新在线观看| 欧美久久一区二区三区| 国内精品久久国产| 欧美精品一区二区三区精品| 亚洲视频电影| 亚洲网址在线| 免费在线观看的毛片| 精品一区二区三区久久久| 香蕉久久久久久av成人| 久久久久久久久久久黄色 | 亚洲人成7777| 成年人免费看毛片| 欧美一a一片一级一片| 国产av无码专区亚洲av麻豆| 日韩精品一二三四区| 国产欧美第一页| 亚洲激情国产精品| av免费在线一区二区三区| 欧美人与性动交| 欧美男女交配| 亚洲中国色老太| 奇米亚洲欧美| 成人av在线播放观看| 乱人伦精品视频在线观看| 国产3p在线播放| 99re成人精品视频| 日韩一区二区不卡视频| 欧美日韩国产丝袜美女| 亚洲国产精一区二区三区性色| 一本色道久久加勒比精品| 国产裸体无遮挡| 亚洲欧洲自拍偷拍| 麻豆福利在线观看| 国产精品视频一区二区高潮| 岛国精品一区| 一本久道久久综合| 午夜亚洲视频| 亚洲妇女无套内射精| 国产精品久久国产精麻豆99网站| 日本三级免费看| 91麻豆精品国产91久久久资源速度| 天堂网www中文在线| 欧美精品日韩三级| 国产精品一区二区免费福利视频| 国产一区二区三区黄| 亚洲国产日韩欧美在线| 91av俱乐部| 91丨九色porny丨蝌蚪| 久久久精品国产sm调教| 欧美美女一区二区在线观看| 国产小视频免费在线观看| 久久久久久久久久国产| 国产视频网站一区二区三区| 水蜜桃一区二区三区| 久久成人免费| 你懂得在线视频| 亚洲高清在线精品| 成 人 免费 黄 色| 久久成人亚洲精品| 日韩黄色三级| 亚洲高清资源综合久久精品| 久久九九国产| 国产交换配乱淫视频免费| 亚洲成在线观看| 欧美一区二区公司| 欧美黄色片免费观看| 欧美一级大片在线视频| 熟女视频一区二区三区| 久久电影网电视剧免费观看| 亚洲图片第一页| 欧美男人的天堂一二区| 中文字幕日本在线观看| 国产精品久久久久久久久久99 | av不卡在线免费观看| 美腿丝袜亚洲三区| 久久精品三级视频| 欧美日韩美女一区二区| eeuss影院www在线播放| 国产精品天天狠天天看| 色小子综合网| 久久婷婷中文字幕| 亚洲欧美日韩系列| 亚洲AV无码一区二区三区性| 欧美日韩国产成人| caoporn成人| 毛片在线播放视频| 26uuu精品一区二区三区四区在线 26uuu精品一区二区在线观看 | 成人高清免费观看mv| 国产精品免费在线免费| 日韩国产一区| 女人扒开双腿让男人捅| 天天综合网 天天综合色| 四虎在线免费观看| 国产精品丝袜久久久久久不卡| 天天做天天爱天天爽综合网| 久久久久久无码精品人妻一区二区| 午夜激情一区二区| 国产尤物视频在线| 91视频8mav| 日韩午夜免费| 国产在线观看中文字幕| 有码一区二区三区| 手机看片1024国产| 国产精品精品视频| 欧美黄色一区| 男男做爰猛烈叫床爽爽小说 | 国产chinasex对白videos麻豆| 久久久久国产精品www| 日韩激情啪啪| 亚洲免费av一区| 亚洲国产精品精华液网站| 国产在线视频福利| 亚洲综合日韩在线| 午夜综合激情| 视频这里只有精品| 亚洲人成电影在线观看天堂色| av国产精品| 欧美日韩在线视频一区二区三区| 国产精品福利在线播放| 天堂网在线资源| 成人精品视频99在线观看免费| 亚洲人www| 欧美a级片免费看| 欧美日韩电影一区| 男人天堂亚洲天堂| 日韩啊v在线| 国产成人精品免费看|