斯坦福大學CS25：大語言模型推理（Reasoning）

chengganfei

發布于 2025-6-4 06:52

瀏覽

0收藏

?核心觀點

1. 大語言模型推理的定義

常規觀點：大語言模型（LLM）的推理被視為類似人類的高級能力，定義模糊，常引發爭論。

Zhou的觀點：推理爭論因缺乏明確定義而無意義；Zhou將推理定義為輸入與輸出之間的中間Token（推理步驟），僅是模型輸出的可預測行為，而非神秘過程。

2. 預訓練模型的推理能力

常規觀點：預訓練模型需通過思維鏈（CoT）提示或微調才能具備推理能力。

Zhou的觀點：預訓練模型已具備推理能力，推理路徑存在于輸出空間中；問題在于解碼方式，例如通過探索更多候選而非貪心解碼即可挖掘推理，無需額外提示或微調。

3. 思維鏈提示的作用

常規觀點：思維鏈提示通過教模型逐步思考來啟用或增強推理能力。

Zhou的觀點：思維鏈提示不增加推理能力，而是重塑輸出分布，將已存在的含推理步驟的響應提升至首位，使貪心解碼可直接選擇，屬于解碼優化而非能力增強。

4. 機器生成數據優于人類數據

常規觀點：人類標注數據是微調模型的最佳選擇，尤其適用于復雜推理任務。

Zhou的觀點：在迭代微調中，機器生成的數據優于人類數據，因其分布更貼近訓練目標，直接優化輸出質量（如數學問題的正確性），符合機器學習第一原理。

5. 推理擴展的方向

常規觀點：提升推理能力主要靠擴大模型規模（如參數數量）。

Zhou的觀點：理論表明，固定大小的Transformer模型通過生成足夠長的思維鏈（中間Token）即可解決布爾電路問題，擴展推理步驟長度而非模型規模是關鍵方向。

6. 自一致性的適用條件

常規觀點：自一致性（Self-Consistency）是一種通用技術，通過多次采樣并選擇最常見答案提升模型可靠性。

Zhou的觀點：自一致性僅在模型生成中間推理步驟時有用，通過對推理路徑的概率邊緣化選擇最可能答案；若直接輸出答案，只需查看模型概率，無需自一致性。

7. 推理無需依賴搜索

常規觀點：推理任務（如數學或邏輯問題）依賴類似經典AI的窮舉搜索。

Zhou的觀點：LLM推理從Token到Token的預測中涌現，無需顯式搜索；學習是可擴展的核心，搜索僅作為輔助工具而非推理本質。

8. 迭代微調的局限性

常規觀點：迭代微調是提升推理能力的通用方法，適用于大多數任務。

Zhou的觀點：迭代微調依賴自動驗證器，僅適用于可驗證任務（如數學），對不可自動驗證的任務（如創意寫作）效果有限，限制其通用性。

9. 驗證器的重要性

常規觀點：強化學習算法（如PPO）是提升推理能力的關鍵技術。

Zhou的觀點：驗證器是迭代微調和AI訓練的核心，遠超復雜算法的重要性；可靠驗證器決定數據質量和模型性能，是AI成功的基石。

10. AGI時間表的懷疑

常規觀點：AI社區普遍樂觀，認為通用人工智能（AGI）可能在2-5年內實現。

Zhou的觀點：Zhou對AGI在短期內實現的說法持懷疑態度，認為當前方法有顯著局限，真正的挑戰是避免研究停滯而非過快達到AGI。

大語言模型推理（Reasoning）的定義

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

很高興看到大家已經認為LLM很強大。你們可能會好奇，我對LLM是否能推理的看法是什么？我的答案是：這取決于推理（reasoning）的定義。今天我們將圍繞一個具體的推理定義展開討論。我從不參與關于LLM能否推理的爭論，因為沒有明確的推理定義，這些討論毫無意義。在LLM推理中，我們特指輸入與輸出之間的中間Token（intermediate tokens），這些Token被稱為推理或中間步驟。

這個概念并不新鮮。早在2017年，Deman發表了一篇論文，探討如何利用中間Token解決數學問題。當時，學術界對AlphaGo和AlphaZero的熱情高漲，但這篇論文極具開創性。如果你還沒讀過，我強烈推薦一讀。他們引入了自然語言來解決數學問題，而當時文獻中普遍采用符號方法或搜索。這在神經符號（neurosymbolic）研究中也很常見，通常使用中間過程來解決推理問題。

舉個例子說明LLM推理的用法。當我在Google Brain創立推理團隊時，我設計了一個任務：Last Letter Concatenation（末字母拼接）。這個任務作為激勵示例，可以用Transformer模型解決。例如，輸入“artificial intelligence”，輸出是將每個單詞末字母拼接的結果。如果沒有推理過程，模型可能直接輸出“LE”。但若有推理過程，模型會輸出：“‘artificial’的末字母是L，‘intelligence’的末字母是E，拼接L和E得到LE。”這里高亮的文本就是推理（reasoning），這就是我所說的推理。

如果你熟悉程序合成或神經符號推理，這個任務設計并不意外。我也嘗試過其他方案，比如拼接首字母，但所有大型模型都能輕松解決，因為網上有大量首字母拼接的例子，模型早已學會。但當我改為末字母拼接時，所有模型都失敗了。很多人會說：“這很自然，我們需要中間步驟，就像人類一樣。”如今LLM看似與人類很像，但作為研究者，我們要牢記：LLM只是預測模型（predictive models），不是人類。保持這個認知有助于理解許多新技術。

推理的理論基礎

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

為什么中間Token或推理重要？我們與斯坦福的Tima教授及其學生合作開展了理論研究。研究表明，對于任何可以用大小為\( T \)的布爾電路解決的問題，固定大小的Transformer模型通過生成\( O(T) \)個中間Token即可解決。這是一個強有力的結果。這里的“大小”指邏輯門的數量。例如，若使用GPU集群，\( T \)可能達到百萬、十億甚至萬億。如果直接生成最終答案，模型要么需要極深的網絡，要么根本無法解決問題。這就是我們從理論角度理解推理的依據，后續我會再回到這個理論論點。

解碼與思維鏈推理

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

有一種普遍觀點認為，預訓練模型（pre-trained models）若不經過CoT提示（Chain-of-Thought prompting）或微調（fine-tuning），無法進行推理。過去，大家熱衷于討論微調。這種觀點正確嗎？你們同意嗎？我認為這是錯誤的，非常錯誤。預訓練模型已經具備推理能力，我們需要的只是解碼（decoding），僅與解碼過程相關，無論那些技術看起來多么復雜。

舉個例子：我有三個蘋果，我爸比我多兩個蘋果，我們總共有多少個蘋果？如果你用預訓練模型（如LLaMA、DeepSeek或Chinchilla，我沒試過這些模型），輸入這個問題，模型很可能會輸出“5個蘋果”。顯然，這個答案是錯的。這是因為默認使用了貪心解碼（greedy decoding），問題出在解碼方式上。

如果查看第一個Token的第二候選（因為詞匯表很大），繼續解碼，你會看到：“我有三個蘋果，我爸比我多兩個蘋果，所以他有五個蘋果，3 + 5 = 8。”完美，對吧？我們只需探索更多候選。另一個選擇是第一個Token的第三候選“we”，解碼后得到：“我們總共有八個蘋果。”這也正確。第四候選可能是“you”，繼續解碼，依然能看到正確的CoT推理，最終答案正確。第五候選可能是“five”，那是錯誤的。

可以看到，推理路徑（reasoning path）已經存在于輸出空間（output space）中。特別是，第二和第四個回應基于CoT推理。問題在于如何選擇最佳回應。你可能認為可以根據輸出長度選擇，因為包含推理Token的輸出更長。但我們有更好的方法：根據答案置信度（answer confidence）選擇。置信度指模型預測Token的概率。對于包含CoT推理的回應，最終答案Token的置信度遠高于其他。例如，對于“8”這個Token，模型置信度接近98%，這在巨大詞匯表中非常高，通常每個Token的概率幾乎為零。

這個過程稱為Chain-of-Thought Decoding（思維鏈解碼），包含兩步：

1. 超越貪心解碼，檢查更多生成候選；

2. 選擇最終答案置信度最高的候選。

CoT解碼方法簡單，但仍需編程實現。聽說過去大家只想用自然語言，不寫代碼。當然，你們是例外。所以我們想：能否重塑模型的輸出分布，讓深思熟慮的回應自然排在首位？如果CoT回應排在首位，貪心解碼就能自然找到它。

思維鏈提示

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

現在來看CoT提示（Chain-of-Thought prompting）。如果你了解CoT提示，就能明白其工作原理。這是一個簡單方法。給定一個問題，你可能用一個相似問題作為示例，放在問題前，模型就會神奇地模仿推理風格，生成逐步解決方案。現在可以理解CoT提示為何有效：它改變輸出分布，將輸出空間中原有的CoT解決方案推到首位。

還有更簡單的方法：“Let's Think Step by Step”（讓我們一步步思考）。這在推理研究中是個驚艷的工作。論文發布時，我以為是玩笑，怎么可能？當時Google Brain團隊開發了PaLM模型，我在PaLM上試了這個方法。我知道PaLM的構建過程，絕對與這個“魔法”無關。但結果它竟然有效，我非常震驚。這篇論文極大啟發了我的推理研究。

這些提示方法簡單，且確實有效，但也有缺陷。CoT提示需要特定任務的示例，我對此不太滿意。如果我知道相似問題，我自己就能解決，為什么還要問別人？“Let's Think Step by Step”更通用，無需找相似示例，只需說“讓我們一步步思考”，魔法就出現了。但遺憾的是，其表現比少樣本提示（few-shot prompting）差得多。兩種方法看起來都不錯，但如果我問問題還得說“請一步步思考”，否則對方不會思考，這不符合預期。

監督微調

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

如何解決？一種流行方法是監督微調（Supervised Fine-Tuning, SFT）。思路簡單：收集一組問題及其人類標注的逐步解決方案，然后最大化人類解決方案的似然（likelihood）。對于LLM訓練，這只是最大化似然，之后模型可廣泛應用。

我提到2017年的Deman論文，他們正是這樣做的：收集數學字面問題及人類標注的逐步解決方案，訓練序列模型解決數學問題。2021年，OpenAI進一步擴展此方法，構建了更大的數據集GSM8K（小學數學問題），用它微調GPT-3模型。

舉例說明：可以用Last Letter Concatenation或蘋果數學問題作為訓練數據微調模型，然后用新問題測試，如“草莓里有多少小時？”我特意選這個問題，因為社交媒體上很多人認為這是測試AGI是否到來的好問題。

SFT是個通用的方法，一旦訓練好模型，就能廣泛應用。如果這能解決推理問題，我的講座到此結束——收集更多斯坦福的優秀示例，訓練模型即可。但實際上，SFT泛化能力不佳。2021年夏天，我們發現SFT在推理任務上表現不佳。怎么辦？擴展，擴展，再擴展——獲取更多數據訓練模型，看效果如何。教訓是：不要盲目擴展。一旦范式錯誤，無論如何擴展，都無效。

迭代微調與自我改進

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

如何解決SFT的泛化失敗？看看SFT流程：僅兩步。問題出在哪？出在人類數據上。如果你之前不知道，會很驚訝。如果人類數據有問題，Scale AI怎么賺錢？我團隊的一員發明了迭代微調（Iterative Fine-Tuning）。他告訴我，機器生成的數據可能比人類數據更適合訓練，我一開始非常驚訝。

首個嘗試稱為Self-Improve（自我改進）。不再從人類收集數據，而是讓模型生成數據。收集一組問題，讓模型生成逐步解決方案，然后最大化正確答案的似然。對于數學問題，你可能知道最終答案，但不知道逐步解決方案。模型生成解決方案后，檢查答案正確性：正確則選用，錯誤則丟棄。然后用此數據集微調模型，與SFT類似，唯一區別是數據來自模型而非人類。

這一方法由Eric、Tony和Noah提出，論文名為STAR，非常出色。STAR論文最初考慮用此方法節省標注成本，因為人類標注成本高。但后來我們從不同角度理解：一旦訓練數據由更優模型生成，模型就能自我改進。改進后，再次收集數據，重復此過程。這就是迭代微調。

我列了一篇2024年1月由BAAI研究者發表的論文，標題為“Reasoning with Reinforced Fine-Tuning”，這是我注意到的最早學術出版的迭代微調研究。在OpenAI流行后，大家開始公開討論迭代微調。我相信多家機構獨立發現了這個簡單但非常有效的想法。

在這個訓練循環中，驗證器（verifier）至關重要，用于判斷哪個回應正確。因為我們知道最終答案，只需用它選擇正確的推理路徑。可靠的驗證器是迭代微調的核心，而非算法。我知道很多人討論不同的算法，如PPO或強化學習的各種變體。如果有人發現顯著優于其他的方法，請告訴我，我可能錯過了什么。我很喜歡Richard Sutton的說法：“驗證：AI的關鍵”（Verification: The Key to AI），這是他2021年的文章標題。

為什么用模型生成的數據而非人類數據？不僅僅是為了節省成本，而是為了性能。有人有想法嗎？

觀眾：是CoT結構的連貫性，還是人類解決問題方式的多樣性？

Denny Zhou：模型生成的數據分布更接近訓練目標，訓練更有效。這與機器學習的第一原理相關：直接優化我們想要的目標。

推理優化的數學原理

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

若要構建推理或生成有趣內容的模型，需優化衡量生成質量的指標。指標因任務而異，例如數學問題的正確性、機器翻譯的BLEU分數或生成質量。有了指標，計算其梯度并進行反向傳播。數學上，我們定義一個函數\( R \)，給定問題和模型參數\( \theta \)，衡量回應質量。\( R \)可以是正確率、BLEU分數或任何目標。然后計算梯度，最大化指標的期望值。

為此，需通過采樣計算期望，這就是策略梯度（policy gradient）的由來。如果你理解數學原理，就沒啥神秘的。有人說要激勵模型思考或推理，我不用這些詞，我用標準的機器學習術語：定義指標，計算梯度，反向傳播。

一旦找到有效路徑，就需擴展方法。有趣的是，對于這種微調方法，我們擴展輸出長度或CoT長度。也可以擴展模型深度，因為分析表明，只要CoT足夠長，模型幾乎能解決所有可計算問題。這很驚人——無需擴展模型大小，只需最小固定大小的Transformer模型。

類人推理的涌現

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

我想強調LLM推理的美妙之處：類人推理過程從Token到Token的預測中涌現，而非依賴經典AI的窮舉搜索。Garry Kasparov在1997年輸給Deep Blue后說：“Deep Blue的智能就像程序化的鬧鐘。”我同意，但LLM推理不同，我們不做顯式搜索。講座前，有人引用了我的推文，說搜索已無關緊要，我很高興聽到這個。實際上，我用了你的代碼，發現搜索仍有用途。

舉個例子說明LLM推理與經典AI的區別。2024年12月，Google發布Gemini 2.0 Thinking Mode（思考模式）。雖然2.5 Pro更強大，但我選這個模型有原因。模型發布后，我試了一個2025年的數學問題，確保不在訓練集中：“用1到10的數字組成2025，每個數字用一次，僅用加法和乘法。”可以用Python寫窮舉搜索程序得到結果。看看模型的思考過程。

Gemini模型支持查看思考過程，非常有趣。一開始，模型說：“2025是個大數，暗示乘法占主導。”這很像人類思維。它注意到2025是45的平方（45 × 45）。我設計問題時沒意識到這點，這是重要線索。模型開始思考如何用乘法得到接近2025平方根（45）的大中間結果。思考過程很長，這正是我們微調時使用長CoT的原因。最終，模型給出答案：“(10 × 4 + 5) = 45，45 × 45 = 2025。”太棒了，無需任何搜索。

還有一篇關于CoT提示的論文，提到Game 24問題。這個問題比Game 24難得多。他們結合搜索和提示解決，但現在完全不需要，模型僅用自然語言就能解決Game 24。這就是迭代微調的強大之處。

我想再次引用Richard Sutton：“基于已有發現構建，只會讓發現過程更難看到。”他在加入Google DeepMind，看到AlphaGo和AlphaZero的成功后說，只有學習和搜索是可擴展的。但我強調：學習是可擴展的，我們只需學習。

迭代微調的局限性

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

迭代微調的巨大優勢是泛化能力強，但僅適用于可自動驗證的任務，因為訓練循環需要驗證器，無法納入人類驗證。并非所有任務都可自動驗證。有人能舉例說明不可驗證的任務嗎？

觀眾：創意寫作。

Denny Zhou：很好的例子。這是當前微調的重大限制。我知道很多人致力于改進RL算法。我希望看到更多研究解決不可驗證任務，如創意寫作或編碼。有人說AI幾年內會解決編碼問題，但我認為很具挑戰性。他們說的是競技編程，不是日常編程。我們關心設計、可讀性和協作，而不僅是最終答案。

自一致性與聚合

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

所有想法始于CoT解碼：推理路徑已存在于輸出空間，我們只需重塑輸出分布，讓貪心解碼找到它。然后討論了CoT提示和“Let's Think Step by Step”，它們重塑輸出分布，接著是SFT和迭代微調，非常強大。但我們仍有改進空間。

我想談兩個關鍵思路：聚合（aggregation）和檢索（retrieval）。我們看到LLM很強大，但生成推理Token然后輸出最終答案的解碼范式有問題。看起來很自然，對吧？給定問題，生成中間Token，然后是最終答案。有人看到問題嗎？

觀眾：挑戰在于模型預測下一個Token的方式，導致結果與預期不一致。

Denny Zhou：模型最初設計僅為預測下一個Token。我們要記住，LLM是預測模型，不是人類。

數學上，LLM解碼做什么？給定問題，生成推理，然后最終答案，通過貪心解碼找到回應。貪心解碼意味著最大化概率。但我們需選擇最自信的答案，二者不一致。簡單的條件概率數學很有用，理解解碼過程。我們可以修復：生成推理路徑后，需對所有推理路徑求和，計算最終答案的概率。這在機器學習中稱為邊緣化（marginalization），推理路徑本質上是隱變量。

這啟發了自一致性（self-consistency）方法：通過隨機采樣生成多個回應，選擇出現最頻繁的答案。例如，數學問題采樣多次，第一個回應可能是“18”，第二個“26”，再次“18”，選擇最頻繁的。這正是概率邊緣化的實現。我們不看推理路徑，只選最頻繁的答案，而非最頻繁的推理路徑，這是關鍵。

實證上，自一致性顯著提升性能。在GSM8K問題上，微調的GPT-3模型準確率33%，OpenAI用驗證器達到55%。PaLM模型加CoT得到58%，與驗證器相當。但應用自一致性后，準確率躍升至75%，相對提升近50%。PaLM 2甚至達到92%。o1模型（去年10月發布）通過聚合得到66.4%，自一致性仍有顯著提升。

采樣更多回應成本更高，但這是推理時擴展（inference-time scaling）的一種方式。推理時擴展有很多方式，如延長CoT也增加推理時間。有人說推理時擴展，我得知道具體擴展什么。自一致性顯然是一種擴展方式。

自一致性天然自校準（self-calibrated）。一致性越高，準確率越高。在GSM8K上，自一致性超80%時，準確率接近100%。關心預測不確定性或置信度的人可以多次采樣。

確保大家理解自一致性的關鍵：

1. 當LLM不生成中間步驟直接輸出答案時，我們多次采樣，選擇最常見答案。有人有想法嗎？

觀眾：可以直接獲取概率。

Denny Zhou：對，就像經典機器學習，用邏輯回歸得到\( P(y|x) \)，最大化概率。這就是傳統機器學習文獻中看不到自一致性的原因，它沒必要，僅對推理有用。

2. 可否改自一致性，讓LLM生成多個回應而非多次采樣，然后選最常見答案？可以試試。這稱為最大邊緣推理（maximum marginal inference），選擇概率最大的最終答案。數學是我們所需的一切。

自一致性有個問題：假設答案是單個Token。對于一般問題，答案可能不同。我們擴展為Universal Self-Consistency。例如，某問題第二個回應是“日本、中國、印度”，因這些國家在其他答案中出現最多，被選為最一致回應。

推理中的檢索

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

另一個方法是檢索。關于推理的爭論很多，有人說：“或許只是檢索，而非推理。”我在社交媒體上看到這些爭論。對我來說，區分檢索和推理很難。主持會議時，我們討論每篇論文的新穎性，與檢索-推理爭論類似。

觀眾：我試過并行運行不同模型，如Gemini 2.5，四個模型同時回答同一問題，然后用驗證器找最一致結果。

Denny Zhou：對，這更像集成模型（ensemble model），類似隨機森林。數學原理與自一致性不同，但實現類似。好觀點。

我不關心檢索與推理的爭論。我在工業界，只關心性能。對我來說，檢索加推理最好，何必爭論？2024年我們發表了關于類比推理（analogical reasoning）的論文。舉個小例子說明檢索在推理中的重要性：“求一個正方形四頂點的面積……”我加了提示：“回憶一個相關問題，然后解決這個問題。”當時我試了GPT-3.5和我們自己的模型，都失敗了。加了提示后，模型解決了。它找到相關問題——計算坐標平面兩點間的距離，然后用公式計算距離和面積。

另一個例子是物理問題的Step-Back（回退）。解決前，給予少樣本示例，指導模型回退，考慮更抽象的問題，獲取原理，然后解決。這就是檢索在推理中的作用。現在大家知道Deep Research（深度研究），原理相同。我們有Gemini Deep Research，OpenAI也有。OpenAI的Deep Research負責人是我之前的實習生，博士畢業后加入OpenAI，發明了Deep Research。基本思路簡單：找到相似問題或知識解決問題。

總結與未來方向

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

別糾結LLM能否推理的爭論。有推理總比沒推理好。迭代微調優于SFT。聚合多個答案優于單一答案，盡管成本更高。檢索加推理優于單獨推理。

未來突破，我想看到如何解決非唯一可驗證答案的任務。過去，我也希望看到人們構建真實應用，而非僅解決基準測試。我認為所有基準測試很快會飽和。你們對AGI或構建熱情高漲，我想引用Richard Feynman：“真相總是比你想的更簡單。”這在研究中尤其正確。我看到很多學術論文試圖復雜化，所以我盡量讓講座簡單——確實很簡單。就這樣。

斯坦福大學CS25：大語言模型推理（Reasoning）-AI.x社區

問答環節

觀眾：你提到置信度，通常是取輸出Token序列的平均對數概率。你認為有更好的方法嗎？這對幻覺（hallucination）是好指標嗎？

Denny Zhou：我說的置信度是指生成條件的概率。可以查看模型的log probs，看到概率。從實證觀察，推理路徑后，最終答案的置信度大幅提升。

觀眾：你提到Richard Sutton說擴展學習和搜索，但你認為擴展學習就夠了。能否展開為什么搜索不那么必要？

Denny Zhou：我得更具體。構建模型時，不必考慮搜索。模型建成后，搜索可作為工具使用的一種特例，如CoT提示整合符號搜索。對于推理研究，我關心基本能力。模型可寫Python程序用搜索解決問題，但推理過程無需搜索。

觀眾：若無推理，你說無需采樣，因為可查看logits。但如果最可能的下一個Token導致分布擴散，而較不可能的Token導致更尖銳分布，采樣不會收斂于不同分布嗎？

Denny Zhou：好問題。我們仍不清楚訓練中分布如何重塑，很不明確。很難回答，因為我們對最終分布缺乏好的解釋。

觀眾：如何區分推理和答案？需要從最終輸出字符串提取數字嗎？如果答案是程序怎么辦？

Denny Zhou：好問題。如果答案是程序，提取更難。所以人們用微調解決數學或競技編程問題。對于一般情況，需為最終答案寫小心解析器。如果問題很具挑戰，低置信度答案可能是正確的，自一致性不完美。

觀眾：考慮到AGI可能在2-5年內到來，若90%工作自動化，你會培養孩子哪些技能讓他們生存？

Denny Zhou：大問題。誰說AGI五年內到來？去年ICLR有人問AI風險，我說最可怕的是我回不去丟了工作。當前方法有很多限制。我真想看到AI研究的真正殺手級應用。AI模型擅長編程，是編碼的好助手，但我只知道這些。

本文轉載自????Andy730????，作者：常華?

標簽

大語言

模型推理

Reasoning

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

斯坦福大學CS25：大語言模型推理（Reasoning）

?核心觀點

1. 大語言模型推理的定義

2. 預訓練模型的推理能力

3. 思維鏈提示的作用

4. 機器生成數據優于人類數據

5. 推理擴展的方向

6. 自一致性的適用條件

7. 推理無需依賴搜索

8. 迭代微調的局限性

9. 驗證器的重要性

10. AGI時間表的懷疑

大語言模型推理（Reasoning）的定義

推理的理論基礎

解碼與思維鏈推理

思維鏈提示

監督微調

迭代微調與自我改進

推理優化的數學原理

類人推理的涌現

迭代微調的局限性

自一致性與聚合

推理中的檢索

總結與未來方向

問答環節

目錄