大模型如何推理？斯坦福CS25重要一課，DeepMind首席科學(xué)家主講

2025-08-18 08:58:00

作為人工智能領(lǐng)域的領(lǐng)軍人物，Denny Zhou 通過這場講座對 LLM 推理機(jī)制及其優(yōu)化方法進(jìn)行了系統(tǒng)闡述，揭示了大模型推理的核心原理和最新進(jìn)展。

這可能是對于大語言模型（LLM）原理最清晰、易懂的解讀。

前段時(shí)間，Google DeepMind 的首席科學(xué)家兼研究總監(jiān) Denny Zhou 在斯坦福大學(xué)的 CS25 課程中，分享了大語言模型推理的深刻洞見。

Denny Zhou 總結(jié)了四個(gè)關(guān)鍵點(diǎn)：

LLM 中的推理僅僅意味著在得出最終答案之前生成一系列中間 token，這是否與人類推理相似并不重要，關(guān)鍵在于，Transformer 模型通過生成許多中間 token，可以變得極其強(qiáng)大，而無需擴(kuò)展模型的大小。
預(yù)訓(xùn)練模型即使未經(jīng)任何微調(diào)，也具備推理能力。挑戰(zhàn)在于，基于推理的輸出往往不會(huì)出現(xiàn)在輸出分布的頂部，因此標(biāo)準(zhǔn)貪婪解碼無法將它們呈現(xiàn)出來。
提示技巧（例如思維鏈提示或「讓我們一步一步思考」）和監(jiān)督式微調(diào)曾是引發(fā)推理的常用方法，現(xiàn)在強(qiáng)化學(xué)習(xí)微調(diào)已成為最強(qiáng)大的方法，這一技巧被多個(gè)實(shí)驗(yàn)室獨(dú)立發(fā)現(xiàn)。在谷歌，這要?dú)w功于團(tuán)隊(duì)成員 Jonathan Lai，基于理論，擴(kuò)展強(qiáng)化學(xué)習(xí)應(yīng)該專注于生成長響應(yīng)，而不是其他目標(biāo)。
通過生成多個(gè)響應(yīng)然后將它們聚合起來，而不是依賴于單個(gè)響應(yīng)，可以極大地提高 LLM 推理能力。

Denny Zhou 不僅是 Google DeepMind 的頂尖科學(xué)家，還曾在 Google Brain 創(chuàng)立并領(lǐng)導(dǎo)了推理團(tuán)隊(duì)（Reasoning Team），現(xiàn)在該團(tuán)隊(duì)是 DeepMind 的一部分，專注于開發(fā)具備推理能力的大語言模型，以推動(dòng)人工智能通用智能的發(fā)展。

他的研究聚焦于鏈?zhǔn)剿伎继崾荆╟hain-of-thought prompting）、自一致性（self-consistency）和 LLM 優(yōu)化等領(lǐng)域，在 Google Scholar 上累計(jì)獲得超過 83,000 次引用，對機(jī)器學(xué)習(xí)和 AI 領(lǐng)域貢獻(xiàn)顯著。

此外，他還共同創(chuàng)辦了語言建模大會(huì)（CoLM），并擔(dān)任 2024 年大會(huì)的總主席，曾榮獲 2022 年 Google Research Tech Impact Award 和 WSDM Test of Time Award，并在 KDD 2023 等活動(dòng)中發(fā)表主題演講。他常在斯坦福、哈佛等大學(xué)進(jìn)行邀請講座，分享關(guān)于 LLM 的觀點(diǎn)。

他參與教學(xué)的 CS25 《Transformers United V5》課程，目前已是斯坦福大學(xué)最熱門、最具研討性的課程之一，匯聚了 Geoffrey Hinton、Ashish Vaswani 和 Andrej Karpathy 等我們耳熟能詳?shù)?AI 頂尖研究人員。該課程在斯坦福大學(xué)內(nèi)外都廣受歡迎，YouTube 上的觀看次數(shù)更是高達(dá)數(shù)百萬。每個(gè)星期，人們在課上都會(huì)深入探討人工智能領(lǐng)域的最新突破，從 GPT 等大型語言模型到藝術(shù)、生物和機(jī)器人領(lǐng)域的應(yīng)用。

課程頁面：https://web.stanford.edu/class/cs25/

接下來，讓我們看看 AI 領(lǐng)域的頂級學(xué)者是如何解讀大模型「推理」這一至關(guān)重要的能力的。

如今，很多人都已經(jīng)相信大語言模型（LLM）是可以推理的了。實(shí)際上，我們還不知道這是否成立，這可能取決于對推理的定義。在這里，我們認(rèn)為推理是輸入問題 - 輸出答案之間的中間步驟（生成的 token）。

LLM 中的推理僅僅意味著在得出最終答案之前生成一系列中間 token，這是否類似于人類的推理并不重要，關(guān)鍵在于，Transformer 模型可以通過生成大量中間 token 而變得幾乎任意強(qiáng)大，而無需擴(kuò)展模型大小。

為什么中間 token 在推理中至關(guān)重要？

Denny 認(rèn)為，在推理中中間 token 的作用至關(guān)重要。他與斯坦福大學(xué)的 Tayma 教授及其學(xué)生合作，提出了一個(gè)理論：任何可以通過布爾電路解決的問題，都可以通過生成中間 token 來用恒定大小的 transformer 模型解決。

這個(gè)理論表明，邏輯電路的大小（即電路中邏輯門的數(shù)量）決定了解決問題的能力。比如，使用 GPU 集群時(shí)，邏輯門的數(shù)量可能達(dá)到數(shù)千萬、數(shù)十億甚至數(shù)萬億。如果直接生成最終答案，可能需要極深的模型結(jié)構(gòu)，甚至無法解決問題。而通過生成中間 token，模型就能以恒定大小的 transformer 架構(gòu)有效地解決問題。這種思路提供了一種從理論角度理解推理的方式。

推理過程的技術(shù)細(xì)節(jié)

關(guān)于推理的一個(gè)常見看法是，語言模型不能推理，除非進(jìn)行進(jìn)一步的提示工程，比如安全提示或候選答案的微調(diào)，我同意這個(gè)觀點(diǎn)。我們可以簡單地認(rèn)為，語言模型已經(jīng)具備了推理能力，關(guān)鍵在于解碼過程。

舉個(gè)例子。這道簡單的數(shù)學(xué)問題：「我有 3 個(gè)蘋果，我爸爸比我多 2 個(gè)蘋果。我們一共有多少個(gè)蘋果？」如果你使用任何預(yù)訓(xùn)練模型，比如 Llama、DeepSeek 或 Qwen，直接輸入這個(gè)問題，模型可能會(huì)輸出「5 個(gè)蘋果」，這是錯(cuò)誤的。

這是因?yàn)槭褂昧恕肛澙方獯a」方法，模型直接輸出最可能的答案。但是，如果我們多考慮一些候選答案，而不是只選擇一個(gè)最可能的候選答案，模型就能產(chǎn)生一個(gè)更正確的答案，這就是「鏈?zhǔn)酵评斫獯a」的概念。

它包含兩個(gè)步驟：第一步，超越貪婪解碼，檢查更多的生成候選；第二步，選擇那些最終答案置信度更高的候選。

鏈?zhǔn)酵评斫獯a是一個(gè)非常簡單的方法，但它需要一些程序設(shè)計(jì)工作。我們還可以嘗試其他方法，如通過簡單的自然語言提示，直接指導(dǎo)模型進(jìn)行鏈?zhǔn)酵评恚@就是「鏈?zhǔn)剿季S提示」奏效的原因。通過這種方法，我們可以使推理過程自然地出現(xiàn)在輸出空間中，而不需要復(fù)雜的計(jì)算步驟。

這些提示方法確實(shí)非常簡單，而且效果也非常好，但我們也能看到一些問題，例如安全提示方法就需要任務(wù)特定的示例。而另一個(gè)方法叫做「逐步思考」，它是一個(gè)通用的方法。你不需要找到類似的示例，只需說「讓我們一步步思考」，然后奇跡般的結(jié)果就會(huì)出現(xiàn)。不過，它的表現(xiàn)比少量示例的提示差得多。

雖然這兩種方法看起來都不錯(cuò)，但「逐步思考」方法有些怪。如果我問某人一個(gè)問題，然后要求他們跟我一步步思考，否則他們就無法繼續(xù)思考，這顯然不符合我們的期望。

現(xiàn)在有一種流行的方法：監(jiān)督微調(diào)（SFT）。

實(shí)際上思路非常簡單，我們可以從人工標(biāo)注者那里收集一系列問題及其逐步解決的方案，然后我們最大化人類解決方案的可能性，標(biāo)記一些實(shí)際上用于 LLM 訓(xùn)練的網(wǎng)絡(luò)代碼。在那之后，我們就可以在任何地方應(yīng)用這個(gè)模型。Denny Zhou 等人在 2017 年的一系列研究中展示了這種能力，他們收集了大量文字問題及人工標(biāo)注的解決方法。在 2021 年，這一方法被用來解決大規(guī)模問題，隨后 OpenAI 擴(kuò)展了這一方法。

這是簡單的工作原理示意：用一系列例子、問題和答案微調(diào)你的模型，然后就可以在新的問題上進(jìn)行測試了。比如這里就是眾多大模型難以回答的 strawberry 單詞里有多少個(gè) r 的問題。很多人一度認(rèn)為這個(gè)問題是用于測試 AGI 是否出現(xiàn)的「重大問題」。

SFT 實(shí)際上是一個(gè)通用的方法，如果這就能解決 AI 的推理問題，那事情就太簡單了，然而它的泛化能力是有限的。DeepMind 在 2021 年夏天意識到了這個(gè)問題，怎么辦？只有 Scaling,Scaling,Scaling，找到更多數(shù)據(jù)來進(jìn)行訓(xùn)練，看看效果如何。

但這里有個(gè)教訓(xùn)，不要盲目擴(kuò)展規(guī)模，方向錯(cuò)了就什么也得不到。

如何解決 SFT 泛化失敗的問題？有兩個(gè)重要方面，首先是解決人類標(biāo)注錯(cuò)誤的問題。實(shí)際上谷歌一個(gè)發(fā)明 finetuning 研究的成員曾表示，他們發(fā)現(xiàn)機(jī)器生成的數(shù)據(jù)可能還要優(yōu)于人類構(gòu)建的數(shù)據(jù)。這是個(gè)有點(diǎn)反直覺的經(jīng)驗(yàn)。

讓 AI 實(shí)現(xiàn)自我提升

所以第一波嘗試被稱作自我提升，與其從人類那里生成、收集數(shù)據(jù)，我們可以直接讓模型生成數(shù)據(jù)。所以收集問題的數(shù)據(jù)集，你的模型要逐步生成解決方案，然后再次最大化正確答案的可能性。

比如一個(gè)數(shù)學(xué)問題，你有問題和答案，讓大模型生成解決問題的步驟，依據(jù)是否獲得正確答案來選擇正確的步驟。這就是 Reject Sampling，這里唯一的區(qū)別在于數(shù)據(jù)來自于你的模型，而非人類。

該研究的論文即《STaR: Bootstrapping Reasoning With Reasoning》，其本意是減少昂貴的人工標(biāo)注成本。但從另一個(gè)角度來理解，一旦更好的模型生成了響應(yīng)或訓(xùn)練數(shù)據(jù)，模型就可以自我改進(jìn)。

模型獲得了改進(jìn)之后，又該從哪里收集數(shù)據(jù)呢？我們可以重復(fù)這個(gè)過程。

我們注意到字節(jié)跳動(dòng)研究人員在 2024 年 1 月發(fā)在 arXiv 上的《ReFT: Reasoning with Reinforced Fine-Tuning》，這可能是 RL finetuning 的最早的學(xué)術(shù)出版物。甚至論文標(biāo)題都叫做《基于強(qiáng)化調(diào)優(yōu)的推理》。隨后，在 OpenAI 的 o1 公開之后，每個(gè)人都開始意識到要使用強(qiáng)化學(xué)習(xí)微調(diào)了。

可能有很多研究團(tuán)隊(duì)獨(dú)立意識到了這個(gè)方向。

強(qiáng)化學(xué)習(xí)先驅(qū) Rich Sutton 在《Verification, the key to AI》中曾提到，在 RL 微調(diào)中，可靠的驗(yàn)證器是最關(guān)鍵的，而非 RL 算法。

那么問題來了，除了效率問題以外，為什么機(jī)器生成的訓(xùn)練數(shù)據(jù)反而比人類的更好？

這與機(jī)器學(xué)習(xí)中的第一性原理相關(guān)，即直接優(yōu)化我們想要的東西。如果我們想構(gòu)建一個(gè)用于推理的模型，或者只是一般地用于生成有趣的內(nèi)容，我們就需要優(yōu)化衡量生成質(zhì)量的指標(biāo)。一旦你有了一個(gè)度量標(biāo)準(zhǔn)，我們所需要做的就是計(jì)算該度量標(biāo)準(zhǔn)的梯度并進(jìn)行反向傳播。

因此，假設(shè)模型是一個(gè)先驗(yàn)的模型，我們需要最大化該指標(biāo)的期望值。那么該怎么做呢？我們需要進(jìn)行采樣來計(jì)算期望值，這就是你得到策略梯度的原因。

這里沒有魔法（比如如何激勵(lì)你的模型進(jìn)行同步，激活多個(gè)位置），不需要那些詞匯，這里只使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)術(shù)語，定義你的指標(biāo)，計(jì)算梯度并進(jìn)行反向傳播。

現(xiàn)在，這個(gè)方法運(yùn)行良好，那么就該 Scaling 了。朝哪個(gè)方向擴(kuò)展呢？粗略地考慮，似乎隨著 COT 的增長，一個(gè)模型可以解決所有的問題，這都不需要模型尺寸的增長，只需要最小的固定大小的遷移模型，這樣也沒關(guān)系。

所以你如果查閱早期文獻(xiàn)會(huì)發(fā)現(xiàn)，人們認(rèn)為 RL finetuning 效果好于 SFT。

這里不得不說到 LLM 推理的美妙之處了。這個(gè)類似于人類的推理過程源自逐個(gè) token 的預(yù)測，而非像傳統(tǒng) AI 那樣依賴搜索排序。

舉個(gè)例子，2024 年 12 月，谷歌發(fā)布了 Gemini 2.0 思考模式，這里嘗試了一個(gè)訓(xùn)練集里沒有的問題。使用 1 到 10 的數(shù)字來組成 2025，并且明智地使用每個(gè)數(shù)字以及加法和乘法這兩種基本運(yùn)算。

右邊可以看到 Gemini 2.0 的思考過程，讓我們看看模型是如何進(jìn)行思考的。這不是通過搜索。你可以看到，在一開始，模型就表示這是一個(gè)相對較大的數(shù)字，這表明乘法運(yùn)算將大量涉及。這就像人類思考一樣。值得注意的是，2025 是 45 的平方，即 45 乘以 45。接著模型開始思考如何得到中間產(chǎn)物，使用乘法……

這就是模型訓(xùn)練如此強(qiáng)大的原因。

再次引用 Rich Sutton 在《苦澀的教訓(xùn)》中的話：Scaling 的發(fā)現(xiàn)只會(huì)讓我們更難看清發(fā)現(xiàn)過程是如何完成的。

看起來，Sutton 在看到 DeepMind 的 AlphaGo 和 AlphaZero 的成功之后，寫出了《苦澀的教訓(xùn)》。真正可擴(kuò)展的只有兩個(gè)過程，一個(gè)是學(xué)習(xí)，另一個(gè)是搜索。在這里我只想強(qiáng)調(diào)一件事。學(xué)習(xí)是可擴(kuò)展的，我們只需要學(xué)習(xí)。

RL finetuning 的優(yōu)勢在于它的泛化很好，但并不是所有任務(wù)都是可以由機(jī)器自己進(jìn)行驗(yàn)證的，比如寫作，甚至代碼編程。

我們必須牢記，LLM 是進(jìn)行預(yù)測的模型，他們不是人類。

從數(shù)學(xué)角度來看，這意味著什么？我們來思考一下 LLM 的解碼過程。給定問題和生成器推理，然后輸出最終答案，接著是通過網(wǎng)格解碼關(guān)鍵找到的響應(yīng)，那么關(guān)鍵點(diǎn)就是匹配概率。

對我們來說，需要選擇概率最大的答案。所以它們沒有對齊，我們只需要再進(jìn)一步。如果我們生成推理過程，我們應(yīng)該有一些整體推理過程來找出最終答案在機(jī)器學(xué)習(xí)方面的概率，這被稱為邊緣化。所有這些原因?qū)嶋H上本質(zhì)上都只是潛在變量。如果我們剛開始接觸機(jī)器學(xué)習(xí)，實(shí)際上就會(huì)知道這個(gè)和可以通過采樣來計(jì)算。

因此，通過隨機(jī)抽樣生成多個(gè)響應(yīng)，然后選擇出現(xiàn)頻率最高的答案。我們不看推理通過率，它只選擇最常見的答案，而不是最常見的任務(wù)通過率。這就是訣竅。這在實(shí)證中被稱為邊緣化。如果你采用這種方法，就會(huì)看到巨大的改進(jìn)。

另一種方法是檢索。我知道關(guān)于檢索推理有很多辯論，很多人說語言模型可能只是做檢索而不是推理，對我來說，實(shí)際上總是很難區(qū)分檢索和推理。

我每年都會(huì)參加幾乎每一場會(huì)議，每次我們都會(huì)討論每篇論文的新穎性。其實(shí)，檢索和推理的辯論就像是類似的爭論。我看到過一個(gè)實(shí)驗(yàn)，嘗試不同的模型并行運(yùn)行，這樣做可能會(huì)讓結(jié)果更混亂。比如，使用 4 個(gè)不同的模型回答同一個(gè)問題，最后再對比答案，挑選出最一致的結(jié)果。

如果從不同模型中生成回答，這更像是一種「模型組合」（model assembly）方法，通過多個(gè)模型的輸出進(jìn)行對比，選擇一個(gè)最佳答案，類似于隨機(jī)選擇。雖然數(shù)學(xué)原理不完全相同，但它們的實(shí)現(xiàn)方式是類似的。

關(guān)于檢索和推理的爭論，我個(gè)人并不太關(guān)注。我在工業(yè)界工作，更關(guān)注的是實(shí)際性能。對我來說，如果檢索能夠獲得 A + 級的答案，那為什么還要爭論是否屬于推理呢？所以，2024 年我們發(fā)布了一篇關(guān)于類比推理的論文。我可以用一個(gè)小例子來展示檢索在推理中的重要性。

考慮這樣一個(gè)問題：一個(gè)正方形的四個(gè)頂點(diǎn)的坐標(biāo)是…… 那么它的面積是多少？這個(gè)紅色高亮部分是我添加的提示：「回憶一個(gè)相關(guān)的問題，然后解決這個(gè)問題。」

當(dāng)時(shí)，我嘗試了 GPT 3.5 和我們自己的模型，但它們在沒有提示的情況下無法解答這個(gè)問題。然而，添加了相關(guān)問題的提示后，模型就能解決這個(gè)問題了。

發(fā)生了什么呢？當(dāng)我告訴模型回憶相關(guān)問題時(shí)，模型找到了一個(gè)相關(guān)但不同的問題。其實(shí)，這是一個(gè)與當(dāng)前問題相關(guān)的問題，涉及計(jì)算坐標(biāo)平面上兩點(diǎn)之間的距離，并給出了公式。然后，模型說：「哦，我現(xiàn)在知道如何計(jì)算距離了，接著我就可以計(jì)算面積。」這個(gè)例子展示了檢索在推理中的重要性。

另一個(gè)例子是「后退一步」的方法。在解決問題之前，我們給模型提供了一些簡短的例子，讓它理解如何抽象化思考。例如，在解決實(shí)際問題之前，我們可以讓模型「后退一步」，思考更抽象的原則，然后再應(yīng)用到實(shí)際問題中。這就是檢索在推理中的作用。

我想現(xiàn)在大家都明白，深度學(xué)習(xí)研究（Deep Research）團(tuán)隊(duì)的理念也與此類似。我們有一個(gè)叫做「深度研究」的團(tuán)隊(duì)，其中一位負(fù)責(zé)人曾是我的實(shí)習(xí)生。后來，他加入了 OPI 并發(fā)明了「深度研究」方法。你們看到的區(qū)別就在于，他們通過檢索相關(guān)問題或知識，幫助解決實(shí)際問題，基本思路其實(shí)非常簡單。

最后，Denny Zhou 進(jìn)行了總結(jié)：其實(shí)大家不必再糾結(jié) AMS 是否能夠推理，至少在語言模型中，推理總是比沒有推理更好，Alpha 微調(diào)比 SFT（監(jiān)督微調(diào)）更好，聚合多個(gè)答案比只選一個(gè)答案更好，當(dāng)然，這會(huì)更昂貴。而檢索和推理的結(jié)合比單純的推理要好得多。

image.png

對于未來的突破，Denny Zhou 表示，他非常期待看到如何解決那些超出唯一、可驗(yàn)證答案的任務(wù)。他認(rèn)為，基準(zhǔn)測試很快會(huì)趨于飽和，更多的研究應(yīng)該集中在構(gòu)建真正的應(yīng)用程序上，而不僅僅是解決學(xué)術(shù)性基準(zhǔn)測試問題。

image.png