大模型如何推理?斯坦福CS25重要一課,DeepMind首席科學(xué)家主講
這可能是對于大語言模型(LLM)原理最清晰、易懂的解讀。
前段時(shí)間,Google DeepMind 的首席科學(xué)家兼研究總監(jiān) Denny Zhou 在斯坦福大學(xué)的 CS25 課程中,分享了大語言模型推理的深刻洞見。
作為人工智能領(lǐng)域的領(lǐng)軍人物,Denny Zhou 通過這場講座對 LLM 推理機(jī)制及其優(yōu)化方法進(jìn)行了系統(tǒng)闡述,揭示了大模型推理的核心原理和最新進(jìn)展。
Denny Zhou 總結(jié)了四個(gè)關(guān)鍵點(diǎn):
- LLM 中的推理僅僅意味著在得出最終答案之前生成一系列中間 token,這是否與人類推理相似并不重要,關(guān)鍵在于,Transformer 模型通過生成許多中間 token,可以變得極其強(qiáng)大,而無需擴(kuò)展模型的大小。
- 預(yù)訓(xùn)練模型即使未經(jīng)任何微調(diào),也具備推理能力。挑戰(zhàn)在于,基于推理的輸出往往不會(huì)出現(xiàn)在輸出分布的頂部,因此標(biāo)準(zhǔn)貪婪解碼無法將它們呈現(xiàn)出來。
- 提示技巧(例如思維鏈提示或「讓我們一步一步思考」)和監(jiān)督式微調(diào)曾是引發(fā)推理的常用方法,現(xiàn)在強(qiáng)化學(xué)習(xí)微調(diào)已成為最強(qiáng)大的方法,這一技巧被多個(gè)實(shí)驗(yàn)室獨(dú)立發(fā)現(xiàn)。在谷歌,這要?dú)w功于團(tuán)隊(duì)成員 Jonathan Lai,基于理論,擴(kuò)展強(qiáng)化學(xué)習(xí)應(yīng)該專注于生成長響應(yīng),而不是其他目標(biāo)。
- 通過生成多個(gè)響應(yīng)然后將它們聚合起來,而不是依賴于單個(gè)響應(yīng),可以極大地提高 LLM 推理能力。
Denny Zhou 不僅是 Google DeepMind 的頂尖科學(xué)家,還曾在 Google Brain 創(chuàng)立并領(lǐng)導(dǎo)了推理團(tuán)隊(duì)(Reasoning Team),現(xiàn)在該團(tuán)隊(duì)是 DeepMind 的一部分,專注于開發(fā)具備推理能力的大語言模型,以推動(dòng)人工智能通用智能的發(fā)展。

他的研究聚焦于鏈?zhǔn)剿伎继崾荆╟hain-of-thought prompting)、自一致性(self-consistency)和 LLM 優(yōu)化等領(lǐng)域,在 Google Scholar 上累計(jì)獲得超過 83,000 次引用,對機(jī)器學(xué)習(xí)和 AI 領(lǐng)域貢獻(xiàn)顯著。
此外,他還共同創(chuàng)辦了語言建模大會(huì)(CoLM),并擔(dān)任 2024 年大會(huì)的總主席,曾榮獲 2022 年 Google Research Tech Impact Award 和 WSDM Test of Time Award,并在 KDD 2023 等活動(dòng)中發(fā)表主題演講。他常在斯坦福、哈佛等大學(xué)進(jìn)行邀請講座,分享關(guān)于 LLM 的觀點(diǎn)。
他參與教學(xué)的 CS25 《Transformers United V5》課程,目前已是斯坦福大學(xué)最熱門、最具研討性的課程之一,匯聚了 Geoffrey Hinton、Ashish Vaswani 和 Andrej Karpathy 等我們耳熟能詳?shù)?AI 頂尖研究人員。該課程在斯坦福大學(xué)內(nèi)外都廣受歡迎,YouTube 上的觀看次數(shù)更是高達(dá)數(shù)百萬。每個(gè)星期,人們在課上都會(huì)深入探討人工智能領(lǐng)域的最新突破,從 GPT 等大型語言模型到藝術(shù)、生物和機(jī)器人領(lǐng)域的應(yīng)用。
課程頁面:https://web.stanford.edu/class/cs25/
接下來,讓我們看看 AI 領(lǐng)域的頂級學(xué)者是如何解讀大模型「推理」這一至關(guān)重要的能力的。

如今,很多人都已經(jīng)相信大語言模型(LLM)是可以推理的了。實(shí)際上,我們還不知道這是否成立,這可能取決于對推理的定義。在這里,我們認(rèn)為推理是輸入問題 - 輸出答案之間的中間步驟(生成的 token)。

LLM 中的推理僅僅意味著在得出最終答案之前生成一系列中間 token,這是否類似于人類的推理并不重要,關(guān)鍵在于,Transformer 模型可以通過生成大量中間 token 而變得幾乎任意強(qiáng)大,而無需擴(kuò)展模型大小。
為什么中間 token 在推理中至關(guān)重要?
Denny 認(rèn)為,在推理中中間 token 的作用至關(guān)重要。他與斯坦福大學(xué)的 Tayma 教授及其學(xué)生合作,提出了一個(gè)理論:任何可以通過布爾電路解決的問題,都可以通過生成中間 token 來用恒定大小的 transformer 模型解決。
這個(gè)理論表明,邏輯電路的大小(即電路中邏輯門的數(shù)量)決定了解決問題的能力。比如,使用 GPU 集群時(shí),邏輯門的數(shù)量可能達(dá)到數(shù)千萬、數(shù)十億甚至數(shù)萬億。如果直接生成最終答案,可能需要極深的模型結(jié)構(gòu),甚至無法解決問題。而通過生成中間 token,模型就能以恒定大小的 transformer 架構(gòu)有效地解決問題。這種思路提供了一種從理論角度理解推理的方式。

推理過程的技術(shù)細(xì)節(jié)
關(guān)于推理的一個(gè)常見看法是,語言模型不能推理,除非進(jìn)行進(jìn)一步的提示工程,比如安全提示或候選答案的微調(diào),我同意這個(gè)觀點(diǎn)。我們可以簡單地認(rèn)為,語言模型已經(jīng)具備了推理能力,關(guān)鍵在于解碼過程。
舉個(gè)例子。這道簡單的數(shù)學(xué)問題:「我有 3 個(gè)蘋果,我爸爸比我多 2 個(gè)蘋果。我們一共有多少個(gè)蘋果?」如果你使用任何預(yù)訓(xùn)練模型,比如 Llama、DeepSeek 或 Qwen,直接輸入這個(gè)問題,模型可能會(huì)輸出「5 個(gè)蘋果」,這是錯(cuò)誤的。

這是因?yàn)槭褂昧恕肛澙方獯a」方法,模型直接輸出最可能的答案。但是,如果我們多考慮一些候選答案,而不是只選擇一個(gè)最可能的候選答案,模型就能產(chǎn)生一個(gè)更正確的答案,這就是「鏈?zhǔn)酵评斫獯a」的概念。
它包含兩個(gè)步驟:第一步,超越貪婪解碼,檢查更多的生成候選;第二步,選擇那些最終答案置信度更高的候選。

鏈?zhǔn)酵评斫獯a是一個(gè)非常簡單的方法,但它需要一些程序設(shè)計(jì)工作。我們還可以嘗試其他方法,如通過簡單的自然語言提示,直接指導(dǎo)模型進(jìn)行鏈?zhǔn)酵评恚@就是「鏈?zhǔn)剿季S提示」奏效的原因。通過這種方法,我們可以使推理過程自然地出現(xiàn)在輸出空間中,而不需要復(fù)雜的計(jì)算步驟。
這些提示方法確實(shí)非常簡單,而且效果也非常好,但我們也能看到一些問題,例如安全提示方法就需要任務(wù)特定的示例。而另一個(gè)方法叫做「逐步思考」,它是一個(gè)通用的方法。你不需要找到類似的示例,只需說「讓我們一步步思考」,然后奇跡般的結(jié)果就會(huì)出現(xiàn)。不過,它的表現(xiàn)比少量示例的提示差得多。
雖然這兩種方法看起來都不錯(cuò),但「逐步思考」方法有些怪。如果我問某人一個(gè)問題,然后要求他們跟我一步步思考,否則他們就無法繼續(xù)思考,這顯然不符合我們的期望。

現(xiàn)在有一種流行的方法:監(jiān)督微調(diào)(SFT)。
實(shí)際上思路非常簡單,我們可以從人工標(biāo)注者那里收集一系列問題及其逐步解決的方案,然后我們最大化人類解決方案的可能性,標(biāo)記一些實(shí)際上用于 LLM 訓(xùn)練的網(wǎng)絡(luò)代碼。在那之后,我們就可以在任何地方應(yīng)用這個(gè)模型。Denny Zhou 等人在 2017 年的一系列研究中展示了這種能力,他們收集了大量文字問題及人工標(biāo)注的解決方法。在 2021 年,這一方法被用來解決大規(guī)模問題,隨后 OpenAI 擴(kuò)展了這一方法。

這是簡單的工作原理示意:用一系列例子、問題和答案微調(diào)你的模型,然后就可以在新的問題上進(jìn)行測試了。比如這里就是眾多大模型難以回答的 strawberry 單詞里有多少個(gè) r 的問題。很多人一度認(rèn)為這個(gè)問題是用于測試 AGI 是否出現(xiàn)的「重大問題」。

SFT 實(shí)際上是一個(gè)通用的方法,如果這就能解決 AI 的推理問題,那事情就太簡單了,然而它的泛化能力是有限的。DeepMind 在 2021 年夏天意識到了這個(gè)問題,怎么辦?只有 Scaling,Scaling,Scaling,找到更多數(shù)據(jù)來進(jìn)行訓(xùn)練,看看效果如何。
但這里有個(gè)教訓(xùn),不要盲目擴(kuò)展規(guī)模,方向錯(cuò)了就什么也得不到。
如何解決 SFT 泛化失敗的問題?有兩個(gè)重要方面,首先是解決人類標(biāo)注錯(cuò)誤的問題。實(shí)際上谷歌一個(gè)發(fā)明 finetuning 研究的成員曾表示,他們發(fā)現(xiàn)機(jī)器生成的數(shù)據(jù)可能還要優(yōu)于人類構(gòu)建的數(shù)據(jù)。這是個(gè)有點(diǎn)反直覺的經(jīng)驗(yàn)。
讓 AI 實(shí)現(xiàn)自我提升
所以第一波嘗試被稱作自我提升,與其從人類那里生成、收集數(shù)據(jù),我們可以直接讓模型生成數(shù)據(jù)。所以收集問題的數(shù)據(jù)集,你的模型要逐步生成解決方案,然后再次最大化正確答案的可能性。
比如一個(gè)數(shù)學(xué)問題,你有問題和答案,讓大模型生成解決問題的步驟,依據(jù)是否獲得正確答案來選擇正確的步驟。這就是 Reject Sampling,這里唯一的區(qū)別在于數(shù)據(jù)來自于你的模型,而非人類。
該研究的論文即《STaR: Bootstrapping Reasoning With Reasoning》,其本意是減少昂貴的人工標(biāo)注成本。但從另一個(gè)角度來理解,一旦更好的模型生成了響應(yīng)或訓(xùn)練數(shù)據(jù),模型就可以自我改進(jìn)。

模型獲得了改進(jìn)之后,又該從哪里收集數(shù)據(jù)呢?我們可以重復(fù)這個(gè)過程。
我們注意到字節(jié)跳動(dòng)研究人員在 2024 年 1 月發(fā)在 arXiv 上的《ReFT: Reasoning with Reinforced Fine-Tuning》,這可能是 RL finetuning 的最早的學(xué)術(shù)出版物。甚至論文標(biāo)題都叫做《基于強(qiáng)化調(diào)優(yōu)的推理》。隨后,在 OpenAI 的 o1 公開之后,每個(gè)人都開始意識到要使用強(qiáng)化學(xué)習(xí)微調(diào)了。
可能有很多研究團(tuán)隊(duì)獨(dú)立意識到了這個(gè)方向。
強(qiáng)化學(xué)習(xí)先驅(qū) Rich Sutton 在《Verification, the key to AI》中曾提到,在 RL 微調(diào)中,可靠的驗(yàn)證器是最關(guān)鍵的,而非 RL 算法。
那么問題來了,除了效率問題以外,為什么機(jī)器生成的訓(xùn)練數(shù)據(jù)反而比人類的更好?

這與機(jī)器學(xué)習(xí)中的第一性原理相關(guān),即直接優(yōu)化我們想要的東西。如果我們想構(gòu)建一個(gè)用于推理的模型,或者只是一般地用于生成有趣的內(nèi)容,我們就需要優(yōu)化衡量生成質(zhì)量的指標(biāo)。一旦你有了一個(gè)度量標(biāo)準(zhǔn),我們所需要做的就是計(jì)算該度量標(biāo)準(zhǔn)的梯度并進(jìn)行反向傳播。
因此,假設(shè)模型是一個(gè)先驗(yàn)的模型,我們需要最大化該指標(biāo)的期望值。那么該怎么做呢?我們需要進(jìn)行采樣來計(jì)算期望值,這就是你得到策略梯度的原因。
這里沒有魔法(比如如何激勵(lì)你的模型進(jìn)行同步,激活多個(gè)位置),不需要那些詞匯,這里只使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)術(shù)語,定義你的指標(biāo),計(jì)算梯度并進(jìn)行反向傳播。

現(xiàn)在,這個(gè)方法運(yùn)行良好,那么就該 Scaling 了。朝哪個(gè)方向擴(kuò)展呢?粗略地考慮,似乎隨著 COT 的增長,一個(gè)模型可以解決所有的問題,這都不需要模型尺寸的增長,只需要最小的固定大小的遷移模型,這樣也沒關(guān)系。
所以你如果查閱早期文獻(xiàn)會(huì)發(fā)現(xiàn),人們認(rèn)為 RL finetuning 效果好于 SFT。

這里不得不說到 LLM 推理的美妙之處了。這個(gè)類似于人類的推理過程源自逐個(gè) token 的預(yù)測,而非像傳統(tǒng) AI 那樣依賴搜索排序。
舉個(gè)例子,2024 年 12 月,谷歌發(fā)布了 Gemini 2.0 思考模式,這里嘗試了一個(gè)訓(xùn)練集里沒有的問題。使用 1 到 10 的數(shù)字來組成 2025,并且明智地使用每個(gè)數(shù)字以及加法和乘法這兩種基本運(yùn)算。
右邊可以看到 Gemini 2.0 的思考過程,讓我們看看模型是如何進(jìn)行思考的。這不是通過搜索。你可以看到,在一開始,模型就表示這是一個(gè)相對較大的數(shù)字,這表明乘法運(yùn)算將大量涉及。這就像人類思考一樣。值得注意的是,2025 是 45 的平方,即 45 乘以 45。接著模型開始思考如何得到中間產(chǎn)物,使用乘法……
這就是模型訓(xùn)練如此強(qiáng)大的原因。

再次引用 Rich Sutton 在《苦澀的教訓(xùn)》中的話:Scaling 的發(fā)現(xiàn)只會(huì)讓我們更難看清發(fā)現(xiàn)過程是如何完成的。

看起來,Sutton 在看到 DeepMind 的 AlphaGo 和 AlphaZero 的成功之后,寫出了《苦澀的教訓(xùn)》。真正可擴(kuò)展的只有兩個(gè)過程,一個(gè)是學(xué)習(xí),另一個(gè)是搜索。在這里我只想強(qiáng)調(diào)一件事。學(xué)習(xí)是可擴(kuò)展的,我們只需要學(xué)習(xí)。
RL finetuning 的優(yōu)勢在于它的泛化很好,但并不是所有任務(wù)都是可以由機(jī)器自己進(jìn)行驗(yàn)證的,比如寫作,甚至代碼編程。
我們必須牢記,LLM 是進(jìn)行預(yù)測的模型,他們不是人類。
從數(shù)學(xué)角度來看,這意味著什么?我們來思考一下 LLM 的解碼過程。給定問題和生成器推理,然后輸出最終答案,接著是通過網(wǎng)格解碼關(guān)鍵找到的響應(yīng),那么關(guān)鍵點(diǎn)就是匹配概率。
對我們來說,需要選擇概率最大的答案。所以它們沒有對齊,我們只需要再進(jìn)一步。如果我們生成推理過程,我們應(yīng)該有一些整體推理過程來找出最終答案在機(jī)器學(xué)習(xí)方面的概率,這被稱為邊緣化。所有這些原因?qū)嶋H上本質(zhì)上都只是潛在變量。如果我們剛開始接觸機(jī)器學(xué)習(xí),實(shí)際上就會(huì)知道這個(gè)和可以通過采樣來計(jì)算。

因此,通過隨機(jī)抽樣生成多個(gè)響應(yīng),然后選擇出現(xiàn)頻率最高的答案。我們不看推理通過率,它只選擇最常見的答案,而不是最常見的任務(wù)通過率。這就是訣竅。這在實(shí)證中被稱為邊緣化。如果你采用這種方法,就會(huì)看到巨大的改進(jìn)。

另一種方法是檢索。我知道關(guān)于檢索推理有很多辯論,很多人說語言模型可能只是做檢索而不是推理,對我來說,實(shí)際上總是很難區(qū)分檢索和推理。

我每年都會(huì)參加幾乎每一場會(huì)議,每次我們都會(huì)討論每篇論文的新穎性。其實(shí),檢索和推理的辯論就像是類似的爭論。我看到過一個(gè)實(shí)驗(yàn),嘗試不同的模型并行運(yùn)行,這樣做可能會(huì)讓結(jié)果更混亂。比如,使用 4 個(gè)不同的模型回答同一個(gè)問題,最后再對比答案,挑選出最一致的結(jié)果。
如果從不同模型中生成回答,這更像是一種「模型組合」(model assembly)方法,通過多個(gè)模型的輸出進(jìn)行對比,選擇一個(gè)最佳答案,類似于隨機(jī)選擇。雖然數(shù)學(xué)原理不完全相同,但它們的實(shí)現(xiàn)方式是類似的。
關(guān)于檢索和推理的爭論,我個(gè)人并不太關(guān)注。我在工業(yè)界工作,更關(guān)注的是實(shí)際性能。對我來說,如果檢索能夠獲得 A + 級的答案,那為什么還要爭論是否屬于推理呢?所以,2024 年我們發(fā)布了一篇關(guān)于類比推理的論文。我可以用一個(gè)小例子來展示檢索在推理中的重要性。
考慮這樣一個(gè)問題:一個(gè)正方形的四個(gè)頂點(diǎn)的坐標(biāo)是…… 那么它的面積是多少?這個(gè)紅色高亮部分是我添加的提示:「回憶一個(gè)相關(guān)的問題,然后解決這個(gè)問題。」

當(dāng)時(shí),我嘗試了 GPT 3.5 和我們自己的模型,但它們在沒有提示的情況下無法解答這個(gè)問題。然而,添加了相關(guān)問題的提示后,模型就能解決這個(gè)問題了。
發(fā)生了什么呢?當(dāng)我告訴模型回憶相關(guān)問題時(shí),模型找到了一個(gè)相關(guān)但不同的問題。其實(shí),這是一個(gè)與當(dāng)前問題相關(guān)的問題,涉及計(jì)算坐標(biāo)平面上兩點(diǎn)之間的距離,并給出了公式。然后,模型說:「哦,我現(xiàn)在知道如何計(jì)算距離了,接著我就可以計(jì)算面積。」這個(gè)例子展示了檢索在推理中的重要性。
另一個(gè)例子是「后退一步」的方法。在解決問題之前,我們給模型提供了一些簡短的例子,讓它理解如何抽象化思考。例如,在解決實(shí)際問題之前,我們可以讓模型「后退一步」,思考更抽象的原則,然后再應(yīng)用到實(shí)際問題中。這就是檢索在推理中的作用。

我想現(xiàn)在大家都明白,深度學(xué)習(xí)研究(Deep Research)團(tuán)隊(duì)的理念也與此類似。我們有一個(gè)叫做「深度研究」的團(tuán)隊(duì),其中一位負(fù)責(zé)人曾是我的實(shí)習(xí)生。后來,他加入了 OPI 并發(fā)明了「深度研究」方法。你們看到的區(qū)別就在于,他們通過檢索相關(guān)問題或知識,幫助解決實(shí)際問題,基本思路其實(shí)非常簡單。
最后,Denny Zhou 進(jìn)行了總結(jié):其實(shí)大家不必再糾結(jié) AMS 是否能夠推理,至少在語言模型中,推理總是比沒有推理更好,Alpha 微調(diào)比 SFT(監(jiān)督微調(diào))更好,聚合多個(gè)答案比只選一個(gè)答案更好,當(dāng)然,這會(huì)更昂貴。而檢索和推理的結(jié)合比單純的推理要好得多。
image.png
對于未來的突破,Denny Zhou 表示,他非常期待看到如何解決那些超出唯一、可驗(yàn)證答案的任務(wù)。他認(rèn)為,基準(zhǔn)測試很快會(huì)趨于飽和,更多的研究應(yīng)該集中在構(gòu)建真正的應(yīng)用程序上,而不僅僅是解決學(xué)術(shù)性基準(zhǔn)測試問題。
image.png
Denny Zhou 引用了 Richard Feynman 的名言:「真理總是比你想象的更簡單。」他強(qiáng)調(diào),這句話對于機(jī)器學(xué)習(xí)研究尤其適用。很多學(xué)術(shù)論文過于復(fù)雜,但實(shí)際上,我們的研究可以保持簡潔明了。



































