AI 為什么突然會推理了?斯坦福最新課程揭秘背后三大核心技術 精華
你可能已經發現,現在的大語言模型(LLM)似乎越來越「聰明」了。你問它一個腦筋急轉彎,它不會直接猜錯,而是會一步步分析;你給它一道復雜的應用題,它也能像學生一樣,寫出詳細的解題步驟。
這種質變是如何發生的?AI 是如何從一個只會「背答案」的學渣,進化成一個懂得「舉一反三」的學霸的?
就在 2025 年 4 月,斯坦福大學的一堂 Transformers 課程上,來自 Google DeepMind 的科學家 Denny Zhou,為我們完整揭示了讓 LLM 實現強大推理能力的核心技術和思維變遷。這份內部課程材料,堪稱是理解當前 AI 推理能力的最佳指南。
核心觀點非常顛覆:大模型天生就具備推理能力,只是我們以前「問」錯了方法。
核心一:推理的本質——生成「中間步驟」
我們首先要理解,什么是 LLM 的「推理」?
很簡單,它不是直接從「問題」跳到「答案」,而是在這之間,生成一系列中間步驟或思考過程。
舉個例子,你問 AI:「"artificial intelligence" 這兩個詞,每個單詞的末尾字母拼起來是什么?」
- 沒有推理的 AI 會直接回答:?
?le??。它可能是猜的,也可能是在龐大的數據庫里見過類似的問題。但你不知道它怎么想的,錯了你也不知道錯在哪。 - 會推理的 AI 會這樣回答:
??"artificial"??? 的最后一個字母是??l??。
??"intelligence"??? 的最后一個字母是??e??。
把??l??? 和??e?? 拼起來,就是??le??。
這個「思考過程」,就是推理。它為什么如此重要?因為理論已經證明,對于任何一個復雜的問題,只要允許 AI 生成足夠多的中間步驟(也就是增加輸出的長度),即便是小模型也能解決。反之,如果強迫它直接給出答案,要么需要一個巨大無比的模型,要么就根本解決不了。
這就好比做一道復雜的數學題,讓你心算出答案很難,但給你一張草稿紙,讓你一步步寫下來,就簡單多了。這些中間步驟,就是 AI 的「草稿紙」。
核心二:如何「喚醒」AI 的推理能力?從外部引導到內部訓練
過去有一個普遍的誤解:認為預訓練好的 LLM 無法進行推理,必須經過特殊的微調或復雜的提示(Prompting)才行。
課程指出:這是錯的!
預訓練 LLM 已經準備好進行推理了。我們需要的,只是改變「解碼」策略,也就是改變我們從模型中獲取答案的方式。
方法 1:解碼策略 - 更聰明的「問」法
1. 思維鏈解碼 (Chain-of-Thought Decoding)
這是最直接有效的方法。當我們向模型提問時,不要滿足于它給出的第一個、最快的答案(這叫「貪心解碼」Greedy Decoding),因為這個答案很可能是未經思考的「直覺反應」。
正確的做法是,讓模型生成多個可能的回答,然后我們挑選出那個包含推理過程、并且對最終答案最自信的回答。
比如問:「我有 3 個蘋果,我爸爸比我多 2 個,我們一共幾個?」。
- 貪心解碼可能直接輸出:?
?5個?? (錯誤)。 - 多個候選答案中可能包含:?
?你有3個蘋果,你爸爸比你多2個,所以他有5個蘋果。3+5=8。我們一共有8個蘋果。?? (正確)。
通過對比,我們就能選出那個真正「思考」過的答案。
2. 自我一致性 (Self-Consistency) - AI 版的「少數服從多數」
這個技巧堪稱「大力出奇跡」,但效果驚人。它的核心思想是:讓模型用多種不同的思路(隨機抽樣)去解決同一個問題,然后選擇出現頻率最高的那個答案。
這就像請一群專家解決問題,他們可能過程各不相同,但如果大多數人都得出了同一個結論,那么這個結論大概率是正確的。
一個關鍵點是:我們投票的是最終答案,而不是推理路徑。比如一個問題,模型生成了 3 個回答:
- 回答 1:16 - 3 - 4 = 9,所以賺 $18。
- 回答 2:(16 - 4 - 3) * 2 = $18 (計算有誤,但答案碰巧正確)。
- 回答 3:16 - 3 = 13,13 - 4 = 9,所以賺 $18。
雖然推理過程不同,但最終答案「18」出現了兩次,我們就選它。數據顯示,加入了自我一致性(SC)后,模型的準確率能獲得巨大提升。例如在 GSM8K 數學測試集上,PaLM 模型使用 CoT + SC 后,準確率從 58% 躍升至 75%,PaLM-2 更是達到了 92%。
一致性越高的答案,準確率也越高,這背后存在著強關聯。
方法 2:提示工程 (Prompting) - 在問題里加「引導語」
這是大家最熟悉的方法,主要有兩種:
- 少樣本思維鏈 (Few-shot CoT):在提問前,先給 AI 看幾個類似問題的解題范例。
- 零樣本思維鏈 (Zero-shot CoT):在問題的結尾,加上一句神奇的咒語,如「讓我們一步步思考」(Let's think step by step)。
這種方法簡單有效,但也有明顯的缺點:少樣本 CoT 需要針對不同任務精心設計范例,而零樣本 CoT 雖然通用,但效果要差很多。課程的作者甚至吐槽:這種方式在現實中很怪,你問別人問題時,會先說一堆范例,或者在結尾加一句「請一步步思考」嗎?當然不會!
方法 3:模型微調 - 把推理能力「內化」成直覺
相比于外部引導,更高級的方法是把推理能力直接訓練進模型里。
- 監督微調 (SFT - Supervised Finetuning):
- 做法:收集大量由人類標注好解題步驟的問題,然后讓模型學習這些「標準答案」。
- 優點:方法很通用。
- 缺點:泛化能力很差。模型只是在死記硬背,遇到沒有見過的題型就很容易出錯,即使增加再多的數據,效果提升也有限。
- 強化學習微調 (RL Finetuning) - 讓 AI 「自我進化」SFT 的失敗啟發了科學家們。他們回歸到機器學習的第一性原理:直接優化我們想要的東西!我們想要的不是模型能背誦人類的解法,而是它能自己找到正確答案的能力。于是,一種類似 AlphaGo 的「自我進化」方法誕生了:這種方法之所以比 SFT 效果好,因為它讓模型在自己的認知空間里探索,而不是強行模仿人類。正如 AI 先驅 Rich Sutton 所說:「我們想要的是能像我們一樣去發現的 AI,而不是一個只包含我們已有發現的 AI?!? RL 微調的優點是泛化能力強,但缺點是需要一個可靠的自動驗證器,而并非所有任務都能輕松驗證對錯。
步驟 1:
讓模型自己去生成大量問題的解題步驟。
步驟 2:
用一個「驗證器」(Verifier)來判斷哪些解法是正確的,哪些是錯誤的。
步驟 3:
用強化學習算法,獎勵那些能導出正確答案的推理路徑,懲罰那些錯誤的路徑。
重復這個過程
,模型就會像一個刷了無數套模擬題、并有標準答案訂正的學生,推理能力越來越強。
核心三:前沿技術展望——推理的未來是「檢索」與「抽象」
當模型掌握了基本的推理能力后,新的前沿方向是將推理與外部知識和更高維度的思考結合起來。
- 檢索 + 推理 (Retrieval + Reasoning):這就像開卷考試。在解決一個新問題時,先讓模型去知識庫里檢索一個相關的、已經解決的問題作為參考,然后再進行推理。這能極大提高模型處理復雜問題的能力,尤其是需要特定知識的領域。
- 退一步思考 (Step-Back Prompting):在直接回答一個復雜問題前,先引導模型「退一步」,思考這個問題背后依賴的基本原理或概念。
- 原始問題:理想氣體的溫度提高 2 倍,體積提高 8 倍,壓力會怎么變?
- 退一步思考的問題:這個問題背后的物理原理是什么?
- 回答:理想氣體定律 PV=nRT。
- 基于原理再推理:將新數值代入公式,最終得出壓力變為原來的 1/4。這種先抽象再推理的方式,能有效避免模型在復雜細節中迷失方向,顯著提高準確性。
總結:通往強大 AI 推理的四大法則
這堂來自斯坦福和 Google DeepMind 的課程,為我們勾勒出了一條清晰的路徑圖:
- 推理 > 無推理:鼓勵模型生成中間步驟,這是實現復雜問題求解的基礎。
- 強化學習微調 > 監督微調:讓模型自我探索和進化,比單純模仿人類的泛化能力更強。
- 多答案聚合 > 單一答案:利用「自我一致性」等方法,通過群體智慧大幅提升結果的可靠性。
- 檢索/抽象 + 推理 > 單純推理:結合外部知識和更高維度的思考,是通往更強大通用智能的關鍵。
AI 的推理能力并非憑空而來,而是科學家們遵循第一性原理,通過一系列精巧的解碼策略、訓練范式和提示技巧,一步步「喚醒」和「塑造」的結果。正如物理學家費曼所說:「真相,總是比你想象的更簡單。」 未來的突破,將在于如何解決那些沒有唯一標準答案的開放性問題,以及如何將這些強大的推理能力,真正應用到解決現實世界的具體問題中去。
本文轉載自????草臺AI????,作者:RangerEX

















