強化學習之父給LLM判死刑!站隊LeCun:我們全搞錯了
在日前參加的一個訪談中,強化學習之父、圖靈獎得主Richard Sutton語出驚人:大語言模型(LLM)是一個錯誤的起點,是一條死胡同。

在Sutton看來,真正的智能源自經驗學習,通過行動、觀察與反饋持續修正行為,實現目標;相比之下,大語言模型的預測能力更多是對人類行為的模仿,它沒有獨立的目標,也無法對外部世界的變化產生真正意義上的驚訝和調整。
他認為,想要真正可擴展的智能,必須從經驗學習出發,而不是把大語言模型當作起點。
這一犀利的觀點,在如今人人追捧的大模型浪潮中,無疑是一劑清醒劑,促使我們從對模型「能力」的狂歡中跳脫出來,重新審視「智能」的本質與基礎。
此次Sutton與國外科技博Dwarkesh Patel的對話非常精彩,充滿了觀點碰撞。訪談內容包括以下7個部分:
- 大語言模型(LLMs)是死胡同嗎?
- 人類會進行模仿學習嗎?
- 經驗時代
- 現有架構在分布外泛化能力差
- AI領域的驚喜
- 「苦澀的教訓」在AGI之后仍然適用嗎?
- AI的接替

完整訪談詳見:https://www.dwarkesh.com/p/richard-sutton
學術頭條節選了該訪談的第一部分內容「Are LLMs a dead end?」,在不改變原文大意的前提下,做了一定的編輯。如下:
Dwarkesh Patel:Richard Sutton是強化學習的奠基人之一,也是許多主要技術的發明者,比如時序差分學習和策略梯度方法。憑借這些貢獻,他獲得了今年的圖靈獎——被譽為「計算機科學界的諾貝爾獎」。Richard,恭喜您。
Richard Sutton:謝謝你,Dwarkesh。
Dwarkesh Patel:我的第一個問題是:我和我的聽眾更多是從大語言模型(LLM)的角度來思考人工智能。那么,如果從強化學習(RL)的角度來理解AI,我們可能錯過了什么?
Richard Sutton:這確實是一個非常不同的視角。兩者很容易被割裂開來,失去相互對話的能力。大語言模型如今非常火,生成式AI整體也成了熱門話題。可我們的領域往往容易被潮流帶偏,從而忽視最根本的問題。而我認為,強化學習才是真正的基礎AI。
什么是智能?歸根到底,是對你所處世界的理解。強化學習關注的就是理解世界,而大語言模型更多是在模仿人類,按人類的指令去做。它們并不是在思考「應該做什么」。
Dwarkesh Patel:你可能會認為,要想模仿互聯網上數萬億的文本token,你必須先建立一個世界模型。事實上,這些模型似乎確實展現出了強大的世界建模能力。它們是我們在AI領域迄今為止創造的最好的世界模型,對吧?您認為還缺少什么?
Richard Sutton:我不同意你剛才說的大部分內容。模仿人類語言,并不等于在建立世界模型。那只是在模仿那些擁有世界模型的人類。我并不是想采取對抗的立場,但我想質疑「大語言模型具備世界模型」這個觀點。一個真正的世界模型,應該能預測未來會發生什么。大語言模型能預測某個人會說什么,但沒法預測世界上會發生什么。
借用Alan Turing的話來說,我們真正想要的,是一臺能從經驗中學習的機器。而「經驗」,就是你實際生活中遭遇的事情:你采取行動,觀察結果,并從中學習。而大語言模型學到的卻是另一種模式:給定一個情境,它們學習某個人會怎么做,并隱含地暗示你應該照著那個人的做法去做。
Dwarkesh Patel:不知道您是否認同,我想關鍵點或許在于,有人認為模仿學習能夠為模型提供一種先驗知識,讓它們在進入您所謂的「經驗時代」之前,就已經具備一種合理的解決問題的能力。這樣一來,它們就能在一些情況下給出正確答案,而后續的經驗學習也可以建立在這個基礎上。您認同這種看法嗎?
Richard Sutton:不。我理解這是從大語言模型出發的觀點,但我不認為這是一個好觀點。要成為某事的先驗,必須有一個真實的東西存在。先驗知識應該是實際知識的基礎。什么是實際知識?在大語言模型中,沒有對實際知識的定義。是什么讓一個動作成為一個好的動作?
真正重要的是持續學習。「持續」意味著你必須在與世界的正常交互中不斷學習。而在正常的互動過程中,必須有某種方式來判斷什么是對的。
在大語言模型的設置中,是否存在判斷正確表達的方式?當你發出某種表達時,無法獲得關于正確表達的反饋,因為根本不存在對正確表達的定義。它們是沒有目標的。所以一句話和另一句話沒有對錯之分。沒有什么正確之說。
它沒有ground truth。如果沒有ground truth,就不可能有先驗知識,因為先驗知識本應是關于真相(truth)是什么的提示或初始信念。世間本無絕對真理,亦無絕對正確的言論。在強化學習中,有正確的話語要說,有正確的動作要做,正確的事就是能夠獲得獎勵的事。
我們對正確的事是有定義的,因此可以預先掌握或通過他人獲取關于正確的事的知識。然后我們可以去驗證它,因為我們知道什么是真正正確的事。
舉一個簡單例子:當你嘗試建立世界模型時,你會預測會發生什么,然后觀察結果。這中間存在ground truth。但大語言模型沒有這種ground truth,它們沒法預測接下來真實會發生什么。
比如在一場對話中,大語言模型回復了某句話,它無法預測對方會如何回應,或者回應什么。
Dwarkesh Patel:我認為它們可以。你直接問它們,「你預計用戶可能會有什么回應?」它們會給出一個預測。
Richard Sutton:不,那只是對問題的回答,而不是有意義的預測。它們不會對結果感到驚訝。即便事實和它們所謂的「預測」不符,它們也不會因為發生了意料之外的事情而改變。要學習到這一點,它們必須做出調整。
Dwarkesh Patel:這種能力在某些上下文中確實存在。例如,觀察一個模型進行「思維鏈」(CoT)是很有趣的。假設它正在嘗試解決一個數學問題。它會說:「好吧,我首先要用這種方法來解決這個問題。」它會把這個寫出來,然后說:「哦等等,我剛剛意識到這在概念上是解決問題的錯誤方法。我要用另一種方法重新開始。」
這種靈活性在上下文中是存在的,對吧?您是否另有想法,還是您只是認為需要將這種能力擴展到更大范圍?
Richard Sutton:我只是說,他們根本無法對接下來會發生什么做出任何有意義的預測。他們不會對后續發展感到意外。即使發生變故,他們也不會根據事態發展做出任何調整。
Dwarkesh Patel:這不就是「下一個token預測」(next token prediction)嗎?預測接下來會是什么,然后根據意外情況進行更新?
Richard Sutton:不一樣。下一個token預測的只是它們接下來要說什么,是一種輸出動作,而不是對外部世界的預測。
關鍵還是在于,它們缺乏目標。對我來說,擁有目標是智能的本質。如果一個系統能實現目標,那它就是智能的。我贊同John McCarthy的定義:智能就是達成目標的計算能力。沒有目標,它就只是一個行為系統,沒有特別之處,算不上智能。你同意大語言模型沒有目標嗎?
Dwarkesh Patel:不,它們有目標。
Richard Sutton:目標是什么?
Dwarkesh Patel:下一個token預測。
Richard Sutton:那不是一個目標。它不能改變世界。預測Token,本身不會對token產生影響。
Dwarkesh Patel:是的,我同意。它不是一個關于外部世界的目標。
Richard Sutton:所以,那不是實質性的目標。你不能說,一個只是靜靜預測并因預測準確而滿足的系統,是有目標的。
Dwarkesh Patel:我更想問的是,為什么您認為在大語言模型之上做強化學習不是一個可行的方向?畢竟我們已經能賦予這些模型解決復雜數學問題的目標。
例如, 它們已經能在國際數學奧林匹克競賽(IMO)上拿到金牌,這意味著它們確實在追求「正確解題」這個目標。為什么不能把這種能力擴展到其他領域呢?
Richard Sutton:數學問題是不同的。構建物理世界的模型,與在數學中演繹推理、計算結果,完全是兩回事。經驗世界必須通過交互去學習,需要從結果中得到反饋。而數學更偏向計算,更像是標準的規劃,目標比較清晰:找到證明。某種意義上,它們被賦予了「找到證明」的目標。
Dwarkesh Patel:您在2019年寫了一篇題為《慘痛的教訓》(The Bitter Lesson)的文章,這也許是AI歷史上最具影響力的文章。如今,人們正把它作為擴大大語言模型規模的依據,因為在他們看來,這是我們目前唯一能找到的可擴展方案,就是用海量算力去探索世界。有趣的是,您卻認為大語言模型并沒有真正吸取「苦澀的教訓」。
Richard Sutton:大語言模型是否是「苦澀的教訓」的一個案例,這是一個有趣的問題。它們顯然是一種利用大規模計算的方法,這種計算可以隨著互聯網數據的極限擴展。但它們也是一種融入大量人類知識的方式。這確實是個值得探討的問題——既涉及社會學層面,也關乎產業未來。它們是否會觸及數據極限,最終被那些僅憑經驗而非人類知識就能獲取更多數據的新事物所取代?
在某些方面,這正是「苦澀的教訓」的典型案例。我們向大語言模型輸入的人類知識越多,它們的表現就越出色。這令人欣慰。然而,我期望會出現能夠從經驗中學習的系統。這種系統可以表現得更好,也更具可擴展性。那時,人類知識驅動的系統終將被純粹依靠經驗與計算訓練的系統所取代——這又將成為「苦澀的教訓」的另一例證。
Dwarkesh Patel:在我看來,這好像不是核心分歧。我認為那些人也認同,未來絕大多數的計算將來自從經驗中學習。他們只是認為,支撐這種學習的基礎架構——即為實現未來經驗學習或在職學習而注入計算能力的起點——將是大語言模型。我還是不明白,為什么這根本就是錯誤的起點,為什么我們需要一個全新的架構來開始進行經驗上的、持續的學習?為什么我們不能從大語言模型開始做這件事呢?
Richard Sutton:在每一個「苦澀的教訓」的案例中,你都可以先從人類知識入手,然后再去做那些可擴展的事情。理論上,這并不算錯誤。但實踐中,它幾乎總是行不通。因為人們會被困在人類知識驅動的方法中,很難跳出來。最終,這些方法總會被真正可擴展的途徑超越。
Dwarkesh Patel:那么,真正可擴展的方法是什么?
Richard Sutton:就是從經驗中學習。嘗試各種做法,觀察哪些有效。不需要有人告訴你。前提是,有一個目標,沒有目標,就沒有對錯或好壞之分,而大語言模型試圖在沒有目標或優劣判斷的情況下運作。這就是一個錯誤的起點。



































