Sutton判定「LLM是死胡同」后,新訪談揭示AI困境
在大模型圈子里,強化學習之父、圖靈獎得主 Rich Sutton 所著《苦澀的教訓(The Bitter Lesson)》已經成為圣經一般的存在。如果一個方法能夠隨著算力的增加而自然受益,大家就會覺得這個方法符合《苦澀的教訓》所傳達的精神,值得進一步研究。
多年以來,LLM 一直被視為《苦澀的教訓》的絕佳范例。但出人意料的是,Sutton 本人在前段時間的一次采訪中給這個想法潑了盆冷水,直言 LLM 是死胡同,不確定其是否真的符合《苦澀的教訓》。

Sutton 最近在 Dwarkesh Patel 的播客《The Dwarkesh Podcast》上的一次訪談。
Sutton 給出的理由是:LLM 存在重大缺陷,無法從持續的實際互動中學習。Sutton 心中設想的是一種完全不同的智能架構,而 LLM 的工作方式在很多方面都違背了他所堅持的原則。
Sutton 回溯到了圖靈最初提出的「兒童機器(child machine)」的概念,即一個能夠通過與世界動態交互、從經驗中學習的系統。在這種設想中,沒有那種先模仿整個互聯網網頁的大規模預訓練階段,也不存在后來的人為監督微調。他特別指出,監督微調在自然界中是不存在的。他還強調了另一點:即使你把預訓練看作是在強化學習之前的一種「先驗初始化」,這種方法依然被人類偏見污染,從根本方向上就是錯的。
在 Sutton 的世界觀中,智能的一切都來自于通過強化學習與環境的持續交互。獎勵函數部分由環境決定,但也包含內在動機, 比如好奇心、興趣、探索的樂趣等,這些都與智能體世界模型中預測的質量相關。在這種框架下,智能體在測試階段仍然持續學習,學習不是「一次訓練、永久部署」,而是一種默認持續進行的過程。
Sutton 的這些觀點引發了諸多爭議,他本人也參與了近期的一場新圓桌,進一步討論上述問題。

這場圓桌由投資機構 Intrepid Growth Partners 發起,其創始人兼合伙人 Ajay Agrawal 擔任主持,MIT 教授 Sendhil Mullainathan、應用人工智能科學家 Niamh Gavin、Nirvanic Consciousness Technologies 創始人兼 CEO Suzanne Gildert 也參與了討論。
這些專家碰撞出了許多有價值的觀點。以下是機器之心對播客內容的整理:
純粹的強化學習很難實現
主持人: Suzanne,我想問問您的看法,Rich 在那期播客中說的一句話,我好像也聽您說過,他說:「如果我們能造出與松鼠心智相當的東西,那我們基本上就成功了?!共タ偷闹鞒秩水敃r舉了登月這樣的例子,感覺人類登月和松鼠藏堅果之間差距巨大。但我知道,您的世界觀其實與 Rich 的更為接近。
Suzanne: 關于松鼠的問題,我認為構建一個松鼠那樣的心智,要比構建一個能通過我所說的「高級監督學習」來執行任務的系統難得多。因為我們目前所做的一切基本上都是監督學習,并沒有真正意義上的強化學習在發生。每當有人嘗試進行純粹的強化學習時,他們最終總是會回到模仿學習的道路上。
因為我相信,純粹的強化學習是極其困難或不可能實現的,因為我們無法定義通用的獎勵函數。因此,我認為在我們找到定義、獲取或創造通用獎勵函數的方法之前,我們無法最大限度地發揮強化學習的潛力。
而我理想中的那種能力是,你可以像對待一只松鼠那樣,把它放到一個新環境中,它就能自主地開始學習。你可以將任何智能體置于一個全新的環境中,它會自己開始學習。而我們今天的任何系統都做不到這一點。所以,這就是我們需要構建的系統與我們目前所認為的智能系統之間的區別。我們現有的系統非常聰明和智能,但如果你把它們放到一個從未見過的新場景或新用例中,它們無法學習。因此,關鍵在于「學習」這個部分,重要的不是它能做什么、它已經學會了什么,而是「它如何學習新事物」。
只有「利用」,沒有「探索」
主持人: 好的,我們先聽聽 Niamh 的看法,然后是 Sendhil,最后請 Rich 回應。Niamh,您可以隨意選擇任何您感興趣的話題進行展開。
Niamh:或許作為一名正身處這場技術浪潮中心的人,我可以快速地從頭到尾梳理一下各個流派的想法。我時常對一件事感到驚訝:硅谷本應是思想自由的家園,但有時卻表現出驚人的「派系化」傾向。而我個人更傾向于博采眾長,從各個流派中借鑒思想。
理想情況下,當我們構建這些模型時,我們當然希望它們能從第一性原理出發,通過自身經驗去發現和學習。但這存在一個「冷啟動問題」。因此,許多人選擇了一條捷徑,那就是直接吸收整個互聯網的數據。
這背后的原因有兩點:他們認為寫作是我們思維機制的良好體現,并且語言是區分我們與其他物種的關鍵元素。因此,它應該是一個足夠好的起點。
挑戰在于,我們在模型設計的每個環節上都走向了極端。例如,強化學習本應是「利用」與「探索」的良好結合。然而,我們所做的卻是在有限的經驗或內置的價值函數基礎上,進行純粹的「利用」。這導致的結果,正如 Suzanne 所說,更多的是模式識別,而非真正的理解;更多的是模仿,而非直覺思維。而自回歸機制本身,就像是神經網絡的順序展開,更像是一條通往激活狀態的序列化路徑,而不是一個可以隨時間微調、真正基于目標的目標函數。
所以我認為,我們中沒有人會覺得「一個大語言模型加上一個好的提示詞」就是人工智能的未來。理想情況下,我們都希望邁向那個難以捉摸的「通用近似器」—— 它具有泛化能力、能夠進行遷移學習,并擁有一個像 Suzanne 提到的通用獎勵函數。
現在,你已經開始看到這種轉變。人們逐漸意識到大語言模型的局限性或脆弱性,并嘗試創造更多持續學習的機制。至于這是否意味著回歸到貝葉斯方法,或是采用演化算法來實現跨越式發展,目前尚無定論。
其次,是關于數據本身的問題。數據不一定是有噪聲的,但它是否從我們真正關心的分布中采樣而來?它并非基于思維模式,而是基于寫作。而我們寫作時的思考方式,與我們在現實世界中的思考方式不盡相同。這就是為什么我們現在看到向嵌入式系統的突然轉變,它更趨向于一種「通過實踐來學習」的機制,更側重于價值函數而非獎勵函數,并且是一種更少基于規則、更具探索性的經驗獲取方式。
還有一派人認為,通用人工智能將通過復制大腦來實現。但我不太認同這個方向。我一直覺得,我們應該讓計算機去做它擅長而人類不擅長的事情,而不是一味模仿人類。我確實認為,在「缸中之腦」這個意義上,兩者存在根本性的底層機制差異:人工智能的計算架構是簡單的電子電路,而真實的生物系統是離子,它們速度慢,但效率極高。這就引出了一個問題:語言對于智能是基礎性的嗎?還是說智能僅僅是相互連接的網絡?也許我們只是需要新的理論圖景。
所有這一切的核心要素是,如果模型確實實現了這些巨大的飛躍 —— 這又回到了 Sendhil 的觀點 —— 我們確實需要某種「機制可解釋性」來剖析這些新設計,以理解它們是否可行以及是如何產生的。這有點像 AlphaGo 那著名的第 37 手,對吧?你如何從中追溯其思考路徑和因果效應?
關于如何建立追蹤機制和因果推斷這個問題,其實最后還涉及到費曼學派那種「無法構建就意味著不理解」的理念。確實,我們雖然構建了 CNN 處理視覺任務,用 LLM 處理語言任務,但對這些模型涌現特性的理解仍非常有限。這不禁讓人思考:這些工作到底有沒有幫助我們真正理解神經網絡?當下各種學術流派交匯之處正是思想摩擦的焦點,但在我看來,這些交叉領域才是最值得深耕的沃土。
苦澀教訓被極端化理解成了非此即彼的篩選機制 —— 要么全盤接受算力優先,要么完全否定。但復制 40 億年進化歷程是極其復雜的工程,僅完成果蠅連接組就耗費了我們數十年,更不用說松鼠級別的神經系統了?;蛟S我們該暫時放下傲慢,更多擁抱科學方法論與探索精神,而不是像拿著錘子逐詞處理那樣機械地推進。當然這些話題更期待 Rich 教授的深度見解,我不過是這個領域的過客與旁觀者。
只模仿最終表現是不夠的
Sendhil Mullainathan:Richard,我發現你轉發的一條推文很有意思。雖然你原推文提到斑胸草雀(說實話我之前根本不認識這種鳥),不過我可以引用 Chris 轉評的內容。他指出你的核心觀點是:當人類進行模仿時,我們模仿的是最終表現,但必須自行探索實現過程 —— 這個洞見簡直直擊問題本質。網上可能很多人沒能理解這個精微區別,這完全可以理解,因為其中的確充滿微妙之處。

關鍵在于探索過程這個動詞。我們與世界的聯系始終停留在表層:聽到斑胸草雀的鳴叫,看到他人完成代數證明,這些都只是表象。我們無法直接觀測到內在機制:鳥類如何調動鳴肌,解題者如何構思證明步驟。即使是在高階認知活動中,當有人向我們解釋某事時,那仍然只是表層信息。我們始終需要動用自身認知系統去探尋:在物理層面這些結果究竟是如何產生的?
這個認知邏輯非常清晰。就像聽到鳥鳴后想要模仿,我們不可能知曉鳥類具體如何控制鳴管,只能用自己的聲帶反復嘗試。認知活動也是同理。即使是在相互解釋時 —— 不知道你們是否聽過那個關于馮?諾依曼的火車謎題軼事?兩列相向而行的火車,有蜜蜂往返其間,要求計算蜜蜂總飛行距離。馮?諾依曼瞬間給出答案,當被問及是否用了取巧方法時,他反問道:什么巧解?其實這個問題確實存在通過洞察規律快速求解的方法,當然也可以選擇暴力計算無窮級數 —— 雖然沒人會這么做。

這個故事之所以令我回味,是因為它揭示了一個本質:即使我們目睹認知活動的成果,甚至獲得詳細解釋,不同個體構建內部表征的過程依然獨一無二。
我之所以展開這些討論,是因為這個區分讓我豁然開朗:如果強制模型必須理解特定行動會產生何種結果,它就不得不構建行動與結果之間關系的內部表征。按照我的理解,這或許正是當前模型缺乏良好世界模型的關鍵原因 —— 它們沒有被強制要求探索在特定行動空間中,哪些操作能產生我們觀察到的結果(無論是語言表達還是數學證明)。不過我們也能觀察到某些領域它們確實建立了完善的世界模型,比如國際象棋或圍棋 —— 在這些明確行動空間到結果輸出的領域,算法確實構建了從行動到結果的映射關系。這個能力邊界正在持續擴展,只是與基于文本語料訓練的語言模型有著本質區別。
LLM 可能敗在無法在短期內兌現承諾
Richard Sutton:感謝各位,剛才的討論充滿了真知灼見。但我想強調的是,雖然我們本質上都是科學家,習慣聚焦學術理念,但此刻我們正在嘗試某種突破,我們其實是在審視這個領域的學術生態。沒錯,我過去常輕描淡寫地用學術風尚來形容這種現象,但這個說法確實有失公允。
這更像是學術社群中不同思維模式的碰撞??茖W史上始終存在多元思維方式,但當下情況更為特殊,當某種思維范式獲得統治性地位時,要知道現在每年有數百上千億美元基于特定理念投入 AI 領域,這不可避免會改變科學研究的本質。
關于苦澀教訓的討論,我想嘗試做個總結。雖然我已經涉足了學術生態學分析,但這本質上是個社會學命題而非純科學陳述。它揭示的是研究群體反復陷入的思維誤區。傳統 AI 研究始終圍繞目標展開,整個領域都聚焦于解決問題、達成目標。
而現在,我們進入了一個全新的階段:出現了一個強大而占主導地位的思潮,主張我們無需設定目標,只需模仿人類行為。這種觀點認為,當模仿達到足夠規模、算力與數據量級時,系統將發生質變,最終真正理解世界。它們不再只是機械模仿,而是獲得了對世界的認知模型。
我始終認為這是個極端主張,正如那句名言「非凡的論斷需要非凡的證據」。當下我們見證的正是這樣的非凡論斷:僅通過觀察人類行為樣本,依靠下一個詞預測與微調,就能涌現理解與推理能力(他們甚至大膽啟用了推理這個術語)。而堅持目標導向與實踐經驗至關重要的傳統認知,反而被視作極端觀點。
在當今以大語言模型為中心的討論中,經過之前關于苦澀教訓的探討,我想聚焦一個核心問題:大語言模型將走向何方?這個問題我通常無法回答,因為我致力于其他技術路徑的探索。
其實我不該對別人的技術路線妄加評論,這幾乎有失禮節。但公眾關注的焦點確實在于此:人們想知道我是否認為大語言模型違背苦澀教訓的核心理念,最終淪為無關緊要的失敗嘗試?我們有必要深入思考并形成判斷:它們會失敗嗎?這種失敗未必指技術完全無效,而是指無法實現其承諾的宏偉愿景,考慮到投入這些系統的巨額資金,最近有位教授尖銳指出:如果大語言模型和 AI 技術需要 15 年才能兌現價值,那將是場災難。因為當前投入的資金規模與承諾預期,若三年內未見成效,就可能引發市場崩潰或泡沫破裂。
換言之,它們在某些領域確實具有實用價值,但終將面臨泡沫破裂,因為投資回報率無法匹配巨額投入。用苦澀教訓的視角解讀:將全部籌碼押注在人類知識上是危險的,因為人類知識本身不具備可擴展性。而當前大語言模型的發展路徑恰恰重蹈了這個覆轍。
需要說明的是,我并非大語言模型專家,精通大語言模型的研究者也非常少。但我們可以觀察到:它們通過模仿人類行為與語言符號進行訓練,試圖復現人類可能生成的文本。但僅憑這點無法造就優秀的現代大語言模型,后續還需要大量微調與人類反饋強化學習(RLHF),投入巨大工程努力才使其成為實用工具(如摘要、翻譯、問答)。它們能聚焦用戶問題,正是因為在自然人類語言基礎上附加了額外設計。這些系統經過大量人工設計,正因如此,其發展可能受限于可擴展性,過度依賴人類輸入,而互聯網數據雖規模龐大,終究存在邊界。
據此我們或許可以推測:大語言模型終將觸達互聯網數據的邊界,繼而陷入過度依賴專家微調的困境。這將成為苦澀教訓的又一個典型案例 —— 當系統無休止地依賴人工調試時,其失敗幾乎不可避免。我們的世界如此廣袤復雜,永遠存在未預見的場景與方法論。
相比之下,能從經驗中自主學習的系統則能察覺現實世界的種種特質,這種能力終將占據主導地位。即使當前基于人類模仿的系統表現不俗,但那個起步相似卻具備經驗學習能力的系統,最終會取代前者。
雖然我起初聲明不該對此發表觀點(因為這并非我的主攻領域),但事實證明我已形成明確判斷:這很可能將成為苦澀教訓的新例證。隨著思考的深入,我認為這種情況發生的可能性正與日俱增。
AI 界的「路徑依賴」
Niamh Gavin:作為領域內的實踐者,我完全贊同您的觀點,Rich。但外界可能會質疑:為何歷史總在重演?為何行業總不自覺地陷入自我設限的循環?這本質上反映了核心矛盾:哪些問題該由模型智能解決,哪些能通過工程手段彌補。優秀實驗室總是兼顧研究與工程,但這種模式的弊端在于:當模型遇到瓶頸時,工程師第一反應往往是我能修復,而非退后一步思考系統級重構。
這種修補式迭代會導致系統日益脆弱和過擬合,正如你最初提到的,當市場商業化浪潮席卷而來,我們往往被既定路徑綁架,直到某刻集體意識到必須重構新系統 —— 特別是在當前加速演進的環境下,這正是我們陷入的惡性循環。但轉機在于:越早觸達瓶頸,就越快迫使我們重新構想技術路徑。
目前大語言模型領域已顯現這種轉變:從單純依賴算力擴展定律、使用脆弱的 Transformer 主干,正逐步轉向更注重推理能力的方法鏈。從最初的思維鏈推理,到現在更多探索強化學習環境,這種演進正在悄然發生。
Richard Sutton:我們都有創新者的困境。這就是你所說的。他們以一種方式做到了,他們傾向于不想嘗試完全不同的東西。
分清模型「現在能做的」和「大家期待它能做的」很重要
Sendhil Mullainathan: 我想我在實質問題上幾乎完全同意你的觀點,Rich,但對于第二點有些不同意見。
我覺得我們需要分清兩件事。一是這些模型被認為能做到什么,或者說大家期待它們很快能做到什么,二是這些模型實際上能做的那些了不起的事情。
對我來說,看清這一點很有幫助:人們看到這些行為,然后就開始推斷,想象這將會看起來像是智能,或者隨你怎么稱呼它。
我認為這種推斷是誤導性的。但對我來說那不是真正的悲劇。真正的悲劇是,它們能做的事情其實很驚人。我們只是需要給它起個不同的名字,叫它別的什么。它有著難以置信的價值,難以置信的用途。這是你一次又一次看到的那種情況 —— 問題不在于缺少什么。就像我們在互聯網泡沫中看到的那樣?;ヂ摼W確實具有變革性,這毫無疑問。認為它不具有變革性簡直是瘋了。
但問題是,當時人們對它的期待 —— 尤其是對某些具體公司的期待 —— 實在是太過頭了。我覺得現在的情況也有點像。
所以對我來說,整個公共討論中最讓人分心的部分 —— 我說的不是我們這個圈子,而是外面的大眾討論 —— 是我們一直沒有好好聊聊已經發生的這個奇跡。純粹的模仿竟然能產生這么多非凡的特性,這是怎么做到的?我們到底獲得了多少涌現能力?它究竟能做什么?這些都是特別有意思的學術問題。
是的,它不會達到真正的智能。但是 —— 很多了不起的創新都不是「智能」,我們照樣找到了很好的用途。我覺得這才是最讓我失望的地方。
主持人:說到這里,我要特別表揚一下 Sendhil 自己。經濟學界有很多人在研究這個領域,大多數人在論文標題和正文里都用「人工智能」這個詞,但 Sendhil 不這樣。他馬上要發表的論文叫《算法時代的科學》之類的,他用的是「算法」這個詞,不是「AI」—— 盡管他說的就是別人口中的 AI。





























