圖靈獎得主 Barto 和 Sutton 的故事:強化學習的奠基和未來
你有沒有過這種體驗?第一次學做番茄炒蛋,媽媽沒說“油熱到冒煙再下蛋”,只在你炒糊時皺眉,炒嫩時點頭;第一次學騎車,沒人給你列“平衡公式”,摔了幾次后,身體自己就記住了怎么調整車把。
我最近在讀強化學習奠基人Barto和Sutton的訪談,突然意識到:原來我們每天都在經歷的“試錯學習”,正是AlphaGo能打敗世界冠軍、AI能自己摸索出最優策略的核心密碼。這篇文章就帶你拆透這個讓機器學會“從經驗中成長”的神奇邏輯——不用公式,全是你能感同身受的日常。
我們解讀最新技術,文末有相關信息。
神經元不是“邏輯門”?一場關于“享樂主義”的瘋狂猜想
故事得從1970年代說起。那時候,科學界普遍覺得神經元就像電腦里的邏輯門,接收信號、輸出結果,按固定規則干活。但Barto和Sutton所在的團隊,卻在琢磨一個“瘋狂想法”:神經元會不會是“享樂主義者”?——總在偷偷琢磨怎么多賺點“甜頭”,少挨點“苦頭”。
我剛開始看到這個比喻時,差點笑出聲。但細想一下,這思路太顛覆了:如果神經元真的在追求“最大化獎勵”,那大腦的學習就不是按預設程序走,而是像個在游樂場里找最好玩項目的孩子——試遍所有選項,記住哪個最爽。
更妙的是,他們當時有個“神仙工作環境”:五年時間,不用教課,不用應付考核,就專心驗證這個猜想。Sutton后來回憶,這多虧了空軍的資助——當時一位叫Harry Klopf的學者覺得“機器學習不該只做 pattern recognition(模式識別),得讓機器像生物一樣自己探索”,硬是說服了軍方掏錢。
這就像現在的AI研究者突然被放了五年假,不用寫論文,只管琢磨“機器怎么像人一樣瞎折騰也能學會東西”。這種自由,恰恰埋下了強化學習的第一顆種子。
強化學習:不給“標準答案”,只說“好”或“不好”
現在你打開導航軟件,它會直接告訴你“左轉300米”——這是“指令式學習”,就像老師把答案直接寫在黑板上。
但強化學習完全反著來。它給的不是“該做什么”,而是“做得怎么樣”。就像你玩游戲時,系統不會說“這步該出拳”,只會在你贏了加100分,輸了扣50分。
Barto在訪談里舉了個特別形象的例子:下棋時,沒人會提前告訴你“第三步必須跳馬”,但你會記住“上次走這步后來輸了”,“那次走那步最后贏了”。這種“從結果反推動作”的邏輯,就是強化學習的核心。
我把它比作“黑暗中摸開關”:你不知道開關在哪,只能伸手亂摸(試錯),摸到了燈亮了(獎勵),就記住“剛才手的位置大概對”;沒摸到(無獎勵),就換個地方再試。機器就是這么“摸”出最優策略的。
解決“延遲滿足”難題:為什么你會記住“多走一步就有糖吃”
這里有個關鍵問題:如果獎勵來得太晚,機器怎么知道該感謝哪個動作?
比如訓練小狗撿球:它跑過去、用嘴叼、叼回來,你才給零食。它怎么知道“叼回來”是關鍵,而不是“跑過去時搖了尾巴”?
這就是Barto和Sutton提出的“時間差分學習(TD學習)”要解決的問題。簡單說,就是把“遲到的大獎勵”拆成“一路上的小鼓勵”。
就像你玩闖關游戲,最終Boss給1000分,但每過一個小關卡給100分。TD學習就像游戲系統,在你靠近目標時就提前給點“預告獎勵”,讓你知道“往這個方向走是對的”。
最神奇的是,后來科學家發現,我們大腦里的多巴胺神經元,居然就是這么干活的!當你看到蛋糕店招牌(預示著甜食獎勵),多巴胺就開始分泌——它不是等你吃到蛋糕才反應,而是提前“預報獎勵”。Barto說,看到這個研究數據時,他差點拍桌子:“這不就是我們設計的TD算法嗎?”
我覺得這是最妙的“跨學科撞車”:工程師搞出來的算法,居然和大腦的運作機制不謀而合。
模型派vs.直覺派:原來AI也需要“既看地圖又信感覺”
強化學習發展到后來,學界吵過一場架:到底是讓機器先學“世界模型”(比如先看懂地圖),還是讓它純靠直覺試錯?
Sutton在訪談里說,1990年代他們爭論了十年,最后發現:得兩者都要。
這就像你去陌生城市旅游:模型派是“先看地圖規劃路線”,直覺派是“走到哪算哪,錯了再繞”。單獨用地圖,可能錯過小巷里的好吃的;單獨靠直覺,可能繞到天黑。
現在的AI,比如AlphaGo,就是這么干的:它既用“模型”記住棋盤的規律,又用“直覺”在關鍵時刻打破常規——這也是它能下出人類從沒見過的“神之一手”的原因。
Sutton還補了句特別實在的話:“所有模型都是錯的,但有些很好用。”就像我們看天氣預報,知道它不準,但出門還是會參考——AI也懂這個道理。
別被“深度學習”帶偏:真正的智能,得有自己的“小目標”
現在大家都在聊大語言模型(LLM),但Sutton有個犀利觀點:很多所謂的“AI智能”,其實是在“模仿人類”,而不是“自己學習”。
比如ChatGPT,它能寫文章是因為讀了全網的文字,本質是“猜人類接下來會說什么”。但強化學習訓練的AI,有自己的“小目標”——比如“贏棋”“拿到高分”,會為了這個目標主動試錯。
這就像兩個學生:一個靠背范文拿高分(LLM),一個靠自己琢磨“怎么寫能打動老師”(強化學習)。前者很厲害,但后者更像“真的在學”。
當然,兩者現在也在合作。比如讓大語言模型更聽話的RLHF(人類反饋強化學習),就是用強化學習的邏輯,告訴模型“剛才那句話人類聽著舒服”“那句不太對”。
未來會怎樣?從“學做題”到“持續成長”
Sutton現在在推進一個“阿爾伯塔計劃”,目標是讓AI像人一樣“持續學習”。現在的深度學習模型,學完就“凍住”了,想更新知識得重新訓練;但人可以邊學邊用,今天懂一點,明天再添點新的。
他說,第一步先搞定“線性監督學習”(簡單說就是學規則),下一步突破“非線性”(像人一樣舉一反三),最終讓AI能“活到老學到老”。
我覺得這才是最值得期待的:未來的AI可能不會一上來就什么都會,但它會像個小孩,摔倒了知道爬起來,做錯了知道改,慢慢找到自己的生存智慧。
最后說句心里話
讀Barto和Sutton的故事,最打動我的不是他們發明了多少算法,而是他們對“學習本質”的追問:智能不是記住標準答案,而是在混亂中摸索出規律,在延遲中識別出因果。
這和我們每個人的成長多像啊——沒人能提前知道“選什么專業、做什么工作”是絕對正確的,我們都是在“試錯-反饋-調整”中,慢慢活成自己的樣子。
或許有一天,當AI真的學會“持續學習”時,我們能從它們身上,更清楚地看到自己成長的秘密。
你覺得,要是AI有了“自己的目標”,會先學什么呢?歡迎在評論區聊聊你的想法。
參考資料
? 標題:Developing the Foundations of Reinforcement Learning
? 作者:Leah Hoffmann, Andrew G. Barto, Richard S. Sutton(ACM圖靈獎得主)
? 鏈接:https://cacm.acm.org/news/developing-the-foundations-of-reinforcment-learning/
作者:張長旺,圖源:旺知識
本文轉載自??????????旺知識??,作者:旺知識

















