強(qiáng)化學(xué)習(xí)之父:LLM主導(dǎo)只是暫時(shí),擴(kuò)展計(jì)算才是正解
這是新晉圖靈獎(jiǎng)得主、強(qiáng)化學(xué)習(xí)之父Richard Sutton對(duì)未來(lái)的最新預(yù)測(cè)。
就在剛剛的新加坡國(guó)立大學(xué)建校120周年(NUS120)之際,Sutton受邀發(fā)表演講——塑造AI和強(qiáng)化學(xué)習(xí)的未來(lái)。

其實(shí),這已經(jīng)不是Sutton第一次在公開(kāi)場(chǎng)合表達(dá)類似的觀點(diǎn),早在他19年的著作《痛苦的教訓(xùn)》中,他就明確提出:
讓AI尤其是LLM模仿人類思維方式,只能帶來(lái)短期的性能提升,長(zhǎng)期看只會(huì)阻礙研究的持續(xù)進(jìn)步。
在他4月份新發(fā)表的論文《歡迎來(lái)到體驗(yàn)時(shí)代》也再度強(qiáng)調(diào)了這點(diǎn),同時(shí)他表示,擴(kuò)展計(jì)算才是正解。

本次NUS120演講長(zhǎng)達(dá)一個(gè)多小時(shí),可謂是干貨滿滿、信息量超大。
讓我們一起來(lái)看看完整演講內(nèi)容。
LLM主導(dǎo)是暫時(shí)的
Sutton首先提及當(dāng)前人類處于數(shù)據(jù)時(shí)代,像ChatGPT這類大語(yǔ)言模型,都是靠分析人類產(chǎn)生的大量數(shù)據(jù)(如文本、圖像、視頻)進(jìn)行訓(xùn)練。
但始終追逐人類思維方式,至多也只能達(dá)到“人類水平”。
在數(shù)學(xué)、科學(xué)等領(lǐng)域,人類數(shù)據(jù)里的知識(shí)已經(jīng)接近極限,AI難以突破現(xiàn)有認(rèn)知,純靠模仿已經(jīng)很難再有創(chuàng)新。

AI需要新的數(shù)據(jù)來(lái)源,且要隨著AI增強(qiáng)而改進(jìn),靜態(tài)數(shù)據(jù)集顯然不足。
因此他認(rèn)為AI終將從依賴人類數(shù)據(jù),轉(zhuǎn)向通過(guò)Agent與世界的第一人稱交互,以獲取“體驗(yàn)數(shù)據(jù)”的學(xué)習(xí)。
AlphaGo在與李在石對(duì)弈的第二局中,下出的神之一手——第37手,在人類標(biāo)準(zhǔn)下完全非常規(guī)的走法,就充分展現(xiàn)了AI在這種體驗(yàn)學(xué)習(xí)下的思考潛力。
也就是說(shuō),AI將會(huì)在自主體驗(yàn)中,完成自己的更新迭代,產(chǎn)生更高級(jí)的數(shù)據(jù)并反哺自身,構(gòu)成一個(gè)“越學(xué)越強(qiáng)”的循環(huán)。
還能不受人類現(xiàn)有知識(shí)限制,自由探索人類未涉及的領(lǐng)域,比如全新的科學(xué)理論、材料設(shè)計(jì)等。
Sutton舉了個(gè)例子:
一個(gè)蹣跚學(xué)步的嬰兒會(huì)通過(guò)不斷探索周圍環(huán)境主動(dòng)學(xué)習(xí),然后隨著認(rèn)知增長(zhǎng),每一次互動(dòng)方式都會(huì)隨著經(jīng)驗(yàn)有所不同。
因此AI的未來(lái)將屬于通過(guò)互動(dòng)和經(jīng)驗(yàn)學(xué)習(xí)的“體驗(yàn)時(shí)代”,Agent需要從經(jīng)驗(yàn)中學(xué)習(xí),而這遠(yuǎn)遠(yuǎn)超出了LLM的能力范疇。
即使現(xiàn)有LLM在連接全球知識(shí)上表現(xiàn)出色,但通往這一未來(lái)的核心路徑始終是強(qiáng)化學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)正是圍繞著經(jīng)驗(yàn)學(xué)習(xí)構(gòu)造,但要發(fā)揮強(qiáng)化學(xué)習(xí)全部潛力,還需具備持續(xù)學(xué)習(xí)能力的深度學(xué)習(xí)算法。

而這背后要靠對(duì)大規(guī)模算力的充分利用來(lái)支撐,繼續(xù)基于搜索和學(xué)習(xí)擴(kuò)展算力,以適應(yīng)AI性能需求增加。
可以說(shuō),從長(zhǎng)遠(yuǎn)看,真正的突破還是來(lái)自規(guī)模計(jì)算。
不同Agent去中心化互利共贏
談及Agent的前景,Sutton提出對(duì)不同目標(biāo)的Agent可以尋求去中心化合作。
他認(rèn)為每個(gè)Agent的獎(jiǎng)勵(lì)信號(hào)都各不相同,且都試圖最大化自己的回報(bào),那么只需要讓不同Agent各自實(shí)現(xiàn)其目標(biāo),再通過(guò)互動(dòng),就能實(shí)現(xiàn)互利共贏。
這就類似于人類社會(huì)中的經(jīng)濟(jì)運(yùn)轉(zhuǎn),得益于自然語(yǔ)言和貨幣的發(fā)明,盡管人們擁有不同的目標(biāo)和能力,但在過(guò)程中相互協(xié)調(diào)配合,也能產(chǎn)生出不錯(cuò)的效果。
但還是有不少人主張集中控制AI,甚至呼吁暫停AI。
Sutton認(rèn)為這種聲音更多的是來(lái)源于對(duì)未知的恐懼,要接受個(gè)體目標(biāo)的多樣性,建立合作化秩序,AI的潛力恰恰就在去中心化合作。

另外,Sutton還提到了“設(shè)計(jì)時(shí)代”的概念,當(dāng)前的機(jī)器越來(lái)越類生命化,而生命也被視作生物機(jī)器。
但生命與技術(shù)之間存在本質(zhì)差異,生命是在無(wú)意識(shí)下被復(fù)制產(chǎn)生,而技術(shù)則先經(jīng)設(shè)計(jì)師意識(shí)想象再落地創(chuàng)造,這是一個(gè)設(shè)計(jì)過(guò)程,且設(shè)計(jì)產(chǎn)物也更易改進(jìn)。
因此人類發(fā)展AI,就是為了將設(shè)計(jì)做到極致——設(shè)計(jì)出能自主設(shè)計(jì)的Agent,而人類將會(huì)在設(shè)計(jì)時(shí)代扮演催化劑和創(chuàng)造者的角色,將AI視作推動(dòng)發(fā)展的機(jī)遇,而非單純的技術(shù)產(chǎn)物。
One More Thing
Sutton的言論一出,很快在社區(qū)引起了激烈討論。
支持者認(rèn)為技術(shù)的突破往往來(lái)自未知與偶然,技術(shù)已趨向成熟的LLM似乎即將觸及領(lǐng)域天花板。

而反對(duì)者則認(rèn)為技術(shù)的發(fā)展在于不斷改進(jìn),也許LLM不是AI的最終形態(tài),但它也必定在AGI發(fā)展過(guò)程中占據(jù)重要作用。






































