強(qiáng)化學(xué)習(xí)教父重出江湖, 生成式AI的時(shí)代要結(jié)束了?
11月初,ExperienceFlow.AI的CEO Giri ATG在X上發(fā)出了這樣一條消息。

沒有精致海報(bào),沒有宣傳視頻,但在短短幾小時(shí)內(nèi),這條看似平靜的公告,被AI研究員、投資人瘋狂轉(zhuǎn)發(fā)。
在鋪天蓋地的模型demo與發(fā)布會(huì)中,它像一根細(xì)微的地震針,預(yù)示著另一場(chǎng)更深層的震動(dòng)。
因?yàn)榧尤脒@家初創(chuàng)公司的,不是普通的科學(xué)家,而是強(qiáng)化學(xué)習(xí)的開創(chuàng)者、「Reinforcement Learning: An Introduction」的作者、 剛剛獲得2024年圖靈獎(jiǎng)的Richard Sutton。

是他讓AI第一次能夠「從經(jīng)驗(yàn)中學(xué)習(xí)」;如今,他回來了,要重新定義什么才叫「智能」。
強(qiáng)化學(xué)習(xí)教父歸來:向生成式AI發(fā)起反擊
在過去兩年中,人工智能行業(yè)熱鬧至極。新的大模型不斷發(fā)布,推理速度、參數(shù)量、生成能力一再刷新。
而此時(shí),強(qiáng)化學(xué)習(xí)的奠基人Richard Sutton,卻選擇了沉默。
直到今年十一月,他重新出現(xiàn)。
ExperienceFlow.AI 宣布,Sutton將以首席科學(xué)官身份加入公司,并創(chuàng)建「超級(jí)智能研究實(shí)驗(yàn)室」。這像一種新的訊號(hào),告訴AI行業(yè),智能的核心,不在模仿,而在學(xué)習(xí)。
Sutton的醫(yī)生獲譽(yù)無數(shù)。他曾與Andrew Barto共同獲得2024年圖靈獎(jiǎng),以表彰他們?cè)趶?qiáng)化學(xué)習(xí)領(lǐng)域的奠基性貢獻(xiàn)。

他編寫的「Reinforcement Learning: An Introduction」被譽(yù)為AI研究的圣經(jīng)。
在ExperienceFlow.AI的新聞稿中,Sutton說:
學(xué)習(xí)是知識(shí)的導(dǎo)數(shù)。與生成式AI依靠人類提供數(shù)據(jù)不同,我們關(guān)注學(xué)習(xí)本身——從經(jīng)驗(yàn)中創(chuàng)造還不存在的知識(shí)。
這句話明確劃分出了兩種路線。
生成式AI從人類文本中提取模式;而強(qiáng)化學(xué)習(xí)希望AI在環(huán)境中行動(dòng)、感知、反饋,再?gòu)慕?jīng)驗(yàn)中總結(jié)規(guī)律。
Sutton在聲明中寫道:
我們正接近基于人類數(shù)據(jù)的生成式AI時(shí)代的終點(diǎn),即將進(jìn)入一個(gè)從經(jīng)驗(yàn)中學(xué)習(xí)的新階段。
他預(yù)計(jì),當(dāng)AI被人類數(shù)據(jù)喂養(yǎng)到極限后,模型能做的只是重復(fù)、推測(cè)、模仿。
而真正的智能,必須通過與世界的互動(dòng)才能獲得。
這正是強(qiáng)化學(xué)習(xí)的底層邏輯:智能體(agent)在環(huán)境(environment)中采取行動(dòng)(action),得到獎(jiǎng)勵(lì)(reward),再據(jù)此調(diào)整策略(policy)。
學(xué)習(xí)來自行動(dòng),而非輸入。

Sutton的回歸,并不是對(duì)現(xiàn)有技術(shù)的否定,而是對(duì)AI學(xué)習(xí)方式的重新定義。
他認(rèn)為,下一階段的智能體不再依賴人類經(jīng)驗(yàn),而要從自己的經(jīng)歷中形成知識(shí)。
對(duì)整個(gè)行業(yè)而言,這不僅是一次技術(shù)轉(zhuǎn)向,也是一場(chǎng)價(jià)值判斷的變化——AI,不該只復(fù)述,而要開始理解。
ExperienceFlow:用「經(jīng)驗(yàn)」重寫智能的起點(diǎn)
ExperienceFlow.AI是一家成立不久的人工智能公司,總部位于舊金山。
它的定位十分明確:打造「經(jīng)驗(yàn)驅(qū)動(dòng)的去中心化超級(jí)智能」。

聯(lián)合創(chuàng)始人兼CEO Giri ATG坦言:
我們正啟動(dòng)一種全新的超級(jí)智能范式,它將解決通往通用人工智能(AGI)的最后一道關(guān)鍵難題。
我們的重點(diǎn)是真正的強(qiáng)化學(xué)習(xí)研究,它將推動(dòng)持續(xù)學(xué)習(xí)、泛化能力以及基于模型的層級(jí)規(guī)劃。
與當(dāng)下依賴大規(guī)模語(yǔ)言模型的路線不同,ExperienceFlow認(rèn)為智能的核心不在參數(shù)量,而在于「如何通過經(jīng)驗(yàn)產(chǎn)生知識(shí)」。

他們提出的「經(jīng)驗(yàn)驅(qū)動(dòng)超級(jí)智能」,希望讓AI在開放環(huán)境中持續(xù)探索、修正和積累,從而獲得可遷移的認(rèn)知結(jié)構(gòu)。
Sutton打了一個(gè)浪漫的比喻:
學(xué)習(xí)的火花,是理解新領(lǐng)域并創(chuàng)造知識(shí)的能力。
這句話延續(xù)了他幾十年來的理論主張。
ExperienceFlow想做的,是將強(qiáng)化學(xué)習(xí)從學(xué)術(shù)概念推向系統(tǒng)化實(shí)現(xiàn)。
它不僅是訓(xùn)練一個(gè)模型,而是要構(gòu)建一種能自我生長(zhǎng)的智能體架構(gòu)——讓模型能夠從外部環(huán)境中吸取反饋,自我校正并形成長(zhǎng)期記憶。
Giri ATG表示,這種「經(jīng)驗(yàn)型智能」并非停留在研究層面,而是面向具體產(chǎn)業(yè):
真正的超級(jí)智能將解鎖與科學(xué)突破和經(jīng)濟(jì)增長(zhǎng)直接相關(guān)的大多數(shù)現(xiàn)實(shí)應(yīng)用場(chǎng)景,推動(dòng)制造、醫(yī)療、金融、零售、物流、機(jī)器人等關(guān)鍵行業(yè)的發(fā)展。
在他看來,生成式AI在企業(yè)中的作用仍局限于文本、圖像、代碼的生成,而經(jīng)驗(yàn)驅(qū)動(dòng)的AI則可以承擔(dān)自主決策與運(yùn)營(yíng)。
公司稱這種形態(tài)為「自主企業(yè)」:系統(tǒng)能夠獨(dú)立分析、規(guī)劃、執(zhí)行,并基于經(jīng)驗(yàn)優(yōu)化流程。
更重要的是,ExperienceFlow 強(qiáng)調(diào)去中心化的智能架構(gòu)。

與OpenAI或Anthropic的集中式模型不同,它允許企業(yè)與國(guó)家在自己的計(jì)算資源和私有數(shù)據(jù)上構(gòu)建獨(dú)立的智能體網(wǎng)絡(luò)。
這種模式意味著,AI不再只是由少數(shù)科技公司掌控的集中式能力,而可以成為分布式的知識(shí)系統(tǒng)。
每個(gè)組織都能在自身環(huán)境中積累獨(dú)特的經(jīng)驗(yàn),從而形成差異化的智能。
Giri ATG將這視為「下一輪算力與經(jīng)濟(jì)增長(zhǎng)的引擎」:
這將推動(dòng)全球范圍內(nèi)的計(jì)算、硬件和數(shù)據(jù)生態(tài)實(shí)現(xiàn)新一輪有機(jī)增長(zhǎng)。
在他們看來,人工智能的下一階段不再是追求語(yǔ)言能力,而是讓機(jī)器學(xué)會(huì)如何從世界中學(xué)習(xí)。
當(dāng)AI學(xué)完人類:經(jīng)驗(yàn)時(shí)代的門正在打開
生成式 AI 的速度快到驚人。短短兩年,它學(xué)會(huì)了寫詩(shī)、寫代碼、寫廣告文案。
可當(dāng)一切內(nèi)容都能被生成,新的問題浮現(xiàn)了——它還能學(xué)什么?
Sutton給出了答案,是「學(xué)世界」。他在2019年就指出:
在七十年的AI研究中,最終贏的總是那些讓機(jī)器自己學(xué)習(xí)的辦法。
依靠人類經(jīng)驗(yàn)喂養(yǎng)出來的智能,只能復(fù)述過去;真正的智能,必須在現(xiàn)實(shí)里試、在反饋中改、在錯(cuò)誤里長(zhǎng)大。
這也是他此刻重新出山的原因。
Sutton表示:
我們正接近基于人類數(shù)據(jù)的GenAI時(shí)代終點(diǎn),正邁向一個(gè)從經(jīng)驗(yàn)中學(xué)習(xí)的新紀(jì)元
這句話,不只一句口號(hào)。它是對(duì)整個(gè)AI行業(yè)的一次提醒——我們可能已經(jīng)讓模型學(xué)完了全部知識(shí)。
語(yǔ)言模型靠的是人類文本,而人類語(yǔ)言的總量幾乎已經(jīng)被吸取殆盡。
算力再怎么翻倍、參數(shù)再這么膨脹,也只是有限的提升。
當(dāng)LLM開始在重復(fù)自己的答案,AI研究者們重新回到那句老問題:
機(jī)器什么時(shí)候,能真正理解世界?
Sutton給出了一個(gè)答案。強(qiáng)化學(xué)習(xí)讓AI不只是記住,而是能「行動(dòng)」;不只是會(huì)「生成」,更要能「修正」。
它要不斷的試錯(cuò)、獎(jiǎng)勵(lì)、再試錯(cuò),積累起屬于自己的經(jīng)驗(yàn)。
這種學(xué)習(xí)方式更像人類成長(zhǎng)的過程。沒有人直接告訴你答案,而是一次次去做、去碰壁、再總結(jié)。
當(dāng)GenAI的模仿紅利見頂,經(jīng)驗(yàn)學(xué)習(xí)的曲線,正在慢慢抬頭。
這不是另一場(chǎng)參數(shù)競(jìng)賽,而是新的起點(diǎn)——AI從模仿人類,走向理解世界。
去中心化的智能版圖:自主企業(yè)的雛形
在ExperienceFlow的世界里,AI不再是一項(xiàng)服務(wù),而是一種主權(quán)。
與OpenAI或Anthropic那種集中式模型不同,ExperienceFlow想讓每個(gè)企業(yè)、甚至每個(gè)國(guó)家,都能擁有自己的智能體。
這些智能體在各自的環(huán)境中學(xué)習(xí)、積累經(jīng)驗(yàn),并通過網(wǎng)絡(luò)協(xié)作。AI不再?gòu)囊粋€(gè)中心發(fā)號(hào)施令,而是分布式地成長(zhǎng)。
與其他 AGI平臺(tái)不同,ExperienceFlow的系統(tǒng)首次實(shí)現(xiàn)真正的去中心化超級(jí)智能,為企業(yè)與國(guó)家客戶提供完全的自主權(quán)和所有權(quán)。
AI的未來,可能不屬于單一公司,而屬于分布在全球的無數(shù)個(gè)智能體網(wǎng)絡(luò)。
每個(gè)智能體都在自己的數(shù)據(jù)與經(jīng)驗(yàn)中成長(zhǎng)——制造企業(yè)的AI擅長(zhǎng)生產(chǎn)優(yōu)化,醫(yī)療系統(tǒng)的AI擅長(zhǎng)診斷與預(yù)測(cè),金融機(jī)構(gòu)的AI能理解風(fēng)險(xiǎn)與市場(chǎng)。
它們的知識(shí)互不相同,卻都在共同進(jìn)化。
ExperienceFlow把這種組織形態(tài)稱作「自主企業(yè)」。
在他們的設(shè)想中,未來的公司將不再依賴人類層層決策,而由一系列可以獨(dú)立學(xué)習(xí)、協(xié)同判斷的智能體構(gòu)成。
它們能感知環(huán)境、制定目標(biāo)、自動(dòng)執(zhí)行并持續(xù)優(yōu)化。

ExperienceFlow.AI 的去中心化智能體系(EDNS)結(jié)構(gòu)。企業(yè)的不同數(shù)據(jù)系統(tǒng)(記錄、洞察、交互)經(jīng)由圖神經(jīng)網(wǎng)絡(luò)(GNN)整合后,由 Plan、Improve、Control 三類智能體持續(xù)生成實(shí)時(shí)決策,最終輔助管理層形成業(yè)務(wù)決策與成本、合規(guī)、營(yíng)收等結(jié)果。
Giri ATG表示:
與其他 AGI平臺(tái)不同,ExperienceFlow的系統(tǒng)首次實(shí)現(xiàn)真正的去中心化超級(jí)智能,為企業(yè)與國(guó)家客戶提供完全的自主權(quán)和所有權(quán)。
真正的超級(jí)智能,將推動(dòng)制造、醫(yī)療、金融、零售、物流、機(jī)器人等關(guān)鍵行業(yè)的持續(xù)增長(zhǎng),并成為全球經(jīng)濟(jì)的新引擎。
AI不再只是替代勞動(dòng)力的工具,而是一種新的生產(chǎn)組織方式,甚至重新定義「企業(yè)」這個(gè)概念。
公司不再是由人來驅(qū)動(dòng)的系統(tǒng),而是人和AI共同學(xué)習(xí)、共同決策的生態(tài)。
在這種格局下,去中心化不只是技術(shù)結(jié)構(gòu),也是一種經(jīng)濟(jì)哲學(xué)。
它讓智能的所有權(quán)回到本地,讓知識(shí)的積累多樣化、差異化。
每個(gè)組織、每個(gè)國(guó)家,都能訓(xùn)練出只屬于自己的智能。這也是ExperienceFlow 所宣稱的「AI主權(quán)」時(shí)代。
或許,這就是Sutton所說的下一階段:AI不再依附于人類,而開始建立自己的秩序。
當(dāng)每一個(gè)智能體都能從經(jīng)驗(yàn)中生長(zhǎng),人類世界,也將被重新組織。
幾十年來,AI一直在模仿。模仿人類的語(yǔ)言、行為、思維。
可ExperienceFlow和Sutton想講的,是另一個(gè)詞:經(jīng)歷。
當(dāng)機(jī)器第一次從自己的行動(dòng)中獲得反饋,當(dāng)它能在錯(cuò)誤中修正、在環(huán)境中成長(zhǎng),智能就不再只是數(shù)據(jù)堆出來的幻覺。
如果下一階段的 AI 不再依附于人類數(shù)據(jù),而能自己學(xué)習(xí)、自己思考,我們,又該如何定義「智能」?
也許,真正的分界線不是模型規(guī)模,而是學(xué)習(xí)方式。
當(dāng)AI學(xué)從經(jīng)驗(yàn)中成長(zhǎng),它也會(huì)更加像人。























