GPT 4o-mini華人領(lǐng)隊(duì)離開OpenAI:真正推動(dòng)AI進(jìn)步不是模型架構(gòu),而是互聯(lián)網(wǎng)
剛剛,OpenAI又離職一名華人大佬。
前OpenAI研究員Kevin Lu宣布加入AI新創(chuàng)Thinking Machines Lab。

Kevin Lu主導(dǎo)了GPT-4o mini的發(fā)布,并參與o*-mini、o3等模型工作。
Thinking Machines Lab由前OpenAI CTO Mira Murati創(chuàng)立的。
2025年7月,公司創(chuàng)歷史完成約20億美元的超大額早期融資(a16z領(lǐng)投),估值約120億美元。
隨后團(tuán)隊(duì)核心成員在社交平臺(tái)上互動(dòng)表示歡迎。


Kevin Lu是強(qiáng)化學(xué)習(xí)與小模型方向的研究者,本科就讀于加州大學(xué)伯克利分校,在OpenAI期間專注強(qiáng)化學(xué)習(xí)、Small Models與合成數(shù)據(jù)。

加入Thinking Machines之前還在Hudson River Trading、MetaAI從事序列決策與深度學(xué)習(xí)研究。
真正推動(dòng)AI進(jìn)步的是互聯(lián)網(wǎng)
Kevin Lu在小模型與合成數(shù)據(jù)上的實(shí)踐經(jīng)驗(yàn),有助于Thinking Machines縮短從論文到用戶價(jià)值的距離。
尤其是他7月的一篇博客非常出圈:真正推動(dòng)AI進(jìn)步是互聯(lián)網(wǎng)。
深入淺出的講明白一個(gè)事情:與其反復(fù)摳架構(gòu),不如擴(kuò)大、豐富、貼近現(xiàn)實(shí)的數(shù)據(jù)來源(如互聯(lián)網(wǎng))與數(shù)據(jù)消耗方式,否則模型始終「見得少、懂得少」。

博客地址:https://kevinlu.ai/the-only-important-technology-is-the-internet
以下為博客的部分截取翻譯:
雖然AI的進(jìn)步常被歸功于一些里程碑論文——比如Transformers、RNNs、Diffusion——但這忽略了AI最根本的瓶頸:數(shù)據(jù)。
那么,「好數(shù)據(jù)」究竟意味著什么?
如果我們真想推進(jìn)AI,與其研究深度學(xué)習(xí)優(yōu)化,不如研究「互聯(lián)網(wǎng)」。
互聯(lián)網(wǎng)才是讓我們的AI模型實(shí)現(xiàn)規(guī)模化擴(kuò)展的那項(xiàng)關(guān)鍵技術(shù)。
· Transformers是一種「分散注意力」
受架構(gòu)創(chuàng)新帶來的快速進(jìn)展啟發(fā)(5年間從AlexNet到Transformer),許多研究者一直在尋找更好的架構(gòu)先驗(yàn),寄望于設(shè)計(jì)出「優(yōu)于Transformer」的新架構(gòu)。
事實(shí)上,Transformer之后確實(shí)出現(xiàn)了一些更好的架構(gòu);但為什么自GPT-4以來,我們很難「切身感到」這種改進(jìn)?

· 范式更迭
算力受限(compute-bound)。
曾經(jīng),方法隨算力擴(kuò)展,更高效的方法就更好。
真正重要的是把數(shù)據(jù)盡可能高效地塞進(jìn)模型里;這些方法不僅效果更好,而且似乎「越大越靈」。

然后,數(shù)據(jù)受限(data-bound)。
研究模型架構(gòu)當(dāng)然不是沒用。社區(qū)在Transformer之后開發(fā)出了更好的方法,比如SSMs與Mamba等。
但它們并非「免費(fèi)的勝利」:在給定訓(xùn)練算力下,訓(xùn)練一個(gè)Transformer往往能得到更優(yōu)性能。
但數(shù)據(jù)綁定的范式是自由的:反正各種方法最終都差不多!
因此應(yīng)選擇推理階段更優(yōu)的方法,可能是某種「次二次注意力變體」(subquadratic attention variant)。
這些方法很可能會(huì)再度走到臺(tái)前。
· 研究者該做什么?
設(shè)想我們不只關(guān)心推理(可以理解為「產(chǎn)品」),而是關(guān)心漸近性能(可以理解為朝著AGI邁進(jìn)):
- 顯然,只優(yōu)化架構(gòu)是錯(cuò)的。
- 調(diào)整Q-function軌跡裁剪也不對(duì)。
- 手工打造新數(shù)據(jù)集無法擴(kuò)展。
- 花哨的「時(shí)間高斯探索」(new temporal Gaussian exploration method)也大概率不具擴(kuò)展性。
社區(qū)的許多成員已經(jīng)達(dá)成共識(shí):應(yīng)研究新的「數(shù)據(jù)消費(fèi)」方式。
目前兩大主流范式是:(1)下一個(gè)token預(yù)測(cè)(NTP)與(2)強(qiáng)化學(xué)習(xí)(RL)。
(顯然,我們?cè)凇感路妒健股喜]取得太多突破)
AI的本質(zhì)就是「消耗數(shù)據(jù)」
目前AI領(lǐng)域里程碑工作本質(zhì)上是在開辟數(shù)據(jù)消耗&消耗的新途徑:
- AlexNet(2012):用「下一個(gè)token預(yù)測(cè)」的視角來「消化」ImageNet。
- GPT-2(2019):用下一個(gè)詞預(yù)測(cè)來學(xué)習(xí)互聯(lián)網(wǎng)文本。
- 原生多模態(tài)(如GPT-4o、Gemini 1.5):用下一個(gè)詞預(yù)測(cè)吸收互聯(lián)網(wǎng)的圖像與音頻。
- ChatGPT:在聊天場(chǎng)景中用強(qiáng)化學(xué)習(xí)攝取隨機(jī)的人類偏好獎(jiǎng)勵(lì)。
- DeepSeek-R1:在狹窄領(lǐng)域用強(qiáng)化學(xué)習(xí)攝取確定且可驗(yàn)證的獎(jiǎng)勵(lì)。
就「下一個(gè)token預(yù)測(cè)」而言,互聯(lián)網(wǎng)是完美的解決方案:它提供了極其豐富的、按序相關(guān)的數(shù)據(jù),正好適合序列建模去學(xué)習(xí)。

互聯(lián)網(wǎng)充滿了結(jié)構(gòu)化HTML的「序列」,天生適配下一個(gè)token預(yù)測(cè);按不同順序重構(gòu),可以涌現(xiàn)多種有用能力。
這不是巧合:這種「序列數(shù)據(jù)」對(duì)下一個(gè)token預(yù)測(cè)近乎完美;互聯(lián)網(wǎng)與下一個(gè)token預(yù)測(cè)相輔相成。
「行星級(jí)」數(shù)據(jù)
Alec Radford在2020年的一個(gè)先見之明的演講中指出:盡管當(dāng)時(shí)提出了很多新方法,但都不如「擴(kuò)大與整理數(shù)據(jù)」重要。

我們從「寄望更好方法帶來神奇泛化(比如損失函數(shù)暗含句法樹)」,轉(zhuǎn)向一個(gè)樸素原則:模型沒被告知的事,它當(dāng)然不知道。
與其通過打造大規(guī)模監(jiān)督數(shù)據(jù)集去「硬性指定預(yù)測(cè)目標(biāo)」,不如設(shè)法讓模型從「外部的一切」中學(xué)習(xí)并進(jìn)行預(yù)測(cè)。
每次我們做一個(gè)數(shù)據(jù)集,就像是把「世界上其他一切」的重要性設(shè)為0、把「數(shù)據(jù)集內(nèi)的一切」的重要性設(shè)為1。
可憐的模型!它們知道的太少,仍有太多被隱藏。

自GPT-2之后,全球開始關(guān)注OpenAI,而時(shí)間也證明了其影響力。
如果有Transformer但沒有互聯(lián)網(wǎng)?
低數(shù)據(jù)。在低數(shù)據(jù)范式里,Transformer可能一文不值:其「架構(gòu)先驗(yàn)」不如CNN或RNN,因此表現(xiàn)應(yīng)更差。
書籍。較不極端的情況是:若無互聯(lián)網(wǎng),我們可能用書籍/教材進(jìn)行預(yù)訓(xùn)練。教材常被視為人類智慧的巔峰:作者受過良好教育,字斟句酌。這代表一種信念:「高質(zhì)量數(shù)據(jù)勝于大數(shù)量數(shù)據(jù)」。
教材與Phi。Phi系列(「Textbooks Are All You Need」)在小模型上表現(xiàn)出色,但仍要依賴在互聯(lián)網(wǎng)訓(xùn)練的GPT-4做過濾與合成。
總體看,Phi很不錯(cuò),但尚未證明能達(dá)到以互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練模型的漸近性能;且教材缺少大量現(xiàn)實(shí)世界與多語言知識(shí)(不過在算力受限下它們很強(qiáng))。
「數(shù)據(jù)類別」的類比
可把「教材」視作可驗(yàn)證獎(jiǎng)勵(lì)(表述幾乎總是真),而「書籍」(尤其是創(chuàng)作類)更像是「人類偏好」,能賦予學(xué)生模型更強(qiáng)的風(fēng)格多樣性。
就像我們可能不會(huì)讓o3或Sonnet 3.7替我們寫作一樣,只在高質(zhì)數(shù)據(jù)上訓(xùn)練的模型可能缺少某種創(chuàng)造性「火花」。
因此Phi的PMF(產(chǎn)品市場(chǎng)契合)并不理想:需要知識(shí)時(shí),人們偏好大模型;要本地「角色寫作」,人們也不太會(huì)選Phi。
互聯(lián)網(wǎng)之美
書與教材本質(zhì)上只是互聯(lián)網(wǎng)數(shù)據(jù)的壓縮(背后或許有強(qiáng)大智能在做壓縮)。
更上一層看,互聯(lián)網(wǎng)是極其多樣化的監(jiān)督源,也是人類的映射。

展示了互聯(lián)網(wǎng)用戶在過去三十多年里由幾百萬躍升到50多億的長(zhǎng)期、持續(xù)增長(zhǎng)
一些研究者可能覺得「為了研究進(jìn)步要轉(zhuǎn)向產(chǎn)品」很奇怪(甚至是干擾),但如果我們關(guān)心AGI對(duì)人類有益(而不是像AlphaZero那樣在真空中聰明),就該考慮AGI的形態(tài)(產(chǎn)品)。
我認(rèn)為研究(預(yù)訓(xùn)練)與產(chǎn)品(互聯(lián)網(wǎng))的協(xié)同設(shè)計(jì)非常優(yōu)雅。

去中心化與多樣性
互聯(lián)網(wǎng)是去中心化的,任何人都能民主地添加知識(shí);不存在單一真理源。
它承載了大量視角、文化模因和低資源語言;若用大模型在其上預(yù)訓(xùn)練,便能得到理解廣博知識(shí)的智能。
這意味著,互聯(lián)網(wǎng)的管理者(產(chǎn)品「管家」)對(duì)AGI的設(shè)計(jì)舉足輕重!
若削弱互聯(lián)網(wǎng)多樣性,模型在做RL時(shí)的「熵」(信息多樣度)會(huì)顯著變差;若刪除數(shù)據(jù),AGI中的整個(gè)亞文化都可能被抹去。
對(duì)齊。有非常有趣的結(jié)果表明:為了得到對(duì)齊的模型,必須同時(shí)在對(duì)齊與未對(duì)齊數(shù)據(jù)上預(yù)訓(xùn)練,因?yàn)轭A(yù)訓(xùn)練會(huì)學(xué)到二者之間線性可分的方向。
如果去除未對(duì)齊數(shù)據(jù),模型就難以理解「什么是不對(duì)齊,以及為何這是不好的數(shù)據(jù)」。(有點(diǎn)善惡共存,無善無惡的味道了)

上圖指標(biāo)越高(「Toxigen」)表示毒性越強(qiáng)。
在含10%有毒數(shù)據(jù)+人工引導(dǎo)上預(yù)訓(xùn)練的模型,比在0%有毒數(shù)據(jù)+引導(dǎo)上預(yù)訓(xùn)練的模型更不毒。
特別是,上述「有毒」數(shù)據(jù)來自4chan,這是一個(gè)匿名在線論壇,以其無限制的討論和有害內(nèi)容而聞名。
盡管這是一個(gè)產(chǎn)品與研究之間存在緊密聯(lián)系的特定案例(我們需要這種無限制討論來實(shí)現(xiàn)對(duì)齊的研究模型),但我認(rèn)為你可以想到更多類似的案例,其中互聯(lián)網(wǎng)的設(shè)計(jì)決策在訓(xùn)練后影響了最終結(jié)果。

非對(duì)齊的另一個(gè)例子:Improving Image Generation with Better Captions推動(dòng)了DALL·E 3的發(fā)展。
通過重寫標(biāo)注以更清晰地區(qū)分「好/壞圖像」,如今已廣泛用于生成模型。
這與RLHF的「點(diǎn)贊/點(diǎn)踩」在精神上相似。
「苦澀的教訓(xùn)」
必須牢記:人們確實(shí)想使用互聯(lián)網(wǎng),而這些有用性質(zhì)都是與「互聯(lián)網(wǎng)這一產(chǎn)品」互動(dòng)的涌現(xiàn)結(jié)果。
如果我們總是手工整理數(shù)據(jù),就會(huì)出現(xiàn)「被整理的內(nèi)容」與「用戶覺得有用的能力」之間的二元對(duì)立。
有用的技能不應(yīng)由研究者來拍腦袋選,用戶會(huì)告訴你答案。
「人們想使用互聯(lián)網(wǎng)」的另一半原因是:人均成本足夠低,才能普及并匯聚數(shù)據(jù)。若互聯(lián)網(wǎng)需要昂貴訂閱,就不會(huì)有大規(guī)模數(shù)據(jù)貢獻(xiàn)。
人們常在「擴(kuò)展性」討論里忽略這一點(diǎn):互聯(lián)網(wǎng)是那個(gè)能擴(kuò)展學(xué)習(xí)與搜索(數(shù)據(jù)與計(jì)算)的簡(jiǎn)單理念。
若你找到這種「簡(jiǎn)單理念」并把它做大,就會(huì)收獲卓越成果。
要點(diǎn)。互聯(lián)網(wǎng)之所以對(duì)訓(xùn)練極有用,是因?yàn)椋?/span>
1)多樣,蘊(yùn)含大量有用知識(shí);
2)形成天然課程;
3)有產(chǎn)品市場(chǎng)契合,用戶持續(xù)供數(shù);
4)經(jīng)濟(jì)可行,單人成本低、可普及。
互聯(lián)網(wǎng)是「下一個(gè)token預(yù)測(cè)」的「對(duì)偶」
互聯(lián)網(wǎng)對(duì)監(jiān)督式的下一個(gè)token預(yù)測(cè)是如此完美的補(bǔ)充,以致我們甚至可以強(qiáng)說:給定互聯(lián)網(wǎng)這個(gè)「底座」,研究者幾乎必然會(huì)收斂到下一個(gè)token預(yù)測(cè)。
因此我會(huì)說:互聯(lián)網(wǎng)就是「下一個(gè)token預(yù)測(cè)」的對(duì)偶。

如上所述,盡管我們做了大量研究,當(dāng)下仍只有兩大范式。
因此,提出新的「產(chǎn)品」點(diǎn)子可能比提出新的「學(xué)習(xí)范式」更容易。這引出問題:那強(qiáng)化學(xué)習(xí)的「對(duì)偶」是什么?
現(xiàn)在有一些想法,但各有缺陷。它們都不算「純研究」,都涉及圍繞RL打造產(chǎn)品。
我們期望的屬性是:多樣性、天然課程、PMF、經(jīng)濟(jì)可行性。
最后一評(píng):先犧牲一些多樣性也可以——在自家產(chǎn)品里用RL優(yōu)化指標(biāo)(游戲、自動(dòng)售貨機(jī)、留存/利潤(rùn)/參與度等)。
這可能有效,但難點(diǎn)在于:如何把它「升格」為一種多樣化、可擴(kuò)展的獎(jiǎng)勵(lì)宇宙,從而引發(fā)范式級(jí)躍遷。
總之,我們還遠(yuǎn)未找到一個(gè)像「互聯(lián)網(wǎng)之于NTP」那樣優(yōu)雅且高產(chǎn)的「RL對(duì)偶」。

最后,Kevin Lu再次強(qiáng)調(diào),在訓(xùn)練里,模型只「看到」數(shù)據(jù)集里的東西;集外的世界等于被忽略(0 權(quán)重)。
希望有朝一日我們將找到方法來解決這個(gè)問題。



























