GPT 4o-mini華人領(lǐng)隊(duì)離開OpenAI：真正推動(dòng)AI進(jìn)步不是模型架構(gòu)，而是互聯(lián)網(wǎng)

2025-08-19 15:58:59

前OpenAI研究員Kevin Lu加盟由前OpenAI CTO Mira Murati創(chuàng)立的Thinking Machines Lab。公司2025年7月獲約20億美元早期融資，估值約120億美元。Kevin Lu曾主導(dǎo)GPT-4o mini，長(zhǎng)期研究強(qiáng)化學(xué)習(xí)、小模型與合成數(shù)據(jù)。

剛剛，OpenAI又離職一名華人大佬。

前OpenAI研究員Kevin Lu宣布加入AI新創(chuàng)Thinking Machines Lab。

Kevin Lu主導(dǎo)了GPT-4o mini的發(fā)布，并參與o*-mini、o3等模型工作。

Thinking Machines Lab由前OpenAI CTO Mira Murati創(chuàng)立的。

2025年7月，公司創(chuàng)歷史完成約20億美元的超大額早期融資（a16z領(lǐng)投），估值約120億美元。

隨后團(tuán)隊(duì)核心成員在社交平臺(tái)上互動(dòng)表示歡迎。

Kevin Lu是強(qiáng)化學(xué)習(xí)與小模型方向的研究者，本科就讀于加州大學(xué)伯克利分校，在OpenAI期間專注強(qiáng)化學(xué)習(xí)、Small Models與合成數(shù)據(jù)。

加入Thinking Machines之前還在Hudson River Trading、MetaAI從事序列決策與深度學(xué)習(xí)研究。

真正推動(dòng)AI進(jìn)步的是互聯(lián)網(wǎng)

Kevin Lu在小模型與合成數(shù)據(jù)上的實(shí)踐經(jīng)驗(yàn)，有助于Thinking Machines縮短從論文到用戶價(jià)值的距離。

尤其是他7月的一篇博客非常出圈：真正推動(dòng)AI進(jìn)步是互聯(lián)網(wǎng)。

深入淺出的講明白一個(gè)事情：與其反復(fù)摳架構(gòu)，不如擴(kuò)大、豐富、貼近現(xiàn)實(shí)的數(shù)據(jù)來源（如互聯(lián)網(wǎng)）與數(shù)據(jù)消耗方式，否則模型始終「見得少、懂得少」。

博客地址：https://kevinlu.ai/the-only-important-technology-is-the-internet

以下為博客的部分截取翻譯：

雖然AI的進(jìn)步常被歸功于一些里程碑論文——比如Transformers、RNNs、Diffusion——但這忽略了AI最根本的瓶頸：數(shù)據(jù)。

那么，「好數(shù)據(jù)」究竟意味著什么？

如果我們真想推進(jìn)AI，與其研究深度學(xué)習(xí)優(yōu)化，不如研究「互聯(lián)網(wǎng)」。

互聯(lián)網(wǎng)才是讓我們的AI模型實(shí)現(xiàn)規(guī)模化擴(kuò)展的那項(xiàng)關(guān)鍵技術(shù)。

· Transformers是一種「分散注意力」

受架構(gòu)創(chuàng)新帶來的快速進(jìn)展啟發(fā)（5年間從AlexNet到Transformer），許多研究者一直在尋找更好的架構(gòu)先驗(yàn)，寄望于設(shè)計(jì)出「優(yōu)于Transformer」的新架構(gòu)。

事實(shí)上，Transformer之后確實(shí)出現(xiàn)了一些更好的架構(gòu)；但為什么自GPT-4以來，我們很難「切身感到」這種改進(jìn)？

· 范式更迭

算力受限（compute-bound）。

曾經(jīng)，方法隨算力擴(kuò)展，更高效的方法就更好。

真正重要的是把數(shù)據(jù)盡可能高效地塞進(jìn)模型里；這些方法不僅效果更好，而且似乎「越大越靈」。

然后，數(shù)據(jù)受限（data-bound）。

研究模型架構(gòu)當(dāng)然不是沒用。社區(qū)在Transformer之后開發(fā)出了更好的方法，比如SSMs與Mamba等。

但它們并非「免費(fèi)的勝利」：在給定訓(xùn)練算力下，訓(xùn)練一個(gè)Transformer往往能得到更優(yōu)性能。

但數(shù)據(jù)綁定的范式是自由的：反正各種方法最終都差不多！

因此應(yīng)選擇推理階段更優(yōu)的方法，可能是某種「次二次注意力變體」（subquadratic attention variant）。

這些方法很可能會(huì)再度走到臺(tái)前。

· 研究者該做什么？

設(shè)想我們不只關(guān)心推理（可以理解為「產(chǎn)品」），而是關(guān)心漸近性能（可以理解為朝著AGI邁進(jìn)）：

顯然，只優(yōu)化架構(gòu)是錯(cuò)的。
調(diào)整Q-function軌跡裁剪也不對(duì)。
手工打造新數(shù)據(jù)集無法擴(kuò)展。
花哨的「時(shí)間高斯探索」（new temporal Gaussian exploration method）也大概率不具擴(kuò)展性。

社區(qū)的許多成員已經(jīng)達(dá)成共識(shí)：應(yīng)研究新的「數(shù)據(jù)消費(fèi)」方式。

目前兩大主流范式是：（1）下一個(gè)token預(yù)測(cè)（NTP）與（2）強(qiáng)化學(xué)習(xí)（RL）。

（顯然，我們?cè)凇感路妒健股喜]取得太多突破）

AI的本質(zhì)就是「消耗數(shù)據(jù)」

目前AI領(lǐng)域里程碑工作本質(zhì)上是在開辟數(shù)據(jù)消耗&消耗的新途徑：

AlexNet（2012）：用「下一個(gè)token預(yù)測(cè)」的視角來「消化」ImageNet。
GPT-2（2019）：用下一個(gè)詞預(yù)測(cè)來學(xué)習(xí)互聯(lián)網(wǎng)文本。
原生多模態(tài)（如GPT-4o、Gemini 1.5）：用下一個(gè)詞預(yù)測(cè)吸收互聯(lián)網(wǎng)的圖像與音頻。
ChatGPT：在聊天場(chǎng)景中用強(qiáng)化學(xué)習(xí)攝取隨機(jī)的人類偏好獎(jiǎng)勵(lì)。
DeepSeek-R1：在狹窄領(lǐng)域用強(qiáng)化學(xué)習(xí)攝取確定且可驗(yàn)證的獎(jiǎng)勵(lì)。

就「下一個(gè)token預(yù)測(cè)」而言，互聯(lián)網(wǎng)是完美的解決方案：它提供了極其豐富的、按序相關(guān)的數(shù)據(jù)，正好適合序列建模去學(xué)習(xí)。

互聯(lián)網(wǎng)充滿了結(jié)構(gòu)化HTML的「序列」，天生適配下一個(gè)token預(yù)測(cè)；按不同順序重構(gòu)，可以涌現(xiàn)多種有用能力。

這不是巧合：這種「序列數(shù)據(jù)」對(duì)下一個(gè)token預(yù)測(cè)近乎完美；互聯(lián)網(wǎng)與下一個(gè)token預(yù)測(cè)相輔相成。

「行星級(jí)」數(shù)據(jù)

Alec Radford在2020年的一個(gè)先見之明的演講中指出：盡管當(dāng)時(shí)提出了很多新方法，但都不如「擴(kuò)大與整理數(shù)據(jù)」重要。

我們從「寄望更好方法帶來神奇泛化（比如損失函數(shù)暗含句法樹）」，轉(zhuǎn)向一個(gè)樸素原則：模型沒被告知的事，它當(dāng)然不知道。

與其通過打造大規(guī)模監(jiān)督數(shù)據(jù)集去「硬性指定預(yù)測(cè)目標(biāo)」，不如設(shè)法讓模型從「外部的一切」中學(xué)習(xí)并進(jìn)行預(yù)測(cè)。

每次我們做一個(gè)數(shù)據(jù)集，就像是把「世界上其他一切」的重要性設(shè)為0、把「數(shù)據(jù)集內(nèi)的一切」的重要性設(shè)為1。

可憐的模型！它們知道的太少，仍有太多被隱藏。

自GPT-2之后，全球開始關(guān)注OpenAI，而時(shí)間也證明了其影響力。

如果有Transformer但沒有互聯(lián)網(wǎng)？

低數(shù)據(jù)。在低數(shù)據(jù)范式里，Transformer可能一文不值：其「架構(gòu)先驗(yàn)」不如CNN或RNN，因此表現(xiàn)應(yīng)更差。

書籍。較不極端的情況是：若無互聯(lián)網(wǎng)，我們可能用書籍/教材進(jìn)行預(yù)訓(xùn)練。教材常被視為人類智慧的巔峰：作者受過良好教育，字斟句酌。這代表一種信念：「高質(zhì)量數(shù)據(jù)勝于大數(shù)量數(shù)據(jù)」。

教材與Phi。Phi系列（「Textbooks Are All You Need」）在小模型上表現(xiàn)出色，但仍要依賴在互聯(lián)網(wǎng)訓(xùn)練的GPT-4做過濾與合成。

總體看，Phi很不錯(cuò)，但尚未證明能達(dá)到以互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練模型的漸近性能；且教材缺少大量現(xiàn)實(shí)世界與多語言知識(shí)（不過在算力受限下它們很強(qiáng)）。

「數(shù)據(jù)類別」的類比

可把「教材」視作可驗(yàn)證獎(jiǎng)勵(lì)（表述幾乎總是真），而「書籍」（尤其是創(chuàng)作類）更像是「人類偏好」，能賦予學(xué)生模型更強(qiáng)的風(fēng)格多樣性。

就像我們可能不會(huì)讓o3或Sonnet 3.7替我們寫作一樣，只在高質(zhì)數(shù)據(jù)上訓(xùn)練的模型可能缺少某種創(chuàng)造性「火花」。

因此Phi的PMF（產(chǎn)品市場(chǎng)契合）并不理想：需要知識(shí)時(shí)，人們偏好大模型；要本地「角色寫作」，人們也不太會(huì)選Phi。

互聯(lián)網(wǎng)之美

書與教材本質(zhì)上只是互聯(lián)網(wǎng)數(shù)據(jù)的壓縮（背后或許有強(qiáng)大智能在做壓縮）。

更上一層看，互聯(lián)網(wǎng)是極其多樣化的監(jiān)督源，也是人類的映射。

展示了互聯(lián)網(wǎng)用戶在過去三十多年里由幾百萬躍升到50多億的長(zhǎng)期、持續(xù)增長(zhǎng)

一些研究者可能覺得「為了研究進(jìn)步要轉(zhuǎn)向產(chǎn)品」很奇怪（甚至是干擾），但如果我們關(guān)心AGI對(duì)人類有益（而不是像AlphaZero那樣在真空中聰明），就該考慮AGI的形態(tài)（產(chǎn)品）。

我認(rèn)為研究（預(yù)訓(xùn)練）與產(chǎn)品（互聯(lián)網(wǎng)）的協(xié)同設(shè)計(jì)非常優(yōu)雅。

去中心化與多樣性

互聯(lián)網(wǎng)是去中心化的，任何人都能民主地添加知識(shí)；不存在單一真理源。

它承載了大量視角、文化模因和低資源語言；若用大模型在其上預(yù)訓(xùn)練，便能得到理解廣博知識(shí)的智能。

這意味著，互聯(lián)網(wǎng)的管理者（產(chǎn)品「管家」）對(duì)AGI的設(shè)計(jì)舉足輕重！

若削弱互聯(lián)網(wǎng)多樣性，模型在做RL時(shí)的「熵」（信息多樣度）會(huì)顯著變差；若刪除數(shù)據(jù)，AGI中的整個(gè)亞文化都可能被抹去。

對(duì)齊。有非常有趣的結(jié)果表明：為了得到對(duì)齊的模型，必須同時(shí)在對(duì)齊與未對(duì)齊數(shù)據(jù)上預(yù)訓(xùn)練，因?yàn)轭A(yù)訓(xùn)練會(huì)學(xué)到二者之間線性可分的方向。

如果去除未對(duì)齊數(shù)據(jù)，模型就難以理解「什么是不對(duì)齊，以及為何這是不好的數(shù)據(jù)」。（有點(diǎn)善惡共存，無善無惡的味道了）

上圖指標(biāo)越高（「Toxigen」）表示毒性越強(qiáng)。

在含10%有毒數(shù)據(jù)+人工引導(dǎo)上預(yù)訓(xùn)練的模型，比在0%有毒數(shù)據(jù)+引導(dǎo)上預(yù)訓(xùn)練的模型更不毒。

特別是，上述「有毒」數(shù)據(jù)來自4chan，這是一個(gè)匿名在線論壇，以其無限制的討論和有害內(nèi)容而聞名。

盡管這是一個(gè)產(chǎn)品與研究之間存在緊密聯(lián)系的特定案例（我們需要這種無限制討論來實(shí)現(xiàn)對(duì)齊的研究模型），但我認(rèn)為你可以想到更多類似的案例，其中互聯(lián)網(wǎng)的設(shè)計(jì)決策在訓(xùn)練后影響了最終結(jié)果。

非對(duì)齊的另一個(gè)例子：Improving Image Generation with Better Captions推動(dòng)了DALL·E 3的發(fā)展。

通過重寫標(biāo)注以更清晰地區(qū)分「好/壞圖像」，如今已廣泛用于生成模型。

這與RLHF的「點(diǎn)贊/點(diǎn)踩」在精神上相似。

「苦澀的教訓(xùn)」

必須牢記：人們確實(shí)想使用互聯(lián)網(wǎng)，而這些有用性質(zhì)都是與「互聯(lián)網(wǎng)這一產(chǎn)品」互動(dòng)的涌現(xiàn)結(jié)果。

如果我們總是手工整理數(shù)據(jù)，就會(huì)出現(xiàn)「被整理的內(nèi)容」與「用戶覺得有用的能力」之間的二元對(duì)立。

有用的技能不應(yīng)由研究者來拍腦袋選，用戶會(huì)告訴你答案。

「人們想使用互聯(lián)網(wǎng)」的另一半原因是：人均成本足夠低，才能普及并匯聚數(shù)據(jù)。若互聯(lián)網(wǎng)需要昂貴訂閱，就不會(huì)有大規(guī)模數(shù)據(jù)貢獻(xiàn)。

人們常在「擴(kuò)展性」討論里忽略這一點(diǎn)：互聯(lián)網(wǎng)是那個(gè)能擴(kuò)展學(xué)習(xí)與搜索（數(shù)據(jù)與計(jì)算）的簡(jiǎn)單理念。

若你找到這種「簡(jiǎn)單理念」并把它做大，就會(huì)收獲卓越成果。

要點(diǎn)。互聯(lián)網(wǎng)之所以對(duì)訓(xùn)練極有用，是因?yàn)椋?/span>

1）多樣，蘊(yùn)含大量有用知識(shí)；

2）形成天然課程；

3）有產(chǎn)品市場(chǎng)契合，用戶持續(xù)供數(shù)；

4）經(jīng)濟(jì)可行，單人成本低、可普及。

互聯(lián)網(wǎng)是「下一個(gè)token預(yù)測(cè)」的「對(duì)偶」

互聯(lián)網(wǎng)對(duì)監(jiān)督式的下一個(gè)token預(yù)測(cè)是如此完美的補(bǔ)充，以致我們甚至可以強(qiáng)說：給定互聯(lián)網(wǎng)這個(gè)「底座」，研究者幾乎必然會(huì)收斂到下一個(gè)token預(yù)測(cè)。

因此我會(huì)說：互聯(lián)網(wǎng)就是「下一個(gè)token預(yù)測(cè)」的對(duì)偶。