為何說「新數據源」是推動 AI 發展的核心動力? 原創
編者按: 我們今天為大家帶來的這篇文章,作者提出:推動 AI 進步的核心動力不是算法創新,而是新數據源的解鎖與規模化應用。
文章深入剖析了 AI 發展史上的四次重大突破 —— 深度神經網絡、Transformer + LLMs、RLHF 和推理能力的產生,揭示了每次技術躍進背后都對應著一個全新數據源的發現:從 ImageNet 圖像數據庫、互聯網文本語料,到人類反饋標注,再到驗證器數據。作者指出,這些看似革命性的技術創新,本質上都是基于監督學習和強化學習這兩種在 1990 年代就已成熟的訓練方法。文章還預測了下一次 AI 范式轉變的可能方向 —— YouTube 視頻數據和機器人具身數據,為我們理解 AI 發展規律提供了全新的思維框架。
作者 | Jack Morris
編譯 | 岳揚
大多數人都知道,AI 在過去十五年里取得了難以置信的進步 —— 尤其是在最近的五年內。我們可能會覺得這種進步勢不可擋 —— 盡管重大的范式轉變級突破并不常見,但我們依然在通過緩慢而穩健的進步繼續前進。一些研究者最近提出了一種“AI 界的摩爾定律[1]”,即計算機執行特定任務(此例中,指某些編碼類任務)的能力隨時間呈指數級的提升:

提出的“AI 摩爾定律”。(順便說一句,任何認為在 2025 年 4 月就能讓 Autonomous Agent 在沒有人工干預的情況下運行一小時的人,都是在自欺欺人)
盡管出于種種原因,我并不認同這種具體的框架,但我無法否認進步的趨勢。每一年,我們的 AI 都變得更聰明一點、更快一點、更便宜一點,而且看不到盡頭。
大多數人認為,這種持續進步源于學術界(主要是 MIT、Stanford、CMU)和工業界(主要是 Meta、Google 及一些中國實驗室)源源不斷的創意供給 —— 當然還有大量其他機構的研究成果我們無從知曉。
這些研究確實推動了行業的進步,尤其在系統架構/工程實現層面。這也正是模型成本得以不斷降低的關鍵。讓我精選近年來的幾個典型案例:
- 2022 年斯坦福大學的研究者貢獻了FlashAttention[2],這種提升語言模型內存利用率的方法如今已被廣泛應用;
- 2023 年谷歌研究人員開發了speculative decoding[3],所有模型提供商都用它來加快推理速度(類似的技術也出現在 DeepMind[4],據說是同期成果?)
- 2024 年,由一群網絡極客組成的雜牌軍打造出Muon[5],似乎是比 SGD 或 Adam 更好的優化器,或將成為未來語言模型訓練的新標準
- 2025 年 DeepSeek 開源DeepSeek-R1[6],其推理能力媲美頂尖閉源模型(特指 Google 與 OpenAI 產品)
所以,人類確實在不斷探索突破。而現實情況比這更酷:我們正參與一場去中心化的全球科學實踐,研究成果通過 ArXiv[7]、學術會議和社交媒體公開共享,人類智慧正逐月累進。
既然我們正在進行這么多重要的研究,為何有人會聲稱 AI 的進展放緩了?抱怨聲依然不斷[8]。最近發布的兩大模型(Grok 3[9] 與 GPT-4.5[10])與之前的模型相比,能力僅有微弱提升。舉一個典型案例,語言模型參加最新的數學奧林匹克測試時[11],得分率僅為 5%,表明近期宣傳的系統能力恐有夸大之嫌[12]。
如果我們試圖記錄那些大的突破,那些真正的范式轉變,它們似乎是以不同的速度發生的。讓我列舉幾個我想到的例子。
01 LLMs 的四大突破
1)深度神經網絡:在 2012 年 AlexNet[13] 贏得圖像識別競賽后,深度神經網絡首次爆發
2)Transformers + LLMs:2017 年谷歌在《Attention Is All You Need》[14]提出 transformers,催生了 BERT[15](Google, 2018)與初代 GPT[16](OpenAI, 2018)
3)RLHF:據我所知,OpenAI 的 InstructGPT 論文[17]在 2022 年被首次提出
4)推理能力:2024 年 OpenAI 發布 O1,繼而催生 DeepSeek-R1
粗略來看,這四大突破(DNNs → Transformer LMs → RLHF → Reasoning)幾乎概括了 AI 發展的全貌。我們經歷了 DNNs(主要是圖像識別)、文本分類器、chatbot,現在又有了推理模型(不管它是什么)。
若想實現第五次突破,研究這些案例可能會有所幫助:究竟是什么新的研究思路促成了這些突破性事件?
認為這些突破的所有底層機制在 1990 年代(甚至更早)就已存在并非無稽之談。我們只是在應用相對簡單的神經網絡架構,進行兩種訓練:監督學習(突破 1 和 2)或強化學習(突破 3 和 4)。
基于交叉熵(cross-entropy)的監督學習是當前預訓練語言模型的主要方法,這一技術可追溯至 1940 年代 Claude Shannon 的研究。
用于 RLHF 和推理訓練的強化學習是對語言模型進行后訓練的主要方式,它的出現時間略晚些。其源頭可追溯至 1992 年策略梯度方法(policy-gradient methods)的提出[18](相關思想必然已出現在 1998 年 Sutton & Barto 編寫的《Reinforcement Learning》初版教材中)。
02 若理論基礎皆非創新,突破性進展的本質是什么?
我們不妨先達成共識:這些“重大突破”實則是既有知識的創新應用。首先,這告訴我們一些關于下一個突破性進展(即前文所述的“神秘的第五次突破”)的信息。我們的突破不太可能源自一個全新的理論,而應是我們早已熟知的事物的再次出現。
但是,這里還缺少一個環節,這四項突破中的每一項都使我們能夠從新的數據源中學習:
1)AlexNet 及其后續模型:解鎖了 ImageNet[19](標注了類別標簽的大型圖像數據庫),推動了計算機視覺十五年的進步。
2)Transformers:開啟了在“互聯網”上的訓練,以及下載、分類和解析網絡上所有文本[20]的競賽(當前基本完成[21])。
3)RLHF:使模型能從人類標注信息中學習“優質文本”的標準(主要是學習一種感覺)。
4)推理能力:讓模型能夠通過“驗證器[22]”學習 —— 比如可以評估語言模型輸出的計算器和編譯器。
請記住,每一個里程碑都標志著對應數據源(ImageNet、全網文本、人類反饋、驗證器)首次實現規模化應用。 每一個里程碑之后,都會掀起一場研究熱潮:研究人員們爭相(a)從所有可用的數據來源中榨取剩余的有效數據;(b)通過新技巧提升數據的利用效率,使系統更高效、對數據的需求更低(預計 2025-2026 年我們將見證推理模型領域的此類競賽 —— 研究人員爭相對可驗證的內容進行發掘、分類和驗證)。

自我們構建 ImageNet[19](當時最大的網絡圖像公共數據集)起,AI 的發展之勢便已勢不可擋。
03 新 ideas 究竟有多重要?
我們必須要承認:那些實際的技術創新在這些案例中可能并非決定性因素。 設想一下這種不符合事實的場景:若 AlexNet 未曾誕生,也許就會出現另一種可以處理 ImageNet 的架構。若 Transformers 未被發現,我們或將繼續使用 LSTMs/SSMs,或者找到其他完全不同的東西來學習我們能在網上獲得的大量有用的訓練數據。
這與“唯數據論”不謀而合 —— 一些研究人員注意到,相較于訓練技術、模型優化技巧和超參調整方法,數據才是能帶來最大變化的變量。
有這么一個典型案例,研究人員嘗試用不同于 transformer 的架構開發類 BERT 模型[23]。他們花了一年左右的時間,以數百種不同的方式對架構進行了調整,最終成功開發出了一種不同類型的模型(這是一種狀態空間模型/“SSM”),在相同的數據上進行訓練時,它的表現與原始的 transformer 大致相當。
這一發現意義深遠,因為它暗示我們從給定數據集中學到的東西是有上限的。世界上的所有訓練技巧與模型升級,都無法繞過一個冷酷的事實:你能從給定數據集中學到的東西是有限的。
或許這正是《苦澀的教訓》[24]的核心啟示:如果數據是唯一重要的東西,為什么 95% 的人都在研究新方法?
04 下一次范式轉變將從何而來?(YouTube...或許?)
顯而易見,我們的下一次范式轉變不會來自對 RL 的改進或一種新型神經網絡。它將會出現在我們解鎖一個我們以前從未接觸過或尚未妥善利用的數據源時。
當前大家集中攻關的數據來源就是視頻數據。某網站數據[25]顯示,YouTube 每分鐘上傳約 500 小時的視頻數據。視頻數據規模遠超全網文本的總量,且信息維度更豐富:視頻數據中不僅包含語音文本,還有語氣變化以及豐富的物理和文化信息 —— 這些都是無法從文本中收集到的。
可以肯定的是,只要我們的模型足夠高效,或者我們的算力足夠強大,谷歌就會開始在 YouTube 數據上訓練模型。畢竟坐擁豐富資源卻閑置不用,實屬暴殄天物。
人工智能下一個“大范式”的最后一個競爭者是具身數據采集系統(大眾稱之為機器人)。 目前,我們還無法以適合在 GPU 上訓練大型模型的方式收集和處理來自攝像頭和傳感器的信息。如果我們能開發更智能的傳感器,或將算力提升到能夠輕松處理機器人的海量數據流,或許將開辟一種全新的應用場景。
YouTube、機器人抑或是其他領域是否會成為 AI 技術的下一站?語言模型目前雖占據主流,但我們似乎也很快就會耗盡語言數據。如果我們想在人工智能領域尋求下一次突破,或許我們應該停止追逐新理論,轉而開始尋找新數據源。
END
本期互動內容 ??
?文章預測 YouTube 視頻或機器人數據是下一個 AI 范式轉變的來源。拋開這兩項,你認為還有哪些未被充分利用或極具潛力的“新數據源” 能帶來 AI 的下一次飛躍?
文中鏈接
[1]??https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/??
[2]??https://arxiv.org/abs/2205.14135??
[3]??https://arxiv.org/abs/2211.17192??
[4]??https://arxiv.org/pdf/2302.01318??
[5]??https://kellerjordan.github.io/posts/muon/??
[6]??https://arxiv.org/abs/2501.12948??
[7]??https://arxiv.org/??
[9]??https://x.ai/news/grok-3??
[10]??https://openai.com/index/introducing-gpt-4-5/??
[11]??https://arxiv.org/abs/2503.21934v1??
[12]??https://cdn.openai.com/o1-system-card-20241205.pdf??
[14]??https://arxiv.org/abs/1706.03762??
[15]??https://arxiv.org/abs/1810.04805??
[16]??https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf??
[17]??https://arxiv.org/abs/2203.02155??
[18]??https://people.cs.umass.edu/~barto/courses/cs687/williams92simple.pdf??
[19]https//www.image-net.org/
[20]??https://arxiv.org/abs/2101.00027??
[21]??https://www.lesswrong.com/posts/6Fpvch8RR29qLEWNH/chinchilla-s-wild-implications??
[22]??http://incompleteideas.net/IncIdeas/KeytoAI.html??
[23]??https://arxiv.org/abs/2212.10544??
[24]??http://www.incompleteideas.net/IncIdeas/BitterLesson.html??
[25]??https://www.dexerto.com/entertainment/how-many-videos-are-there-on-youtube-2197264/??
本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。
原文鏈接:
??https://blog.jxmo.io/p/there-are-no-new-ideas-in-ai-only??

















