理性看待、正確理解AI中的 Scaling “l(fā)aws” 原創(chuàng)

發(fā)布于 2024-8-17 10:26

瀏覽

0收藏

編者按：LLMs 規(guī)模和性能的不斷提升，讓人們不禁產(chǎn)生疑問(wèn)：這種趨勢(shì)是否能一直持續(xù)下去？我們是否能通過(guò)不斷擴(kuò)大模型規(guī)模最終實(shí)現(xiàn)通用人工智能（AGI）？回答這些問(wèn)題對(duì)于理解 AI 的未來(lái)發(fā)展軌跡至關(guān)重要。
在這篇深度分析文章中，作者提出了一個(gè)令人深思的觀點(diǎn)：?jiǎn)螁我揽繑U(kuò)大模型規(guī)模來(lái)實(shí)現(xiàn) AGI 的可能性幾乎為零。
這篇文章為我們提供了一個(gè)清醒的視角，提醒我們?cè)陬A(yù)測(cè) AI 未來(lái)發(fā)展時(shí)需要保持謹(jǐn)慎和理性。它挑戰(zhàn)了業(yè)界普遍接受的觀點(diǎn)，促使我們重新思考 AI 發(fā)展的方向和潛在瓶頸。隨著 AI 技術(shù)的不斷演進(jìn)，我們需要更加全面和深入地理解這一領(lǐng)域，而不是簡(jiǎn)單地依賴于趨勢(shì)線外推的預(yù)測(cè)方法。

作者 ?? | Arvind Narayanan & Sayash Kapoor

編譯 ?? | 岳揚(yáng)

目錄??

01 Scaling “l(fā)aws” 經(jīng)常被誤解

02 這種趨勢(shì)預(yù)測(cè)是毫無(wú)根據(jù)的猜測(cè)

03 合成數(shù)據(jù)并非萬(wàn)能鑰匙

04 模型越來(lái)越小，但訓(xùn)練時(shí)間卻越來(lái)越長(zhǎng)

05 The ladder of generality

06 擴(kuò)展閱讀

到目前為止，LLMs 其規(guī)模不斷增加，其性能表現(xiàn)也日益增強(qiáng)。然而，這是否意味著我們可以據(jù)此預(yù)測(cè)人工智能的未來(lái)發(fā)展趨勢(shì)呢？

目前業(yè)界廣泛接受的一種觀點(diǎn)認(rèn)為，AI 目前所保持的發(fā)展趨勢(shì)仍將持續(xù)，并且可能會(huì)最終帶領(lǐng)我們實(shí)現(xiàn)通用人工智能，也就是所謂的 AGI。

然而，這種觀點(diǎn)建立在一連串的誤解和錯(cuò)誤觀念之上。模型規(guī)模的線性增長(zhǎng)看似可以預(yù)測(cè)，但這實(shí)際上似乎是對(duì)研究成果的誤讀。 另外，有跡象表明 LLMs 開(kāi)發(fā)人員所能使用的高質(zhì)量訓(xùn)練數(shù)據(jù)已經(jīng)逼近極限。同時(shí)，整個(gè)行業(yè)正面臨著縮小模型規(guī)模的巨大壓力。雖然我們無(wú)法準(zhǔn)確預(yù)知 AI 通過(guò)不斷擴(kuò)大模型規(guī)模將發(fā)展到何種程度，但我們認(rèn)為單單依靠擴(kuò)大模型規(guī)模實(shí)現(xiàn) AGI 的可能性幾乎為零。

01 Scaling “l(fā)aws” 經(jīng)常被誤解

研究表明[1]，隨著模型規(guī)模、訓(xùn)練計(jì)算資源以及訓(xùn)練數(shù)據(jù)集的擴(kuò)大，語(yǔ)言模型的性能表現(xiàn)似乎在“提升”。這種模型性能提升的規(guī)律性確實(shí)令人震驚??，并且在很大范圍內(nèi)都適用。這也是為什么很多人認(rèn)為，不斷增大模型規(guī)模的發(fā)展趨勢(shì)在未來(lái)一段時(shí)間內(nèi)仍將延續(xù)，頂尖的人工智能公司也將不斷推出更大、更強(qiáng)的模型。

然而，這種理解完全曲解了 scaling laws 的本質(zhì)。所謂“更好”的模型究竟指的是什么？scaling laws 僅僅量化了模型在預(yù)測(cè)文本時(shí)的不確定性的減少程度，也就是說(shuō)，模型在預(yù)測(cè)序列中下一個(gè)詞的能力的提高。 當(dāng)然，不確定性的減少程度對(duì)于終端用戶來(lái)說(shuō)并不重要 —— 關(guān)鍵在于模型的“涌現(xiàn)能力[2]”，即模型隨著規(guī)模的擴(kuò)大，而獲得新能力的趨勢(shì)。

需要注意！涌現(xiàn)能力不會(huì)遵循某種固定法則。 雖然到目前為止，模型規(guī)模的增加確實(shí)帶來(lái)了很多新能力，但我們沒(méi)有任何經(jīng)驗(yàn)性的規(guī)律可以確信這種趨勢(shì)會(huì)無(wú)期限的持續(xù)下去。¹

為什么模型的涌現(xiàn)能力不會(huì)無(wú)限期的持續(xù)增強(qiáng)？這涉及到 LLMs 能力的核心爭(zhēng)論之一 —— 它們能否超越訓(xùn)練數(shù)據(jù)進(jìn)行外推（extrapolation），還是只能學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的任務(wù)場(chǎng)景？目前的證據(jù)并不完整，對(duì)此有多種合理的解讀方式。但我們更傾向于持懷疑態(tài)度。在那些評(píng)估模型解決未知任務(wù)能力的基準(zhǔn)測(cè)試中，大語(yǔ)言模型通常表現(xiàn)不佳[3]。

如果 LLMs 無(wú)法在現(xiàn)有訓(xùn)練數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)更多突破，那么到了某個(gè)階段，單單增加數(shù)據(jù)量將不再起到任何作用，因?yàn)樗锌赡艹霈F(xiàn)在訓(xùn)練數(shù)據(jù)中的任務(wù)場(chǎng)景都已經(jīng)有所體現(xiàn)。傳統(tǒng)的機(jī)器學(xué)習(xí)模型最終都會(huì)遇到性能瓶頸，也許 LLMs 也不例外。

02 這種趨勢(shì)預(yù)測(cè)是毫無(wú)根據(jù)的猜測(cè)

持續(xù)擴(kuò)大模型規(guī)模的另一個(gè)障礙在于獲取訓(xùn)練數(shù)據(jù)。目前這些科技公司已經(jīng)基本利用了所有易于獲取的數(shù)據(jù)資源。那么，他們還能找到更多的優(yōu)質(zhì)數(shù)據(jù)嗎？

這種情況可能比想象中更為棘手。有人可能會(huì)認(rèn)為，新的數(shù)據(jù)源（比如轉(zhuǎn)錄 YouTube 上的全部視頻為文本文檔）能夠使數(shù)據(jù)量增加一到兩個(gè)數(shù)量級(jí)。誠(chéng)然，YouTube 上的視頻總時(shí)長(zhǎng)達(dá)到了 1500 億分鐘[4]。但考慮到其中大部分視頻并沒(méi)有實(shí)用的音頻內(nèi)容（可能是音樂(lè)、靜態(tài)圖片或游戲視頻等），實(shí)際可用的數(shù)據(jù)量可能遠(yuǎn)低于 Llama 3 目前使用的150萬(wàn)億個(gè)詞元（tokens） —— 這還不包括對(duì)轉(zhuǎn)錄的 YouTube 音頻進(jìn)行去重和根據(jù)質(zhì)量進(jìn)行篩選的過(guò)程，這一步驟很可能會(huì)再減少至少一個(gè)數(shù)量級(jí)的數(shù)據(jù)量。²

大家經(jīng)常會(huì)討論這些科技公司何時(shí)會(huì)“耗盡”訓(xùn)練數(shù)據(jù)。但這并不是一個(gè)有意義的問(wèn)題，訓(xùn)練數(shù)據(jù)總會(huì)有的，但獲取訓(xùn)練數(shù)據(jù)的成本會(huì)越來(lái)越高。而且，版權(quán)所有者已經(jīng)意識(shí)到這一點(diǎn)[5]，并希望得到報(bào)酬，獲取數(shù)據(jù)的成本可能會(huì)急劇上升。除了經(jīng)濟(jì)成本，還可能涉及聲譽(yù)和合規(guī)風(fēng)險(xiǎn)，因?yàn)檎麄€(gè)社會(huì)可能會(huì)對(duì)某些數(shù)據(jù)收集行為產(chǎn)生抵觸情緒。

我們可以肯定，沒(méi)有任何指數(shù)型增長(zhǎng)的趨勢(shì)能夠無(wú)限期地持續(xù)。但是，很難預(yù)測(cè)技術(shù)趨勢(shì)何時(shí)會(huì)趨于平穩(wěn)。特別是當(dāng)這種增長(zhǎng)趨勢(shì)是突然停止而非逐漸放緩時(shí)，趨勢(shì)線并不會(huì)提前給出即將趨于平穩(wěn)的信號(hào)。

理性看待、正確理解AI中的 Scaling “l(fā)aws”-AI.x社區(qū)

中央處理器（CPU）的時(shí)鐘速度歷史變化圖。y軸采用對(duì)數(shù)尺度。

source: ??https://en.wikipedia.org/wiki/File:Clock_CPU_Scaling.jpg??

有兩個(gè)著名的案例可以證明這一觀點(diǎn)，一個(gè)是 00 年代 CPU 的時(shí)鐘速度，另一個(gè)則是上世紀(jì) 70 年代的飛機(jī)速度。CPU 制造商們認(rèn)為，進(jìn)一步提升時(shí)鐘速度的成本過(guò)高且意義不大（因?yàn)?CPU 已不再是影響整體性能的關(guān)鍵瓶頸），因此干脆決定停止在這一領(lǐng)域的競(jìng)爭(zhēng)，從而突然間消解了不斷提高時(shí)鐘速度的壓力。至于飛機(jī)飛行速度的情況則更為復(fù)雜，但本質(zhì)上是因?yàn)槭袌?chǎng)開(kāi)始更加重視燃油效率[6][7]而不再是飛行速度。³

理性看待、正確理解AI中的 Scaling “l(fā)aws”-AI.x社區(qū)

不同時(shí)期的飛行空速記錄。1976年 SR-71 Blackbird 創(chuàng)造的紀(jì)錄至今仍未被打破。Source: ??https://en.wikipedia.org/wiki/Flight_airspeed_record??

對(duì)于 LLMs ，可能還有幾個(gè)數(shù)量級(jí)的擴(kuò)展空間，或者可能現(xiàn)在就已經(jīng)達(dá)到了極限。與 CPU 和飛機(jī)的情況類似，是否繼續(xù)擴(kuò)展本質(zhì)是一個(gè)商業(yè)決策，而且很難提前做出準(zhǔn)確預(yù)測(cè)。

在研究領(lǐng)域，目前的焦點(diǎn)已經(jīng)從不斷擴(kuò)充數(shù)據(jù)集轉(zhuǎn)向提升訓(xùn)練數(shù)據(jù)的質(zhì)量[8]。通過(guò)精細(xì)的數(shù)據(jù)清洗和篩選過(guò)濾，我們可以使用更小的數(shù)據(jù)集[9][10]構(gòu)建出同樣強(qiáng)大的模型。⁴

03 合成數(shù)據(jù)并非萬(wàn)能鑰匙

合成數(shù)據(jù)（Synthetic data）通常被看作是繼續(xù)擴(kuò)展模型規(guī)模的關(guān)鍵途徑。換句¹話說(shuō)，目前的模型或許能夠用來(lái)為下一代模型生成訓(xùn)練數(shù)據(jù)。

但我們認(rèn)為這種看法基于一種錯(cuò)誤的認(rèn)識(shí) —— 我們不相信開(kāi)發(fā)者正在使用（或者能夠使用）合成數(shù)據(jù)來(lái)增加訓(xùn)練數(shù)據(jù)量。有一篇論文[11]詳細(xì)列出了合成數(shù)據(jù)在模型訓(xùn)練中的各種使用場(chǎng)景，并且都是為了彌補(bǔ)具體差距，并針對(duì)特定領(lǐng)域（比如數(shù)學(xué)語(yǔ)言、編程語(yǔ)言或其他 low-resource languages（譯者注：在數(shù)字世界中可用資源較少的語(yǔ)言。））進(jìn)行改進(jìn)的使用場(chǎng)景。同樣， Nvidia 最近推出的 Nemotron 340B 模型[12]，專注于生成合成數(shù)據(jù)，該模型的主要應(yīng)用場(chǎng)景就是數(shù)據(jù)對(duì)齊（譯者注：alignment，確保合成數(shù)據(jù)與真實(shí)數(shù)據(jù)在分布上盡可能接近，以便合成數(shù)據(jù)可以有效地用于訓(xùn)練和提升模型性能。）。雖然還有一些次要用途，但用合成數(shù)據(jù)取代當(dāng)前的用于預(yù)訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)源（sources of pre-training data）并不是其目標(biāo)。簡(jiǎn)而言之，盲目生成合成訓(xùn)練數(shù)據(jù)不太可能達(dá)到人類生產(chǎn)的高質(zhì)量數(shù)據(jù)相同效果。

在某些案例中，合成數(shù)據(jù)的效果十分好，例如 AlphaGo[13] 在 2016 年擊敗了圍棋世界冠軍，以及它的后續(xù)版本 AlphaGo Zero 和 AlphaZero**[14] 。這些系統(tǒng)通過(guò)自我對(duì)弈來(lái)學(xué)習(xí)下棋?，后兩者甚至沒(méi)有使用任何人類棋譜作為訓(xùn)練數(shù)據(jù)。它們通過(guò)大量計(jì)算生成了相對(duì)高質(zhì)量的棋譜數(shù)據(jù)，然后用這些棋譜數(shù)據(jù)集來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，神經(jīng)網(wǎng)絡(luò)再結(jié)合計(jì)算生成更高質(zhì)量的棋譜數(shù)據(jù)集，從而形成了一個(gè)迭代改進(jìn)的正向循環(huán)。

自我下棋對(duì)弈?是 “System 2 --> System 1 distillation” 過(guò)程的典型案例，在這個(gè)例子中，緩慢且昂貴的 “System 2” 模型生成訓(xùn)練數(shù)據(jù)，用以訓(xùn)練一個(gè)快速且經(jīng)濟(jì)的 “System 1” 模型。這種方法對(duì)于像圍棋這樣完全封閉的游戲非常有效。將自我對(duì)弈（self-play）應(yīng)用于游戲之外的領(lǐng)域是一個(gè)有價(jià)值的研究方向。在諸如代碼生成（code generation）等重要領(lǐng)域，這種策略可能很有價(jià)值。但我們不能指望在更開(kāi)放的任務(wù)（open-ended tasks）中（比如語(yǔ)言翻譯），能無(wú)限期地自我完善、提升。我們應(yīng)該期待，能夠通過(guò)自我對(duì)弈實(shí)現(xiàn)重大改進(jìn)的領(lǐng)域是特殊情況，而不是普遍規(guī)律。

04 模型越來(lái)越小，但訓(xùn)練時(shí)間卻越來(lái)越長(zhǎng)

從歷史角度來(lái)看，數(shù)據(jù)集大小、模型大小和投入的訓(xùn)練算力 —— 這三個(gè)要素通常是同步增長(zhǎng)的[15]，這一點(diǎn)也已經(jīng)被證明是最佳的。但如果其中某個(gè)要素（高質(zhì)量數(shù)據(jù)）成為瓶頸，其他兩個(gè)要素，模型大小和投入的訓(xùn)練算力，是否還會(huì)繼續(xù)增長(zhǎng)？

根據(jù)當(dāng)前的市場(chǎng)趨勢(shì)，即使構(gòu)建更大的模型能夠解鎖新的能力，但這似乎并不是一個(gè)明智的商業(yè)選擇。這是因?yàn)槟Ｐ偷哪芰Σ辉偈谴蠹疫x用某款模型所考慮的主要因素。換句話說(shuō)，有許多應(yīng)用程序都可以利用當(dāng)前 LLMs 的能力來(lái)構(gòu)建，但由于使用成本等原因，這些 Apps 沒(méi)有被構(gòu)建或使用。對(duì)那些可能需要多次調(diào)用[16] LLMs 來(lái)完成某項(xiàng)任務(wù)的 “agentic” 工作流程（例如代碼生成（code generation）[17]）來(lái)說(shuō)尤其如此。

在過(guò)去的一年中，大部分開(kāi)發(fā)工作都集中于在保持一定能力的前提下，開(kāi)發(fā)更小的模型 ⁵。前沿模型開(kāi)發(fā)者不再公開(kāi)模型的具體規(guī)模，所以我們無(wú)法確切知道這一點(diǎn)，但我們可以通過(guò)觀察 API 定價(jià)來(lái)大致推測(cè)模型的規(guī)模。例如，GPT-4o 的成本是 GPT-4 的 25%，而能力相似或甚至更強(qiáng)。在 Anthropic 和 Google 系列模型也看到了同樣的模式。Claude 3 Opus 是 Claude 模型家族中最昂貴（也可能是規(guī)模最大的）模型，但最近推出的 Claude** 3.5 Sonnet 不僅使用成本是前者的五倍，而且能力也更強(qiáng)。同樣，Gemini 1.5 Pro 不僅使用成本更低，而且模型能力也更強(qiáng)大。因此，規(guī)模最大的模型并不一定是最強(qiáng)大的！

然而，另一方面，用于模型訓(xùn)練的算力規(guī)模可能還會(huì)繼續(xù)增長(zhǎng)。盡管看起來(lái)有些矛盾，但實(shí)際上較小的模型需要更多訓(xùn)練迭代次數(shù)才能達(dá)到與較大模型相同的性能水平。 因此，減小模型規(guī)模后，為了保持相同的性能水平，開(kāi)發(fā)者需要消耗更多的訓(xùn)練計(jì)算資源。開(kāi)發(fā)者必須在訓(xùn)練成本和推理成本之間做出權(quán)衡。早期的模型（如 GPT-3.5 和 GPT-4）在一定程度上被認(rèn)為是訓(xùn)練不足的，因?yàn)樵谒鼈兊恼麄€(gè)生命周期中，推理成本被認(rèn)為是訓(xùn)練成本的主要部分。理想情況下，這兩者應(yīng)該大致相等，因?yàn)榭偸怯锌赡苡糜?xùn)練成本的增加換取推理成本的減少，反之亦然。有這么一個(gè)典型案例：80 億參數(shù)規(guī)模的 Llama 3 模型在訓(xùn)練過(guò)程中使用了 20 倍于原始 Llama 模型（大約70億參數(shù)）的浮點(diǎn)運(yùn)算次數(shù)（FLOPs）** 。

05 The ladder of generality

一個(gè)支持我們不太可能通過(guò) “scaling” 看到模型擁有更多能力提升觀點(diǎn)的跡象是，AI 巨頭的 CEO 們已經(jīng)大幅降低[18]了他們對(duì)通用人工智能（AGI）的預(yù)期。遺憾的是，他們并沒(méi)有承認(rèn)他們對(duì)“三年內(nèi)實(shí)現(xiàn)AGI”的預(yù)測(cè)是錯(cuò)誤的，而是為了挽回面子，決定淡化 AGI 的含義，以至于現(xiàn)在 AGI 的含義變得毫無(wú)意義。從一開(kāi)始，AGI 就沒(méi)有被明確定義[19]，這對(duì)它的發(fā)展很有幫助。

我們不必將泛化能力視為一個(gè)非黑即白的問(wèn)題（binary），我們可以將其視為一個(gè)連續(xù)的過(guò)程（spectrum）。 在過(guò)去，為了讓計(jì)算機(jī)執(zhí)行一個(gè)全新的任務(wù)，需要大量的編程工作，可能需要編寫和測(cè)試大量的代碼。然而，隨著技術(shù)的發(fā)展，出現(xiàn)了更高級(jí)的編程語(yǔ)言、更高效的編程工具和更智能的編程輔助系統(tǒng)，使得編程變得更加自動(dòng)化和易于操作。我們可以將其視為泛化能力的提升。這一趨勢(shì)始于從專用計(jì)算機(jī)（special-purpose computers）向圖靈機(jī)**（Turing machines）的轉(zhuǎn)變。從這個(gè)角度看，大語(yǔ)言模型的泛化能力并不是一個(gè)全新的概念。

這就是我們?cè)凇禔I Snake Oil》[20]一書中所持的觀點(diǎn)，其中有一章專門討論 AGI。我們將人工智能的發(fā)展視為一種 punctuated equilibrium （譯者注：是一個(gè)生物學(xué)術(shù)語(yǔ)，由古生物學(xué)家尼爾斯·埃德雷（Niles Eldredge）和史蒂芬·杰·古爾德（Stephen Jay Gould）在1972年提出，用來(lái)描述生物進(jìn)化的一種模式。在這種模式中，物種的形態(tài)在長(zhǎng)時(shí)間的穩(wěn)定期（equilibrium）之后，會(huì)經(jīng)歷短暫的、快速的形態(tài)變化（punctuation），這些變化可能伴隨著物種的滅絕和新物種的產(chǎn)生。這個(gè)概念在此強(qiáng)調(diào)了技術(shù)進(jìn)步的不連續(xù)性和突發(fā)性，而不是持續(xù)和穩(wěn)定的線性發(fā)展。）的過(guò)程，我們稱之為 “The ladder of generality”（并不意味著泛化能力的進(jìn)步是線性的）。指令調(diào)優(yōu)（Instruction-tuned）的 LLMs 是這個(gè)階梯（ladder）上最新的一步。在我們能讓 AI 像人類一樣有效地完成任何有經(jīng)濟(jì)價(jià)值的工作（這是 AGI 的一種定義）的泛化水平之前，我們還有許多臺(tái)階要走。

回顧歷史，當(dāng)人類站在階梯的每一級(jí)臺(tái)階時(shí)，AI 研究領(lǐng)域都很難預(yù)測(cè)當(dāng)前范式還能走多遠(yuǎn)、下一級(jí)臺(tái)階會(huì)是什么、它將何時(shí)到來(lái)、會(huì)開(kāi)啟哪些新應(yīng)用以及對(duì)安全性的影響。我們認(rèn)為這一趨勢(shì)還將繼續(xù)下去。

06 擴(kuò)展閱讀

Leopold Aschenbrenner 最近發(fā)表了一篇文章[21]，聲稱 "到 2027 年實(shí)現(xiàn) AGI 是非常有可能的"，這引起了軒然大波。我們沒(méi)有試圖在此逐點(diǎn)反駁 —— 這篇文章的大部分內(nèi)容都是在 Aschenbrenner 的那篇文章發(fā)布之前草擬的。Leopold Aschenbrenner 對(duì)于 AGI 將在2027年實(shí)現(xiàn)的觀點(diǎn)，雖然有趣且引人深思，但本質(zhì)上是一種趨勢(shì)線外推預(yù)測(cè)方法的使用。此外，像許多 AI 推動(dòng)者一樣，他將基準(zhǔn)性能與現(xiàn)實(shí)世界中的實(shí)用性混為一談[22]了。

許多 AI 研究人員都對(duì)他的觀點(diǎn)持懷疑態(tài)度，包括 Melanie Mitchell**、Yann LeCun、Gary Marcus、Fran?ois Chollet 和 Subbarao Kambhampati 等人。

Dwarkesh Patel 為這場(chǎng)辯論的雙方觀點(diǎn)進(jìn)行了很好地概述[23]。

致謝：感謝 Matt Salganik、Ollie Stephenson 和 Benedikt Str?bl 對(duì)本文初稿的反饋意見(jiàn)。

腳注：

如果能夠找到一個(gè)平滑而非不連續(xù)變化的泛化能力度量標(biāo)準(zhǔn)，那么新出現(xiàn)的能力將是可預(yù)測(cè)的。然而，找到這樣一個(gè)度量標(biāo)準(zhǔn)并不容易，尤其是對(duì)于那些需要綜合技能的任務(wù)而言。在實(shí)踐中，下一個(gè)數(shù)量級(jí)上是否會(huì)出現(xiàn)新能力以及哪些新能力將出現(xiàn)，這個(gè)問(wèn)題誰(shuí)也說(shuō)不準(zhǔn)。
人工智能公司確實(shí)使用轉(zhuǎn)錄的 YouTube 文本數(shù)據(jù)進(jìn)行訓(xùn)練，但這些數(shù)據(jù)之所以有價(jià)值，是因?yàn)樗梢詭椭?LLMs 學(xué)習(xí)口語(yǔ)對(duì)話，而不是因?yàn)槠鋽?shù)據(jù)數(shù)量龐大。
自由主義評(píng)論家（Libertarian commentators）將飛機(jī)速度的停滯增長(zhǎng)完全歸因于監(jiān)管，但這是錯(cuò)誤的，或者充其量是過(guò)于簡(jiǎn)單化了。誠(chéng)然，F(xiàn)AA 在 1973 年基本上禁止了民用飛機(jī)在美國(guó)陸地上空進(jìn)行超音速飛行。但最快的飛機(jī)都是軍用飛機(jī)，所以禁令對(duì)它們沒(méi)有影響。而且，民用飛機(jī)的巡航速度遠(yuǎn)低于 1 馬赫，這是出于燃油效率和其他考慮。
關(guān)于 LLMs 的訓(xùn)練是否可以通過(guò)使用更少的訓(xùn)練數(shù)據(jù)（樣本）來(lái)達(dá)到同樣的甚至更好的性能，仍然存在爭(zhēng)議。畢竟，人類兒童在接觸到比 LLMs 少得多的詞匯后就能學(xué)會(huì)語(yǔ)言。另一方面，人類兒童是“搖籃里的科學(xué)家”，在很早就開(kāi)發(fā)出了世界模型（world models）和推理能力（reasoning abilities），也許這就是他們能夠高效學(xué)習(xí)語(yǔ)言的原因。這場(chǎng)爭(zhēng)論與本文的觀點(diǎn)無(wú)關(guān)。如果模型在處理特定任務(wù)或進(jìn)行外推（extrapolation）時(shí)存在困難，那么這些困難將成為限制 LLMs 能力的主要因素，而不是樣本數(shù)據(jù)的使用效率（譯者注：sample efficiency，指的是模型在訓(xùn)練過(guò)程中使用最少的數(shù)據(jù)量就能達(dá)到良好性能的能力。）。
即便模型開(kāi)發(fā)者發(fā)布了規(guī)模更大的模型（以參數(shù)數(shù)量計(jì)算），也越來(lái)越關(guān)注推理效率（例如在 MoE 模型 Mixtral 8x22B 中），推理過(guò)程中的有效活躍參數(shù)數(shù)量遠(yuǎn)遠(yuǎn)低于總參數(shù)數(shù)量。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Arvind Narayanan is a professor of computer science at Princeton and the director of the Center for Information Technology Policy. He led the Princeton Web Transparency and Accountability Project to uncover how companies collect and use our personal information. His work was among the first to show how machine learning reflects cultural stereotypes. Narayanan is a recipient of the Presidential Early Career Award for Scientists and Engineers (PECASE).

Sayash Kapoor is a computer science Ph.D. candidate at Princeton University's Center for Information Technology Policy. His research focuses on the societal impact of AI. He previously worked on AI in the industry and academia at Facebook, Columbia University, and EPFL Switzerland. He is a recipient of a best paper award at ACM FAccT and an impact recognition award at ACM CSCW.

END

文中鏈接

[1]??https://arxiv.org/abs/2001.08361??

[2]??https://arxiv.org/abs/2206.07682??

[3]??https://arcprize.org/arc??

[4]??https://journalqd.org/article/view/4066??

[5]??https://reutersinstitute.politics.ox.ac.uk/how-many-news-websites-block-ai-crawlers??

[6]??https://theicct.org/sites/default/files/publications/Aircraft-fuel-burn-trends-sept2020.pdf??

[7]??https://www.etw.de/uploads/pdfs/ATAG_Beginners_Guide_to_Aviation_Efficiency_web.pdf??

[8]??https://x.com/karpathy/status/1797313173449764933??

[9]??https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/??

[10]??https://arxiv.org/abs/2406.11794??