斯坦福最新研究警告：別太迷信大模型涌現能力，那是度量選擇的結果

作者：機器之心 2023-05-04 12:32:28

大模型出現后，涌現這一術語開始流行起來，通常表述為在小規模模型中不存在，但在大規模模型中存在的能力。但斯坦福大學的研究者對 LLM 擁有涌現能力的說法提出了質疑，他們認為是人為選擇度量方式的結果。

「別太迷信大模型的涌現，世界上哪兒有那么多奇跡？」斯坦福大學的研究者發現，大模型的涌現與任務的評價指標強相關，并非模型行為在特定任務和規模下的基本變化，換一些更連續、平滑的指標后，涌現現象就不那么明顯了，更接近線性。

近期，由于研究者們觀察到大型語言模型（LLMs），如 GPT、PaLM、LaMDA 可以在不同的任務中表現出所謂的「涌現能力」，這一術語在機器學習領域得到了極大關注：

事實上，復雜系統的新興特性一直以來都是物理學、生物學、數學等學科在研究的重點。

值得注意的一個觀點是，諾貝爾物理學獎獲得者 P.W.Anderson 提出了「More Is Different」。這一觀點認為，隨著系統復雜性的增加，新的屬性可能會具象化，即使從對系統微觀細節的精確定量理解中并不能（容易或根本無法）預測到。

大模型領域的「涌現」如何定義？一種通俗的說法是「在小規模模型中不存在，但在大規模模型中存在的能力」，因此，它們不能通過簡單地推斷小規模模型的性能改進來預測。

這種涌現的能力可能首先在 GPT-3 家族中被發現。后續的一些工作強調了這一發現：「雖然模型性能在一般水平上是可以預測的，但在特定任務上，其性能有時會在規模上出現相當難以預測的涌現」。事實上，這些涌現能力非常令人驚訝，以至于「突然的、特定的能力擴展」已經被認為是 LLM 的兩個最高定義特征之一。此外，「breakthrough capabilities」和「sharp left turns」等術語也被使用。

綜上所述，我們可以確定 LLM 涌現能力的兩個決定性屬性：

1. 敏銳性，從「不存在」到「存在」似乎只是瞬間的過渡；

2. 不可預測性，在看似不可預見的模型規模內過渡。

與此同時，還有一些問題懸而未決：是什么控制了哪些能力會涌現？什么控制著能力的涌現？我們怎樣才能使理想的能力更快地涌現，并確保不理想的能力永不涌現？

這些問題與人工智能的安全和對齊息息相關，因為涌現的能力預示著更大的模型可能有一天會在沒有警告的情況下獲得對危險能力的掌握，這是人類不希望發生的。

在最新的一篇論文中，斯坦福大學的研究者對 LLM 擁有涌現能力的說法提出了質疑。

論文：https://arxiv.org/pdf/2304.15004.pdf

具體而言，此處的質疑針對的是在特定任務中模型輸出作為模型規模的函數而發生的涌現和不可預測的變化。

他們的懷疑基于以下觀察：似乎只有在非線性或不連續地擴展任何模型的 per-token 錯誤率的度量下，模型才會出現涌現能力。例如，在 BIG-Bench 任務中，>92% 的涌現能力是這兩個度量下出現的：

這就為 LLMs 的涌現能力的起源提出了另一種解釋的可能性：盡管模型族的 per-token 錯誤率會隨著模型規模的增加進行平滑、持續且可預測地變化，但看似尖銳和不可預測的變化可能是由研究者選擇的測量方法引起的。

也就是說，涌現能力可能是一種海市蜃樓，主要是由于研究者選擇了一種非線性或不連續地改變 per-token 錯誤率的度量，部分原因是由于擁有太少的測試數據，不足以準確估計較小模型的性能（從而導致較小的模型看起來完全不能執行任務），另一部分原因是由于評估了太少的大規模模型。

為了闡述這種解釋方式，研究者將其作為一個簡單的數學模型，并證明它是如何從數量上再現為支持 LLM 的涌現能力而提供的證據。然后，研究者以三種互補的方式檢驗了這種解釋：

1. 使用 InstructGPT [24]/GPT-3 [3] 模型系列，根據替代假說做出、測試并確認三個預測。

2. 對先前的一些結果進行了元分析，并表明在任務指標 - 模型家族三聯體的空間中，出現的能力只出現在某些指標上，而不是任務上的模型家族（列）。該研究進一步表明，在固定的模型輸出上，改變度量會導致涌現現象的消失。

3. 故意在不同架構的深度神經網絡中誘導出多個視覺任務的涌現能力（這在以前從未被證明過），以顯示類似的度量選擇如何誘導出看似涌現的能力。

檢驗一：InstructGPT/GPT-3 模型系列分析

研究者選擇了 GPT 系列模型進行進一步分析，原因在于它是可公開查詢的，這一點和其他模型系列不同（例如 PaLM、LaMDA、Gopher、Chinchilla）。在此前的研究中，GPT 系列模型被認為在整數算術任務中展示出涌現能力。此處，研究者也選擇了整數算術這一任務。

圖 2: 大型語言模型的涌現能力是研究者分析的創造物，而不是模型輸出隨規模變化的根本性變化。

正如第 2 節中用數學和圖表解釋的那樣，研究者提出的替代解釋可以預測出三個結果：

1. 隨著模型規模提升，如果將度量從非線性 / 不連續的度量（圖 2CD）換成線性 / 連續的度量（圖 2EF），那么應該會有平滑的、連續的、可預測的性能提升。

2. 對于非線性的度量，如果通過增大測試數據集的大小而提升所測模型性能的分辨率，那么應該能讓模型得到平滑的、連續的、可預測的提升，并且該提升的比例與所選度量的可預測的非線性效應是相對應的。

3. 無論使用什么度量指標，提升目標字符串長度都應該會對模型性能產生影響，該影響是長度為 1 的目標性能的一個函數：對于準確度是近乎幾何的函數，對于 token 編輯距離是近乎準線性的函數。

為了測試這三個預測結論，研究者收集了 InstructGPT/GPT-3 系列模型在兩個算術任務上的字符串輸出結果：使用 OpenAI API 執行 2 個兩位數整數之間的兩樣本乘法以及 2 個四位數整數之間的兩樣本加法。

圖 3：隨著模型規模提升，改變度量可以為性能帶來平滑、連續、可預測的改變。

從左至右：數學模型，2 個兩位數整數乘法任務， 2 個四位數整數加法任務。上方的圖是使用一個非線性度量（如準確度）而測得的模型性能，可看到 InstructGPT/GPT-3 系列模型的性能在目標長度更長時顯得銳利和不可預測。而下方的圖是使用一個線性度量（如 token 編輯距離）而測得的模型性能，此系列模型表現出了平滑的、可預測的性能提升，這是研究者宣稱的涌現產生的能力。

預測：涌現能力在線性度量下會消失

在這兩個整數乘法和加法任務上，如果目標字符串的長度是 4 或 5 位數字并且性能的度量方式是準確度（圖 3 上一行圖），那么 GPT 系列模型會展現出涌現的算術能力。但是，如果將一個度量從非線性換成線性，同時保持模型的輸出固定，那么該系列模型的性能會得到平滑、連續和可預測的提升。這就確認了研究者的預測，由此表明銳利和不確定性的來源是研究者所選擇的度量，而非模型的輸出的變化。還可以看到，在使用 token 編輯距離時，如果將目標字符串的長度從 1 增大至 5，那么可預見該系列模型的性能會下降，并且下降趨勢是近乎準線性的，這符合第三個預測的前半部分。

預測：涌現能力隨著更高的分辨率評估的出現而消失

接下來是第二個預測：即使是用準確度等非線性度量，更小模型的準確度也不會為零，而是高于偶然性的非零值，其比例是與選擇使用準確度為度量相對應的。為了提升分辨率，以進一步能準確估計模型準確度，研究者還生成了其它一些測試數據，然后他們發現：不管是在整數乘法任務上還是在整數加法任務上，InstructGPT/GPT-3 系列的所有模型都得到了超過偶然性的正值準確度（圖 4）。這驗證了第二個預測。可以看到，隨著目標字符串長度增大，準確度會隨目標字符串的長度而呈現近乎幾何式的下降，這符合第三個預測的后半部分。這些結果還表明研究者選擇的準確度會產生一些我們應該能預料到的（近似）效果，即隨目標長度而近乎幾何式地衰減。

圖 4：使用更多測試數據集得到了更好的準確度估計，這揭示出性能的變化是平滑的、連續的和可預測的。

從左至右：數學模型，2 個兩位數整數乘法任務， 2 個四位數整數加法任務。通過生成更多測試數據來提升分辨率，揭示出即使是在準確度度量上，InstructGPT/GPT-3 系列模型的性能也是超出偶然結果的，并且其在兩種涌現能力上的提升是平滑的、連續的和可預測的，這兩種涌現能力的結果在定性上是與數學模型相符的。

檢驗二：模型涌現的元分析

由于 GPT 系列模型是可以公開查詢使用的，因此可以對它們進行分析。但是，其它一些也有人聲稱具備涌現能力的模型（比如 PaLM、Chinchilla、Gopher）卻并不是公開可用的，它們生成的輸出也沒有公開，這意味著研究者在分析已發表結果時是受限的。研究者基于自己提出的替代假設給出了兩個預測：

第一，在「任務 - 度量 - 模型系列」三元組的「群體層面（population level）」上，當選擇使用非線性和 / 或非連續度量來評估模型性能時，模型應當會在任務上表現出涌現能力。
第二，對于展現出了涌現能力的特定「任務 - 度量 - 模型系列」三元組，如果將度量改變成線性和 / 或連續度量，那么涌現能力應該會被消除。

為了測試這兩個假設，研究者調查了聲稱在 BIG-Bench 評估套件上涌現出的能力，因為在該套件上的基準是公開可用的，并且也有很好的文檔。

預測：涌現能力應該主要出現在非線性 / 非連續度量上

為了測試第一個預測，研究者分析了在哪些指標上，不同的「任務 - 模型系列」配對是否會出現涌現能力。為了確定一個「任務 - 度量 - 模型系列」三元組是否可能展現出涌現能力，他們借用了論文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定義。令 y_i ∈ R 表示模型大小為 x_i ∈ R 時的模型性能，并使得 x_i < x_i+1，則涌現分數為：

結果研究者發現，BIG-Bench 使用的大多數度量中沒有表現出涌現能力的「任務 - 模型系列」配對：在人們偏好的 39 個 BIG-Bench 度量中，至多 5 個展現出了涌現能力（圖 5A）。這 5 個大都是非線性的 / 非連續的，如精確字符串匹配、多選擇分級、ROUGE-L-Sum。值得注意的是，由于 BIG-Bench 通常使用多項度量來評估模型的任務表現，因此在其它度量下缺乏涌現能力這一現象說明：當使用其它度量來評價模型輸出時，涌現能力并不會出現。

由于涌現分數僅表明有涌現能力，因此研究者還進一步分析了論文《137 emergent abilities of large language models》中人工標注的「任務 - 度量 - 模型系列」三元組。人工標注的數據表明 39 個度量中僅有 4 個表現出了涌現能力（圖 5B），并且它們中的 2 個就占到了所宣稱的涌現能力的 92% 以上（圖 5C）。多選擇分級和精確字符串匹配。多選擇分級是非連續的，精確字符串匹配是非線性的（在目標長度度量上的變化是近乎幾何式的）。總體而言，這些結果說明涌現能力僅出現在非常少量的非線性和 / 或非連續度量上。

圖 5：僅有少數度量會出現涌現能力。(A) 在人們偏好的 39 個 BIG-Bench 度量中，至多只有 5 個度量上可能出現了涌現能力。(B) 所引論文中人工標注的數據表明僅有 4 個人們偏好的度量表現出了涌現能力。(C) 涌現能力中 > 92% 都出現在以下兩個度量之一上：多選擇分級和精確字符串匹配。

預測：如果替代非線性 / 非連續度量，涌現能力應該會被消除

對于第二個預測，研究者分析了前文所引論文中人工標注的涌現能力。他們關注的是 LaMDA 系列，因為其輸出可通過 BIG-Bench 獲取，而其它模型系列的輸出無法這樣獲取。在已經發表的 LaMDA 模型中，最小的有 20 億個參數，但 BIG-Bench 中的許多 LaMDA 模型都小很多，而且研究者表示由于無法確定這些更小模型的來源，因此沒有在分析中考慮它們。在分析中，研究者認定了在多選擇分級度量上 LaMDA 在哪些任務上展現出了涌現能力，然后他們提出了問題：當使用另一個 BIG-Bench 度量 Brier 分數時，LaMDA 能否在同樣的任務上展現出涌現能力。Brier 分數是一套嚴格適當（strictly proper）的評分規則，其度量的是互斥結果的預測；對于一個二元結果的預測，Brier 分數簡化成了結果及其預測概率質量之間的均方誤差。

研究者發現，當非連續度量多選擇分級變成連續度量 Brier 分數時（圖 6），LaMDA 的涌現能力消失了。這進一步說明涌現能力的成因并非是隨規模增長而導致的模型行為的本質變化，而是對非連續度量的使用。

圖 6：在任務和模型系列保持不變的前提下改變 BIG-Bench 度量會導致涌現能力消失。上一行：當使用的是一個非連續度量（多選擇分級）時，LaMDA 模型系列展現出了涌現能力。下一行：當使用的是一個連續的 BIG-Bench 度量（Brier 分數）時，LaMDA 模型系列在同樣任務上不再有涌現能力。

檢驗三：誘導 DNN 出現涌現能力

研究者的觀點是可以通過度量的選擇來誘導模型產生涌現能力；為了證明這一點，他們展示了如何讓不同架構（全連接、卷積、自注意力）的深度神經網絡產生涌現能力。這里研究者重點關注的是視覺任務，原因有二。第一，人們現在主要關注大型語言模型的涌現能力，因為對于視覺模型而言，目前還沒有觀察到模型能力從無突然轉變到有的現象。第二，某些視覺任務用大小適中的網絡就足以解決，因此研究者可以完整構建出跨多個數量級規模的模型系列。

卷積網絡涌現出對 MNIST 手寫數字的分類能力

研究者首先誘導實現 LeNet 卷積神經網絡系列涌現出分類能力，訓練數據集是 MNIST 手寫數字數據集。這個系列展現出了隨參數數量增長，測試準確度平滑提升的現象（圖 7B）。為了模擬有關涌現的論文中使用的準確度度量，這里使用的是子集準確度（subset accuracy）：如果該網絡從 K 個（獨立的）測試數據中正確分類出了 K 個數據，那么該網絡的子集準確度為 1，否則為 0。基于這一準確度定義，在 K 從 1 增長到 5 的設定中，該模型系列展現出了「涌現」能力，從而能夠正確分類 MNIST 數字集，尤其是結合了模型大小的稀疏采樣時（圖 7C）。這個卷積系列的涌現分類能力在定性分析上符合已發表論文中的涌現能力，比如在 BIG-Bench 的地形測繪任務上的結果（圖 7A）。

圖 7：在卷積網絡中誘導出涌現的 MNIST 分類能力。(A) 一篇已發表論文中的基于 BIG-Bench 地形測繪任務的涌現能力。(B) 在 MNIST 上訓練的 LeNet 表現出：隨模型參數數量增長，測試準確度展現出預測的、普遍的、S 形的增長。(C) 當把準確度重新定義成從 K 個獨立測試數據中正確分類出 K 個時，這個新定義的度量會誘導出一種似乎在預料之外的變化。

非線性自動編碼器在 CIFAR100 自然圖像集上涌現出重建能力

為了凸顯出研究者所選度量的銳利度是涌現能力的原因，并且為了表明這種銳利度不僅限于準確度等度量，研究者又誘導在 CIFAR100 自然圖像集上訓練的淺度（即單隱藏層）非線性自動編碼器涌現出重建圖像輸入的能力。為此，他們刻意定義了一個新的用于衡量模型能力的不連續度量，該度量為平方重建誤差低于固定閾值 c 的測試數據的平均數量：

其中 I (?) 是一個隨機指示變量，x^n 是自動編碼器對 x_n 的重建。研究者檢視了自動編碼器瓶頸單元的數量，然后發現隨模型規模增長，網絡的均方重建誤差會表現出平滑的下降趨勢（圖 8B），但如果使用新定義的重建度量，對于選定的 c，這個自動編碼器系列在重建該數據集上展現出的能力是銳利的和幾乎不可預測的（圖 8C），這個結果在定性分析上符合已發表論文中的涌現能力，比如 BIG-Bench 中的 Periodic Elements（周期性元素）任務（圖 8A）。

圖 8：在淺度非線性自動編碼器中誘導出涌現的重建能力。(A) 一篇已發表論文中的基于 BIG-Bench 周期性元素任務的涌現能力。(B) 在 CIFAR100 上訓練的淺度非線性自動編碼器展現出了平滑下降的均方重建誤差。(C) 使用新定義的重建度量（公式 2）誘導出了不可預測的變化。

自回歸 Transformer 在 Omniglot 字符集上涌現出了分類能力

接下來是 Transformer 的涌現能力，其使用的是自回歸方法來分類 Omniglot 手寫字符。研究者使用的實驗設置是類似的：Omniglot 圖像先由卷積層嵌入，然后以 [嵌入圖像，圖像類別標簽] 配對組成序列的方式輸入僅解碼器的 Transformer，而該 Transformer 的訓練目標是預測 Omniglot 類別標簽。研究者是在長度為 L ∈ [1, 5] 的序列上測量圖像分類性能，同樣是通過子集準確度來度量：如果所有 L 圖像都分類正確（圖 9B）則子集準確度為 1，否則為 0。Causal Transformer 在正確分類 Omniglot 手寫字符任務上似乎展現出了涌現能力（圖 9C），該結果在定性分析上符合已發表論文中的涌現能力，比如大規模多任務語言理解（圖 9A）。

圖 9：在自回歸 Transformer 中誘導出涌現的分類能力。(A) 一篇已發表論文中基于 MMLU 基準的涌現能力。(B) 隨模型參數增多，使用自回歸方法來分類 Omniglot 手寫數字的 Transformer 的測試準確度也表現為增長。(C) 當將準確度重新定義為正確分類序列中的所有圖像時，該指標更難被預測，這似乎說明誘導出了涌現能力。

責任編輯：張燕妮來源：機器之心

模型研究