精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析

發布于 2025-10-14 00:19
瀏覽
0收藏

大型語言模型(LLM)的預訓練過程,長期以來被視為一個“黑箱”。盡管我們知道通過在海量數據上進行訓練,模型能夠涌現出驚人的能力,但其內部知識結構是如何從無到有、從簡單到復雜地逐步構建起來的,這一核心問題至今仍缺乏清晰的答案。近期,復旦moss團隊的一篇題為《語言模型預訓練中概念的演變》的預印本論文,為我們揭開這個黑箱的一角提供了全新的、極具洞察力的參考。

這項研究的核心貢獻在于,它首次將一種名為“Crosscoders”的稀疏字典學習方法應用于追蹤語言模型在整個預訓練過程中的“特征演化”動態。通過這種方法,研究者得以在微觀層面觀察到模型內部成千上萬個可解釋“概念”(即特征)的誕生、發展、旋轉乃至消亡的全過程。研究不僅揭示了特征演化的普遍規律,還將這些微觀變化與模型在下游任務中的宏觀性能表現建立了直接的因果聯系。更重要的是,研究為“語言模型學習分為兩個主要階段”這一理論假說提供了強有力的實證支持:即模型首先進入一個快速學習數據統計規律的統計學習階段,隨后過渡到一個構建復雜、疊加特征的特征學習階段。

核心方法論:利用Crosscoders追蹤特征演化

為了實現對模型內部特征演化的細粒度追蹤,研究者必須解決兩個核心技術挑戰:先是如何從模型高維、密集的激活向量中抽取出人類可理解的、單一語義的特征(Monosemantic Features);然后如何確保在模型參數不斷更新的成百上千個訓練快照(Snapshots)之間,能夠穩定地識別并追蹤同一個特征。該研究巧妙地通過引入并改造Crosscoders方法,為這兩個挑戰提供了統一的解決方案。

技術背景:稀疏編碼與特征可解釋性

在深入理解Crosscoders之前,有必要先了解其理論基礎——稀疏自動編碼器(Sparse Autoencoders, SAEs)與疊加(Superposition)假說。

現代神經網絡,尤其是大型語言模型,其內部的神經元激活值通常是“多義性”的(Polysemantic),即單個神經元的激活可能同時代表多種不相關的概念。與之相對,“疊加假說”指出,模型為了在有限的神經元數量下表征無限豐富的現實世界概念,會將多個概念“疊加”在同一個激活子空間中,通過線性組合的方式來表示。換言之,真正的、單一語義的“特征”并非對應單個神經元,而是對應于激活空間中的特定“方向”。

稀疏自動編碼器(SAE)正是為了解決這一問題而設計的。它是一種特殊的神經網絡,由一個編碼器(Encoder)和一個解碼器(Decoder)組成。其目標是學習將模型內部的激活向量 ??a(x)??? 分解為一組稀疏的、大部分為零的特征激活值 ??f(x)???,然后用這組稀疏的 ??f(x)??? 和一個“字典”(Decoder權重矩陣)來盡可能精確地重構出原始的激活向量 ??a?(x)??。通過在損失函數中加入一個強大的稀疏性懲罰項(如L1或L0范數),SAE被激勵去發現那些真正有意義的、單一語義的特征方向。當某個特定概念(如“與編程相關的上下文”)出現時,只有字典中對應這個概念的那個特征會被激活,從而實現了從多義性神經元到單義性特征的解耦。

然而,傳統的SAE只能針對單個、已經訓練完成的模型進行分析。如果為每個訓練快照都單獨訓練一個SAE,我們將得到一系列獨立的特征字典,這些字典中的特征順序和方向都是隨機的,無法直接進行跨快照的比較和追蹤。這就引出了該研究的核心方法創新。

Cross-snapshot Crosscoder架構與訓練

研究者創造性地改造了Crosscoders這一工具,將其從最初用于分析模型“跨層”特征的工具,轉變為分析模型“跨時間快照”特征的利器。這種“跨快照Crosscoder”的設計精妙之處在于它擁有一個共享的編碼器和一個分離的解碼器。

具體架構如下: 對于來自不同訓練快照 ??θ??? 的同一段文本 ??x??? 在同一網絡層的激活 ??aθ(x)??,Crosscoder的目標是:

  1. 共享編碼與特征空間:所有快照的激活??aθ(x)??? 首先通過各自的快照專屬編碼器??Wθ_enc??? 進行編碼,然后匯總并經過一個激活函數??σ??,最終產生一個所有快照共享的稀疏特征激活向量??f(x)???。這個共享的??f(x)??? 是關鍵,它構建了一個統一的特征空間,使得在快照0中激活的第??i??? 個特征,與在快照100中激活的第??i?? 個特征,指向的是同一個潛在概念。
  2. 獨立解碼與重構:接著,這個共享的特征向量??f(x)?? 會被送入每個快照各自獨立的解碼器??Wθ_dec??? 中,以重構出對應快照的原始激活??a?θ(x)??。

其訓練目標函數(公式2)包含兩個核心部分:

  • 重構損失:要求所有快照的重構激活??a?θ(x)??? 與原始激活??aθ(x)?? 之間的L2距離之和最小。這保證了解碼器能夠忠實地恢復原始信息。
  • 稀疏性損失:這是實現特征可解釋性的關鍵。研究采用了一種高級的稀疏性懲罰策略,它不僅懲罰非零特征的數量(L0正則化),還將解碼器范數??||Wθ_dec,i||??? 納入考量。這個設計的動機是防止模型“作弊”——即通過縮小特征激活值??fi(x)??? 同時放大解碼器范數??||Wθ_dec,i||?? 來繞過稀疏性懲罰。


打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


此外,為了獲得高質量的稀疏特征,研究在附錄A中詳細闡述了其對激活函數和正則化函數的精心選擇。他們摒棄了傳統的ReLU激活函數,轉而采用JumpReLU,該函數通過學習一個閾值來過濾掉微弱的、可能是噪聲的激活,從而得到更干凈、更稀疏的特征。正則化方面,則結合了tanh和二次頻率懲罰,既能更好地逼近L0范數,又能抑制那些過于頻繁激活的“垃圾”特征。這些技術細節共同確保了Crosscoder能夠高效且穩定地提取出高質量的、跨時間對齊的特征。 (圖 1, 圖 8, 圖 9, 表 1)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


解碼器范數:特征強度的代理指標

跨快照Crosscoder架構帶來了一個至關重要的副產品,也是該研究進行特征演化分析的基石:特定快照 ??θ?? 下的第 ??i?? 個特征的解碼器范unorm ??||Wθ_dec,i||??,可以直接作為該特征在該快照中“存在感”或“強度”的代理指標。

其背后的邏輯非常直觀:在Crosscoder的優化過程中,如果某個特征 ??i??? 在快照 ??θ??? 中并不存在或非常微弱,那么在重構該快照的激活時,這個特征的激活值 ??fi(x)??? 幾乎不起作用。為了最小化稀疏性損失(該損失與 ??fi(x)??? 和 ??||Wθ_dec,i||??? 的乘積相關),模型會傾向于將這個無關特征在該快照下的解碼器范數 ??||Wθ_dec,i||?? 壓縮至接近于零。反之,如果一個特征對于重構至關重要,其解碼器范數就會很大。

因此,通過追蹤每個特征 ??i??? 的解碼器范數 ??||Wθ_dec,i||??? 在所有訓練快照 ??θ?? 上的變化曲線,研究者就得到了一條清晰的、量化的“特征演化軌跡”。研究在附錄C中通過線性探針實驗進一步驗證了這一假設,結果顯示探針的分類錯誤率與解碼器范數呈現出高達-0.867的強負相關性,有力地證明了解碼器范數作為特征強度代理指標的有效性。 (圖 13)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


特征演化的宏觀圖景與微觀動力學

借助上述強大的分析工具,研究者對Pythia-160M和Pythia-6.9B兩個模型的預訓練過程進行了深入剖析,樣本覆蓋了從訓練開始到143,000步的32個關鍵快照。分析揭示了一幅壯觀而細致的特征演化圖景。

兩類核心特征:初始化特征與涌現特征

通過隨機采樣大量特征并繪制它們的解碼器范數演化曲線,研究者發現特征的演化路徑主要呈現出兩種截然不同的模式:

  1. 初始化特征 (Initialization Features):這類特征在模型隨機初始化的瞬間(step 0)就已經存在。它們的范數值在訓練最開始(約step 128附近)會經歷一個急劇下降然后恢復的過程,之后隨著訓練的進行而逐漸衰減。這表明,即使是隨機初始化的神經網絡,其激活空間中也已經天然存在某些結構,這些結構在訓練初期被保留和調整。
  2. 涌現特征 (Emergent Features):這是絕大多數特征所屬的類別。它們在訓練初期并不存在(解碼器范數為零),而是在訓練進行到某個特定階段(主要集中在step 1000之后)開始“涌現”,其解碼器范數從零開始快速增長,達到峰值后或保持穩定或緩慢變化。不同復雜度的特征,其涌現的時間點也各不相同。

這一發現本身就極具價值,它清晰地展示了模型內部的概念結構并非一蹴而就,而是遵循著特定的時間規律動態生成和演變的。 (圖 3)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


涌現特征的統計特性分析

為了更深入地理解特征的演化動力學,研究對“涌現特征”進行了多維度的統計分析,揭示了幾個有趣的共性規律:

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


  • 涌現時間的分布:特征的涌現并非均勻分布在整個訓練過程中。統計顯示,絕大多數特征的“峰值時刻”(解碼器范數達到最大的快照)集中在訓練的早期到中期階段。特別是在Pythia-160M模型中,存在一個明顯的涌現高峰期。 (圖 4a)
  • 特征的持久性:一旦一個特征涌現出來,它通常會非?!伴L壽”。研究定義了特征的“生命周期”(解碼器范數大于0.3的快照比例),發現大部分涌現特征在形成后,會在超過60%的后續快照中保持活躍。這說明LLM能夠穩健地保留已學習到的知識和能力,同時也證明了Crosscoder方法在跨快照追蹤特征方面的魯棒性。 (圖 4b)
  • 普遍的方向轉折點:研究還從幾何角度考察了特征向量(即解碼器字典中的列向量)在訓練過程中的方向變化。通過計算不同快照之間同一個特征向量的 cosine 相似度,他們發現了一個驚人的一致性:幾乎所有涌現特征的方向在step 1,000附近都經歷了一次劇烈的“轉折”。在此之前和之后的特征方向幾乎是相互正交的。而在step 1,000之后,特征方向的旋轉變得平緩得多,即使到訓練末期,其方向與剛涌現時的方向仍保持著顯著的相似性。這暗示著step 1,000可能是一個模型學習機制發生根本性轉變的關鍵節點。 (圖 4c)

特征復雜性與涌現時間的關聯

一個自然的猜想是:簡單的特征是否會比復雜的特征更早出現?為了驗證這一點,研究者采用了一種創新的自動化評估方法。他們隨機抽取了100個涌現特征,利用大型語言模型(Claude Sonnet 4)作為“評估員”,根據每個特征激活最強的文本片段,為其復雜性打分(1分最簡單,5分最復雜)。

評分結果與特征的峰值涌現時間進行關聯分析后發現,兩者之間存在一個中等強度的正相關關系(Pearson r = 0.309, p = 0.002)。這明確地表明,模型確實傾向于在訓練后期學習和形成更加復雜的概念。例如,識別單個詞或token的簡單特征可能較早出現,而理解特定句法結構或上下文語境的復雜特征則需要更長的訓練時間才能涌現。 (圖 5a)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


典型特征演化案例研究

為了讓分析更具象,研究通過簡單的規則匹配,在Pythia-6.9B模型中識別并追蹤了幾類在以往研究中被廣泛討論的典型特征:

  • 前序詞元特征 (Previous Token Features):這類特征的激活僅依賴于其前一個token是什么。例如,無論上下文如何,只要前面是單詞“the”,某個特征就會激活。
  • 歸納特征 (Induction Features):這類特征與模型的“上下文學習”能力密切相關,它們負責識別重復出現的模式,如在??[A][B]...[A][B]??? 序列中,當第二個??[A]??? 出現時激活,以幫助模型預測接下來的??[B]??。
  • 上下文敏感特征 (Context-sensitive Features):這類特征的激活依賴于更廣泛的語境,例如,在一個討論“計算機科學”的段落中,它們會持續激活。

通過追蹤這三類特征的平均解碼器范數演化軌跡,研究發現了一個清晰的“學習層級”:前序詞元特征出現最早(約1,000-5,000步),其次是歸納特征,而最為復雜的上下文敏感特征則出現得最晚,且涌現的時間范圍更廣(主要在10,000-100,000步之間)。這一發現與它們的邏輯復雜度和依賴關系完全吻合(例如,歸納頭的形成依賴于前序詞元頭),為模型從簡單到復雜構建能力的假說提供了具體的案例支持。 (圖 5b, 5c)

從微觀特征到宏觀行為:建立因果聯系

機制可解釋性研究的最終目標之一,是解釋模型的宏觀行為。該研究通過結合歸因分析(Attribution)和電路追蹤(Circuit Tracing)技術,成功地將微觀的特征演化與模型在下游任務上的性能變化直接關聯起來,展示了特定特征的形成如何“導致”了模型能力的提升。

方法:基于歸因的電路追蹤技術

該研究采用了一種名為“歸因補丁”(Attribution Patching)的先進技術,其核心思想是量化每個Crosscoder特征對特定任務性能的“因果貢獻”。

具體操作如下:以主謂一致(Subject-Verb Agreement, SVA)任務為例,比如句子“The teachers near the desk are...”。研究會構建一個“干凈”輸入(原句)和一個“損壞”輸入(如將主語變為單數“The teacher...”)。任務的性能指標 ??m?? 定義為模型對正確動詞形式(are)和錯誤動詞形式(is)的logit差值。

然后,通過數學上的分解(公式3),模型的激活可以被看作是所有Crosscoder特征的加權和。這使得計算任務性能 ??m??? 對每個特征激活 ??fi(x)??? 的梯度成為可能。歸因分數 ??attri(x)???(公式4、5)本質上就是利用這個梯度來估算,如果某個特征 ??i?? 的激活值發生微小變化,任務性能會受到多大影響。通過在“干凈”和“損壞”輸入之間進行差分,該方法能更精確地定位到那些專門負責區分單復數的關鍵特征。

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


為了提高歸算的魯棒性,研究還使用了積分梯度(Integrated Gradients, IG)技術,它通過在基線(如損壞輸入)和目標(干凈輸入)之間進行線性插值并累加梯度,來獲得更穩健的因果貢獻評估。

實驗驗證:主謂一致、歸納與間接賓語識別

研究在主謂一致(SVA)、歸納(Induction)和間接賓語識別(IOI)等多個經典任務上應用了上述方法。以SVA任務中的“Across-PP”變體(即主語和動詞被介詞短語隔開)為例,結果令人信服:

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


  • 識別關鍵特征回路:歸因分析成功識別出了一小組對該任務至關重要的特征。通過觀察這些特征的激活文本(圖6d),可以清晰地看到它們的功能分工:

特征18341和47045:負責識別復數名詞,其中后者更專注于識別作為主語的復數名詞。

特征68813:負責識別復合主語或介詞短語結構。

特征50159和69636:負責標記介詞短語的結束位置,為動詞的出現做準備。 重要的是,這些特征的涌現時間也遵循著邏輯順序:識別復數名詞的特征先出現,然后才是識別更復雜句法結構(介詞短語)的特征。

  • 驗證必要性與充分性:為了證明這些被識別出的特征確實是“必要且充分”的,研究進行了消融實驗(Ablation Experiments)。
  • 必要性驗證:當從模型中“移除”貢獻最大的前k個特征時,模型在SVA任務上的性能急劇下降,證明了這些特征的不可或ability。
  • 充分性驗證:反之,當“僅保留”貢獻最大的前k個特征而移除其他所有特征時,模型性能能夠在很大程度上得到恢復。僅用幾十個關鍵特征,就能恢復大部分原始性能,這有力地證明了歸因分析找到的確實是執行該任務的核心計算組件。
  • 追蹤性能演化:通過繪制關鍵特征的歸因分數隨訓練快照的演化曲線(圖6a),研究還揭示了模型解決問題策略的動態演變。例如,特征68813、50159和69636的貢獻度在不同訓練階段交替領先,這表明模型可能在通過“迭代”不同的組件和策略來不斷優化其句法分析能力。

這些實驗清晰地畫出了一條從“特征涌現”到“能力獲得”的因果鏈條,將微觀的內部機制與宏觀的行為表現緊密地聯系在了一起。 (圖 6, 圖 14, 圖 15, 圖 16, 圖 17, 圖 18)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


關鍵發現:從統計學習到特征學習的兩階段過渡

該研究最重要的理論貢獻之一,是為語言模型預訓練的“兩階段學習”假說提供了迄今為止最直接、最微觀的證據。研究者假設,在訓練初期,當訓練損失(Loss)急劇下降時,模型并非在形成復雜的語義特征,而是在學習數據中粗淺的統計規律。只有當這種統計學習接近飽和后,模型才會轉而通過構建稀疏、疊加的特征來進一步降低損失。

第一階段:統計規律學習

為了驗證這一假說,研究者計算了模型預測的詞元分布與數據真實詞元分布之間的KL散度(Kullback-Leibler Divergence),分別針對unigram(單個詞的頻率,符合Zipf定律)和bigram(相鄰詞對的頻率)進行。

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區

結果顯示(圖7a, 7b),在訓練的極早期階段(大約在step 1,000之前),unigram和bigram的KL散度都迅速下降并收斂到接近零的水平。更引人注目的是,在這一階段,模型的訓練損失值已經非常接近于真實數據分布的理論信息熵。信息熵代表了預測該分布所需信息的理論下限,這意味著模型在這一階段的主要任務,就是盡可能地擬合數據中簡單的一元和二元統計規律。這完美地解釋了為何在這一階段幾乎沒有復雜的“涌ü現特征”形成——因為模型正忙于一項更基礎、回報率更高的任務。

第二階段:特征疊加與涌現

那么,在step 1,000之后,當簡單的統計規律已經被模型充分學習后,模型又是如何進一步提升性能的呢?研究者通過測量“總特征維度”的變化來回答這個問題。

他們借鑒了一個度量特征疊加程度的指標(公式6),該指標可以計算每個特征在激活空間中占據的“有效維度”。理論上,如果所有特征都是正交的(沒有疊加),總特征維度應等于激活空間的維度。如果特征之間存在干擾或非對稱排列,總維度會下降。

計算結果(圖7c)顯示了一個清晰的V形曲線:

  • 在訓練最開始,總特征維度較高,這對應于那些隨機存在的“初始化特征”。
  • 隨后,維度開始下降,并在step 1,000附近達到谷底。研究者推測,這是因為模型為了給即將大量涌現的新特征騰出“表示空間”,開始對初始化特征進行“壓縮”。
  • 在step 1,000之后,隨著“涌現特征”的大量形成,總特征維度開始穩步回升,最終在Pythia-160M上達到了激活空間維度的約70%。

這個V形曲線與前面觀察到的特征涌現時間點、KL散度收斂時間點以及特征方向轉折點高度吻合,共同描繪出了一幅連貫的圖景:大約在step 1,000,語言模型的學習機制發生了一次相變(Phase Transition)。它從一個主要關注表層統計規律的“統計學習階段”,過渡到了一個通過在激活空間中精心構建和疊加成千上萬個稀疏特征來表征世界知識的“特征學習階段”。 這一發現與信息瓶頸理論(Information Bottleneck Theory)預測的“擬合-壓縮”兩階段學習過程高度一致,但提供了更為具體和機械的解釋。

研究方法與結果評估

論文的技術細節和核心發現都很清晰,但其研究設計、方法論和結論的可靠性仍然都還是有一些需要深入思考的地方。

研究的創新性與主要貢獻

總體而言,這項研究在機制可解釋性領域取得了顯著的突破,其貢獻是多方面的:

  1. 方法論的重大創新:將Crosscoders方法創造性地應用于追蹤模型預訓練的動態過程,是該研究最核心的技術貢獻。它巧妙地解決了跨時間快照特征對齊這一關鍵難題,為后續所有分析奠定了堅實的基礎。可以說,這項工作為研究神經網絡學習動力學提供了一個全新的、功能強大的“顯微鏡”。
  2. 揭示了特征演化的普適規律:研究首次系統性地揭示了初始化特征與涌現特征的二元結構、特征復雜性與涌現時間的正相關性、以及從簡單到復雜的學習層級。這些發現極大地豐富了我們對語言模型內部知識構建過程的理解。
  3. 建立了微觀機制與宏觀能力的因果橋梁:通過結合歸因補丁技術,研究成功地將特定特征的形成與下游任務性能的提升直接掛鉤,并用消融實驗驗證了其因果關系。這使得“模型為何能做某事”這一問題,可以被追溯到“因為模型學會了哪些具體特征”。
  4. 為兩階段學習理論提供了強力實證:通過KL散度分析和特征維度測量,研究為“統計學習-特征學習”兩階段模型提供了迄今最令人信服的證據。這一發現對于理解預訓練效率、指導未來模型設計可能具有深遠影響。

方法論的嚴謹性評估

該研究在實驗設計和論證過程上表現出高度的嚴謹性是相當值得稱道的:

  • 細致的技術驗證:研究者并未理所當然地使用Crosscoders,而是在附錄中對其訓練細節、超參數選擇、與標準SAE的性能對比(圖8)等方面做了詳盡的闡述和比較。特別是附錄C中關于解碼器范數作為特征強度代理的驗證實驗,極大地增強了其核心度量的可信度。
  • 多層次的證據支撐:研究的核心結論,特別是兩階段學習模型,是由多個獨立但相互印證的證據鏈共同支撐的。特征涌現時間、KL散度收斂、特征方向轉折點和總特征維度V形曲線,這四個不同維度的觀察共同指向了同一個結論,形成了強大的論證閉環。
  • 自動化與客觀性嘗試:在評估特征復雜性時,研究者沒有依賴主觀的人工標注,而是嘗試使用LLM進行自動化打分。盡管這種方法本身有其局限性(后詳),但這種追求客觀和規?;治龅膰L試是值得肯定的。
  • 全面的案例分析:除了宏觀統計,研究還深入到SVA、Induction、IOI等多個具體任務中進行案例分析,使得結論更加具體和可信。對不同變體(如SVA的四種變體)的全面測試也反映了其考慮之周全。

潛在局限與待解決的問題

盡管這項研究取得了卓越的成就,但作為一項前沿探索,它也存在一些固有的局限性,研究者在論文第7節也坦誠地指出了其中一部分。

  1. 模型的普適性問題:該研究的所有實驗都基于Pythia模型套件。雖然Pythia系列因其開放和受控的訓練設置而成為學術研究的理想選擇,但其架構(GPT-NeoX)相對單一。這些關于特征演化的發現,在多大程度上能夠推廣到其他主流架構(如Llama系列、GPT系列)、不同的訓練數據和訓練策略(如不同的優化器或學習率調度)上,仍是一個有待驗證的開放問題。
  2. 下游任務的復雜性有限:研究所選用的下游任務(SVA, IOI, Induction)雖然是機制可解釋性領域的經典任務,但它們本質上仍屬于相對簡單、結構化的語言能力測試。對于更高級、更抽象的推理、創作或代碼生成等復雜任務,其背后的特征回路可能會遠比當前發現的更為復雜和龐大。當前的方法論能否有效地擴展到這些任務上,將是未來工作的一個重要方向。
  3. 快照的離散性限制:Crosscoder的訓練成本與快照數量成正比,這限制了研究者只能選取離散的、有限的訓練快照進行分析。這種離散采樣可能會錯過在兩個快照之間發生的快速變化或瞬時現象。開發能夠處理連續訓練動態(例如,結合梯度信息)的分析方法,將是未來的一個重要改進方向。
  4. 特征復雜性評估的潛在偏差:使用LLM自動化評估特征復雜性是一個新穎的嘗試,但其可靠性值得商榷。首先,LLM本身的“價值觀”和對“復雜性”的理解可能存在偏見。其次,評估結果高度依賴于Prompt的設計。最后,這種方法可能會陷入某種程度的“循環論證”——用一個黑箱(LLM評估員)去理解另一個黑箱(被分析的模型)。盡管結果顯示了相關性,但對這一方法的有效性仍需持保留態度。
  5. 特征分裂現象的挑戰:研究在附錄F中觀察到了一個有趣的“特征分裂”(Feature Splitting)現象。即隨著訓練的進行和字典規模的增大,一個原本由單個特征表示的概念,可能會分裂成多個在不同訓練階段、不同上下文中激活的更專門化的特征(圖22)。這一現象雖然本身揭示了特征的精細化過程,但也對“一個特征對應一個概念”的理想化模型提出了挑戰,使得追蹤一個宏觀概念的演化變得更加復雜。

結論

《語言模型預訓練中概念的演變》這篇論文無疑是近年來機制可解釋性領域一項里程碑式的工作。它通過巧妙地運用和改造Crosscoders工具,成功地將我們對語言模型學習過程的觀察精度,從宏觀的損失曲線和任務性能,推進到了微觀的、數以萬計的“概念特征”的演化層面。通過嚴謹的實驗和多維度的證據,為理解LLM預訓練的“兩階段”學習動力學提供了支持。從而快速掌握統計規律到精細構建語義特征的相變過程,這一發現深刻地揭示了LLM學習的內在節律。

盡管在研究范圍的普適性和方法的某些方面仍存在局限,但這項工作所開辟的研究路徑、所展示的分析范式,無疑將極大地啟發后續的研究。它讓我們離最終完全打開語言模型這個“黑箱”的夢想,又邁出了堅實而重要的一步。未來的工作將有望在更廣泛的模型架構、更復雜的任務以及更連續的時間維度上,延續并深化這一探索。

參考論文:??https://arxiv.org/abs/2509.17196v1??

本文轉載自??上堵吟??,作者:一路到底的孟子敬


已于2025-10-14 00:19:22修改
收藏
回復
舉報
回復
相關推薦
日韩欧美综合视频| 国产精品拍拍拍| 性感美女福利视频| 日韩va欧美va亚洲va久久| 一区二区三区天堂av| 国产精品自拍视频在线| 在线播放免费av| 99视频精品在线| 国产免费一区二区三区在线观看| 538精品在线视频| 日韩三级av| 精品视频一区三区九区| 免费观看亚洲视频| 人人妻人人澡人人爽久久av| 久久久久国产精品午夜一区| 久青草国产97香蕉在线视频| 青青草视频播放| 亚洲欧洲日韩精品在线| 黄色一区二区在线| 99热这里只有精品7| 日本午夜在线| 国产不卡视频一区| 国产日韩精品电影| 欧美日韩精品区| 亚洲深深色噜噜狠狠爱网站| 亚洲免费成人av电影| 麻豆免费在线观看视频| 国产成+人+综合+亚洲欧美| 午夜精品成人在线视频| 一本—道久久a久久精品蜜桃| 日韩欧美亚洲系列| 成人国产精品免费网站| 国产精选久久久久久| 成人毛片在线播放| 亚洲国产精品第一区二区| 久久天天躁狠狠躁夜夜爽蜜月| 黄色在线观看av| 高清日韩中文字幕| 欧美一级高清片在线观看| 色悠悠久久综合网| 暖暖成人免费视频| 午夜精品国产更新| 加勒比成人在线| 性爱视频在线播放| 亚洲免费色视频| 亚洲自拍偷拍二区| av在线电影院| 日本一区免费视频| 日本一区视频在线观看| 蜜桃视频在线观看网站| 久久影院午夜论| 欧美黑人3p| 久色视频在线| 久久久久9999亚洲精品| 区一区二区三区中文字幕| 天天干,夜夜爽| 91影院在线免费观看| 激情一区二区三区| 色视频在线观看福利| 91一区二区三区在线播放| 国产日韩久久| 日韩美女一级视频| 国产婷婷精品av在线| 色视频一区二区三区| www 日韩| 亚洲欧美一区二区三区久本道91| 看一级黄色录像| 色爱综合区网| 图片区小说区区亚洲影院| 国产免费黄色小视频| 在线免费av资源| 91国产精品成人| jizz18女人| 精品视频在线观看网站| 精品久久久久久综合日本欧美| 欧美夫妇交换xxx| 西瓜成人精品人成网站| 一本色道久久综合狠狠躁篇的优点 | 国产激情欧美| 91精品国产综合久久精品性色| 韩国三级与黑人| 欧美一性一交| 日韩中文字幕国产精品| 国产精品久久久久久久精| 亚洲免费大片| 国产精品日韩av| 精品区在线观看| 久久综合色婷婷| 最新不卡av| 九色porny丨入口在线| 欧美性大战久久久| 日本少妇激三级做爰在线| 国产精品一区免费在线| 亚洲精品按摩视频| 蜜桃无码一区二区三区| 重囗味另类老妇506070| 欧美一级高清免费| 国产精品久久综合青草亚洲AV| 成人精品国产免费网站| 日产中文字幕在线精品一区 | 欧洲视频一区| 欧美激情videoshd| 久久影视中文字幕| 国产91精品露脸国语对白| 日本成人黄色| 波多野结衣乳巨码无在线观看| 欧洲亚洲国产日韩| 国产精品一区二区在线免费观看| 欧美另类69xxxxx| 国产69精品久久久久9| 这里只有久久精品视频| 成人综合婷婷国产精品久久免费| 日韩精品一区二区三区丰满 | 在线精品国产| 国产精品v片在线观看不卡| 亚洲AV无码一区二区三区少妇| 国产日韩在线不卡| 日本www在线视频| 欧美另类中文字幕| 日韩在线观看网站| 国产午夜无码视频在线观看 | 日韩va欧美va亚洲va久久| 国产精品一区二区三区观看| 日本在线观看免费| 91黄色免费看| 亚洲av无码一区二区二三区| 好吊一区二区三区| 亚洲一区制服诱惑| 在线观看免费黄视频| 91久久奴性调教| 97人妻精品一区二区免费| 亚洲理论在线| 国产一区不卡在线观看| 91cn在线观看| 欧美一级片在线观看| 波兰性xxxxx极品hd| 日韩经典中文字幕一区| 欧美日韩国产精品一卡| zzzwww在线看片免费| 精品第一国产综合精品aⅴ| 2018天天弄| 国产精品系列在线观看| 9l视频自拍9l视频自拍| 高清一区二区中文字幕| 日韩小视频在线观看| 亚洲一卡二卡在线观看| 国产日韩亚洲欧美综合| 免费大片在线观看| 亚洲日产av中文字幕| 国产成人97精品免费看片| 青青草超碰在线| 91黄色激情网站| 黄色三级生活片| 日韩不卡一区二区| 一区二区三区av| 国产成人免费av一区二区午夜 | 国产手机视频在线观看| 欧美激情三区| 久久精品视频在线| 亚洲AV无码一区二区三区少妇| 亚洲最大成人网4388xx| 国产大尺度视频| 午夜亚洲激情| 色视频一区二区三区| 亚州精品国产| 欧美高清不卡在线| 午夜福利一区二区三区| 色999日韩国产欧美一区二区| 丁香花五月婷婷| 精品一区二区三区在线播放| 六月婷婷激情网| 国产一区调教| 国产成人一区二| 国产秀色在线www免费观看| 日韩精品中文字幕在线不卡尤物| 日本学生初尝黑人巨免费视频| 99国产麻豆精品| 亚洲第一中文av| 欧美88av| 欧美精品欧美精品系列c| 久久精品嫩草影院| 高清一区二区三区日本久| 精彩国产在线| 欧美一级视频精品观看| 亚洲国产精品成人无久久精品| 2022国产精品视频| 国产乱码一区二区三区四区| 精品成人一区| 视频在线99re| 北条麻妃一区二区三区在线| 国产91色在线| 青青草原av在线| 国产一区二区三区日韩欧美| 国产视频在线免费观看| 欧美日韩中国免费专区在线看| 大胸美女被爆操| 9l国产精品久久久久麻豆| 国产视频1区2区3区| 99精品国产福利在线观看免费| 亚洲欧美日产图| 欧美成人专区| 97免费高清电视剧观看| 四虎4545www国产精品| 欧美激情视频在线免费观看 欧美视频免费一| 香蕉久久国产av一区二区| 91麻豆精品国产自产在线观看一区| 日韩欧美一区二区一幕| 日韩美女久久久| 亚洲精品国产一区黑色丝袜| 大白屁股一区二区视频| 999在线精品视频| 视频一区视频二区中文| 成年人午夜免费视频| 亚洲精品国产首次亮相| 青青草原亚洲| 中文字幕av一区二区三区人| 国产精品一 二 三| 高清国产一区二区三区四区五区| 国产精品第一视频| 日韩电影免费看| 欧美精品久久久久久久免费观看| 婷婷成人激情| 中国china体内裑精亚洲片| 色视频在线看| 亚洲精品美女视频| 亚洲精品久久久蜜桃动漫| 91精品欧美综合在线观看最新 | 欧美电影精品一区二区| 国产又黄又猛又爽| 欧美吞精做爰啪啪高潮| 波多野结衣家庭主妇| 日韩欧美国产黄色| 日本一级片免费看| 午夜视频久久久久久| 免费无遮挡无码永久在线观看视频| 中文一区在线播放| 免费一级黄色录像| 国产偷国产偷亚洲高清人白洁| 在哪里可以看毛片| 久久久久99精品一区| 中文字幕在线看高清电影| 91丨porny丨中文| 99久久人妻无码中文字幕系列| 成人黄色av网站在线| 理论片大全免费理伦片| 成+人+亚洲+综合天堂| 欧美熟妇精品一区二区蜜桃视频| 丁香桃色午夜亚洲一区二区三区| 日本黄色大片在线观看| 成人性生交大片免费看视频在线 | 久久精品亚洲麻豆av一区二区| 午夜不卡久久精品无码免费| 99热精品一区二区| 亚洲av片不卡无码久久| 久久综合色8888| 免费黄色在线视频| 欧美—级在线免费片| 中文天堂资源在线| 综合久久久久综合| 波多野结衣家庭教师| 一区二区三区视频在线看| 久久久久久天堂| 婷婷亚洲久悠悠色悠在线播放 | 欧美裸体bbwbbwbbw| ,一级淫片a看免费| 日韩欧美一级在线播放| 人妻精品一区二区三区| 亚洲精选在线观看| 成年人视频在线看| 萌白酱国产一区二区| 青草在线视频| 欧美中文在线视频| 久久天天久久| 成人黄视频免费| 亚洲理论电影| www.-级毛片线天内射视视| 在线成人h网| 成人性生生活性生交12| 国产一区二区美女| 欧美xxxxx精品| 欧美国产一区二区| 九九免费精品视频| 色呦呦国产精品| aaa一区二区| 日韩电影网在线| 欧洲不卡视频| 91国产视频在线| 久久91超碰青草在哪里看| 国产精品 日韩| 成人精品视频| 妞干网在线观看视频| 美女国产一区二区| 亚洲少妇18p| 中文字幕在线观看不卡视频| 日韩av综合在线| 欧美精品国产精品| 黄色美女一级片| 日韩在线观看免费网站| 悠悠资源网亚洲青| 亚洲最大福利视频| 精品国内自产拍在线观看视频 | 免费看啪啪网站| 国产农村妇女毛片精品久久莱园子| 色婷婷综合网站| 91欧美激情一区二区三区成人| 日韩在线中文字幕视频| 在线精品亚洲一区二区不卡| 国产刺激高潮av| 美日韩在线视频| 日韩在线你懂得| 免费成人看片网址| 激情综合在线| 日本黄色www| 国产精品久久毛片av大全日韩| 国产精品久久久久久久妇| 91精品国产综合久久精品图片| 国产高清免费av在线| 国内精品久久影院| 亚洲精品视频一二三区| 自拍偷拍一区二区三区| 日韩精品亚洲一区| 欧美色图亚洲激情| 五月天激情综合| 内射无码专区久久亚洲| 欧美大成色www永久网站婷| 国产精品xxx| 日韩国产美国| 视频一区欧美日韩| 亚洲一区二区三区蜜桃| 福利视频一区二区| 色窝窝无码一区二区三区成人网站| 欧美www在线| 久久九九精品视频| 一区二区三区一级片| 久久99精品国产.久久久久久| 阿v天堂2014| 欧美亚洲丝袜传媒另类| 国产二区在线播放| 国产精品高潮呻吟久久av黑人| 久久97视频| 午夜dv内射一区二区| 久久久精品国产99久久精品芒果| 日产精品久久久| 亚洲男人第一网站| 日韩影片中文字幕| 日本一区高清不卡| 免费高清在线视频一区·| 美国一级黄色录像| 欧美日韩久久不卡| 欧美尤物美女在线| 91久久久久久久久久久久久| 亚洲色图国产| 女性生殖扒开酷刑vk| 婷婷成人综合网| 你懂的在线播放| 国产精品久久久av| 99久久www免费| 在线视频一二区| 一区二区三区不卡视频| 成人毛片在线免费观看| 91国产中文字幕| 国产一区二区三区四区二区| 爱情岛论坛亚洲首页入口章节| 国产精品国产三级国产普通话三级| 一区二区三区www污污污网站| 欧美老妇交乱视频| 欧洲亚洲成人| 国产一级做a爰片久久| 亚洲欧美激情一区二区| 老牛影视av牛牛影视av| 青草成人免费视频| 欧美高清视频手机在在线| 亚洲精品久久久久久| 婷婷综合另类小说色区| 午夜视频在线免费观看| 91传媒在线免费观看| 亚洲综合日韩| 精品人体无码一区二区三区| 欧美一区午夜精品| 涩涩涩在线视频| 亚洲一区二区高清视频| 懂色av一区二区夜夜嗨| 在线免费观看av网址| 欧美另类99xxxxx| 神马日本精品| 午夜xxxxx| 一本久久a久久精品亚洲| 国产在线高清视频| 久久精品国产一区二区三区日韩| 美国三级日本三级久久99| 三级黄色在线视频| 丝袜美腿精品国产二区| 国产精品对白久久久久粗| 欧美精品久久久久久久久25p| 亚洲国产精品久久久久婷婷884| 电影在线一区| 国产日韩欧美一区二区三区四区 | 色网综合在线观看| 四虎亚洲成人| 亚洲成人18|