Meta超級智能實驗室首篇論文：重新定義RAG

2025-09-08 23:19:25

畢竟算是超級智能實驗的“開山之作”，研究一出，就已經在網上掀起了不少的熱議。

Meta超級智能實驗室的首篇論文，來了——

提出了一個名為REFRAG的高效解碼框架，重新定義了RAG（檢索增強生成），最高可將首字生成延遲（TTFT）加速30倍。

畢竟算是超級智能實驗的“開山之作”，研究一出，就已經在網上掀起了不少的熱議。

例如Reddti網友表示：

若效果真如研究所說的那樣，那對RAG來說是相當不錯的改進，看起來可以做到在不犧牲準確性的情況下，能顯著提高速度和上下文大小。

天下苦RAG上下文計算冗余久矣

首先，我們需要理解并回顧一下RAG的工作原理。

當一個大型語言模型（LLM）被要求回答需要精確背景知識的問題時，如果僅依賴它內部參數化的知識，可能會出現事實性錯誤或信息滯后等情況。

而RAG就通過一個外部知識庫（如企業文檔、專業數據庫等）進行檢索，將與問題最相關的信息提取出來，作為上下文與原始問題一同提供給LLM。LLM在獲得這些精確的參考資料后，就能生成內容更可靠、更具時效性的答案。

然而，這個模式在工程方面也帶來了不小的挑戰，即推理效率與信息量的權衡。

當AI檢索到的參考資料非常多（也就是我們通常說的“長上下文”）時，LLM的處理負擔會大幅增加。

模型處理上下文的計算復雜度通常與上下文長度的平方成正比，導致生成第一個字的延遲（Time-to-First-Token, TTFT）顯著增加，這直接影響了實時交互應用的用戶體驗。

同時，處理長上下文也意味著更高的計算和內存開銷，為系統的規模化部署帶來了挑戰。

基于這樣的背景，Meta超級智能實驗室的研究人員發現，在RAG應用中，LLM處理檢索到的多個文檔時，其計算過程存在大量冗余。

通過實驗，他們觀察到模型內部的注意力機制在處理這些文檔時，呈現出一種“塊對角”（block-diagonal）的稀疏模式。

這意味著，模型的注意力主要集中在單個文檔內部，以及各文檔與用戶問題之間的關聯上。而不同文檔片段之間的交叉注意力得分通常很低，表明它們之間的關聯性較弱。

然而，標準的Transformer架構并不會區分這些關聯性的強弱，而是對上下文中的所有詞元（token）進行全局的注意力計算，這導致了大量計算資源被消耗在分析那些關聯性很弱的文檔片段上。

基于這一觀察，研究團隊提出：RAG解碼過程中的大部分注意力計算對于最終結果的貢獻有限，可以在不顯著影響性能的前提下被優化或移除。

REFRAG，就此應運而生。

REFRAG這個框架，主要通過“壓縮（Compress）、感知（Sense）、擴展（Expand）”的流程，優化了LLM處理外部知識的方式。

REFRAG首先改變了上下文的呈現方式，它沒有將所有檢索到的原始文本直接輸入給主LLM，而是引入了一個輕量級的編碼器模型。

這個編碼器將長篇的參考資料切分為多個“塊”（chunks），并為每個“塊”生成一個緊湊的向量表示——“塊嵌入”（chunk embedding）。這個“塊嵌入”可以視為原始文本塊的濃縮摘要。

這一步驟帶來了兩個直接的好處，首先就是縮短輸入序列長度，因為LLM需要處理的輸入從數千個詞元縮減為數百個“塊嵌入”，顯著降低了后續的計算量。

其次是由于這些“塊嵌入”可以被預先計算并存儲，當知識庫中的同一文檔被再次檢索時，系統可以直接調用緩存的嵌入，避免了重復的編碼計算。

考慮到并非所有信息都適合壓縮，某些包含關鍵細節的文本片段需要被保留。

為此，REFRAG訓練了一個基于強化學習（RL）的策略網絡。

這個網絡的功能是分析所有的“塊嵌入”和用戶問題，判斷哪些文本塊包含最核心的信息，需要以原始文本的形式呈現給LLM。

經過前兩步的處理，最終輸入到主LLM的是一個混合序列，它包含了大部分上下文的“塊嵌入”（壓縮表示）和少量被判斷為關鍵的“原始文本塊”。

LLM基于這份經過優化的輸入材料來生成答案，大部分背景信息通過壓縮表示快速獲取，而核心細節則通過原始文本進行精確理解。通過這種方式，REFRAG在保留關鍵信息的同時，最大限度地降低了計算負載。

根據論文數據，REFRAG框架在多個維度上取得了較為不錯的成果。

例如在推理速度方面，以首字生成延遲（TTFT）為例，REFRAG實現了最高30.85倍的加速。與之前的先進方法相比，也取得了3.75倍的提升。

這意味著在需要快速響應的場景下，系統的延遲可以得到有效控制。

其次，實驗還表明，在獲得顯著加速的同時，REFRAG在困惑度（Perplexity）以及多種下游任務（如問答、摘要）的準確率上，與使用完整上下文的基線模型相比沒有性能損失。

此外，由于壓縮技術使得模型能在同等計算預算下處理更多信息，上下文窗口等效擴大了16倍，這在某些任務上反而帶來了性能增益。

據了解，這個方法的設計不僅適用于RAG，也適用于多輪對話、長文檔摘要等其他需要處理長上下文信息的任務。

總而言之，Meta超級智能實驗室的這項研究，通過巧妙的算法設計，有效解決了當前大模型在處理長上下文時面臨的核心效率問題。REFRAG為開發更高效、更經濟、更具擴展性的AI應用提供了一個重要的解決方案。

責任編輯：張燕妮來源：量子位