Meta超級智能實驗室首篇論文:重新定義RAG
Meta超級智能實驗室的首篇論文,來了——
提出了一個名為REFRAG的高效解碼框架,重新定義了RAG(檢索增強生成),最高可將首字生成延遲(TTFT)加速30倍。

畢竟算是超級智能實驗的“開山之作”,研究一出,就已經在網上掀起了不少的熱議。

例如Reddti網友表示:
若效果真如研究所說的那樣,那對RAG來說是相當不錯的改進,看起來可以做到在不犧牲準確性的情況下,能顯著提高速度和上下文大小。

天下苦RAG上下文計算冗余久矣
首先,我們需要理解并回顧一下RAG的工作原理。
當一個大型語言模型(LLM)被要求回答需要精確背景知識的問題時,如果僅依賴它內部參數化的知識,可能會出現事實性錯誤或信息滯后等情況。
而RAG就通過一個外部知識庫(如企業文檔、專業數據庫等)進行檢索,將與問題最相關的信息提取出來,作為上下文與原始問題一同提供給LLM。LLM在獲得這些精確的參考資料后,就能生成內容更可靠、更具時效性的答案。
然而,這個模式在工程方面也帶來了不小的挑戰,即推理效率與信息量的權衡。
當AI檢索到的參考資料非常多(也就是我們通常說的“長上下文”)時,LLM的處理負擔會大幅增加。
模型處理上下文的計算復雜度通常與上下文長度的平方成正比,導致生成第一個字的延遲(Time-to-First-Token, TTFT)顯著增加,這直接影響了實時交互應用的用戶體驗。
同時,處理長上下文也意味著更高的計算和內存開銷,為系統的規模化部署帶來了挑戰。
基于這樣的背景,Meta超級智能實驗室的研究人員發現,在RAG應用中,LLM處理檢索到的多個文檔時,其計算過程存在大量冗余。
通過實驗,他們觀察到模型內部的注意力機制在處理這些文檔時,呈現出一種“塊對角”(block-diagonal)的稀疏模式。
這意味著,模型的注意力主要集中在單個文檔內部,以及各文檔與用戶問題之間的關聯上。而不同文檔片段之間的交叉注意力得分通常很低,表明它們之間的關聯性較弱。
然而,標準的Transformer架構并不會區分這些關聯性的強弱,而是對上下文中的所有詞元(token)進行全局的注意力計算,這導致了大量計算資源被消耗在分析那些關聯性很弱的文檔片段上。
基于這一觀察,研究團隊提出:RAG解碼過程中的大部分注意力計算對于最終結果的貢獻有限,可以在不顯著影響性能的前提下被優化或移除。
REFRAG,就此應運而生。
REFRAG:一種選擇性壓縮解碼方案
REFRAG這個框架,主要通過“壓縮(Compress)、感知(Sense)、擴展(Expand)”的流程,優化了LLM處理外部知識的方式。

壓縮:將上下文轉換為緊湊表征
REFRAG首先改變了上下文的呈現方式,它沒有將所有檢索到的原始文本直接輸入給主LLM,而是引入了一個輕量級的編碼器模型。
這個編碼器將長篇的參考資料切分為多個“塊”(chunks),并為每個“塊”生成一個緊湊的向量表示——“塊嵌入”(chunk embedding)。這個“塊嵌入”可以視為原始文本塊的濃縮摘要。
這一步驟帶來了兩個直接的好處,首先就是縮短輸入序列長度,因為LLM需要處理的輸入從數千個詞元縮減為數百個“塊嵌入”,顯著降低了后續的計算量。
其次是由于這些“塊嵌入”可以被預先計算并存儲,當知識庫中的同一文檔被再次檢索時,系統可以直接調用緩存的嵌入,避免了重復的編碼計算。
感知:智能判斷關鍵信息
考慮到并非所有信息都適合壓縮,某些包含關鍵細節的文本片段需要被保留。
為此,REFRAG訓練了一個基于強化學習(RL)的策略網絡。
這個網絡的功能是分析所有的“塊嵌入”和用戶問題,判斷哪些文本塊包含最核心的信息,需要以原始文本的形式呈現給LLM。
擴展:結合壓縮與原始文本
經過前兩步的處理,最終輸入到主LLM的是一個混合序列,它包含了大部分上下文的“塊嵌入”(壓縮表示)和少量被判斷為關鍵的“原始文本塊”。
LLM基于這份經過優化的輸入材料來生成答案,大部分背景信息通過壓縮表示快速獲取,而核心細節則通過原始文本進行精確理解。通過這種方式,REFRAG在保留關鍵信息的同時,最大限度地降低了計算負載。
性能無損,效率提升
根據論文數據,REFRAG框架在多個維度上取得了較為不錯的成果。
例如在推理速度方面,以首字生成延遲(TTFT)為例,REFRAG實現了最高30.85倍的加速。與之前的先進方法相比,也取得了3.75倍的提升。
這意味著在需要快速響應的場景下,系統的延遲可以得到有效控制。

其次,實驗還表明,在獲得顯著加速的同時,REFRAG在困惑度(Perplexity)以及多種下游任務(如問答、摘要)的準確率上,與使用完整上下文的基線模型相比沒有性能損失。
此外,由于壓縮技術使得模型能在同等計算預算下處理更多信息,上下文窗口等效擴大了16倍,這在某些任務上反而帶來了性能增益。
據了解,這個方法的設計不僅適用于RAG,也適用于多輪對話、長文檔摘要等其他需要處理長上下文信息的任務。
總而言之,Meta超級智能實驗室的這項研究,通過巧妙的算法設計,有效解決了當前大模型在處理長上下文時面臨的核心效率問題。REFRAG為開發更高效、更經濟、更具擴展性的AI應用提供了一個重要的解決方案。

































