RAS 革命：從 RAG 到結構化知識增強，破解 LLM 短板的新范式

發布于 2025-10-31 11:29

瀏覽

0收藏

作者 | 崔皓

審校 | 重樓

摘要

大型語言模型（LLMs）在文本生成和推理上表現出色，但存在幻覺生成、知識過時、缺乏領域專業知識等短板。檢索增強生成（RAG）雖能通過外部文檔檢索增強 LLMs 以減少幻覺、獲取最新信息，卻面臨摻雜誤導信息、缺少邏輯連接的問題。為此，檢索增強結構化（RAS）技術應運而生，它整合知識結構化技術（如分類法和知識圖譜），將非結構化文本轉化為結構化知識，提升推理和驗證能力。

RAS 包含信息檢索、結構化知識表示、大型語言模型三大組件，通過行動規劃、主題范圍檢索、動態知識結構化、知識增強生成四個階段實現 “檢索 - 結構化 - 生成” 的迭代閉環，在多任務場景下各項指標顯著優于 RAG。其中分類法是 RAS 實現 “結構增強檢索” 的關鍵，通過 HiExpan、CoRel 等技術從 “種子” 結構出發擴展寬度與深度，為檢索劃定主題范圍，提升效率與精度，助力 RAS 解決傳統 RAG 的痛點，實現更準確的復雜推理與答案生成。

LLM 的短板

大型語言模型（LLMs）的出現徹底改變了自然語言處理領域，它們在文本生成和復雜推理方面展現出卓越的能力，這些模型通過對海量文本數據進行預訓練，建立了對語言結構的深層理解。

然而，當 LLMs 被部署到現實世界的應用中時，它們的局限性也隨之凸顯。主要挑戰包括：

1. 幻覺生成（Hallucination）：LLMs 有時會生成聽起來合理但事實錯誤的信息。

2. 知識過時：LLMs 依賴其訓練數據中可能過時或不完整的知識。

3. 缺乏領域專業知識：在科學研究、醫療保健或技術領域等知識密集型應用中，LLMs 往往缺乏所需的精確且詳細的知識。

RAS 革命：從 RAG 到結構化知識增強，破解 LLM 短板的新范式-AI.x社區

RAG 的出現

為了彌補 LLMs 的這些缺陷，檢索增強生成（Retrieval-Augmented Generation, RAG）范式被引入。

RAG 的核心機制是通過從外部文檔中檢索相關信息來增強 LLMs，從而使模型的響應具有事實基礎。RAG 通過將 LLMs 的響應建立在檢索到的文檔之上，極大地減少了幻覺，并使其能夠訪問最新的信息。

傳統的 RAG 雖然能夠彌補 LLMs 的短板，但也會帶來一些問題：

?摻雜誤導信息：RAG 在做文本切割時，會保存大量的非結構化文本，這些文本在表達含義時會給人含糊不清的感覺。從而誤導 LLMs，導致搜索的結果偏離結果。同時，非結構化文本通常還包含無關的細節，可能導致模型失準。例如當查詢：“魯迅的代表作品是什么？”的時候，RAG 檢索到的文本段落： “魯迅，原名周樹人，是中國現代文學的奠基人之一。近年來，以他生平為藍本的電視劇《覺醒年代》獲得了巨大的成功，引發了年輕人的熱烈討論。” RAG 在回答的同時，在答案中還混入了大量關于電視劇的無關細節。這導致輸出的冗余或不準確，我們需要通過提示詞或者其他手段針對回答內容進行二次處理。

?缺少邏輯連接：當需要邏輯推理才能得到結果時，非結構化文本明顯顯得力不從心，因為段落缺乏的明確邏輯連接，所以得到的結果往往不盡如人意，從而導致幻覺。例如，當我們查詢：“中國最大的電商平臺‘淘寶’的創始人馬云，他畢業于哪所大學？”的時候，RAG 會分別搜索 2 個不同的文本塊：

文本塊 A： “淘寶網由馬云于2003年創立，是中國最大的在線購物平臺。

文本塊 B： “馬云畢業于杭州師范學院的外語系。”

然后 LLM 需要通過 RAG 提供的兩個文本塊進行推理，得到“淘寶”“馬云”“杭州師范學院”的關系。這也是 RAG 在處理復雜、多跳推理過程中的存在的問題。

RAS 的出現

面對傳統 RAG 的諸多困境，一種更具創新性和適應性的解決方案：檢索增強結構化（Retrieval-Augmented Structuring，RAS）應運而生。RAS 的特點是將非結構化文本轉化為結構化知識，并且適合復雜問題的推理。

與傳統 RAG 相比，RAS 具有顯著的優勢。它能夠有效減少無關細節和誤導信息對模型的干擾，因為在結構化過程中，數據已經經過篩選和整理，模型能夠專注于關鍵信息進行處理，從而大大提高了回答的準確性和可靠性。同時，RAS 構建的結構化知識圖譜，能夠清晰展現事實之間的邏輯聯系，為模型提供了更豐富的語義理解，使其在處理復雜問題和多步推理任務時表現更為出色。

RAS通過結構化的處理方式，從源頭上對數據進行梳理和篩選。以 “魯迅的代表作品是什么？” 這一查詢為例，RAG 檢索到的文本可能會混入如 “魯迅生平為藍本的電視劇《覺醒年代》獲得成功” 等無關細節，使得答案冗余且不準確。但 RAS 在面對同樣的問題時，會運用實體識別和關系提取技術，會鏈接 “魯迅” 與 “代表作品” 兩個實體，并從文本中提取出如《狂人日記》《阿 Q 正傳》等真正相關的信息，排除一切無關干擾。

當涉及到復雜的邏輯推理問題時，特別是在處理多跳推理任務時，RAG 往往難以讓 LLM 準確把握信息之間的關聯，從而導致幻覺和錯誤的答案。例如，對于 “中國最大的電商平臺‘淘寶’的創始人馬云，他畢業于哪所大學？” 這樣的問題，RAG 需要分別搜索關于 “淘寶創始人” 和 “馬云畢業院校” 的文本塊，再讓 LLM 進行推理關聯，這一過程容易出現偏差。

與之形成鮮明對比的是，RAS 構建的知識圖譜能夠清晰地展現實體之間的邏輯關系。在處理上述問題時，RAS 所構建的知識圖譜中已經包含了 “淘寶 - 創始人 - 馬云” 以及 “馬云 - 畢業院校 - 杭州師范學院” 這樣的關系路徑。當接收到查詢時，RAS 可以迅速通過知識圖譜找到相關信息，并依據圖譜中的邏輯連接進行準確的推理，直接給出 “馬云畢業于杭州師范學院” 這一正確答案。

如下圖所示，相較于 RAG 相關模型，RAS 系列模型在短文本任務（如 TQA、2WQA、PopQA）、閉集任務（如 Pub、ARC）以及長文本生成任務（如 ASQA、ELIS）的各項關鍵指標上均展現出顯著優勢，無論是準確率、綜合指標 F1，還是文本生成質量評估指標 rouge、mauve，RAS 都更為出色，充分彰顯出其在多任務場景下相較于 RAG 的性能優越性。

RAS 革命：從 RAG 到結構化知識增強，破解 LLM 短板的新范式-AI.x社區

什么是 RAS？

好！通過上面的介紹，我們大致了解 RAS 比 RAG 要厲害，具體如何厲害，我們再好好掰扯掰扯！RAS 的關鍵技術是通過整合知識結構化技術（如分類法和知識圖譜），將非結構化文本轉化為有組織的知識，從而增強推理和驗證能力。

這句話說起來容易，理解起來有點抽象，再往下看，RAS 通過三個組件實現上述能力：

信息檢索組件：負責從外部知識源高效精準查找與查詢相關的文本。采用主題范圍檢索機制，結合主題分類和語義相關性，先確定子查詢主題分布，再映射到文檔主題分布，從而檢索出主題特定子語料庫，大幅縮小搜索空間，提升檢索效率與精度。
結構化知識表示組件：是 RAS 區別于傳統 RAG 的核心，將檢索到的非結構化文本轉化為知識圖譜、分類法等有組織的知識形式。通過動態知識結構化，利用 “文本到三元組” 模型把文本段落轉換為知識三元組，再迭代合并到特定查詢的知識圖譜中。
結構化知識表示組件：是 RAS 區別于傳統 RAG 的核心，將檢索到的非結構化文本轉化為知識圖譜、分類法等有組織的知識形式。通過動態知識結構化，利用 “文本到三元組” 模型把文本段落轉換為知識三元組，再迭代合并到特定查詢的知識圖譜中。
大型語言模型組件：是 RAS 的智能核心，承擔行動規劃者和回答者角色。行動規劃者依據當前知識狀態，決策是否直接回答、終止檢索或生成子查詢，引導檢索與推理過程；回答者在知識充足時，利用結構化知識生成最終答案，減少幻覺，提升事實一致性與復雜推理能力。

好！到這里，大概知道 RAS 之所以這么牛，是因為有三大組件，為了方便知道他們是如何工作的。通過如下一張圖來深入了解，RAS通過檢索獲取相關信息，再將其結構化融入知識圖譜，最終借助 LLM 生成更準確的內容。體現了 “檢索 - 結構化 - 生成” 的執行過程。

RAS 革命：從 RAG 到結構化知識增強，破解 LLM 短板的新范式-AI.x社區

可以將上述過程進行拆解如下：

輸入與檢索階段：看圖的上半部分，以 “分類體系（Taxonomy）、檢索器（Retriever）、查詢（Query）” 為輸入，通過 “Retrieval（檢索）” 步驟，獲取 “主題和語義相關的文本（Thematically & Semantically Relevant Text）”。這里的分類體系為檢索劃定主題范圍，檢索器結合查詢精準找到相關文本，確保檢索內容的針對性。
結構化階段：圖的左下角，對檢索到的文本進行 “Structuring（結構化）” 處理，將其轉化為 “子圖（Subgraph）”。這一步是 RAS 的關鍵創新之一，把非結構化的文本信息轉化為更有條理、更易被模型利用的圖結構知識單元。
知識圖譜與生成階段：右下角，生成的 “子圖（Subgraph）” 會 “Update（更新）” 到 “知識圖譜（KG）” 中。隨后，“知識圖譜（KG）” 與 “大語言模型（LLM）” 結合，一方面 LLM 利用知識圖譜中的結構化知識進行 “Generation（生成）”，產出最終內容；另一方面，生成過程中還會產生 “反饋與子查詢（Feedback & Subquery）”，回傳到最初的檢索環節，形成迭代閉環。

通過對三個關鍵組件的了解，RAS不僅解決了搜索信息的問題，還解決了如何正確組織信息并通過推理得到答案的問題。

RAS 的四個階段

在了解了 RAS 的三個組件之后，再來看看它在執行搜索任務時，要經歷的四個階段。如下圖所示：

RAS 革命：從 RAG 到結構化知識增強，破解 LLM 短板的新范式-AI.x社區

這里通過一個表格對每個階段進行描述：

階段	主要作用
階段 1：行動規劃	戰略性地確定知識需求，并決定下一步是檢索、繼續檢索還是回答。
階段 2：主題范圍檢索	高效地在龐大的語料庫中找到主題和語義都最相關的原始文本。
階段 3：動態知識結構化	將檢索到的非結構化文本轉化為可供推理的、不斷演進的知識圖譜。
階段 4：知識增強生成	利用積累的結構化知識和推理鏈，生成最終的、準確的答案。

上面表格的方式還是有點概念了，這里我們還是使用之前的例子，假設要搜索：“中國最大的電商平臺‘淘寶’的創始人馬云，他畢業于哪所大學？”。看看要經歷如下哪幾個階段：

階段	動作與輸出	RAS 機制的作用
階段 1：行動規劃（迭代 0）	規劃者評估知識不足，生成子查詢：“馬云畢業于哪所大學？”	LLM 作為規劃者，識別多跳問題需外部信息，指導檢索方向
階段 2：主題范圍檢索（迭代 0）	經主題定界（如 “名人傳記”）縮小范圍，檢索到文本：含 “馬云畢業于杭州師范學院的外語系。”	主題范圍檢索高效聚焦，避免全語料庫低效搜索
階段 3：動態知識結構化（迭代 0）	文本到三元組模型將文本轉換為事實，添加到知識圖譜 (馬云，畢業于，杭州師范學院外語系)	把非結構化文本轉化為結構化知識，構建可推理的知識圖譜
階段 1：行動規劃（迭代 1）	規劃者評估知識充足，輸出結果	LLM 利用結構化知識自我評估，避免不必要的檢索迭代
階段 4：知識增強生成	回答者模型利用編碼后的內容，生成最終答案：“馬云畢業于杭州師范學院。”	基于結構化知識圖譜生成，確保答案準確、事實一致，支持復雜推理

細心的你可能已經注意到了， RAS 框架并非按 “1-2-3-4” 線性執行，而是在階段 3 結束后回到階段 1，這一循環設計需要展開進行說明：

RAS 多跳推理

傳統 RAG 采用 “單次檢索 + 生成” 的線性架構，面對多跳推理（如 “淘寶創始人馬云的畢業院校” 需先關聯 “淘寶 - 馬云” 再查 “馬云 - 院校”）或需多信息片段的復雜任務時，常因信息不全導致推理失敗。RAS 的循環流程通過 “多次檢索 - 結構化 - 評估” 的迭代，能持續補充知識缺口，避免單次檢索的局限性。

LLM 雙重角色

RAS 中 LLM 承擔 “行動規劃者” 與 “回答者” 兩種角色，這是階段 3 需返回階段 1 的關鍵前提：

行動規劃者（階段 1）：負責 “評估知識狀態”，判斷當前是否需要檢索、是否生成子查詢，是流程的 “決策者”；
回答者（階段 4）：僅在規劃者判定知識充足后啟動，負責 “利用結構化知識生成答案”，是流程的 “輸出者”。階段 3 結束后回到階段 1，本質是讓 “決策者” 重新評估新增結構化知識，而非直接讓 “輸出者” 盲目生成，確保答案基于完整信息。

動態自我完善

階段 3 的核心輸出是 “迭代增強后的知識圖譜”，而回到階段 1 的本質是基于這一輸出進行 “知識完整性再評估”，具體流程如下：

階段 3 的關鍵反饋：階段 3 通過 “文本到三元組” 模型，將檢索到的非結構化文本轉化為知識三元組（如 “馬云 - 畢業于 - 杭州師范學院”），并合并到查詢特定的知識圖譜中，完成知識的 “結構化補充”；
階段 1 的重新評估：增強后的知識會反饋給階段 1 的規劃者，規劃者結合主查詢 Q、歷史子查詢鏈及當前知識，判斷知識是否足夠：

若知識仍有缺口（如多跳推理中僅完成第一跳），則生成新子查詢，重新進入階段 2 檢索，開啟下一輪迭代；
若知識已完整覆蓋主查詢需求，則輸出結果，終止迭代并進入階段 4 生成答案。也就是說，階段 3→階段 1 的循環，是 RAS 實現 “動態自我完善” 的核心：通過持續評估知識缺口、針對性補充結構化知識，確保最終生成的答案基于完整、精準的信息。

RAS 分類法作用

前面通過介紹 RAS 處理查詢請求的四個階段，大致知道它的工作原理。如果留心的話，在第二階段提到了 RAS 的“分類法”。分類法是 RAS 框架實現 “結構增強檢索” 的關鍵。

1. 破解傳統 RAG 的核心痛點

傳統 RAG 將外部信息視為非結構化文本段落，易因信息混亂（如無關細節、非原子化事實）誤導 LLM，且難以處理多跳推理等復雜任務。而分類法通過 “主題結構化引導”，從根源上解決這兩個問題：既過濾無關信息，又為復雜查詢提供清晰的知識檢索路徑。

2. 在 RAS 第二階段的關鍵價值

分類法通過 “主題引導” 實現 “精準檢索 + 效率提升” 雙重目標：

智能定位知識方向：RAS 的檢索并非依賴單純的關鍵詞或語義匹配，而是以領域特定分類為指引，鎖定查詢所屬主題。以 “馬云的畢業大學” 為例：當系統接收子查詢 “馬云畢業于哪所大學？” 時，分類法可直接將其歸類到 “人物傳記”主題，避免檢索范圍擴散到無關領域（如 “商業”“科技” 等非核心主題）。
顯著提升計算效率： “主題預過濾” 能大幅減少計算資源消耗。據消融研究顯示，相比僅依賴密集檢索的傳統 RAG，基于分類法的主題范圍檢索可減少約 60% 的處理時間，因它先通過輕量級主題分類（僅 298 個類維度）完成初步篩選，再對縮小后的語料庫進行高精度語義匹配。

RAS 分類法定義

在了解分類法的作用之后，再來看看它是如何實現的。RAS 中的分類法是一種 “樹狀層級結構”，遵循 “從寬泛到具體” 的邏輯組織概念：頂部為父節點（如 “人物傳記”“教育”），下方延伸出子節點（如 “人物傳記→企業家→中國互聯網人物”“教育→高等教育→師范院校”），形成清晰的主題分類體系。

在文本挖掘中，這種結構可作為 “標簽空間結構化工具”，幫助系統快速識別文本所屬主題，為檢索提供明確指引。

分類法的構建始于一個 “種子”即最基礎的主題層級框架。后續通過不同技術（如實體擴展、關系轉移）在寬度（增加同級主題）和深度（延伸子主題）上優化，最終形成適配 RAS 需求的領域分類體系。

RAS 分類法實現

分類法在 RAS 中的核心應用場景是第二階段的 “主題定界”，通過 “主題分類→分布轉換→子語料庫檢索” 三步流程，將子查詢映射到目標語料，為后續密集檢索鋪路。

分類法的構建需提前完成，換句話說就是在創建知識庫的時候就需要將原始信息按照一定結構進行保存，核心技術包括：

HiExpan 技術

通過 “實體擴展 + 詞類比細化”，從領域文本語料中生成任務特定分類法，確保主題與業務場景適配；如下圖所示，展示了分類法（Taxonomy）的構建流程，核心是從 “種子分類法” 出發，結合文本語料庫中的術語列表，生成 “任務導向的分類法”，以實現更精準的知識組織與檢索。

RAS 革命：從 RAG 到結構化知識增強，破解 LLM 短板的新范式-AI.x社區

這里對圖中內容進行詳細講解：

文本語料庫（Text Corpora）與術語列表（Term List）：左上角的文本語料庫是信息來源，從中提取出各類術語，形成術語列表。這些術語涵蓋地理（如 U.S、Canada、Texas）、生物分類（如 Species、Genus、Family）、人物（如 M Zuckerberg、D Trump）、領域分類（如 Application、Material）等多個維度，為分類法構建提供豐富的詞匯基礎。
用戶輸入 “種子” 分類法（Input “Seed” Taxonomy）：左下角，用戶基于特定任務（如圖中是 “地理位置分類”），先定義一個初始的 “種子” 分類法。例如，用戶圍繞 “地理位置” 構思出以 “Root” 為根，包含 “U.S”“China” 等父節點，以及 “California”“Illinois” 等子節點的基礎結構。
生成任務導向的分類法（Output Task-guided Taxonomy）：系統結合術語列表和種子分類法，對分類結構進行擴展與細化。在圖中，原本的 “U.S” 節點下新增了 “Texas”“Arizona”，“China” 節點下新增了 “Beijing”“Shanghai”，“Canada” 節點下新增了 “Ontario”“Quebec” 等子節點，形成了分類體系。

RAS 革命：從 RAG 到結構化知識增強，破解 LLM 短板的新范式-AI.x社區

CoRel 技術

利用預訓練語言模型（PLMs）的關系轉移能力，擴展分類法的寬度（增加新主題）和深度（細化子主題）。

ColRel 使用兩個主要模塊：

關系轉移：該模塊關注“關系”，可以將“關系”在分類法的不同路徑之間轉移，擴展其寬度和深度。
概念學習：加強了每個節點的含義。它通過嵌入分類法和文本語料庫來實現，因此每個概念都由一組連貫、相關的術語表示。

依舊通過如下圖片加深理解。

RAS 革命：從 RAG 到結構化知識增強，破解 LLM 短板的新范式-AI.x社區

從 “種子分類法” 到 “主題分類法”：對應分類法構建的流程：

圖片左側的 “Input 1: Seed Taxonomy” 是一個簡單的 “種子” 分類結構，根節點下僅包含Dessert（甜點）和Seafood（海鮮）兩個一級節點，Dessert下又只有Cake（蛋糕）和Ice-cream（冰淇淋）兩個子節點 —— 這與文字中 “分類法構建通常始于一個基本的‘種子’結構” 完全對應。
圖片右側的 “Output: Topical Taxonomy” 則是擴展后的完整分類體系：

a.寬度擴展：根節點下新增了Food、Menu、Course、Dinner、Salad等新主題（對應文字中 “擴展分類法的寬度（增加新主題）”）；

b.深度擴展：原有節點的子層級被大幅細化（如Cake下新增Crème Br?lée、Tiramisu等子主題；Seafood下細分出Oysters、Crabs等子類別，且每個子類別又有更細的劃分）—— 這對應文字中 “擴展分類法的深度（細化子主題）”。

CoRel 技術的核心機制在圖片中的體現

前文提到 CoRel 的關系轉移模塊能 “泛化種子的父子關系，推導出更廣泛的概念層級聯系”，而圖片的擴展過程正是這一機制的直觀體現：

種子分類法中 “Dessert是Cake的父節點”“Seafood是Crab類的父節點” 這些初始父子關系，被模型學習并 “轉移” 到新的概念上（如新增的Salad與其子節點Dressing、Menu Items的層級關系，Oysters與其子節點Fresh Oysters、Raw Oysters的層級關系），從而實現分類法的自動化擴展。
文字中 “概念學習模塊通過嵌入分類法和文本語料庫（Input 2: Corpus），讓每個概念由連貫的術語表示”，也解釋了圖片中每個節點下為何會有一組具體、相關的術語（如Cake下的Crème Br?lée、Chocolate Cake等，都是對 “蛋糕” 這一概念的連貫術語擴展）。

總結

本文先闡述 LLMs 的短板，引出 RAG 范式，又指出其在信息誤導和邏輯連接上的不足，進而介紹 RAS 技術。RAS 通過將非結構化文本轉化為結構化知識（如知識圖譜、分類法），結合三大組件和四階段迭代流程，有效解決了傳統 RAG 的問題，在多任務中性能更優。分類法作為 RAS 的關鍵，借助 HiExpan 和 CoRel 技術從 “種子” 分類法擴展而來，為檢索精準定界，提升效率。RAS 的創新在于 “結構化” 處理，使 LLMs 能基于完整、精準的結構化知識生成答案，尤其在復雜推理任務中表現突出，為 LLMs 在現實應用中克服短板提供了有效方案，展現出在知識密集型領域的廣闊應用前景。