一文全面梳理 Agentic RAG 在企業落地的22種實用分塊策略原創

發布于 2025-9-4 06:35

瀏覽

0收藏

1、RAG 系統的“痛點”：分塊

對于許多 AI 工程師來說，檢索增強生成（RAG）是一個讓人又愛又恨的技術。理論上，它非常簡單：從你的私有中知識庫找到相關信息，然后讓大語言模型（LLM）基于這些信息生成回答。但在實際操作中，面對海量混亂的數據，你往往會陷入無盡的調試循環：

一文全面梳理 Agentic RAG 在企業落地的22種實用分塊策略-AI.x社區

調整文本塊（Chunking）
切換嵌入模型（Embedding models）
更換檢索器（Retrievers）
微調排序器（Rankers）
重寫提示詞（Prompts）

即便如此，你可能還是會收到模型冷冰冰的回復：“我找不到足夠的信息來回答你的問題。”更糟糕的是，它還可能一本正經地輸出完全錯誤的答案，也就是我們常說的“幻覺”。

2、核心秘訣：分塊的藝術

RAG 系統中有許多復雜的組件，但分塊（Chunking）才是默默決定整個系統成敗的關鍵。不同的數據類型、文件格式、內容結構和使用場景，都需要量身定制的分塊策略。一旦分塊出錯，你的模型就會“摸不著頭腦”，無法精準地捕捉到核心信息。

為了解決這個難題，本文將深入解析 22 種分塊策略，從基礎到進階，并為你提供何時該使用哪種策略的指南，讓你的 RAG 系統真正高效運轉。

下文詳細剖析之。

RAG 21 種分塊策略剖析

一、基礎分塊策略（處理簡單的文本結構）

1. 基礎分塊法（按換行符分割）

一文全面梳理 Agentic RAG 在企業落地的22種實用分塊策略-AI.x社區

原理：遇到換行符就分割文本，簡單直接。
適用場景：適用于內容按行分隔的文本，比如：筆記、FAQ、聊天記錄或每行都包含完整語義的轉錄稿。

2. 定長分塊法（固定大小分塊）

原理：按固定的字符數或單詞數切割文本，即使會切斷句子或語義單元。
適用場景：適用于原始、雜亂的非結構化文本，比如：掃描文檔、質量較差的轉錄稿。

3. 滑動窗口分塊法

原理：類似定長分塊，但每個文本塊與前一塊有重疊，以保持上下文的連貫性。
適用場景：適合需要保持長句間邏輯關系的文本，比如：議論文、敘述性報告。

4. 按句分塊法

原理：在句子結尾（句號、問號、感嘆號）處分割文本。
適用場景：適用于語義清晰的規整文本，比如：技術博客、文檔摘要。

5. 按段分塊法

原理：依據段落（通常以雙換行符為界）分割文本。
適用場景：當按句分塊過于零碎時，或處理已具備段落結構的文檔，比如：博客文章、研究報告。

6. 按頁分塊法

原理：將每個物理頁面視為一個獨立的文本塊。
適用場景：適用于有固定頁面的文檔，比如：PDF、演示文稿，以及需要引用頁碼的檢索場景。

二、高級分塊策略（處理復雜的數據結構）

7. 按預定結構分塊法

原理：根據固定的結構化元素（比如：HTML 標簽、JSON 字段）分割文本。
適用場景：處理系統日志、JSON 記錄、CSV 文件或 HTML 文檔等結構化數據。

8. 基于文檔層級的分塊法

原理：根據文檔本身的層級結構（標題、子標題、章節）進行分塊。
適用場景：適用于有清晰章節結構的技術文章、操作手冊、學術論文。

9. 基于關鍵詞的分塊法

原理：在預設關鍵詞出現的地方分割文本，將它們作為新的邏輯斷點。
適用場景：文檔沒有標題但有標志性關鍵詞（如“Note”、“Summary”）時使用。

10. 基于實體的分塊法

原理：使用命名實體識別（NER）技術，將與特定實體（人物、地點、產品）相關的文本分組。
適用場景：處理新聞報道、法律合同或任何實體對理解至關重要的文件。

11. 基于詞元數的分塊法

原理：通過分詞器（Tokenizer）按詞元數量分割文本。
適用場景：適用于無標題、無段落的非結構化文檔，尤其是在 LLM 詞元限制較低時。

12. 基于主題的分塊法

原理：使用主題建模或聚類算法，將語義相關的句子或段落合并為一組。
適用場景：文檔涵蓋多個主題，且主題轉換平緩，沒有明確的標題或關鍵詞標記。

13. 表格感知分塊法

原理：獨立識別并處理表格內容，將其轉換為 JSON 或 Markdown 格式。
適用場景：處理包含表格的文檔。

14. 內容感知分塊法

原理：根據內容類型（段落、表格、列表）動態調整分塊策略。
適用場景：處理混合格式的文檔，需保持原生格式完整性的場景。

15. 上下文增強分塊法

原理：在嵌入之前，使用 LLM 為每個文本塊注入簡短且相關的上下文。
適用場景：處理財報、合同等復雜文檔，前提是知識庫內容在 LLM 詞元限制內。

16. 語義分塊法

原理：基于嵌入相似度，聚合語義相關的句子或段落。
適用場景：當基礎分塊法失效時，或處理包含混雜主題的長文檔。

17. 遞歸分塊法

原理：先使用大粒度分隔符（比如：段落）分塊，如果分塊過大，再遞歸使用小粒度分隔符（比如：句子）繼續分割，直到滿足大小要求。
適用場景：處理句子長度不規則、不可預測的文本，如訪談記錄。

18. 嵌入優先分塊法

原理：先將所有句子嵌入，再根據相鄰句子的相似度合并或拆分。
適用場景：適用于完全無結構的文檔，或當基礎方法效果不佳時。

19. 基于大模型/智能體的分塊法

原理：將分塊決策完全交給 LLM，由其自主判斷如何分割文本。
適用場景：內容非常復雜、結構不明確，需要類似人類判斷力來分塊的場景。

20. 分層分塊法

原理：將文本按多個層次（章節、段落）分塊，以不同粒度檢索信息。
適用場景：處理有清晰層次結構的文檔，希望同時探索整體概述和詳細信息的場景。

21. 多模態分塊法

原理：針對不同類型的內容（文本、圖像、表格）采用不同的分塊策略。
適用場景：處理包含多種媒體形式的文檔。

22. BONUS：混合分塊法

原理：融合多種分塊技術、啟發式規則和 LLM，以提升分塊的可靠性。
適用場景：當單一方法不足以應對復雜數據結構時。

好了，這就是我今天想分享的內容。

本文轉載自???玄姐聊AGI?? 作者：玄姐

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

Agentic RAG

RAG

已于2025-9-4 06:35:19修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

一文全面梳理 Agentic RAG 在企業落地的22種實用分塊策略原創

1、RAG 系統的“痛點”：分塊

2、核心秘訣：分塊的藝術

RAG 21 種分塊策略剖析

一、基礎分塊策略（處理簡單的文本結構）

1. 基礎分塊法（按換行符分割）

2. 定長分塊法（固定大小分塊）

3. 滑動窗口分塊法

4. 按句分塊法

5. 按段分塊法

6. 按頁分塊法

二、高級分塊策略（處理復雜的數據結構）

7. 按預定結構分塊法

8. 基于文檔層級的分塊法

9. 基于關鍵詞的分塊法

10. 基于實體的分塊法

11. 基于詞元數的分塊法

12. 基于主題的分塊法

13. 表格感知分塊法

14. 內容感知分塊法

15. 上下文增強分塊法

16. 語義分塊法

17. 遞歸分塊法

18. 嵌入優先分塊法

19. 基于大模型/智能體的分塊法

20. 分層分塊法

21. 多模態分塊法

目錄

51CTO

51CTO博客

51CTO學堂

一文全面梳理 Agentic RAG 在企業落地的22種實用分塊策略 原創

1、RAG 系統的“痛點”：分塊

2、核心秘訣：分塊的藝術

RAG 21 種分塊策略剖析

一、基礎分塊策略（處理簡單的文本結構）

1. 基礎分塊法（按換行符分割）

2. 定長分塊法（固定大小分塊）

3. 滑動窗口分塊法

4. 按句分塊法

5. 按段分塊法

6. 按頁分塊法

二、高級分塊策略（處理復雜的數據結構）

7. 按預定結構分塊法

8. 基于文檔層級的分塊法

9. 基于關鍵詞的分塊法

10. 基于實體的分塊法

11. 基于詞元數的分塊法

12. 基于主題的分塊法

13. 表格感知分塊法

14. 內容感知分塊法

15. 上下文增強分塊法

16. 語義分塊法

17. 遞歸分塊法

18. 嵌入優先分塊法

19. 基于大模型/智能體的分塊法

20. 分層分塊法

21. 多模態分塊法

目錄

一文全面梳理 Agentic RAG 在企業落地的22種實用分塊策略原創