一文全面梳理 Agentic RAG 在企業落地的22種實用分塊策略 原創
1、RAG 系統的“痛點”:分塊
對于許多 AI 工程師來說,檢索增強生成(RAG)是一個讓人又愛又恨的技術。理論上,它非常簡單:從你的私有中知識庫找到相關信息,然后讓大語言模型(LLM)基于這些信息生成回答。但在實際操作中,面對海量混亂的數據,你往往會陷入無盡的調試循環:

- 調整文本塊(Chunking)
- 切換嵌入模型(Embedding models)
- 更換檢索器(Retrievers)
- 微調排序器(Rankers)
- 重寫提示詞(Prompts)
即便如此,你可能還是會收到模型冷冰冰的回復:“我找不到足夠的信息來回答你的問題。”更糟糕的是,它還可能一本正經地輸出完全錯誤的答案,也就是我們常說的“幻覺”。
2、核心秘訣:分塊的藝術
RAG 系統中有許多復雜的組件,但分塊(Chunking)才是默默決定整個系統成敗的關鍵。不同的數據類型、文件格式、內容結構和使用場景,都需要量身定制的分塊策略。一旦分塊出錯,你的模型就會“摸不著頭腦”,無法精準地捕捉到核心信息。
為了解決這個難題,本文將深入解析 22 種分塊策略,從基礎到進階,并為你提供何時該使用哪種策略的指南,讓你的 RAG 系統真正高效運轉。
下文詳細剖析之。
RAG 21 種分塊策略剖析
一、基礎分塊策略(處理簡單的文本結構)
1. 基礎分塊法(按換行符分割)

- 原理:遇到換行符就分割文本,簡單直接。
- 適用場景:適用于內容按行分隔的文本,比如:筆記、FAQ、聊天記錄或每行都包含完整語義的轉錄稿。
2. 定長分塊法(固定大小分塊)

- 原理:按固定的字符數或單詞數切割文本,即使會切斷句子或語義單元。
- 適用場景:適用于原始、雜亂的非結構化文本,比如:掃描文檔、質量較差的轉錄稿。
3. 滑動窗口分塊法

- 原理:類似定長分塊,但每個文本塊與前一塊有重疊,以保持上下文的連貫性。
- 適用場景:適合需要保持長句間邏輯關系的文本,比如:議論文、敘述性報告。
4. 按句分塊法

- 原理:在句子結尾(句號、問號、感嘆號)處分割文本。
- 適用場景:適用于語義清晰的規整文本,比如:技術博客、文檔摘要。
5. 按段分塊法

- 原理:依據段落(通常以雙換行符為界)分割文本。
- 適用場景:當按句分塊過于零碎時,或處理已具備段落結構的文檔,比如:博客文章、研究報告。
6. 按頁分塊法

- 原理:將每個物理頁面視為一個獨立的文本塊。
- 適用場景:適用于有固定頁面的文檔,比如:PDF、演示文稿,以及需要引用頁碼的檢索場景。
二、高級分塊策略(處理復雜的數據結構)
7. 按預定結構分塊法

- 原理:根據固定的結構化元素(比如:HTML 標簽、JSON 字段)分割文本。
- 適用場景:處理系統日志、JSON 記錄、CSV 文件或 HTML 文檔等結構化數據。
8. 基于文檔層級的分塊法

- 原理:根據文檔本身的層級結構(標題、子標題、章節)進行分塊。
- 適用場景:適用于有清晰章節結構的技術文章、操作手冊、學術論文。
9. 基于關鍵詞的分塊法

- 原理:在預設關鍵詞出現的地方分割文本,將它們作為新的邏輯斷點。
- 適用場景:文檔沒有標題但有標志性關鍵詞(如“Note”、“Summary”)時使用。
10. 基于實體的分塊法

- 原理:使用命名實體識別(NER)技術,將與特定實體(人物、地點、產品)相關的文本分組。
- 適用場景:處理新聞報道、法律合同或任何實體對理解至關重要的文件。
11. 基于詞元數的分塊法
- 原理:通過分詞器(Tokenizer)按詞元數量分割文本。
- 適用場景:適用于無標題、無段落的非結構化文檔,尤其是在 LLM 詞元限制較低時。
12. 基于主題的分塊法

- 原理:使用主題建模或聚類算法,將語義相關的句子或段落合并為一組。
- 適用場景:文檔涵蓋多個主題,且主題轉換平緩,沒有明確的標題或關鍵詞標記。
13. 表格感知分塊法

- 原理:獨立識別并處理表格內容,將其轉換為 JSON 或 Markdown 格式。
- 適用場景:處理包含表格的文檔。
14. 內容感知分塊法
- 原理:根據內容類型(段落、表格、列表)動態調整分塊策略。
- 適用場景:處理混合格式的文檔,需保持原生格式完整性的場景。
15. 上下文增強分塊法

- 原理:在嵌入之前,使用 LLM 為每個文本塊注入簡短且相關的上下文。
- 適用場景:處理財報、合同等復雜文檔,前提是知識庫內容在 LLM 詞元限制內。
16. 語義分塊法
- 原理:基于嵌入相似度,聚合語義相關的句子或段落。
- 適用場景:當基礎分塊法失效時,或處理包含混雜主題的長文檔。
17. 遞歸分塊法
- 原理:先使用大粒度分隔符(比如:段落)分塊,如果分塊過大,再遞歸使用小粒度分隔符(比如:句子)繼續分割,直到滿足大小要求。
- 適用場景:處理句子長度不規則、不可預測的文本,如訪談記錄。
18. 嵌入優先分塊法
- 原理:先將所有句子嵌入,再根據相鄰句子的相似度合并或拆分。
- 適用場景:適用于完全無結構的文檔,或當基礎方法效果不佳時。
19. 基于大模型/智能體的分塊法
- 原理:將分塊決策完全交給 LLM,由其自主判斷如何分割文本。
- 適用場景:內容非常復雜、結構不明確,需要類似人類判斷力來分塊的場景。
20. 分層分塊法

- 原理:將文本按多個層次(章節、段落)分塊,以不同粒度檢索信息。
- 適用場景:處理有清晰層次結構的文檔,希望同時探索整體概述和詳細信息的場景。
21. 多模態分塊法

- 原理:針對不同類型的內容(文本、圖像、表格)采用不同的分塊策略。
- 適用場景:處理包含多種媒體形式的文檔。
22. BONUS:混合分塊法
- 原理:融合多種分塊技術、啟發式規則和 LLM,以提升分塊的可靠性。
- 適用場景:當單一方法不足以應對復雜數據結構時。
好了,這就是我今天想分享的內容。
本文轉載自???玄姐聊AGI?? 作者:玄姐
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-9-4 06:35:19修改
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















