精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

系統梳理 RAG 系統的 21 種分塊策略 原創 精華

發布于 2025-9-3 10:02
瀏覽
0收藏

編者按: 我們今天為大家帶來的文章,作者的觀點是:分塊(chunking)才是決定 RAG 系統成敗的真正關鍵因素,不同場景需要匹配相應的分塊策略。

本文系統梳理了從基礎到進階的 21 種分塊策略,涵蓋了基礎分塊法、定長分塊法、滑動窗口分塊等傳統方法,以及語義分塊、上下文增強分塊、多模態分塊等前沿技術。

作者 | Anjolaoluwa Ajayi

編譯 | 岳揚

檢索增強生成(RAG)是許多 AI 工程師又愛又恨的技術(包括我)。

沒錯,因為從理論上看,它簡單極了:“從你的定制數據中檢索正確的上下文,然后讓大語言模型基于此生成回答”。

但在實踐中,你不得不面對海量雜亂無章的數據 —— 這些數據以你見過的最混亂隨機的格式存儲,接著就是數日絞盡腦汁的試錯:

  • 調整文本塊(tweaking chunks)
  • 切換嵌入模型(switching embedding models)
  • 替換檢索器(swapping out retrievers)
  • 微調排序器(fine-tuning rankers)
  • 重寫提示詞(rewriting prompts)

而模型依然回復:“我找不到足夠的信息來回答你的問題”。

更糟糕的是,它還會一本正經地輸出完全錯誤的答案(產生幻覺)。

毋庸置疑,RAG 系統中存在許多復雜的組件,但真正默默決定整個系統是否能正常運行的關鍵因素其實是分塊(chunking)。

不同的數據類型、文件格式、內容結構、文檔長度和使用場景,都需要匹配不同的分塊策略。

一旦出錯,你的模型要么抓不住重點,要么... 好吧,還是抓不住重點。

本文將解析 21 種分塊策略(從基礎到進階),并說明何時該用何種策略,讓你的 RAG 系統不再...掉鏈子。

1)基礎分塊法(按換行符分割)Naive chunking (split by newline)

遇到換行符就分割文本。僅此而已。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基礎分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理由換行符統一分隔的文本:筆記、項目列表、FAQ、聊天記錄或每一行都包含完整語義的文字轉錄稿。

注意:如果內容行過長,可能超出 LLM 的詞元限制。如果內容行過短,模型可能遺漏上下文或產生幻覺。

2)定長分塊法 Fixed-size/ fixed window chunking

按固定字符數/單詞數切割文本(即便這樣會切斷完整句子或語義單元)。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

定長分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 適用于原始的、雜亂的文本數據,如掃描文檔、質量較差的轉錄文本,或無標點、無標題、無其他結構的大型文本文件。

3)滑動窗口分塊法 Sliding window chunking

類似定長分塊,但每個文本塊會與前塊內容重疊,以保持跨塊上下文之間的關聯。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

滑動窗口分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理需要保持長句間邏輯連貫性的文本類型:議論文、敘述性報告、自由形式的寫作等。
  • 與定長分塊法類似,適用于無結構的文本(無標題、無標點、無框架等),但需注意詞元消耗與上下文連貫性間的平衡。

4)按句分塊法 Sentence-based chunking

在句子結尾處分割文本(通常以句號、問號或感嘆號為標記)。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

按句分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 適用于語義清晰的規整文本,每句話都承載著完整的語義,如技術博客、內容摘要或文檔。
  • 可作為初級的分塊手段產出小而聚焦的文本塊,便于后續通過更復雜的分塊技術重新組合或重排序這些文本塊。

5)按段分塊法 Paragraph-based chunking

依據段落分割文本(通常以雙換行符為界),使每塊均包含完整的語義單元。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

按段分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 當按句分塊所得內容過于零碎時
  • 處理已具備段落結構的文檔,如議論文、博客文章或研究報告

6)按頁分塊法 Page-based chunking

將每個物理頁面視為一個獨立文本塊。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

按頁分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理含固定頁面的文檔,如掃描版 PDF、演示文稿或書籍。
  • 需保留頁面布局的檢索場景(如在檢索時需要引用頁碼)。

7)按預定結構分塊法 Structured chunking

依據預定結構(如具有固定格式的系統日志記錄、結構化數據中的預定義字段、HTML 標簽或 Markdown 元素)分割文本。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

按預定結構分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理結構化/半結構化數據,如系統日志、JSON 記錄、CSV 文件或 HTML 文檔。

8)基于文檔層級的分塊法 Document-Based Chunking

基于文檔固有結構分塊(按標題/小標題/章節劃分)。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基于文檔層級的分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 當源文件具備清晰的章節結構時,如在技術文章、操作手冊、教材或學術論文中。
  • 可作為進階分塊技術(如按層級分塊(hierarchical chunking))的預處理步驟。

9)基于關鍵詞的分塊法 Keyword-based chunking

在預設關鍵詞出現處分割文本,將其視為邏輯斷點。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基于關鍵詞的分塊法示例(關鍵詞為“Note”)| 此圖片由原文作者制作

適用場景:

  • 文檔無標題結構但含標志性的關鍵詞(且這些關鍵詞可穩定標記新主題的起始)時使用

10)基于實體的分塊法 Entity-based chunking

使用命名實體識別(NER)模型檢測人物、地點、產品等實體,將相關文本圍繞每個實體分組形成區塊。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基于實體的分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理特定類型的實體(人物/地點/組織等)對文檔理解起決定性作用的文件,如新聞報道、法律合同、案例研究或電影劇本。

11)基于詞元數的分塊法 Token-based chunking

通過 tokenizer(分詞器)按詞元數量分割文本。

建議結合按句分塊法(sentence chunking)等技術使用,避免破壞句子完整性導致上下文被破壞。

適用場景:

  • 無標題/無段落結構的非結構化文檔。
  • 使用低詞元限制的 LLM 時(避免響應被強制截斷或長文本輸入被丟棄)。

12)基于主題的分塊法 Topic-based chunking

當文本主題發生變化時,可以通過以下方式對文本進行分塊:

  • 首先,將文本拆分為小單元(句子/段落)
  • 然后,使用主題建模或聚類算法將相關單元合并為區塊

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基于主題的分塊法示例(使用聚類算法) | 此圖片由原文作者制作

適用場景:

  • 當文檔涵蓋多個主題,且需保持語義焦點時。
  • 適用于主題轉變較為平緩但未通過明確的標題或關鍵詞標注的文本。

13)表格感知分塊法 Table-aware chunking

獨立識別表格內容,并按 JSON 或 Markdown 格式分塊(可逐行/逐列/整表處理)。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

表格感知分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 含表格元素的文檔。

14)內容感知分塊法 Content-aware chunking

根據內容類型動態調整分塊策略(為段落/表格/列表等內容適配不同規則)。

適用場景:

  • 混合格式的文檔(含多種文本結構)。
  • 需保持原生格式完整性的場景(表格不分割/段落不截斷等)。

15)上下文增強分塊法 Contextual chunking

通過 LLM 實現:

  • 分析知識庫的部分或全部內容。
  • 在嵌入前為每個文本塊注入簡短且相關的上下文

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

上下文增強分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 知識庫的全部內容或部分內容在 LLM 的詞元限額內。
  • 處理復雜文檔(如財報/合同等)。

16)語義分塊法 Semantic chunking

基于嵌入相似度聚合主題相關的句子/段落,保持語義聚焦性。

適用場景:

  • 當按段分塊法或定長分塊法失效時
  • 處理含混雜主題的長文檔。

17)遞歸分塊法 Recursive chunking

首先使用大粒度的分隔符(如段落)分割文本。

如果任何生成的分塊超過預設的分塊大小限制,對這些區塊遞歸使用小粒度分隔符(如句子或單詞)進行分割,直至所有分塊都符合所需大小。

適用場景:

  • 處理句子長度不規則或不可預測的文本,如訪談記錄、演講內容、自由形式的寫作內容。

18)嵌入優先分塊法 Embedding chunking

常規流程是先分塊后嵌入,但此方法先將所有句子全部嵌入,再按順序逐一處理,若相鄰句的相似度高于設定閾值則合并為一組,低于閾值則進行拆分。

適用場景:

  • 無結構(無句子分隔/標題/章節符/標記等)的文檔
  • 當基礎技術(如滑動窗口分塊法)效果不佳時

19)基于大模型/智能體的分塊法 Agentic / LLM-based chunking

將分塊的決策權完全交由 LLM,由其自主決定文本的分割方式。

適用場景:

  • 當內容復雜或結構不明確,需要類似人類的判斷力來確定分塊邊界時

注意:該方法計算成本較高。

20)分層分塊法 Hierarchical chunking

將文本按照多個層次(如章節、子章節、段落)進行分塊,以便用戶能夠以不同詳細程度檢索信息。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

適用場景:

  • 具備清晰層次結構的文檔,如技術文章、手冊、教材、研究論文等
  • 希望用戶在不丟失上下文的情況下,同時探索整體概述和詳細信息。

21)多模態分塊法 Modality-Aware Chunking

針對不同內容類型(文本、圖像、表格)實施差異化的分塊策略。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

多模態分塊法示例 | 此圖片由原文作者制作

BONUS:混合分塊法 Hybrid chunking

融合多種分塊技術、啟發式規則、嵌入模型以及 LLM 來提升分塊過程的可靠性。

適用場景:

  • 單一分塊方法效果不足時,需組合方案應對復雜的數據結構。

END

本期互動內容 ??

?在處理特定類型文檔(如法律合同或學術論文)時,您有哪些獨特的分塊技巧可以分享?

原文鏈接:

??https://ai.gopubby.com/21-chunking-strategies-for-rag-f28e4382d399??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
標簽
收藏
回復
舉報
回復
相關推薦
日韩精品一卡二卡三卡四卡无卡| 欧美性生活一级片| 亚洲欧美日韩中文播放| 波多野结衣精品久久| 日韩污视频在线观看| 国产一区二区三区站长工具| 欧美一区三区二区| 日韩av黄色网址| 米奇精品一区二区三区| 粉嫩aⅴ一区二区三区四区| 欧美一区二三区| 中文字幕在线2021| 国产99亚洲| 欧美大胆人体bbbb| 992kp快乐看片永久免费网址| 九色porny在线| 久久午夜国产精品| 91丝袜脚交足在线播放| 国产成人自拍偷拍| 亚洲国产日本| 欧美精品做受xxx性少妇| 蜜桃av免费看| av在线亚洲色图| 在线综合亚洲欧美在线视频| 免费黄色日本网站| 欧美xxxx黑人又粗又长| 中日韩av电影| 久中文字幕一区| 黑人乱码一区二区三区av| 麻豆国产欧美日韩综合精品二区| 91精品国产91久久久久| www青青草原| 日韩免费高清| 一区二区福利视频| 国产艳俗歌舞表演hd| 欧洲精品99毛片免费高清观看 | 久久69av| 欧美精选在线播放| 污污视频网站免费观看| 涩涩涩在线视频| 亚洲成人激情自拍| www.亚洲视频.com| 欧洲成人综合网| 一区二区三区不卡视频在线观看 | 在线视频观看日韩| 欧美精品videos另类日本| 国产97免费视频| 婷婷综合伊人| 久久久91精品国产| 在线看的片片片免费| 欧美超碰在线| 日韩中文字幕国产| 久久精品国产亚洲AV成人婷婷| 久久av综合| 亚洲天堂一区二区三区| 亚洲性猛交xxxx乱大交| 欧美激情在线精品一区二区三区| 日韩av在线免费播放| av鲁丝一区鲁丝二区鲁丝三区| 成人午夜网址| 亚洲国产高清自拍| 国产精品探花一区二区在线观看| 久久动漫网址| 精品亚洲一区二区三区在线观看| 97人妻精品一区二区三区免 | 国产精品123| 波多野结衣精品久久| 亚洲精品国产suv一区| 成人综合在线网站| 久久久福利视频| 国产精品一区二区婷婷| 欧美国产乱子伦 | 影音先锋中文字幕一区二区| 久久免费视频这里只有精品| 国产 欧美 日韩 在线| 久久国产精品久久久久久电车 | 欧美一级视频免费看| 国产丝袜在线播放| 欧美日韩国产麻豆| 一级在线免费视频| 日本一区精品视频| 日韩激情第一页| 超薄肉色丝袜一二三| 婷婷综合伊人| 97不卡在线视频| 国产精品露脸视频| 国产精品一二三区| 欧美伦理一区二区| 成人免费高清| 色综合一区二区三区| 色播五月激情五月| 哺乳挤奶一区二区三区免费看| 亚洲精品天天看| 99鲁鲁精品一区二区三区| 在线日韩av| 91精品久久久久久久久久久久久久| 国产高清免费在线观看| 久久这里只有精品首页| 久久久国产精华液999999| 理论片午夜视频在线观看| 欧美日韩一区二区三区四区 | 日韩电影不卡一区| 日韩网站在线观看| 九九热精品视频在线| 国产一区二区精品久久99| 玛丽玛丽电影原版免费观看1977| 男人的天堂在线视频免费观看| 亚洲国产成人av好男人在线观看| 国产区二区三区| 99ri日韩精品视频| 久久精品美女视频网站| 精品免费囯产一区二区三区| 国产一区二区在线观看免费| 欧美日韩高清免费| 欧洲黄色一区| 91精品免费观看| 新91视频在线观看| 99riav国产精品| 3d动漫啪啪精品一区二区免费 | 国产精品久久毛片| 日韩免费毛片视频| 久久激情av| 欧美激情精品久久久久| 97精品人妻一区二区三区| 91丨九色丨蝌蚪丨老版| 久久亚洲国产成人精品无码区| 成人精品一区二区三区电影| 日韩精品免费在线| 日本在线视频免费观看| 国产成人鲁色资源国产91色综| 亚洲精品中文字幕在线| 另类专区亚洲| 日韩精品在线视频| 日产精品久久久久久久| 国产成人精品亚洲777人妖| 免费观看黄色的网站| 国产精品一区二区免费福利视频| 亚洲欧美国产一本综合首页| 日本系列第一页| 成人激情文学综合网| 日本老太婆做爰视频| 国产一精品一av一免费爽爽| 日韩亚洲精品视频| 中文字幕在线观看免费| 欧美国产视频在线| 黄色手机在线视频| 欧美超碰在线| 亚洲在线第一页| 手机av在线播放| 欧美电影精品一区二区| 国产小视频在线看| 成人高清免费观看| 日本中文字幕网址| 校园春色另类视频| 国产成人一区二区三区| 草草影院在线观看| 欧美猛男男办公室激情| 欧美做爰啪啪xxxⅹ性| 国内精品在线播放| 男人天堂网站在线| 色播一区二区| 国外成人性视频| 三级视频网站在线| 色婷婷久久一区二区三区麻豆| 天天躁日日躁aaaa视频| 蜜桃一区二区三区四区| 亚洲精品国产精品国自产观看| 成人免费在线观看视频| 北条麻妃久久精品| 精品免费久久久| 午夜一区二区三区视频| 久久成人激情视频| 久久精品72免费观看| 日韩不卡一二区| 国产精品中文字幕制服诱惑| 奇米成人av国产一区二区三区| 欧美理论在线观看| 欧美日韩国产首页| 欧产日产国产v| 99re热这里只有精品视频| 久久久国产欧美| 亚洲国产精品久久久久蝴蝶传媒| 99在线热播| 亚洲伦乱视频| 欧美成在线视频| 天堂网www中文在线| 欧美丝袜丝交足nylons图片| 国产精品白嫩白嫩大学美女| 99久精品国产| 黄色一级片免费的| 亚洲免费激情| 一区二区三区av| 精品素人av| 国产主播在线一区| 24小时免费看片在线观看| 亚洲一区第一页| www.成人免费视频| 欧美制服丝袜第一页| 蜜桃av免费在线观看| 成人a区在线观看| 一区二区在线免费看| 黑丝一区二区| 亚洲一区二区四区| 亚洲国产欧美日韩在线观看第一区| 国产日产欧美精品| 欧美18av| 欧美精品在线网站| 91涩漫在线观看| 亚洲女同精品视频| 亚洲国产精品国自产拍久久| 欧美私模裸体表演在线观看| 国产成人在线播放视频| 亚洲免费在线电影| 欧美午夜激情影院| 久久噜噜亚洲综合| 久久久午夜精品福利内容| 激情六月婷婷综合| 国产wwwxx| 老司机精品导航| av免费观看网| 亚洲视频久久| 第九区2中文字幕| 国产精品久久久久久久| 日韩av在线电影观看| 欧洲亚洲视频| 国产一区在线观| 一区二区三区视频播放| 成人在线观看视频网站| 伦一区二区三区中文字幕v亚洲| 欧美最顶级丰满的aⅴ艳星| 国产蜜臀一区二区打屁股调教| 久久久精品免费视频| 色欧美激情视频在线| 一区国产精品视频| 黄色视屏网站在线免费观看| 精品视频久久久久久久| 人妻视频一区二区三区| 精品国产成人在线影院| 精品人妻一区二区三区换脸明星| 欧美精品乱码久久久久久| 亚洲天堂免费av| 欧美三区在线观看| 亚洲一区二区三区高清视频| 欧美日韩另类一区| 又污又黄的网站| 欧美精品高清视频| 99国产精品久久久久99打野战| 欧美精品自拍偷拍| 国产麻豆免费观看| 日韩手机在线导航| 亚洲精品国产一区二| 精品对白一区国产伦| 手机av免费在线观看| 亚洲精品国产综合区久久久久久久| 日韩一级片免费| 日韩精品视频观看| 国产三级视频在线看| 综合欧美国产视频二区| 久草中文在线观看| 美女av一区二区| 日韩激情av| 欧美亚洲国产日韩2020| 欧美大片免费| 国产在线视频欧美| 97久久综合区小说区图片区| 国产一区二区三区免费不卡| 亚洲美女15p| 亚洲啪啪av| 午夜亚洲福利| 无码aⅴ精品一区二区三区浪潮| 蜜桃伊人久久| 亚洲理论中文字幕| zzijzzij亚洲日本少妇熟睡| 熟女俱乐部一区二区| 亚洲欧洲一区二区三区| 中文字幕一区二区三区手机版| 欧美日韩在线视频观看| 中文在线最新版天堂| 欧美一级国产精品| 日韩欧美亚洲系列| 日韩有码在线播放| 国产丝袜在线观看视频| 国产成人精品久久二区二区| 精品国产第一国产综合精品| 国产一区二区三区免费不卡| 欧美影院三区| av网站手机在线观看| 日一区二区三区| 丰满饥渴老女人hd| 久久久久久久精| 美女的奶胸大爽爽大片| 色综合久久中文综合久久牛| 国产日韩精品suv| 日韩国产欧美区| 动漫一区在线| 欧洲美女7788成人免费视频| 亚洲日本中文| 欧美激情视频一区二区三区| 亚洲一区色图| 成人羞羞国产免费网站| 国产精品一区二区在线观看网站| 久久美女免费视频| 亚洲一级电影视频| 一区二区三区免费在线视频| 精品视频在线播放色网色视频| 国产成人l区| 日韩av123| 久本草在线中文字幕亚洲| 综合视频免费看| 日本网站在线观看一区二区三区 | 久久影院午夜论| 中文字幕av免费在线观看| 欧美伊人久久久久久午夜久久久久| 成人精品在线播放| 久久亚洲精品毛片| 成人国产一区二区三区精品麻豆| 久久精品99| 黄色在线成人| 中文字幕人妻无码系列第三区| 日本一区二区三级电影在线观看| 亚洲第一在线播放| 欧美精品一区二区蜜臀亚洲| 国产鲁鲁视频在线观看特色| 国产精品露脸自拍| 国产在线日韩精品| 黄www在线观看| 成人亚洲一区二区一| 中文字幕在线2021| 91精品国产综合久久久久久| 午夜看片在线免费| 国产精品一区二区三| 国产一区不卡| 99久久国产宗和精品1上映| 99精品一区二区三区| 久久精品久久精品久久| 欧美mv日韩mv国产网站| 亚洲性图自拍| 99re视频在线播放| 欧美三区视频| 中文字幕制服丝袜| 亚洲一区精品在线| 黄色av网址在线| 性欧美暴力猛交69hd| 美女av一区| 丰满少妇被猛烈进入高清播放| 9l国产精品久久久久麻豆| 日本熟伦人妇xxxx| 日韩二区三区在线| 中文字幕资源网在线观看免费 | 日本精品一级二级| 国产理论电影在线观看| 国产精品久久久久久搜索| 日韩精品四区| 午夜国产福利在线观看| 最新成人av在线| 国产99视频在线| 久久久免费观看| 欧洲亚洲视频| 久久精品免费网站| 国产精品第一页第二页第三页| 国产孕妇孕交大片孕| 欧美成人免费观看| 国产精品男女| av观看免费在线| 欧美高清在线精品一区| 91影院在线播放| 欧美寡妇偷汉性猛交| 清纯唯美亚洲经典中文字幕| 波多野结衣作品集| 中文字幕中文字幕在线一区| 国产三级伦理片| 国内精品一区二区三区| 蜜桃一区二区三区| 天天色天天综合网| 亚洲国产日韩av| 国产精品四虎| 91精品国产综合久久久久久丝袜| 亚洲人体偷拍| 69xxx免费| 精品国免费一区二区三区| gay欧美网站| 在线观看18视频网站| 99re8在线精品视频免费播放| 免费看av在线| 久久久久久久久久婷婷| 狠狠做深爱婷婷综合一区| 日本高清一区二区视频| 精品人伦一区二区三区蜜桃免费| eeuss影院www在线播放| 51国偷自产一区二区三区| 香蕉久久夜色精品国产| 黄色录像二级片| 亚洲欧美日韩网| 97久久综合精品久久久综合| 超碰在线97免费| 午夜精品福利一区二区三区av| 2017亚洲天堂1024| 久久综合九色综合网站| 国产成人综合亚洲91猫咪| 中文天堂在线视频|