精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

文檔太長模型“吃不下”?試試這15種Chunking策略,輕松搞定RAG! 原創 精華

發布于 2025-7-14 08:47
瀏覽
1收藏

RAG系統也能“切塊”?15種Chunking技巧讓你的檢索生成更聰明!

你知道嗎?在構建一個強大的RAG(Retrieval-Augmented Generation)系統時,決定其“聰明程度”的,可能不是模型本身,而是——你怎么“切塊”你的文檔

在NLP領域,RAG系統已經成為處理復雜問答、文檔摘要、知識庫檢索等任務的利器。但面對動輒上萬字的文檔,如何在不丟失上下文的前提下,把它們“切”成模型能消化的“小塊”,就成了關鍵。

今天這篇文章,我們就來系統聊聊:15種Chunking技巧,幫你打造一個既快又準的RAG系統。無論你是做問答系統、文檔檢索,還是構建企業知識庫,這篇文章都值得你收藏。

01|什么是Chunking?為什么它這么重要?

在RAG系統中,Chunking(切塊)指的是:把大文檔拆分成小塊,以便模型更好地理解和檢索信息

你可能會問:為什么不能直接把整篇文檔丟給模型?原因很簡單:

  • 大模型有token限制(比如GPT-4最多支持8K tokens);
  • 文檔太長,模型容易“看漏”關鍵信息;
  • 不切塊,檢索系統很難精準定位答案。

所以,Chunking不是簡單的“切”,而是要在“保留上下文”和“適配模型能力”之間找到平衡

02|Chunking的三大核心考量

在正式介紹15種技巧之前,我們先來理解Chunking的三個關鍵因素:

1. 塊的大小(Chunk Size)

  • 太大:容易超token限制,檢索慢;
  • 太小:上下文丟失,生成質量差;
  • 建議:根據模型token上限,控制在100~500 tokens之間。

2. 上下文保留(Context Preservation)

  • 切塊不能“斷句斷意”,否則模型會“看不懂”;
  • 使用滑動窗口、語義切塊等方式,能有效保留上下文。

3. 多模態處理(Modality Handling)

  • 文檔中可能包含表格、圖片、代碼塊
  • 不同內容類型需要不同的切塊策略。

03|15種Chunking技巧全解析(附代碼)

接下來,我們進入正題:15種Chunking技巧,每種都配有使用場景、優缺點和代碼示例,建議收藏!

1. 固定大小切塊(Fixed-Size Chunking)

原理:按固定詞數或token數切分。

適用場景:結構簡單的小文檔。

優點:實現簡單,速度快。

缺點:可能切斷句子,丟失語義。

def fixed_size_chunk(text, max_words=100):
    words = text.split()
    return [' '.join(words[i:i + max_words]) for i in range(0, len(words), max_words)]


2. 句子切塊(Sentence-Based Chunking)

原理:按句子邊界切分。

適用場景:需要保留語義完整性的文檔。

優點:語義清晰,上下文連貫。

缺點:句子長度不一,chunk大小不穩定。

import spacy
nlp = spacy.load("en_core_web_sm")

def sentence_chunk(text):
    doc = nlp(text)
    return [sent.text for sent in doc.sents]


3. 段落切塊(Paragraph-Based Chunking)

原理:按段落切分。

適用場景:結構清晰的文檔,如論文、報告。

優點:自然分段,語義完整。

缺點:段落長度不一,可能超token限制。

def paragraph_chunk(text):
    return text.split('\n\n')


4. 語義切塊(Semantic Chunking)

原理:基于語義相似度進行切塊。

適用場景:技術文檔、復雜文本。

優點:上下文保留好。

缺點:實現復雜,需依賴模型。

def semantic_chunk(text, max_len=200):
    doc = nlp(text)
    chunks = []
    current_chunk = []
    for sent in doc.sents:
        current_chunk.append(sent.text)
        if len(' '.join(current_chunk)) > max_len:
            chunks.append(' '.join(current_chunk))
            current_chunk = []
    if current_chunk:
        chunks.append(' '.join(current_chunk))
    return chunks


5. 模態感知切塊(Modality-Specific Chunking)

原理:文本、表格、圖片分別處理。

適用場景:PDF、技術手冊等混合內容文檔。

優點:保留多種模態信息。

缺點:實現復雜。

def modality_chunk(text, images=None, tables=None):
    text_chunks = paragraph_chunk(text)
    return {'text_chunks': text_chunks, 'images': images, 'tables': tables}


6. 滑動窗口切塊(Sliding Window Chunking)

原理:相鄰chunk之間有重疊。

適用場景:法律、學術文檔。

優點:上下文連貫。

缺點:內容重復,處理量大。

def sliding_window_chunk(text, chunk_size=100, overlap=20):
    tokens = text.split()
    chunks = []
    for i in range(0, len(tokens), chunk_size - overlap):
        chunk = ' '.join(tokens[i:i + chunk_size])
        chunks.append(chunk)
    return chunks


7. 層級切塊(Hierarchical Chunking)

原理:按章節、段落、子段落分層切塊。

適用場景:結構化文檔,如論文、合同。

優點:保留文檔結構。

缺點:實現復雜。

def hierarchical_chunk(text, section_keywords):
    sections = []
    current_section = []
    for line in text.splitlines():
        if any(keyword in line for keyword in section_keywords):
            if current_section:
                sections.append("\n".join(current_section))
            current_section = [line]
        else:
            current_section.append(line)
    if current_section:
        sections.append("\n".join(current_section))
    return sections


8. 內容感知切塊(Content-Aware Chunking)

原理:根據內容特征動態調整切塊策略。

適用場景:電子書、技術文檔。

優點:靈活適應不同內容。

缺點:邏輯復雜。

def content_aware_chunk(text):
    chunks = []
    current_chunk = []
    for line in text.splitlines():
        if line.startswith(('##', '###', 'Introduction', 'Conclusion')):
            if current_chunk:
                chunks.append('\n'.join(current_chunk))
            current_chunk = [line]
        else:
            current_chunk.append(line)
    if current_chunk:
        chunks.append('\n'.join(current_chunk))
    return chunks


9. 表格感知切塊(Table-Aware Chunking)

原理:將表格獨立切塊。

適用場景:財務報表、技術文檔。

優點:保留表格結構。

缺點:格式可能丟失。

import pandas as pd

def table_aware_chunk(table):
    return table.to_markdown()


10. Token級切塊(Token-Based Chunking)

原理:按token數切塊,適配Transformer模型。

適用場景:GPT、BERT等模型。

優點:適配模型限制。

缺點:可能切斷句子。

from transformers import GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

def token_based_chunk(text, max_tokens=200):
    tokens = tokenizer(text)["input_ids"]
    chunks = [tokens[i:i + max_tokens] for i in range(0, len(tokens), max_tokens)]
    return [tokenizer.decode(chunk) for chunk in chunks]


11. 實體感知切塊(Entity-Based Chunking)

原理:基于NER識別實體進行切塊。

適用場景:簡歷、合同、法律文檔。

優點:保留實體信息。

缺點:需訓練NER模型。

def entity_based_chunk(text):
    doc = nlp(text)
    return [ent.text for ent in doc.ents]


12. 主題切塊(Topic-Based Chunking)

原理:使用LDA等主題模型進行切塊。

適用場景:新聞、研究論文等多主題文檔。

優點:按主題聚合信息。

缺點:需額外建模。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

def topic_based_chunk(text, num_topics=3):
    sentences = text.split('. ')
    vectorizer = CountVectorizer()
    sentence_vectors = vectorizer.fit_transform(sentences)
    lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
    lda.fit(sentence_vectors)
    # 省略主題分配邏輯
    return sentences


13. 頁面切塊(Page-Based Chunking)

原理:按PDF頁面切塊。

適用場景:PDF文檔。

優點:實現簡單。

缺點:可能斷句。

def page_based_chunk(pages):
    return pages


14. 關鍵詞切塊(Keyword-Based Chunking)

原理:按關鍵詞切分。

適用場景:結構清晰的文檔。

優點:符合文檔結構。

缺點:需預定義關鍵詞。

def keyword_based_chunk(text, keywords):
    chunks = []
    current_chunk = []
    for line in text.splitlines():
        if any(keyword in line for keyword in keywords):
            if current_chunk:
                chunks.append('\n'.join(current_chunk))
            current_chunk = [line]
        else:
            current_chunk.append(line)
    if current_chunk:
        chunks.append('\n'.join(current_chunk))
    return chunks


15. 混合切塊(Hybrid Chunking)

原理:結合多種策略。

適用場景:復雜文檔。

優點:靈活強大。

缺點:實現復雜。

def hybrid_chunk(text):
    paragraphs = paragraph_chunk(text)
    hybrid_chunks = []
    for paragraph in paragraphs:
        hybrid_chunks += sentence_chunk(paragraph)
    return hybrid_chunks


04|不同場景下如何選擇Chunking策略?

場景類型

推薦策略

FAQ、客服系統

句子切塊、關鍵詞切塊

學術論文

層級切塊、語義切塊

技術文檔

表格感知切塊、內容感知切塊

多模態文檔

模態感知切塊、混合切塊

法律文檔

滑動窗口切塊、實體感知切塊


05|結語:Chunking不是“切”,是“設計”

Chunking不是簡單的“把文檔切碎”,而是一種信息架構設計。不同的切塊策略,直接決定了RAG系統的檢索精度、生成質量和響應速度。

希望這篇文章能幫你找到最適合你業務的Chunking策略。如果你正在構建RAG系統,不妨從這些小技巧開始,逐步優化你的文檔處理流程。


本文轉載自??Halo咯咯??    作者:基咯咯

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-7-14 08:47:35修改
收藏 1
回復
舉報
回復
相關推薦
5566中文字幕| 91精品91久久久中77777老牛| 一级片免费网站| 欧美日韩1区| 精品香蕉一区二区三区| 男女啪啪网站视频| 四虎影院观看视频在线观看| 91在线视频免费91| 成人激情在线播放| 中文字幕亚洲精品一区| 久久亚洲国产| 日韩av网站大全| 日日噜噜夜夜狠狠| www.综合| 亚洲欧洲综合另类在线| 欧美精品久久久| 成 人 免费 黄 色| 青青草国产精品亚洲专区无| 久久久久久久久久久久av| 国产jjizz一区二区三区视频| 国产精品777777在线播放| 午夜精品aaa| 熟女视频一区二区三区| 免费毛片在线| jiyouzz国产精品久久| 91精品国产综合久久香蕉的用户体验| 五月天婷婷综合网| 亚洲精品网址| 色偷偷偷亚洲综合网另类| 欧美无人区码suv| 欧美影院在线| 91麻豆精品久久久久蜜臀| 成 年 人 黄 色 大 片大 全| 亚洲1卡2卡3卡4卡乱码精品| 99久久国产综合色|国产精品| 91亚洲国产成人久久精品网站| 人妻 日韩精品 中文字幕| 欧美三级在线| 欧美日韩xxxxx| 女教师淫辱の教室蜜臀av软件| 日韩高清电影免费| 亚洲成人性视频| 亚洲av无码成人精品区| www.成人| 欧美剧情片在线观看| 欧美伦理片在线看| 性高爱久久久久久久久| 天天综合网 天天综合色| 日韩专区第三页| 成人高清免费在线| 亚洲特级片在线| 久久久一二三四| 日本中文字幕在线视频| 国产精品视频免费| 亚洲国产精品久久久久婷婷老年| 国产在线视频你懂得| 久久久久久99精品| 日本一区二区视频| 成年人视频在线看| 国产精品久久久久久久久图文区| 香蕉久久免费影视| 日本中文字幕在线2020| 中文字幕制服丝袜成人av | 中文字幕一区二区三区中文字幕| 欧美理论片在线| 国产精品熟女一区二区不卡| 国产美女精品视频免费播放软件 | 亚洲无吗一区二区三区| 全球最大av网站久久| 欧美这里有精品| 免费在线观看污网站| 榴莲视频成人app| 精品国产乱码久久久久久图片 | 欧美 日韩 国产 成人 在线 | 日韩av在线看免费观看| 国产精品欧美三级在线观看| 亚洲日韩中文字幕| 亚洲aaa视频| 欧美喷水视频| 欧美综合在线第二页| wwwwww在线观看| 国产在线国偷精品免费看| 亚洲一区中文字幕在线观看| 亚洲av无码乱码国产麻豆| 99在线精品一区二区三区| 免费av在线一区二区| 18视频免费网址在线观看| 中文字幕一区二区三区av| 人妻无码一区二区三区四区| 岛国av免费在线观看| 欧美亚洲综合网| 爱情岛论坛亚洲自拍| 精品网站aaa| 在线看日韩欧美| 免费一级片在线观看| 一区二区三区高清视频在线观看| 国产国语刺激对白av不卡| 亚洲中文字幕一区二区| 国产69精品久久久久毛片| 欧美日韩在线播放一区二区| 免费在线毛片网站| 天天综合日日夜夜精品| 污污动漫在线观看| jizz性欧美23| 日韩中文字幕在线| 在线观看精品国产| 久久精品国产精品亚洲综合| 国产精品福利视频| 午夜视频成人| 黄色一区二区在线观看| www.久久av.com| 日韩电影在线观看完整免费观看| 久久久精品日本| 中文字幕69页| 成人免费毛片片v| 中文字幕一区二区三区5566| 正在播放日韩精品| 日韩视频永久免费| 国产破处视频在线观看| 性欧美xxxx大乳国产app| 91九色露脸| 最新电影电视剧在线观看免费观看| 一区二区三区精品久久久| a在线观看免费视频| 日韩精选在线| 欧美激情女人20p| 国产精品美女一区| 国产欧美日韩另类视频免费观看 | 阿v视频在线观看| 欧美一区二区视频在线观看2022 | 精品magnet| 18禁一区二区三区| 欧美1区3d| 91麻豆国产语对白在线观看| 国产乱视频在线观看| 欧美日韩国产专区| 久久久老熟女一区二区三区91| 婷婷另类小说| 成人免费看吃奶视频网站| 超碰免费97在线观看| 色综合久久久久| 在线观看国产三级| 中文精品视频| 国产欧美综合精品一区二区| 欧美性受ⅹ╳╳╳黑人a性爽| 欧美日韩午夜在线| 欧洲性xxxx| 日本vs亚洲vs韩国一区三区| 欧美日韩精品免费在线观看视频| 女人让男人操自己视频在线观看| 欧美成人猛片aaaaaaa| 国产盗摄x88av| 国产成人欧美日韩在线电影| 日本一级黄视频| 成人午夜网址| 久久久爽爽爽美女图片| 日本黄色一区二区三区| 精品色蜜蜜精品视频在线观看| xxxx黄色片| 亚洲一区二区免费看| 欧美日韩在线高清| 日本在线精品| 日韩最新在线视频| 精品人妻一区二区三区三区四区| 亚洲欧美日韩电影| 蜜臀aⅴ国产精品久久久国产老师| 激情成人综合| 久久久精品国产一区二区三区| 色是在线视频| 在线观看久久av| 一本色道久久综合精品婷婷| 成人免费在线视频| 亚洲911精品成人18网站| 91久久综合| 日本一区不卡| 国产一区二区三区精品在线观看 | 18精品爽视频在线观看| 成人短视频下载| 男人女人黄一级| 女同性一区二区三区人了人一| 成人av免费看| gogo亚洲高清大胆美女人体| 色婷婷av一区二区三区久久| 国产高潮在线观看| 欧美日韩美女在线| 三级黄色在线观看| www.日韩av| 亚洲欧洲日本精品| 狠狠入ady亚洲精品| 欧美精品一区二区三区在线看午夜 | 性欧美lx╳lx╳| 国产自产女人91一区在线观看| 18网站在线观看| 亚洲乱码av中文一区二区| 亚洲图片中文字幕| 午夜免费久久看| 国产精品无码无卡无需播放器| 国产大陆a不卡| 激情五月开心婷婷| 在线观看日韩| 日韩免费三级| 爱高潮www亚洲精品| 国产精品久久久久不卡| 日日夜夜天天综合入口| 亚洲网在线观看| 亚洲欧美高清视频| 精品视频1区2区| 亚洲欧美综合另类| 一区二区在线观看视频在线观看| 中文字幕在线1| 成人免费视频caoporn| 日韩在线不卡一区| 爽好多水快深点欧美视频| 精品国偷自产一区二区三区| 日韩欧美精品综合| 欧美日韩成人一区二区三区 | 久久久久久福利| 国产欧美精品一区二区色综合朱莉| 少妇熟女视频一区二区三区| 久久99国产精品免费| 久久精品国产精品亚洲色婷婷| 68国产成人综合久久精品| 日韩欧美激情一区二区| 久久99国产精品久久99大师| 91在线观看欧美日韩| 桃色一区二区| 欧美中在线观看| 成人免费观看在线观看| 欧美大胆a视频| 1区2区3区在线观看| 亚洲图片在区色| 黄色片在线播放| 亚洲欧美激情一区| 午夜性色福利影院| 亚洲国产精品99久久| 国产高清第一页| 欧美一区二区三区成人| 一本久道久久综合无码中文| 欧美综合亚洲图片综合区| 中文字幕国产在线观看| 欧美日韩中文在线| 中文字幕亚洲精品在线| 性欧美大战久久久久久久久| 欧美三根一起进三p| 亚洲精品欧美激情| 亚洲国产成人精品综合99| 中文字幕中文在线不卡住| 亚洲一二三四五六区| 国产精品进线69影院| 久久久久99精品成人| 国产精品久久久久影院亚瑟| 亚洲欧美综合7777色婷婷| 中文字幕成人av| 精品少妇一区二区三区密爱| 国产精品伦一区| 国产精品精品软件男同| 亚洲精品免费在线| 久草视频免费在线播放| 亚洲夂夂婷婷色拍ww47| 日韩男人的天堂| 欧美日韩国产精品| 亚洲精品毛片一区二区三区| 欧美色倩网站大全免费| 在线观看免费高清视频| 欧美精品日韩精品| 亚洲黄色片视频| 国产视频精品一区二区三区| 蜜桃视频在线免费| 中文字幕日韩av| 性欧美1819sex性高清大胸| 国模精品一区二区三区色天香| 美女的胸无遮挡在线观看| 欧美中文字幕在线| 婷婷丁香久久| 国产精华一区二区三区| 亚洲国产国产| 中文字幕一区二区三区精彩视频| 欧美涩涩视频| 欧美日韩激情视频在线观看| 日本欧美一区二区三区| www.色.com| 91一区二区三区在线播放| 国产精品久久免费观看| 亚洲欧美日本韩国| 日韩特级黄色片| 91麻豆精品91久久久久同性| www.国产视频| 亚洲视频一区二区三区| 永久免费网站在线| 日本免费在线精品| 久久久久久爱| 欧美精品一区二区三区四区五区| 午夜片欧美伦| 无码人妻丰满熟妇区96| 免费观看在线综合色| gogo亚洲国模私拍人体| 国产视频一区二区三区在线观看 | 天天操天天综合网| 一卡二卡在线视频| 亚洲免费伊人电影在线观看av| 免费网站成人| 国产成人亚洲综合91精品| 少妇精品在线| 日本一区不卡| 中文在线不卡| 国产sm在线观看| 中文字幕av一区 二区| 日韩av在线播| 欧美一区二区精品久久911| 久久av少妇| 欧美激情中文网| 一区二区三区无毛| 日韩精品伦理第一区| 亚洲伦伦在线| 中文字幕在线播放一区二区| 国产女人18水真多18精品一级做| 伊人365影院| 欧美精品123区| 中文日本在线观看| 国产99久久精品一区二区| 福利在线一区| 成人短视频在线观看免费| 麻豆精品一区二区三区| 少妇精品一区二区三区| 亚洲va欧美va人人爽| 国产青青草视频| 色婷婷久久一区二区| 久久xxx视频| 日韩精品一线二线三线| 欧美专区一区二区三区| xxxwww国产| 亚洲.国产.中文慕字在线| 国产夫绿帽单男3p精品视频| 久久久999精品| av日韩一区| 黄色网络在线观看| 国产一区二区三区四区五区入口 | 亚洲综合丁香婷婷六月香| 国产一区二区三区视频免费观看| 亚洲一区二区福利| 日韩免费va| 日韩精品久久久| 日日夜夜免费精品视频| 国产特黄级aaaaa片免| 岛国视频午夜一区免费在线观看| 亚洲精华国产精华精华液网站| 久久久精品久久久久| 国产精久久一区二区| 做爰高潮hd色即是空| 狠狠色狠狠色综合| 天海翼在线视频| 欧美喷水一区二区| a级毛片免费观看在线| 91久久久精品| 欧美 日韩 国产精品免费观看| 四虎国产精品永久免费观看视频| 日韩毛片精品高清免费| 国产深喉视频一区二区| 欧美大成色www永久网站婷| 亚洲一区 二区| 五十路熟女丰满大屁股| 久久综合色综合88| 亚洲性猛交富婆| xxxxx成人.com| 一本色道69色精品综合久久| 精品成在人线av无码免费看| 成人性视频免费网站| 一级免费在线观看| 亚洲嫩模很污视频| 成人在线视频观看| av中文字幕av| 99久久久久久| 一区二区自拍偷拍| 欧美成人精品xxx| 欧美激情影院| jizz大全欧美jizzcom| 伊人一区二区三区| 青青青手机在线视频观看| 国产精品∨欧美精品v日韩精品| 久久婷婷蜜乳一本欲蜜臀| 亚洲熟女乱综合一区二区| 精品日韩中文字幕| 成人三级黄色免费网站| 亚洲综合日韩中文字幕v在线| 欧美三级小说| www.黄色在线| 日韩精品一区二区三区视频播放| 色资源二区在线视频| 神马欧美一区二区| 国产99久久久国产精品潘金| 日本一区二区三区精品| 久久精品视频中文字幕| 欧亚精品一区| 肉色超薄丝袜脚交| 一本色道久久综合狠狠躁的推荐| 麻豆网站在线| 蜜桃av噜噜一区二区三| 国产一区二区剧情av在线| 欧美特黄aaaaaa| 久久综合久久美利坚合众国|