精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG 調優核心:文本切分決定 70% 的性能表現

發布于 2025-10-23 07:48
瀏覽
0收藏

分塊(Chunking)是構建高效RAG(檢索增強生成)系統的核心。從固定分塊、遞歸分塊到語義分塊、結構化分塊和延遲分塊,每種方法都在優化上下文理解和準確性上扮演了關鍵角色。這些技術能大幅提升檢索質量,減少“幻覺”(hallucination),并充分發揮你的RAG pipeline的潛力。

在我近一年構建可擴展AI系統的經驗中,我發現RAG系統的成功大多取決于檢索(retrieval)。你如何切分和存儲文檔——也就是分塊(chunking)——往往是成功背后的隱形推手。

引言

RAG(Retrieval-Augmented Generation)pipeline的性能很大程度上取決于你如何切分文檔(分塊)。在這篇文章中,我會帶你了解RAG的流程,重點講講分塊在其中的位置,然后深入探討固定分塊、遞歸分塊、語義分塊、基于結構的分塊和延遲分塊這五種技術,包括它們的定義、權衡和偽代碼,幫你選擇適合自己場景的方法。

RAG工作流程(高層次概覽)

標準流程如下:

RAG 調優核心:文本切分決定 70% 的性能表現-AI.x社區

  1. 文檔攝取與分塊
    拿來大份文檔(PDF、HTML、純文本) → 切分成小塊(chunk) → 計算embeddings → 存儲到vector DB中。
  2. 查詢與檢索
    用戶輸入查詢 → 將查詢轉為embedding → 檢索top-k最相似的塊(通過cosine similarity)。
  3. 增強與提示構建
    將檢索到的塊(加上metadata)注入到LLM的提示中,通常會用模板和過濾器。
  4. 生成
    LLM基于檢索到的上下文和模型先驗知識生成答案。

因為生成器(generator)只能看到你喂給它的內容,檢索質量直接決定了結果。如果分塊不合理或無關緊要,哪怕最好的LLM也救不回來。這就是為什么很多人說RAG的成功70%靠檢索,30%靠生成。

在深入探討技術之前,先說說為什么好的分塊不是可有可無的:

  • Embedding和LLM模型有context window限制,你沒法直接處理超大文檔。
  • 分塊需要語義連貫。如果你在句子或概念中間切開,embedding會變得雜亂或誤導。
  • 如果分塊太大,系統可能會漏掉細粒度的相關內容。
  • 反過來,如果分塊太小或重疊太多,你會存儲冗余內容,浪費計算和存儲資源。

接下來,我們來探索五種主流的分塊技術,從最簡單到最復雜。

1. 固定分塊(Fixed Chunking)

按固定大小(按token、單詞或字符)把文本切成等大的塊,通常塊之間會有重疊。

這是RAG項目的良好起點,適合文檔結構未知或內容單一的場景(比如日志、純文本)。

實現代碼示例:

def fixed_chunk(text, max_tokens=512, overlap=50):
    tokens = tokenize(text)
    chunks = []
    i = 0
    while i < len(tokens):
        chunk = tokens[i : i + max_tokens]
        chunks.append(detokenize(chunk))
        i += (max_tokens - overlap)
    return chunks

2. 遞歸分塊(Recursive Chunking)

先按高層邊界(比如段落或章節)切分。如果某個塊還是太大(超過限制),就遞歸地進一步切分(比如按句子),直到所有塊都在限制范圍內。

適合半結構化文檔(有章節、段落),你想盡量保留語義邊界,同時控制塊大小。

它能盡量保留邏輯單元(段落),避免不自然的切分,生成適合內容變化的多種塊大小。

遞歸分塊示例(LangChain):

from langchain.text_splitter import RecursiveCharacterTextSplitter

# 示例文本
text = """
輸入文本占位符...
"""

# 定義遞歸分塊器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,           # 每個塊的目標大小
    chunk_overlap=50,         # 塊之間的重疊以保持上下文連貫
    separators=["\n\n", "\n", " ", ""]  # 遞歸切分的優先級
)

# 切分文本
chunks = text_splitter.split_text(text)

# 顯示結果
for i, chunk inenumerate(chunks, 1):
    print(f"Chunk {i}:\n{chunk}\n{'-'*40}")

這能確保后續embedding和檢索時,不會丟失邊界處的關鍵上下文。

3. 語義分塊(Semantic Chunking)

根據語義變化來切分文本。用embeddings(比如sentence embeddings)決定一個塊的結束和下一個塊的開始。如果相鄰段落的相似度很高,就把它們放在一起;當相似度下降時,就切分。

適合需要高檢索精度的場景(法律文本、科學文章、支持文檔),但要注意embedding和相似度計算的成本,定義相似度閾值也需要仔細調整。

實現代碼示例:

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("all-MiniLM-L6-v2")

defsemantic_chunk(text, sentence_list, sim_threshold=0.7):
    embeddings = model.encode(sentence_list)
    chunks = []
    current = [sentence_list[0]]
    for i inrange(1, len(sentence_list)):
        sim = util.cos_sim(embeddings[i-1], embeddings[i]).item()
        if sim < sim_threshold:
            chunks.append(" ".join(current))
            current = [sentence_list[i]]
        else:
            current.append(sentence_list[i])
    chunks.append(" ".join(current))
    return chunks

4. 基于結構的分塊(Structure-based Chunking)

利用文檔的固有結構(比如標題、副標題、HTML標簽、表格、列表項)作為自然的切分邊界。
比如,每個章節或標題可以成為一個塊(或者再遞歸切分)。
適合HTML頁面、技術文檔、類似Wikipedia的內容,或任何有語義標記的內容。

根據我的經驗,這種策略效果最好,尤其是結合遞歸分塊時。
但它需要解析和理解文檔格式,如果章節太大,可能會超過token限制,可能需要結合遞歸切分。

實現提示:

  • 用HTML/Markdown/PDF結構解析庫。
  • 以章節/等作為塊的根。
  • 如果某部分太大,就回退到遞歸切分。
  • 對于表格/圖片,要么單獨作為一個塊,要么總結其內容。

5. 延遲分塊(Late Chunking / 動態/查詢時分塊)

定義
延遲分塊是指推遲文檔的切分,直到查詢時才決定。不是提前把所有內容切好,而是存儲更大的段落甚至整個文檔。收到查詢時,只對相關段落動態切分(或過濾)。這樣做的目的是在embedding時保留完整上下文,只在必要時切分。

Weaviate將延遲分塊描述為“顛倒傳統的embedding和chunking順序”。

  • 先用長上下文模型對整個文檔(或大段)做embedding。
  • 然后池化并創建塊的embeddings(基于token范圍或邊界線索)。

概念流程:

  • 在索引中存儲大段或整個文檔。
  • 查詢時,檢索1-2個最相關的段落。
  • 在這些段落中,動態切分(比如語義或重疊)出匹配查詢的部分。
  • 過濾或排序這些塊,喂給生成器。

這種方法就像編程中的late binding,推遲到有更多上下文時再決定。

RAG 調優核心:文本切分決定 70% 的性能表現-AI.x社區

適用場景:

  • 大型文檔集(技術報告、長篇內容),跨段落的上下文很重要。
  • 文檔內容經常變化的系統,避免重新切分節省時間。
  • 高風險或精度敏感的RAG應用(法律、醫療、監管),誤解代詞或引用可能代價高昂。

聽起來很高級,但它也有成本。
對整個文檔(或大段)做embedding計算成本高,可能需要支持長token限制的模型。
查詢時的計算成本和潛在延遲也會更高。

本文轉載自??PyTorch研習社??,作者:AI研究生

已于2025-10-23 11:17:43修改
收藏
回復
舉報
回復
相關推薦
日韩脚交footjobhd| 一级黄色a毛片| 亚洲精品v亚洲精品v日韩精品| 国产精品久久久久永久免费观看| 久久久久久12| 性色av蜜臀av色欲av| 色婷婷综合久久久中字幕精品久久 | 国产高清视频色在线www| 99精品偷自拍| 国产精品xxx视频| 91麻豆精品久久毛片一级| 成人精品在线| 亚洲h在线观看| 日韩av高清| 国产男男gay网站| 99亚洲一区二区| 自拍偷自拍亚洲精品播放| 精品一区二区三区久久久| 在线视频亚洲欧美| 91亚洲一区二区| 福利影院在线看| 成人小视频在线| 国产精品久久久久久超碰| 永久久久久久久| 日韩极品在线| 91麻豆精品国产综合久久久久久 | 后进极品白嫩翘臀在线视频| 久久国产精品毛片| 久久九九国产精品怡红院| 天天躁日日躁狠狠躁av| 美女网站视频一区| 依依成人精品视频| 日韩亚洲一区在线播放| 一二三区在线播放| 欧美亚洲一级| 久久99国产精品自在自在app| 一出一进一爽一粗一大视频| 成人精品在线| 在线一区二区三区四区| 欧美一级欧美一级| 成人在线直播| 中文幕一区二区三区久久蜜桃| 成人在线观看视频网站| 亚洲色成人www永久网站| 伊人成综合网| 尤物九九久久国产精品的分类| 激情成人在线观看| 亚洲天堂1区| 黑人狂躁日本妞一区二区三区| 免费看啪啪网站| 你懂的免费在线观看| 国产传媒欧美日韩成人| 国产日韩在线观看av| 男人日女人网站| 欧美国产高潮xxxx1819| 最近的2019中文字幕免费一页| 日本性生活一级片| 精品一区二区三区亚洲| 欧美亚洲丝袜传媒另类| 91精品91久久久中77777老牛| 国产视频在线播放| 国产精品欧美一区二区三区| 久久久久网址| 日本精品一区二区在线观看| 国产精品18久久久久久久久| 成人黄色在线观看| 在线观看一二三区| 爽好久久久欧美精品| 欧美亚洲国产视频小说| 日本少妇毛茸茸高潮| 亚洲无线视频| 欧美激情乱人伦一区| 日韩黄色免费观看| 66视频精品| 日韩在线不卡视频| 久久久久人妻一区精品色| 欧美一区二区三区高清视频| 亚洲国产91色在线| 影音先锋黄色资源| 婷婷精品在线观看| 亚洲欧美一区二区激情| 90岁老太婆乱淫| 欧美女王vk| 国产亚洲视频中文字幕视频| 欧美老女人性生活视频| 欧美在线电影| 日韩在线观看你懂的| 亚洲天堂av中文字幕| 国产精品成人一区二区不卡| 久久精品国产久精国产一老狼| 久草手机视频在线观看| 香蕉综合视频| 欧美国产日产韩国视频| 久久精品国产亚洲av麻豆色欲| 亚洲欧洲另类| 日本久久精品视频| 中文字幕黄色av| 国产在线精品不卡| 成人网中文字幕| www.亚洲黄色| 久久综合五月天婷婷伊人| 日本一区二区久久精品| 色网站在线看| 亚洲图片欧美视频| 日韩有码免费视频| 久久久久久一区二区三区四区别墅 | 亚洲国产午夜伦理片大全在线观看网站| 青梅竹马是消防员在线| 国产精品婷婷午夜在线观看| 成人污网站在线观看| 欧美理论电影| 欧美色手机在线观看| 中文字幕乱码在线人视频| 成人精品毛片| 一区国产精品视频| 国产一级在线视频| 奇米在线7777在线精品| 91九色露脸| 牛牛影视精品影视| 最新日韩av在线| 一女被多男玩喷潮视频| 巨大黑人极品videos精品| 精品久久久久香蕉网| 91视频在线网站| 亚洲综合小说| 97久久精品人搡人人玩| 亚洲天堂avav| 91丨九色丨尤物| 在线综合视频网站| 日韩伦理精品| 日韩欧美电影一二三| 久久亚洲AV无码专区成人国产| 91欧美在线| 2020久久国产精品| 91精品国产综合久| 91在线观看一区二区| 亚洲最新免费视频| 国产在线天堂www网在线观看| 欧美在线高清视频| 中国极品少妇videossexhd| 91九色精品| 97成人在线视频| 国产精品免费无遮挡| 久久午夜免费电影| 国产av熟女一区二区三区| 国产在视频一区二区三区吞精| 日韩精品免费看| 糖心vlog免费在线观看| 日韩精品高清不卡| 国产精品国产三级欧美二区| 久久日韩视频| 欧美日韩成人综合在线一区二区| 免费中文字幕av| 韩国一区二区三区在线观看| 成人网在线免费看| 欧美性猛交xxx乱大交3蜜桃| 午夜a成v人精品| 亚洲性图第一页| 在线精品国产| 国产精品视频在线播放| 日韩电影在线观看完整版| 亚洲成人免费在线| 少妇精品无码一区二区| 韩日精品在线| 国产精品久久久一区二区三区| 久草免费在线| 7777女厕盗摄久久久| 丁香六月激情综合| 免费高清视频精品| 亚洲精品白虎| 日本欧美在线| 久久精品久久久久久国产 免费| 在线观看亚洲一区二区| 国产精品久久久久久一区二区三区 | 天堂网www中文在线| 亚洲影视在线播放| www.男人天堂| 国产一区二区三区的电影 | 永久免费毛片在线观看| 久久婷婷麻豆| 日韩一区免费观看| 国语自产精品视频在线看抢先版结局 | 日韩视频永久免费观看| 国产精品国产av| 亚洲乱码中文字幕综合| 又色又爽又黄18网站| 韩国在线一区| 美女一区视频| 97精品国产99久久久久久免费| 日韩中文字幕免费视频| 国产精品毛片一区视频播 | 成年人在线视频| 欧美三级电影在线观看| 四虎影院中文字幕| 成人教育av在线| 国产第一页视频| 久久免费精品视频在这里| 亚洲xxxx3d| 波多野结衣久久| 亚洲欧美日韩区| 中文字幕永久免费视频| 亚洲精品中文在线影院| 中文字幕在线永久| 亚洲激情在线播放| 最近免费中文字幕视频2019| 日韩三级av在线| www激情久久| 国产一级不卡毛片| 国产精品观看| 欧美激情导航| 99er精品视频| 91精品国产91久久久久久吃药 | 久久久精品影院| 欧洲成人一区二区三区| 欧美日韩在线电影| 色播视频在线播放| 亚洲欧美视频在线观看视频| 蜜桃精品成人影片| 国产成人精品1024| 亚洲国产成人va在线观看麻豆| 亚洲激情午夜| 佐佐木明希av| 日韩一区电影| 美乳视频一区二区| 日本成人手机在线| 国产精品一区=区| 美女高潮视频在线看| 久久精品福利视频| 成人综合影院| 亚洲精品短视频| wwwav网站| 91精品欧美久久久久久动漫 | 舔着乳尖日韩一区| 欧美日韩偷拍视频| 中文字幕在线不卡一区 | 国产精品拍天天在线| 亚洲av片不卡无码久久| 粉嫩aⅴ一区二区三区四区| www.成人黄色| 日韩电影在线免费观看| 人妻熟女一二三区夜夜爱| 一本色道88久久加勒比精品| av在线观看地址| 国产综合精品一区| 日本一级黄视频| 欧美一区免费| 久久www视频| 一本一道久久a久久精品蜜桃| 亚洲欧美综合一区| 天天做天天爱天天综合网2021| 亚洲国产精品一区在线观看不卡| 精品国产一区二区三区av片| 欧美一级二级三级| 欧美综合在线视频观看| 污视频在线免费观看一区二区三区| 欧美激情在线免费| 欧美主播一区二区三区美女 久久精品人 | 91精品国产成人| 欧美调教sm| 欧洲美女免费图片一区| 伊人久久视频| 国产精品久久久久久久9999| 麻豆成人小视频| 精品日本12videosex| 日韩尤物视频| 希岛爱理av一区二区三区| 日韩不卡视频一区二区| 亚洲性感美女99在线| 成人一对一视频| 肉色丝袜一区二区| 岛国av免费在线| 国产91高潮流白浆在线麻豆| aa片在线观看视频在线播放| 久久久91精品国产一区二区精品| 夜夜春很很躁夜夜躁| 一区免费观看视频| 日本特黄特色aaa大片免费| 亚洲国产精品久久人人爱蜜臀| 国产精品午夜影院| 欧美午夜不卡视频| a在线观看视频| 精品处破学生在线二十三| 青青草在线免费视频| 中文在线不卡视频| 日韩av激情| 国产99久久精品一区二区 夜夜躁日日躁| avav成人| www.久久艹| 国产日产精品_国产精品毛片| 亚洲综合第一| 亚洲高清不卡| 国产免费又粗又猛又爽| 成人美女视频在线看| 成人小视频免费看| 一区二区三区精密机械公司| 中文字幕视频网| 欧美丰满少妇xxxxx高潮对白| 日批免费在线观看| 久久精品国产亚洲一区二区| 91av亚洲| 懂色av一区二区三区在线播放| 亚洲亚洲免费| 激情成人开心网| 免费看黄色91| 亚洲最大的黄色网| 亚洲日本va午夜在线影院| 手机在线看片1024| 欧美一级xxx| 伦理片一区二区三区| 九色成人免费视频| 992tv国产精品成人影院| 国产精品视频免费一区二区三区| 日韩一区电影| 丝袜老师办公室里做好紧好爽| 国产精一品亚洲二区在线视频| 免费看污黄网站在线观看| 亚洲专区一二三| 国产一区二区三区在线观看| 精品在线小视频| 黄页网站大全在线免费观看| 国产精品一区二区3区| 五月天亚洲一区| 国产av国片精品| 国产成人免费xxxxxxxx| 色老板免费视频| 欧美影片第一页| 青青草手机在线| 91精品国产91久久久久久不卡| 欧美精品影院| eeuss中文| 久久99热99| 亚洲性猛交xxxx乱大交| 欧美性猛交xxxx乱大交3| 久久亚洲精品成人| 啪啪av大全导航福利综合导航| 免费成人在线观看av| 亚洲乱码视频| jjzz黄色片| 亚洲一区二区av电影| 国产青青草视频| 精品国产一区久久久| 欧美高清xxx| 亚洲人成77777| 日韩va欧美va亚洲va久久| b站大片免费直播| 色哟哟国产精品免费观看| 色视频免费在线观看| 69av在线视频| 自拍视频一区| 999在线免费视频| 国产日韩欧美一区二区三区综合| 国产成人精品777777| 国产亚洲日本欧美韩国| 国产成人免费精品| 中文字幕免费在线不卡| 精品一区二区三区日韩| 日本一二三区在线观看| 日韩视频免费直播| 2020国产在线| 久久riav| 免费在线观看一区二区三区| 国产又粗又猛又爽又黄的视频小说| 欧美日韩国产在线观看| www.在线视频| 国产精品区免费视频| 国产精品呻吟| 摸摸摸bbb毛毛毛片| 欧美久久久久免费| 日本成人不卡| 精品国产一区二区三区日日嗨 | 亚洲天堂av线| 亚洲日本韩国一区| 熟妇人妻av无码一区二区三区| 欧美中文字幕视频| 四季av在线一区二区三区| 国产成人精品一区二区在线小狼| 亚洲国产精品一区二区久久| 欧美色视频免费| 国产日本欧美一区二区三区| 欧美日一区二区在线观看| 国产麻豆天美果冻无码视频 | 青青在线免费观看视频| 亚洲日穴在线视频| 亚洲av电影一区| 国产在线精品播放| 黑人一区二区| 免费看黄色三级| 欧美白人最猛性xxxxx69交| 性国裸体高清亚洲| 香蕉视频免费版| 97se亚洲国产综合自在线观| 亚洲图片小说视频| 88xx成人精品| 天天影视欧美综合在线观看| 国产黑丝在线观看| 欧美日韩免费不卡视频一区二区三区| 国模雨婷捆绑高清在线| 日产精品久久久一区二区| 成人性生交大片免费看中文网站| 最新中文字幕在线观看视频|