精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

文本分塊(Text Splitting),RAG不可缺失的重要環(huán)節(jié)

發(fā)布于 2025-5-23 06:34
瀏覽
0收藏

本文介紹了在增強檢索生成(RAG)流程中,文本分塊的重要性和實現(xiàn)方式。詳細解釋了為什么要對文本進行切分及代碼示例,展示了分塊后的效果。通過合理分塊,可以有效應對模型的輸入限制,提升檢索與生成的質(zhì)量,是構(gòu)建高效 LLM 應用的關鍵步驟之一。

1. 文檔分塊的原因

2. 文檔分塊的基本思路

2.1 基于長度的分塊類型

2.2 代碼實現(xiàn)

2.2 拆分結(jié)果

3. 圖形化顯示分塊

總結(jié)

在快速發(fā)展的自然語言處理(NLP)領域,增強檢索生成(RAG)已成為提高 AI 生成響應的準確性和相關性的強大技術(shù)。

在 RAG 的核心步驟中,有一個至關重要的步驟:“文本分塊(Text Splitting)”

它的主要作用就是把一大段文本切分成更小、更合理的片段,這樣模型才能更好地理解、處理或者存儲這些內(nèi)容。

比如說,如果你有一篇幾千字的文章,直接丟給模型處理,很可能會超過它的最大上下文長度(就是它一次能“看”的最多字數(shù))。這個時候就得用 文本分塊(Text Splitting)來把文章拆成幾段,讓每一段都不超出模型的處理能力,而且盡量保證語義完整、段落自然,不要斷在奇怪的地方。

除了應對長度限制,還有個原因是為了更精準地做 embedding、搜索或者問答。

舉個例子,如果你用 RAG 來做知識庫問答,先要把整個文檔轉(zhuǎn)成 embedding(向量表示),然后做向量檢索找出相關內(nèi)容。

如果一整篇文章不拆開,那 embedding 的顆粒度太粗,問答的時候很容易不準。所以切得好不好,直接影響最后答案的相關性和準確性。

文本分塊(Text Splitting),RAG不可缺失的重要環(huán)節(jié)-AI.x社區(qū)

1. 文檔分塊的原因

拆分文檔有幾個原因:

  • 處理不均勻的文檔長度:現(xiàn)實世界的文檔集合通常包含不同大小的文本。拆分確保對所有文檔進行一致的處理。
  • 克服模型限制:許多嵌入模型和語言模型都有最大輸入大小限制。拆分允許我們處理那些否則會超出這些限制的文檔。
  • 提高表示質(zhì)量:對于較長的文檔,嵌入或其他表示形式的質(zhì)量可能會隨著過多信息而降低。拆分可以導致每個部分更加集中和準確的表示。
  • 增強檢索精度:在信息檢索系統(tǒng)中,拆分可以提高搜索結(jié)果的粒度,從而允許查詢與相關文檔部分的更精確匹配。
  • 優(yōu)化計算資源:處理較小的文本塊可以更加節(jié)省內(nèi)存,并允許更好的并行處理任務。

2. 文檔分塊的基本思路

最基本的分塊方法是根據(jù)文檔的長度進行拆分。這種簡單而有效的方法確保每個塊不會超過指定的大小限制。

基于長度拆分的主要好處:簡單明了的實現(xiàn)、一致的塊大小、易于適應不同模型的要求。缺點就是: 過于死板,忽視文本結(jié)構(gòu)。

2.1 基于長度的分塊類型:

  • 基于token的:根據(jù)token數(shù)量分割文本,這在使用語言模型時非常有用。
  • 基于字符的:根據(jù)字符數(shù)量分割文本,這在不同類型的文本中可能更為一致。

2.2 代碼實現(xiàn)

基于字符的拆分為例來了解分塊的基本思路:

需要了解的概念

  • 塊大小(Chunk Size)- 每個數(shù)據(jù)塊包含的字符數(shù),比如 50、100、100,000 等。
  • 塊重疊(Chunk Overlap)- 相鄰數(shù)據(jù)塊之間重疊的字符數(shù)量。這樣做是為了避免將一個完整語境拆成幾部分,但會導致各塊之間出現(xiàn)重復數(shù)據(jù)。

使用LangChain創(chuàng)建 CharacterTextSplitter 實例,設置三個關鍵參數(shù):

  • chunk_size=15 :每個分割塊的最大字符數(shù)為15
  • chunk_overlap=5 :相鄰塊之間重疊的字符數(shù)為5,這有助于保持上下文連貫性
  • separator='' :使用空字符串作為分隔符,意味著將按照純字符數(shù)量進行分割,而不是按照特定分隔符(如句號、空格等)

from langchain.text_splitter import CharacterTextSplitter

text = "青云山連綿百里,峰巒起伏,最高有七峰,高聳入云,平日里只見白云環(huán)繞山腰,不識山頂真容。青云山山林密布,飛瀑奇巖,珍禽異獸,在所多有,景色幽險奇峻,天下聞名。"

text_splitter = CharacterTextSplitter(chunk_size=15, chunk_overlap=5, separator='')
docs = text_splitter.create_documents([text])

for doc in docs:
    print('-' * 50)
    print(doc)

2.2 拆分結(jié)果

根據(jù)設置的參數(shù)(chunk_size=15和chunk_overlap=5),文本被分成了8個片段,每個片段大約包含15個字符(包括標點符號),相鄰片段之間有5個字符的重疊,這確保了文本的連貫性。

例如:"起伏,最高"這部分內(nèi)容在第一段末尾和第二段開頭都出現(xiàn),這就是重疊的效果

分割后的每個片段都保持了基本的可讀性,雖然有些句子被切分開了。

最后一個片段"奇峻,天下聞名。"因為是文本末尾,所以長度較短,不足15個字符

--------------------------------------------------
page_cnotallow='青云山連綿百里,峰巒起伏,最高'
--------------------------------------------------
page_cnotallow='起伏,最高有七峰,高聳入云,平'
--------------------------------------------------
page_cnotallow='聳入云,平日里只見白云環(huán)繞山腰'
--------------------------------------------------
page_cnotallow='云環(huán)繞山腰,不識山頂真容。青云'
--------------------------------------------------
page_cnotallow='真容。青云山山林密布,飛瀑奇巖'
--------------------------------------------------
page_cnotallow=',飛瀑奇巖,珍禽異獸,在所多有'
--------------------------------------------------
page_cnotallow=',在所多有,景色幽險奇峻,天下'
--------------------------------------------------
page_cnotallow='奇峻,天下聞名。'

3. 圖形化顯示分塊

通過www.chunkviz.com可以以圖形化的方式看到分塊結(jié)果。

文本分塊(Text Splitting),RAG不可缺失的重要環(huán)節(jié)-AI.x社區(qū)

總結(jié)

文本分塊雖然看起來只是把文本切成小段,但它在大語言模型的應用中扮演著非常重要的角色。

它不僅解決了模型上下文長度的限制問題,還直接影響了后續(xù)任務的效果,比如 embedding 的精度、搜索的相關性、問答的準確性等等。

切分策略得當,不僅能提升模型的理解力,還能讓整個系統(tǒng)運行得更高效、更智能。所以在設計 LLM 應用時,文本分塊絕對不是一個可以忽略的細節(jié),而是值得精心打磨的核心組件之一。

本文轉(zhuǎn)載自??AI取經(jīng)路??,作者:AI取經(jīng)路

已于2025-5-23 10:47:16修改
收藏
回復
舉報
回復
相關推薦
蜜桃麻豆av在线| 国内精品国产成人国产三级| 欧美日韩中文一区二区| 欧美日韩精品系列| 久久久久福利视频| 国精品人妻无码一区二区三区喝尿| 亚洲二区精品| 国产亚洲人成a一在线v站| 日韩成人精品视频在线观看| 欧美大片黄色| 久久久久久久av麻豆果冻| 国产热re99久久6国产精品| 免费又黄又爽又色的视频| 夜色77av精品影院| 日韩一区二区免费在线观看| 日本在线视频www| 欧美成人视屏| 久久久久亚洲综合| 国产精品一区二区免费看| 中文人妻av久久人妻18| 韩国久久久久| 国产精品福利在线播放| 国产精品12| 一区二区视频免费| 亚州av日韩av| 欧美一级欧美三级在线观看 | 天天av综合网| 精品一区二区三区久久| 日韩免费观看在线观看| 久久久久久久久久久97| 99精品视频在线观看免费播放| 亚洲国产日韩欧美在线图片| 国产高清999| 国产精品久久久久久妇女| 午夜激情综合网| 精品一区二区三区毛片| a视频网址在线观看| 99精品热视频| 国产女主播一区二区三区| 一级黄色片在线观看| 日韩av中文字幕一区二区| 3344国产精品免费看| 日本少妇xxxx动漫| 欧美性久久久| 欧美成人性色生活仑片| 在线免费看av网站| 99久久婷婷| 日韩中文有码在线视频| 四季av中文字幕| 狠狠做深爱婷婷综合一区| 精品亚洲国产视频| 少妇精品一区二区| 丝袜美腿综合| 亚洲精品一区二三区不卡| 亚洲久久久久久| 精品国产一区二区三区成人影院| 欧美变态凌虐bdsm| 欧美久久久久久久久久久| 亚洲一区二区三区中文字幕在线观看| 欧美一级片在线| 国产裸体视频网站| 亚洲91网站| 精品国产电影一区二区| xxxx黄色片| 性人久久久久| 国产一区二区三区直播精品电影| 韩国女同性做爰三级| 国产一区二区三区四区大秀| 中文字幕日韩免费视频| 三上悠亚在线观看视频| 欧美在线不卡| 午夜精品福利在线观看| caoporn国产| 日本不卡一区二区三区高清视频| 国产精品日韩欧美大师| 99久久久久久久| 高清成人免费视频| 国产综合精品一区二区三区| 四虎影视精品成人| 国产精品私人影院| 欧美 日韩 国产 在线观看| 伊人影院在线视频| 天天影视网天天综合色在线播放 | 老湿机69福利| 国产精品地址| 人体精品一二三区| 中文无码av一区二区三区| 久久99精品久久只有精品| 国产精品xxx在线观看www| 你懂的免费在线观看视频网站| 欧美高清在线一区| 99久久久精品视频| 日韩伦理三区| 337p亚洲精品色噜噜狠狠| 91传媒理伦片在线观看| 亚洲三级性片| 另类视频在线观看| 日本一级一片免费视频| 麻豆精品在线看| 国产精品区一区| 成人性生交大片免费看午夜| 亚洲激情男女视频| 99久久国产宗和精品1上映| 国内精品视频| 亚洲人成在线一二| 日本高清免费观看| 日韩成人动漫在线观看| 日韩中文字幕在线观看| 久久露脸国语精品国产91| 蜜臀av一区二区三区| 555www成人网| 中文字幕在线观看视频一区| 成人aa视频在线观看| 亚洲欧洲精品一区| 乱馆动漫1~6集在线观看| 3d成人h动漫网站入口| 日韩网站在线播放| 欧美午夜电影在线观看| 国产精自产拍久久久久久蜜| 姝姝窝人体www聚色窝| 中文字幕一区二区三中文字幕| 一本大道熟女人妻中文字幕在线| 日韩一区二区三区精品| 亚洲欧美在线一区| 日本在线免费观看| 国产乱淫av一区二区三区 | 国产精品精品| 国产成人精品一区二区| 色香蕉在线视频| 亚洲女性喷水在线观看一区| 亚洲第一中文av| 亚洲精品国模| 欧美一区二三区| 日批免费在线观看| 又紧又大又爽精品一区二区| 免费看涩涩视频| 狠狠色丁香婷婷综合影院| 欧美一区二区三区图| 天天操天天舔天天干| 亚洲一级在线观看| 中文字幕99页| 国产综合婷婷| 91精品入口蜜桃| 动漫一区在线| 这里只有精品99re| 天天色影综合网| 麻豆中文一区二区| 亚洲一区精品视频| 91国产一区| 日韩视频第一页| 国产精品久久久久久久久毛片 | 国产精品xx| 亚洲国产97在线精品一区| 久久久久免费看| 成人av在线影院| 欧美三级一级片| 伊人久久大香线蕉综合网站| 国产ts人妖一区二区三区| 青青青草原在线| 在线视频欧美精品| 一本在线免费视频| 国产一区二区三区国产| 日韩视频一二三| 一区中文字幕| 91av视频导航| 国产理论电影在线观看| 欧美四级电影网| 国产三级aaa| 韩国精品在线观看 | 久久久久久穴| 日韩免费中文专区| 亚洲免费一区| 欧美成在线观看| 无码国产精品96久久久久| 色综合一区二区三区| 成人做爰69片免网站| 国产麻豆日韩欧美久久| 免费一级特黄毛片| 国产一区二区三区四区五区传媒| 成人黄色激情网| 国产又爽又黄网站亚洲视频123| 欧美性猛交xxxx黑人| 日韩黄色中文字幕| 国产成人精品影院| 成人在线免费观看av| 日本一本不卡| 96久久精品| 中文字幕资源网在线观看免费| 中文字幕视频在线免费欧美日韩综合在线看 | 国产欧美精品久久| 性刺激综合网| 草莓视频一区二区三区| 国产精品你懂得| 女人天堂av在线播放| 亚洲视频日韩精品| 精品人妻av一区二区三区| 岛国精品视频在线播放| 国产又色又爽又高潮免费| 99久久精品免费| 永久免费的av网站| 一区二区三区精品视频在线观看| 亚洲精品美女久久7777777| 盗摄系列偷拍视频精品tp| 国产精品美女在线| 美女露胸视频在线观看| 久久精品亚洲国产| 欧美新色视频| 精品久久久久一区| 亚洲专区在线播放| 欧美视频在线免费| 久久久久黄色片| 国产精品高清亚洲| av无码av天天av天天爽| 国产91精品精华液一区二区三区| 欧美精品性生活| 99视频在线精品国自产拍免费观看| 亚洲一区二区三区加勒比| 六月丁香久久丫| 91精品婷婷国产综合久久蝌蚪| 嫩草伊人久久精品少妇av杨幂| 欧美精品久久一区二区| 国产剧情在线| 中文字幕日韩欧美在线| 久久天堂电影| 日韩av网站导航| 免费看黄色一级视频| 日韩午夜在线观看| 91欧美日韩麻豆精品| 91国内精品野花午夜精品| 日韩伦人妻无码| 亚洲综合久久av| 亚洲一级二级片| 日韩一区在线看| 亚洲图片第一页| 国产校园另类小说区| 性色av蜜臀av色欲av| 成人福利视频网站| 特黄特色免费视频| 国产成人三级在线观看| 日韩精品aaa| 国内精品伊人久久久久av一坑| 亚洲久久中文字幕| 蜜桃一区二区三区在线观看| 日韩一级免费在线观看| 视频一区国产视频| 欧美精品成人网| 日韩av一区二区三区四区| 青青青国产在线视频| 日本欧美大码aⅴ在线播放| 三级a在线观看| 蜜桃av一区二区| 一道本在线免费视频| 久久国产精品免费| 人人爽人人爽av| 国产麻豆成人传媒免费观看| 无码人妻丰满熟妇区毛片蜜桃精品| 国产乱对白刺激视频不卡| 男人女人拔萝卜视频| 成人性生交大合| 国产福利在线观看视频| 久久久蜜桃精品| 黄大色黄女片18免费| 中文字幕在线不卡| 看片网站在线观看| 性做久久久久久久久| 五月天婷婷激情| 欧美日韩一区在线观看| 国产乱码精品一区二区| 欧美成人精品1314www| 天堂在线视频免费观看| 亚洲色图25p| 黄色网址在线免费播放| 久久久久久伊人| 欧美粗大gay| 亚洲va男人天堂| 国产一区二区三区不卡av| 欧美激情论坛| 国产精品国产三级国产在线观看| 久草视频国产在线| 日韩国产高清影视| 青娱乐国产精品视频| a亚洲天堂av| 天堂av网手机版| 亚洲一二三四区| 国产在线观看第一页| 欧美一级高清片在线观看| 天天操天天干天天干| 日韩在线播放一区| 交100部在线观看| 国产欧美欧洲在线观看| 一区二区三区视频播放| 日本在线观看一区二区| 午夜精品久久| 黄色av免费在线播放| 国产98色在线|日韩| 夜夜春很很躁夜夜躁| 亚洲一区二区三区在线| 免费精品一区二区| 精品国产91九色蝌蚪| 在线观看av的网站| 91成人精品网站| 精品午夜视频| 亚洲精品不卡| 亚洲欧美日韩一区在线观看| 日本黄色www| 中文字幕精品三区| 国产成人无码精品亚洲| 制服丝袜日韩国产| 粉嫩一区二区三区国产精品| 久久久久国产一区二区三区| 亚洲男女网站| 日韩久久不卡| 一区二区黄色| 亚洲麻豆一区二区三区| 亚洲天堂免费看| 夜夜爽妓女8888视频免费观看| 欧美精品一区视频| 国产写真视频在线观看| 国产成人精品电影| 秋霞影视一区二区三区| 国产人妻人伦精品| 韩国一区二区视频| 黄色一级片一级片| 一本久道中文字幕精品亚洲嫩| 亚洲伦理在线观看| 欧美成人亚洲成人| www.欧美视频| 亚洲精品久久区二区三区蜜桃臀| 久久一日本道色综合久久| 欧美激情 亚洲| 亚洲午夜精品17c| 精品国产伦一区二区三区| 久久精品久久久久| 欧美高清你懂的| 亚洲午夜精品久久久久久浪潮| 爽爽淫人综合网网站| 女人被狂躁c到高潮| 欧美日韩色婷婷| 人妻一区二区三区免费| 欧美国产视频日韩| www.豆豆成人网.com| 亚洲精品天堂成人片av在线播放 | 大乳护士喂奶hd| 亚洲影院在线观看| 亚洲国产精品欧美久久| 久久99国产综合精品女同| 精品视频在线播放一区二区三区| 免费看污污视频| 激情六月婷婷综合| 免费看特级毛片| 欧美一区二区三区小说| 99在线播放| 99c视频在线| 欧美亚洲国产日韩| 九色在线视频观看| 26uuu精品一区二区三区四区在线 26uuu精品一区二区在线观看 | 久久久免费观看视频| 好吊妞国产欧美日韩免费观看网站| 久久精品xxx| www.亚洲国产| 秋霞精品一区二区三区| 亚洲性生活视频在线观看| 成人精品一区二区三区电影| 做爰高潮hd色即是空| 国产精品系列在线观看| 日韩精品一区二区不卡| 亚洲片国产一区一级在线观看| 中文字幕系列一区| 亚洲一卡二卡区| 国产成人精品亚洲午夜麻豆| 日本网站免费观看| 亚洲人成网站777色婷婷| 成人性片免费| 国产一二三四五| av成人动漫在线观看| 日韩精品一区不卡| 久久精品视频va| 欧美日韩麻豆| 污污网站免费看| 洋洋成人永久网站入口| 免费资源在线观看| 91免费福利视频| 国产精品毛片在线| 久草手机视频在线观看| 精品国产伦理网| 性欧美18一19sex性欧美| 成年人黄色在线观看| 成人午夜视频免费看| 少妇又紧又色又爽又刺激视频| 欧美高清无遮挡| 成人影院在线| 亚洲啪av永久无码精品放毛片 | 亚洲动漫第一页| 二区三区在线| 国产精品免费一区二区三区观看| 日韩一区欧美二区| 免费一级黄色大片| 中文字幕亚洲综合久久| 国产欧美三级电影| 国产无色aaa|