精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

基于文本結構分塊 - 文本分塊(Text Splitting),RAG不可缺失的重要環節

發布于 2025-4-14 00:49
瀏覽
0收藏

在 RAG 的核心步驟中,有一個至關重要的步驟:“文本分塊(Text Splitting)”。

它的主要作用就是把一大段文本切分成更小、更合理的片段,這樣模型才能更好地理解、處理或者存儲這些內容。

如果一整篇文章不拆開,那 embedding 的顆粒度太粗,問答的時候很容易不準。所以切得好不好,直接影響最后答案的相關性和準確性。

最基本的分塊方法是根據文檔的長度進行拆分。這種簡單而有效的方法確保每個塊不會超過指定的大小限制。

基于長度拆分的主要好處:簡單明了的實現、一致的塊大小、易于適應不同模型的要求。缺點就是: 過于死板,忽視文本結構

1. 基于文本結構分塊

一般的文本會自然地組織成層次單位,如段落、句子和詞。

我們可以利用這種固有結構來指導我們的拆分策略,創建保持自然語言流暢、保持拆分內的語義連貫,并適應不同文本粒度水平的拆分。

LangChain 的 ??RecursiveCharacterTextSplitter?? 實現了這個概念:

  • ??RecursiveCharacterTextSplitter?? 嘗試保持較大單位(例如段落)的完整性。
  • 如果一個單位超出了塊大小,它將移到下一個層級(例如句子)。
  • 如果必要,這個過程將繼續到單詞級別。

2. RecursiveCharacterTextSplitter的實現思路

2.1 挑選分隔符

  • 從提供的分隔符列表中找到第一個在文本中存在的分隔符
  • 如果找到合適的分隔符,將其后的所有分隔符保存起來,用于后續可能的遞歸分割
  • 如果找不到任何分隔符,就使用最后一個分隔符(通常是空字符串)

舉個例子:

假設分隔符列表是 ["\n\n", "\n", " ", ""],對于文本 "Hello\nWorld" :

  • 首先檢查 "\n\n" ,文本中不存在
  • 然后檢查 "\n" ,文本中存在
  • 選擇 "\n" 作為分隔符
  • 保存 [" ", ""] 作為 new_separators ,供后續使用

separator = separators[-1]
new_separators = []
for i, _s in enumerate(separators):
    _separator = _s if self._is_separator_regex else re.escape(_s)
    if _s == "":
        separator = _s
        break
    if re.search(_separator, text):
        separator = _s
        new_separators = separators[i + 1 :]
        break

_separator = separator if self._is_separator_regex else re.escape(separator)

2.2 按分隔符分割文本

splits = _split_text_with_regex(text, _separator, self._keep_separator)

2.3 整理分割好的塊

  • 對每個分割后的文本塊進行處理:
  • 如果文本塊小于指定大小,添加到臨時列表
  • 如果文本塊大于指定大小,且還有其他分隔符可用,則遞歸分割
  • 如果文本塊大于指定大小,但沒有其他分隔符,則直接添加
  • 合并所有符合大小要求的文本塊
  • 返回最終的分割結果

基于文本結構分塊 - 文本分塊(Text Splitting),RAG不可缺失的重要環節-AI.x社區

for s in splits:
    if self._length_function(s) < self._chunk_size:
        _good_splits.append(s)
    else:
        if _good_splits:
            merged_text = self._merge_splits(_good_splits, _separator)
            final_chunks.extend(merged_text)
            _good_splits = []
        ifnot new_separators:
            final_chunks.append(s)
        else:
            other_info = self._split_text(s, new_separators)
            final_chunks.extend(other_info)
if _good_splits:
    merged_text = self._merge_splits(_good_splits, _separator)
    final_chunks.extend(merged_text)
return final_chunks

3. 代碼實現

from langchain.text_splitter import RecursiveCharacterTextSplitter

text = """
《誅仙》
作者:蕭鼎


第一集
序章

時間:不明,應該在很早很早以前。

地點:神州浩土。

自太古以來,人類眼見周遭世界,諸般奇異之事,電閃雷鳴,狂風暴雨,又有天災人禍,傷亡無數,哀鴻遍野,絕非人力所能為,所能抵擋。遂以為九天之上,有諸般神靈,九幽之下,亦是陰魂歸處,閻羅殿堂。

于是神仙之說,流傳于世。無數人類子民,誠心叩拜,向著自己臆想創造出的各種神明頂禮膜拜,祈福訴苦,香火鼎盛。

自古以來,凡人無不有一死。但世人皆惡死愛生,更有地府閻羅之說,平添了幾分苦懼,在此之下,遂有長生不死之說。

相較其它生靈物種,人類或在體質上處于劣勢,但萬物靈長,卻是絕無虛言。在追求長生的原動力下,一代代聰明才智之士,前赴后繼,投入畢生精力,苦苦鉆研。

至今為止,雖然真正意義上的長生不死仍未找到,卻有一些修真煉道之士參透些許天地造化,以凡人之身,掌握強橫力量,借助各般秘寶法器之力,竟可震撼天地,有雷霆之威。

而一些得道高深的前輩,更傳說已活上千年之久而不死。世上之人以為得道成仙,便有更多人投入修真煉道之路。

神州浩土,廣瀚無邊。唯有中原大地,最是豐美肥沃,天下人口十之八九聚居于此。而東南西北邊荒之地,山險水惡,多兇獸猛禽,多惡瘴毒物,亦多蠻族夷民,茹毛飲血,是以人跡罕至。而人間自古相傳,有洪荒遺種,殘存人世,藏于深山密谷,壽逾萬年,卻是無人得見。

時至今日,人間修真煉道之人,多如過江之鯽,數不勝數。又以神州浩土之廣闊,人間奇人異士之多,故修煉之法道林林總總,俱不相同。長生之法還未找到,彼此間卻逐漸有了門派之分,正邪之別。由之而起的門戶之見,勾心斗角乃至爭伐殺戮,在所多有。

當長生不死看起來那般遙遠而不可捉摸,修煉中所帶來的力量,便逐漸成了許多人的目標。

方今之世,正道大昌,邪魔退避。中原大地山靈水秀,人氣鼎盛,物產豐富,為正派諸家牢牢占據。其中尤以「青云門」、「天音寺」和「焚香谷」為三大支柱,是為領袖。

這個故事,便是從「青云門」開始的。
"""

text_splitter = RecursiveCharacterTextSplitter(chunk_size=150)
docs = text_splitter.create_documents([text])

for doc in docs:
    print('-' * 50)
    print(doc)

4. 拆分結果

通過觀察文本的分塊結果,可以看出 RecursiveCharacterTextSplitter 在 chunk_size=150 的設置下,將整個文本分成了7個完整的塊。

分割時優先考慮了段落間的自然分隔(\n\n),使每個塊都保持了相對獨立的主題。

這種分塊方式既保證了每塊內容的語義連貫性,又控制了文本長度在合理范圍內,為后續的文本處理和分析提供了良好的基礎。

--------------------------------------------------
page_cnotallow='《誅仙》
作者:蕭鼎


第一集
序章

時間:不明,應該在很早很早以前。

地點:神州浩土。

自太古以來,人類眼見周遭世界,諸般奇異之事,電閃雷鳴,狂風暴雨,又有天災人禍,傷亡無數,哀鴻遍野,絕非人力所能為,所能抵擋。遂以為九天之上,有諸般神靈,九幽之下,亦是陰魂歸處,閻羅殿堂。'
--------------------------------------------------
page_cnotallow='于是神仙之說,流傳于世。無數人類子民,誠心叩拜,向著自己臆想創造出的各種神明頂禮膜拜,祈福訴苦,香火鼎盛。

自古以來,凡人無不有一死。但世人皆惡死愛生,更有地府閻羅之說,平添了幾分苦懼,在此之下,遂有長生不死之說。'
--------------------------------------------------
page_cnotallow='相較其它生靈物種,人類或在體質上處于劣勢,但萬物靈長,卻是絕無虛言。在追求長生的原動力下,一代代聰明才智之士,前赴后繼,投入畢生精力,苦苦鉆研。'
--------------------------------------------------
page_cnotallow='至今為止,雖然真正意義上的長生不死仍未找到,卻有一些修真煉道之士參透些許天地造化,以凡人之身,掌握強橫力量,借助各般秘寶法器之力,竟可震撼天地,有雷霆之威。

而一些得道高深的前輩,更傳說已活上千年之久而不死。世上之人以為得道成仙,便有更多人投入修真煉道之路。'
--------------------------------------------------
page_cnotallow='神州浩土,廣瀚無邊。唯有中原大地,最是豐美肥沃,天下人口十之八九聚居于此。而東南西北邊荒之地,山險水惡,多兇獸猛禽,多惡瘴毒物,亦多蠻族夷民,茹毛飲血,是以人跡罕至。而人間自古相傳,有洪荒遺種,殘存人世,藏于深山密谷,壽逾萬年,卻是無人得見。'
--------------------------------------------------
page_cnotallow='時至今日,人間修真煉道之人,多如過江之鯽,數不勝數。又以神州浩土之廣闊,人間奇人異士之多,故修煉之法道林林總總,俱不相同。長生之法還未找到,彼此間卻逐漸有了門派之分,正邪之別。由之而起的門戶之見,勾心斗角乃至爭伐殺戮,在所多有。'
--------------------------------------------------
page_cnotallow='當長生不死看起來那般遙遠而不可捉摸,修煉中所帶來的力量,便逐漸成了許多人的目標。

方今之世,正道大昌,邪魔退避。中原大地山靈水秀,人氣鼎盛,物產豐富,為正派諸家牢牢占據。其中尤以「青云門」、「天音寺」和「焚香谷」為三大支柱,是為領袖。

這個故事,便是從「青云門」開始的。'

5. 圖形化顯示分塊

通過www.chunkviz.com可以以圖形化的方式看到分塊結果

基于文本結構分塊 - 文本分塊(Text Splitting),RAG不可缺失的重要環節-AI.x社區

總結

文本分塊不僅是技術實現的問題,更是影響 RAG 系統最終效果的核心策略。

簡單分塊雖易上手但效果有限,結構化遞歸分塊則在保留語義、提升相關性方面表現更優。

想要構建高質量問答系統,分塊方式絕不能隨便選,而是要結合文本特點和應用場景精細設計。

 

本文轉載自??AI取經路??,作者:AI取經路

收藏
回復
舉報
回復
相關推薦
欧美日韩在线视频免费| 国产伦精品一区二区三毛| 国产伦精品一区二区三区妓女| 欧美成人精品一区二区男人小说| 国产丝袜美腿一区二区三区| 国产精品一区二区三| 欧美老熟妇一区二区三区| 国产精品45p| 91精品福利在线| 中文字幕在线观看一区二区三区| 动漫av一区二区三区| 老鸭窝亚洲一区二区三区| 北条麻妃在线一区二区| 四虎国产成人精品免费一女五男| a网站在线观看| 一区久久精品| 国产亚洲精品美女久久久| 亚洲第一区第二区第三区| а√天堂8资源在线| 国产嫩草影院久久久久| 成人影片在线播放| 黄色污污视频软件| 狠狠噜噜久久| 中文字幕亚洲精品| 日本一欧美一欧美一亚洲视频| 91精品在线国产| 国产成人亚洲欧洲在线| 日韩精品四区| 日韩大陆欧美高清视频区| 热久久久久久久久| 成人软件在线观看| 黑人精品xxx一区一二区| 超碰97免费观看| 精品视频二区| 成人综合在线观看| 91精品一区二区| 国产乱码77777777| 欧美亚洲一区| 国内外成人免费激情在线视频| 国产喷水在线观看| 精品国产午夜| 日韩精品在线观看一区| 日本天堂在线播放| 思思99re6国产在线播放| 91在线观看地址| 精品卡一卡二| 亚洲精品网站在线| 国产在线看一区| 国产日韩亚洲欧美| 91高潮大合集爽到抽搐| 美女视频一区二区三区| 国产成人一区二区三区电影| 国产日产精品一区二区三区| 一区二区高清| 2020久久国产精品| 色婷婷在线观看视频| 在线欧美福利| 国模私拍一区二区三区| 国产成人精品亚洲男人的天堂| 欧美午夜在线| 欧美激情第一页xxx| 国产真实乱偷精品视频| 伊人久久综合| 91高潮精品免费porn| www.国产com| 日韩在线a电影| 国产精品香蕉国产| 国产三级伦理片| 国产高清不卡二三区| www久久99| 可以免费观看的毛片| av在线播放不卡| 久久精品人成| 岛国视频免费在线观看| 中文字幕乱码亚洲精品一区| 亚洲精品第一区二区三区| 日本在线观看免费| 亚洲激情图片一区| 蜜桃免费一区二区三区| 免费av在线一区二区| 婷婷在线免费视频| 久久女同精品一区二区| 日韩欧美激情一区二区| 337p日本欧洲亚洲大胆鲁鲁| 中文字幕日韩一区| 992tv成人免费观看| 美女网站视频在线| 色偷偷一区二区三区| 在线观看岛国av| 亚洲福利合集| 亚洲欧洲在线观看| 国产精品白嫩白嫩大学美女| 亚洲一区二区三区高清不卡| 国产精品中文字幕在线观看| 国产人妻精品一区二区三| 久草这里只有精品视频| 国产偷国产偷亚洲高清97cao| 色天堂在线视频| ㊣最新国产の精品bt伙计久久| 日韩黄色片在线| 美女日韩欧美| 欧美大片在线观看一区二区| 日本xxxxxxxxx18| 永久亚洲成a人片777777| 欧美性一区二区三区| 国产又大又粗又硬| 久久久久久久久蜜桃| eeuss中文| 超碰超碰人人人人精品| 欧美一区二区三区在线视频| 中文字幕国产专区| 激情欧美一区二区三区| 国产精品入口免费视| 亚洲乱色熟女一区二区三区| 久久久亚洲综合| 少妇人妻无码专区视频| 五月天色综合| 国产一区二区av| 久久午夜免费视频| 国产一区二区不卡在线| 婷婷五月色综合| 黄色漫画在线免费看| 欧美肥妇毛茸茸| 无码国产69精品久久久久同性| 欧美欧美全黄| 91亚洲精品久久久久久久久久久久| 天天影院图片亚洲| 亚洲一区二区三区在线播放| 天天干天天色天天干| 精品久久美女| 热久久这里只有精品| 亚洲国产精品二区| 亚洲精品日日夜夜| 黄色三级视频在线播放| blacked蜜桃精品一区| 欧美综合激情网| 人妻一区二区三区免费| 一级精品视频在线观看宜春院 | 色偷偷综合网| 欧美综合第一页| 瑟瑟在线观看| 精品久久久久久中文字幕| 国产在线不卡av| 极品少妇一区二区三区| 99中文视频在线| 日韩电影免费观看| 欧美成人伊人久久综合网| 在线免费日韩av| 国产伦精品一区二区三区免费| 在线播放豆国产99亚洲| www.91精品| 免费成人高清视频| 国产自产一区二区| 午夜精品视频在线观看| 伊人网综合视频| 亚洲永久免费精品| 免费在线一区二区| 日韩不卡在线| 丝袜美腿精品国产二区| 亚洲一区二区影视| 亚洲欧美另类图片小说| 超碰91在线播放| 国内精品美女在线观看| 国产日韩精品久久| 成人一区福利| 少妇激情综合网| 国产aⅴ爽av久久久久成人| 一区二区三区四区中文字幕| 国产日韩视频一区| 久久福利影视| 天天人人精品| 秋霞影院一区| 91国产美女视频| 国产黄色在线| 在线综合视频播放| 国产一级一片免费播放| www亚洲一区| 色综合手机在线| 欧美日韩三级| 日本a级片久久久| 亚洲我射av| 午夜精品久久久久久久99热| 女人天堂在线| 91精品在线观看入口| 久久综合加勒比| 国产日本欧洲亚洲| 男生和女生一起差差差视频| 在线综合亚洲| 婷婷视频在线播放| 老司机在线精品视频| 国产精品一区二区久久精品| 国产网红女主播精品视频| 亚洲欧洲国产伦综合| 97免费观看视频| 五月天亚洲精品| 少妇高潮惨叫久久久久| a美女胸又www黄视频久久| 三年中国国语在线播放免费| 欧美在线高清| 日产精品久久久一区二区| 久久天堂久久| 日本人成精品视频在线| 神马午夜伦理不卡| 中文字幕日韩精品在线| 人妻一区二区三区免费| 欧美久久一二区| 免费污污视频在线观看| 亚洲黄色免费电影| 免费成人深夜天涯网站| 99久久精品国产麻豆演员表| 色姑娘综合天天| 日本视频一区二区三区| 精品视频在线观看一区| 亚洲国产一成人久久精品| 日韩久久不卡| 欧洲亚洲视频| 91入口在线观看| 视频欧美精品| 国产精品久久久久久久久久久新郎 | 99草在线视频| 欧美色另类天堂2015| 精品99久久久久成人网站免费| 国产精品久久看| 久久午夜福利电影| 91视频国产资源| 你懂的在线观看网站| 国产精品一区二区果冻传媒| www.超碰97.com| 麻豆视频观看网址久久| www.xxx亚洲| 久久字幕精品一区| 国内自拍在线观看| 极品av少妇一区二区| 亚洲乱码日产精品bd在线观看| 欧美丰满日韩| 亚洲成人第一| 波多野结衣在线播放一区| 欧美久久久久久一卡四| 欧美调教在线| 国产一区福利视频| 粉嫩av一区二区| av一本久道久久波多野结衣| 日本一区二区三区电影免费观看| 成人网欧美在线视频| 伦一区二区三区中文字幕v亚洲| 国产成人一区二区三区| 亚洲mmav| 国产在线观看91精品一区| 日韩在线你懂得| 91在线网站视频| 日韩欧美中文字幕一区二区三区| 91亚洲国产成人久久精品网站| 国产精品日本一区二区不卡视频 | 少妇一级淫片日本| 色噜噜夜夜夜综合网| 国产天堂第一区| 欧美视频在线不卡| 一级黄色片免费| 欧美一区二区私人影院日本| 性一交一乱一透一a级| 精品久久一区二区三区| 人人妻人人澡人人爽人人欧美一区| 精品国产一区二区三区久久影院| 亚洲免费成人网| 亚洲精品在线视频| av在线电影院| 欧美xxxx做受欧美| 91精品国产黑色瑜伽裤| 欧美最猛性xxxxx(亚洲精品)| 亚洲精品555| 亚洲综合在线播放| 老牛精品亚洲成av人片| 裸体丰满少妇做受久久99精品| 九九热线有精品视频99| 亚洲国产高清国产精品| 一本一本久久a久久综合精品| 欧美亚洲黄色片| 久久九九99| 北条麻妃亚洲一区| 91日韩精品一区| 伊人影院综合网| 一区二区三区四区五区视频在线观看 | 国产成人一区二区三区影院| 亚洲综合欧美日韩| 伊人狠狠色j香婷婷综合| 久久国产色av免费观看| 极品美女销魂一区二区三区| av在线播放网址| 中文字幕精品一区二区精品绿巨人| 欧美日韩在线国产| 色综合视频在线观看| 国产剧情精品在线| 亚洲精品中文字幕女同| 成人在线网址| 欧亚精品在线观看| 亚洲综合网狠久久| 欧美亚洲爱爱另类综合| 91精品国产乱码久久久久久久| 精品国偷自产一区二区三区| 日本vs亚洲vs韩国一区三区二区 | 99re在线视频这里只有精品| 国产大屁股喷水视频在线观看| 亚瑟在线精品视频| 在线免费观看高清视频| 日韩风俗一区 二区| 二区三区在线观看| 国产成人精品在线播放| 北条麻妃一区二区三区在线观看| 亚洲激情一区二区| 国产精品美女| 91porn在线| 专区另类欧美日韩| 夜夜爽妓女8888视频免费观看| 亚洲精品在线一区二区| 久久bbxx| 国产精品视频专区| 久久综合影院| 精品这里只有精品| 成人免费毛片嘿嘿连载视频| 久久嫩草捆绑紧缚| 在线观看一区二区视频| 性xxxxbbbb| 欧美激情一级欧美精品| 91精品一久久香蕉国产线看观看| 欧美午夜精品久久久久免费视| 国产一区二区三区四区老人| 欧美激情国内自拍| 国产精品色眯眯| 波多野结衣小视频| 亚洲国产欧美在线成人app| 亚洲91av| 91视频在线免费观看| 天天射天天综合网| 欧美日韩一区二区三区69堂| 欧美国产精品中文字幕| 精品久久久久久久久久久国产字幕| 亚洲精品videossex少妇| 日本大片在线播放| 福利视频久久| 国产一区日韩一区| 人妻换人妻a片爽麻豆| 亚洲在线成人精品| 免费看av毛片| 97视频在线观看播放| 日韩电影在线观看完整免费观看| 国产精品一线二线三线| eeuss影院一区二区三区| www.99re7.com| 亚洲精品电影久久久| 麻豆视频在线看| 欧美日韩系列| 免费一级欧美片在线观看| 可以免费看av的网址| 在线成人小视频| 七七成人影院| 国产精品一区二区三区在线| 99国产精品自拍| 亚洲 小说 欧美 激情 另类| 欧美影院一区二区| 欧美a在线看| 444亚洲人体| 亚洲国产91| 免费中文字幕av| 日本道色综合久久| av在线日韩国产精品| 成人春色激情网| 综合久久综合| 中文字幕a在线观看| 日韩欧美精品免费在线| 国产二区视频在线观看| 91精品久久久久久久久青青| 欧美精品入口| 日韩 中文字幕| 欧美性视频一区二区三区| av在线下载| 久久大香伊蕉在人线观看热2| 久久久久久久欧美精品| 91制片厂在线| 精品国产第一区二区三区观看体验| 蜜桃视频动漫在线播放| 日韩欧美视频一区二区| 国产一区二区不卡在线| 国产精品第9页| 一区三区二区视频| 精品国产三级| 国产av无码专区亚洲精品| 成人欧美一区二区三区| 少妇av在线播放| 国产精品夜间视频香蕉| 亚洲视频福利| 国产无遮挡在线观看| 日韩你懂的电影在线观看| 日韩av中字| 屁屁影院ccyy国产第一页| 国产偷国产偷亚洲高清人白洁 | 狠狠久久亚洲欧美| 国产精品999在线观看| xxx成人少妇69| 婷婷精品视频| 久久久久99人妻一区二区三区|