精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta-Chunking:通過邏輯感知學習高效的文本分段

人工智能
Meta-Chunking是一種創新文本分段技術,利用LLMs的能力靈活地將文檔分割成邏輯連貫的獨立塊。方法是基于一個核心原則:允許塊大小的可變性,以更有效地捕捉和保持內容的邏輯完整性。

本文是由人大提出的,旨在解決在檢索增強生成(RAG)系統中,文本分段這一關鍵方面被忽視的問題。具體來說,傳統文本分段方法(如基于規則或語義相似性)在捕捉句子間深層語言邏輯聯系方面存在不足,導致在知識密集型任務(如開放域問答)中的性能受到影響。本文通過引入Meta-Chunking的概念及其兩種實現策略(邊際采樣分段和困惑度分段),解決了以下幾個關鍵問題:

邏輯連貫性問題

  • 問題:傳統文本分段方法往往基于規則或語義相似性,難以捕捉句子間的深層邏輯聯系(如因果、過渡、并行和漸進關系)。
  • 解決方案:Meta-Chunking通過利用LLMs的強大理解和推理能力,設計了邊際采樣分段和困惑度分段策略,精確識別文本分段邊界,確保分段后的文本塊具有邏輯連貫性。

資源和時間效率問題

  • 問題:現有的文本分段方法(如LumberChunker)需要使用高性能的LLMs(如Gemini模型),導致資源和時間成本顯著增加。
  • 解決方案:邊際采樣分段有效減少了文本分段對模型大小的依賴,使推理能力相對較弱的小型語言模型也能勝任此任務。困惑度分段進一步提高了處理效率,實現了資源和時間的節省。

細粒度和粗粒度分段的平衡問題

  • 問題:僅通過調整閾值來控制塊大小有時會導致塊大小不均勻,難以滿足用戶的多樣化分段需求。
  • 解決方案:提出了一種結合Meta-Chunking與動態合并的策略,旨在靈活應對不同的分段要求,在細粒度和粗粒度文本分段之間取得有效平衡。

長文本處理問題

  • 問題:處理較長文本時,傳統的分段方法可能導致上下文連貫性喪失或GPU內存溢出。
  • 解決方案:在困惑度分段中引入鍵值(KV)緩存機制,在保持句子間邏輯連貫性的前提下計算困惑度,從而優化GPU內存和計算準確性。

跨語言適應性問題

  • 問題:小模型在跨語言適應性方面存在局限性,難以直接應用于多語言文本分段。
  • 解決方案:通過實驗驗證,中等規模的模型(如1.5B參數級別)在處理不同長度的文本分段時能在性能和效率之間保持出色平衡。

通過上述解決方案,本文提出的Meta-Chunking方法顯著提升了基于RAG的單跳和多跳問答性能,同時在效率和成本節約方面表現出優越性能,解決了傳統文本分段方法在邏輯連貫性、資源和時間效率、細粒度和粗粒度分段平衡、長文本處理以及跨語言適應性等方面的不足。

Meta-Chunking

圖片

Meta-Chunking是一種創新文本分段技術,利用LLMs的能力靈活地將文檔分割成邏輯連貫的獨立塊。方法是基于一個核心原則:允許塊大小的可變性,以更有效地捕捉和保持內容的邏輯完整性。這種粒度的動態調整確保每個分段塊包含一個完整且獨立的表達,從而避免分段過程中邏輯鏈的中斷。這不僅增強了文檔檢索的相關性,還提高了內容清晰度。

如上圖所示,方法整合了傳統文本分段策略的優勢,如遵守預設塊長度約束和確保句子結構完整性,同時在分段過程中增強了保證邏輯連貫性的能力。關鍵在于引入了一個介于句子級和段落級文本粒度之間的新概念:Meta-Chunking。一個元塊由段落中順序排列的句子集合組成,這些句子不僅共享語義相關性,更重要的是包含深層語言邏輯聯系,包括但不限于因果、過渡、并行和漸進關系。這些關系超越了單純的語義相似性。為了實現這一目標,論文中設計和實現了以下兩種策略。

邊際采樣分段

給定一段文本,初始步驟將其分割成一系列句子,記為,最終目標是進一步將這些句子分割成若干塊,形成新集合,每個塊包含原始句子的連貫分組。該方法可以表述為:

其中表示二分類決策,表示在和之間形成指令,關于它們是否應合并,其中包含單個句子或多個句子。通過模型獲得的概率,我們可以推導出兩個選項之間的概率差異。隨后,通過將與閾值進行比較,可以得出兩個句子是否應分段的結論。對于的設置,我們最初將其賦值為0,然后通過記錄歷史的并計算其平均值進行調整。

困惑度分段

同樣,論文中將文本分割成句子,并使用模型計算每個句子基于前面句子的困惑度:

其中表示中的總token數,表示中的第個token,表示所有在之前的token。為了定位文本分段的關鍵點,算法進一步分析的分布特征,特別是識別最小值:

這些最小值被視為潛在的塊邊界。如果文本超出LLMs或設備的處理范圍,論文策略性地引入鍵值(KV)緩存機制。具體來說,文本首先根據token分成若干部分,形成多個子序列。隨著困惑度計算的進行,當GPU內存即將超過服務器配置或LLMs的最大上下文長度時,算法適當地移除先前部分文本的KV對,從而不會犧牲太多的上下文連貫性。

困惑度分段的理論分析

LLMs旨在學習一個分布¥Q¥,使其接近樣本文本的經驗分布。為了量化這兩個分布之間的接近程度,通常使用交叉熵作為度量。在離散場景下,相對于的交叉熵正式定義如下:

其中表示經驗熵,是和之間的Kullback-Leibler(KL)散度。LLMs的困惑度在數學上定義為:

需要注意的是,由于是不可優化的且有界,真正影響不同LLMs困惑度計算差異的是KL散度,它作為評估分布差異的度量。KL散度越大,兩個分布之間的差異越大。此外,高困惑度表明LLMs對真實內容的認知幻覺,這些部分不應被分段。

另一方面,Shannon(1951)通過函數近似任何語言的熵:

其中表示文本序列中的個連續token ,熵可以表示為:

然后,基于論文附錄A.1中的證明,對所有成立,可以推導出:

通過上面的公式可以觀察到對于大規模文本處理任務,增加上下文長度往往會降低交叉熵或困惑度,這一現象反映了LLMs在捕獲更廣泛的上下文信息后進行更有效的邏輯推理和語義理解的能力。

實驗

論文在十一個數據集上的廣泛實驗,驗證了Meta-Chunking策略在提升基于RAG的單跳和多跳問答性能方面的有效性。具體數據請參看原論文。

論文地址:https://arxiv.org/pdf/2410.12788

github: https://github.com/IAAR-Shanghai/Meta-Chunking

責任編輯:龐桂玉 來源: 簡單的機器學習
相關推薦

2021-08-30 09:25:25

Bert模型PyTorch語言

2024-01-19 09:27:28

2022-10-09 08:00:00

機器學習文本分類算法

2017-08-04 14:23:04

機器學習神經網絡TensorFlow

2025-10-30 00:00:00

2019-03-21 14:30:15

Linux文本分析命令

2019-11-06 16:40:31

awkLinux文本分析工具

2018-09-14 11:00:33

操作系統存儲管理

2023-11-28 09:00:00

機器學習少樣本學習SetFit

2023-08-03 07:24:40

MetaAI 語言模型

2024-10-30 16:59:57

Python機器學習

2021-03-06 07:00:00

awk文本分析工具Linux

2020-07-07 10:50:19

Python丄則表達文本

2020-12-31 05:37:05

HiveUDFSQL

2025-08-15 10:45:45

2020-03-23 08:00:00

開源數據集文本分類

2025-06-05 11:49:21

AI模型數據

2016-12-23 10:56:34

linuxshellawk

2010-01-05 16:55:44

JSON 文本

2025-06-25 07:08:09

grepsedawk
點贊
收藏

51CTO技術棧公眾號

国产亚洲综合久久| 亚洲少妇30p| 91黑丝高跟在线| 中文字幕在线观看免费高清| 国产精品亚洲成在人线| 亚洲免费在线视频| 国产伦精品一区二区三毛| 一级成人黄色片| 欧美国产美女| 欧美videossexotv100| 久久综合网hezyo| 日韩av电影免费播放| 国产男男gay体育生网站| 在线日韩欧美| 自拍亚洲一区欧美另类| 岛国精品一区二区三区| av在线不卡精品| 亚洲午夜在线电影| 视频在线99re| 免费观看黄色一级视频| 日本不卡123| 久久频这里精品99香蕉| 四季av中文字幕| 极品国产人妖chinesets亚洲人妖 激情亚洲另类图片区小说区 | 国产成人精品av| 久久久久久久久久综合| 精品一区二区三区中文字幕老牛| 欧美日韩国产免费| 欧美牲交a欧美牲交| 黄网站视频在线观看| 久久久久久久久蜜桃| av成人在线电影| 一级aaaa毛片| 日本三级亚洲精品| 日本久久91av| 日韩欧美亚洲国产| 欧美ab在线视频| 色七七影院综合| 天天躁夜夜躁狠狠是什么心态| 伦理一区二区三区| 欧美一区二区三区日韩| 天天影视综合色| 小早川怜子影音先锋在线观看| 亚洲自拍偷拍综合| 91成人在线视频观看| 一本一道波多野毛片中文在线| 久久午夜电影网| 黑人另类av| 亚洲欧美另类日韩| 国产成a人无v码亚洲福利| 91久久国产精品91久久性色| 最新中文字幕免费| 视频在线观看一区| 热久久99这里有精品| 亚洲精品视频在线观看免费视频| 欧美精品啪啪| 亚洲天堂2016| 欧美专区日韩专区| 国产女大学生av| av免费不卡| 一区二区三区**美女毛片| dy888午夜| 91精品久久| 一区二区三区精品视频| 日韩欧美猛交xxxxx无码| 青春草在线视频| 亚洲自拍偷拍欧美| 日本韩国欧美在线观看| 最新中文字幕在线播放| 色偷偷久久人人79超碰人人澡| 人妻内射一区二区在线视频| 一区二区视频免费完整版观看| 欧美性淫爽ww久久久久无| 黄色手机在线视频| 日本99精品| 亚洲激情自拍图| 好吊视频在线观看| 欧美va久久久噜噜噜久久| www.国产精品一二区| 九九精品在线观看视频| 999在线观看精品免费不卡网站| 欧美最顶级的aⅴ艳星| www.av88| 成人免费视频播放| 欧美裸体网站| av毛片在线免费| 婷婷激情综合网| 99热手机在线| 免费欧美网站| 亚洲免费电影一区| 成人免费黄色小视频| 亚洲精品乱码久久久久久蜜桃麻豆| 日韩av电影在线播放| 国产在成人精品线拍偷自揄拍| 国产电影一区在线| 欧美日韩在线观看一区二区三区| 在线观看的av| 成人免费毛片嘿嘿连载视频| 日韩精品最新在线观看| 成人在线app| 亚洲444eee在线观看| 久久久久久久久久久福利| 亚洲私拍视频| 91精品欧美一区二区三区综合在| 亚洲午夜久久久久久久久| 希岛爱理av免费一区二区| 一区二区亚洲精品国产| 久久机热这里只有精品| 久久美女性网| 亚洲最大福利网站| 亚洲人成色777777老人头| 国产精品三级视频| 国产人妻777人伦精品hd| av亚洲一区二区三区| 91精品国产综合久久久久久久| 国产人成视频在线观看| 久久精品国产68国产精品亚洲| 久久久噜噜噜久久中文字免| 91成年人视频| 91麻豆免费看| 无码毛片aaa在线| 精品日韩视频| 亚洲精品电影久久久| 精品丰满少妇一区二区三区| 在线精品一区| 国产一区视频在线播放| 日韩私人影院| 一区二区不卡在线播放| 日日噜噜夜夜狠狠| 美女视频亚洲色图| 欧美老少配视频| 亚洲视频在线免费播放| 国产嫩草影院久久久久| 九一国产精品视频| 日本精品视频| 久久精品99久久久久久久久| 中文字幕在线观看视频免费| 国产成人日日夜夜| 亚洲国产婷婷香蕉久久久久久99 | 欧美日韩高清区| 免费在线不卡av| av电影在线观看不卡| 黄黄视频在线观看| 国产欧美在线观看免费| 亚洲乱码国产乱码精品精| 国产成人精品一区二三区| 福利一区福利二区| 9999在线观看| 色综合视频一区二区三区日韩| 亚洲图片在区色| 亚洲欧美一区二区三区在线观看| 国内外成人在线| 亚洲色图都市激情| 外国成人毛片| 中文字幕亚洲一区二区三区五十路 | 国精产品一品二品国精品69xx| 亚洲天堂a在线| 老司机午夜性大片| 久久国产中文字幕| 国产精品一区二区久久国产| 成人午夜电影在线观看| 一区二区不卡在线视频 午夜欧美不卡在 | 18成人免费观看网站下载| 成人福利网站| 欧美一区二区三区四区高清| 欧美激情精品久久久久久免费| 久久精品午夜| 亚洲一二三区精品| 精品国产鲁一鲁****| 久久最新资源网| 国内老熟妇对白xxxxhd| 一级做a爱片久久| 亚洲少妇一区二区| 欧美精品一卡| 久久综合一区| 国产亚洲一区二区手机在线观看| 最近2019中文字幕mv免费看 | 亚洲精品日韩激情在线电影| av网址在线免费观看| 日韩你懂的在线播放| 久久免费播放视频| 91老师片黄在线观看| 99久久国产宗和精品1上映| 精品成人影院| 亚洲综合成人婷婷小说| 秋霞在线午夜| 亚洲精品美女在线观看播放| 国产乡下妇女做爰毛片| 国产欧美一区二区精品婷婷 | 国产美女视频91| 97在线国产视频| 宅男在线一区| 日韩美女在线看| 综合久久2o19| 日韩精品在线观看一区| 免费精品一区二区| 亚洲日穴在线视频| 欧美在线一级片| 日韩成人一区二区| 伊人久久大香线蕉成人综合网 | 国产精品三区在线| 美女福利一区二区| 美日韩丰满少妇在线观看| 天天综合网在线| 在线观看网站黄不卡| 欧美成人aaa片一区国产精品| 成人免费黄色在线| 三级在线视频观看| 国产高清一区| 鲁丝一区鲁丝二区鲁丝三区| 色综合.com| 欧美一级视频免费在线观看| 嫩草在线视频| 日韩av一区二区在线| 国产精品久久久午夜夜伦鲁鲁| 一区二区三区在线免费视频| 男人天堂av电影| 国产精品一区二区黑丝| 成人三级视频在线播放| 午夜电影亚洲| 特级西西444www大精品视频| 日韩高清一区| 92福利视频午夜1000合集在线观看| 欧产日产国产精品视频| 久久国产精品久久国产精品| 国内在线精品| 精品播放一区二区| 国产美女永久免费| 欧美吻胸吃奶大尺度电影| 国产精彩视频在线| 亚洲免费观看高清在线观看| 精品影片一区二区入口| 国产综合色在线视频区| 无码内射中文字幕岛国片| 亚洲麻豆视频| 无码毛片aaa在线| 清纯唯美综合亚洲| 欧美一区二区视频在线| 国内毛片久久| 精品久久久久久乱码天堂| 奇米一区二区| 成人激情综合网| 欧美香蕉视频| 欧美自拍视频在线| 国产羞羞视频在线播放| 欧美夫妻性生活xx| 日本最黄一级片免费在线| 国产亚洲综合久久| 九色在线免费| 亚洲欧美国内爽妇网| 婷婷伊人综合中文字幕| 日韩欧美色综合网站| 超碰免费在线97| 日韩一区二区精品葵司在线| 国产乱码一区二区| 91.成人天堂一区| 在线观看色网站| 欧美在线免费播放| 欧美一级淫片免费视频黄| 欧美日韩在线观看视频| 台湾佬中文在线| 一本大道久久精品懂色aⅴ| 麻豆成人免费视频| 色菇凉天天综合网| 怡红院av久久久久久久| 91福利资源站| 国产又大又黑又粗| 欧美一级爆毛片| 精品毛片在线观看| 欧美变态凌虐bdsm| 蜜臀av免费在线观看| 亚洲国产免费av| 国产高清视频免费最新在线| 国产一区二区三区三区在线观看 | 国产一级爱c视频| 国产日韩欧美一区在线| 欧美激情成人网| 日本成人在线不卡视频| 成年人性生活视频| 成人午夜视频福利| 波多野结衣影院| 久久亚洲捆绑美女| 亚洲高潮女人毛茸茸| 亚洲欧美在线观看| 少妇久久久久久被弄高潮| 亚洲午夜精品17c| 久久久久久久久久久久久av| 日本道色综合久久| 国产精品久久久久久久免费看 | 亚洲欧美一区二区三区孕妇| 国产一卡二卡在线播放| 色综合久久久久综合| 亚洲一级片免费看| 91精品国产91久久久久久一区二区 | 午夜久久电影网| 在线播放亚洲精品| 精品国产一区二区三区久久影院| 欧美色18zzzzxxxxx| 自拍亚洲一区欧美另类| heyzo高清国产精品| 国产啪精品视频| 国产精品毛片久久久| 欧美日韩最好看的视频| 婷婷久久国产对白刺激五月99| 国产精品久久久久久久乖乖| 国产精品最新自拍| 一二三区视频在线观看| 国产人妖乱国产精品人妖| 国产麻豆视频在线观看| 亚洲主播在线观看| 一本色道久久综合熟妇| 亚洲成人网av| 黄色片网站在线| 欧美亚洲日本网站| 日日夜夜综合| 亚洲欧美一区二区原创| 亚洲美女毛片| 性生活一级大片| 国产欧美一区二区精品仙草咪 | 日韩av地址| 欧美老女人性视频| 99re久久| 精品国产电影| 亚洲狠狠婷婷| 污污视频在线免费| 国产欧美日韩另类视频免费观看| 日本少妇做爰全过程毛片| 在线观看中文字幕不卡| 青青草在线免费视频| 欧美国产精品va在线观看| 福利一区二区三区视频在线观看| 国产综合动作在线观看| 中文在线日韩| 四虎1515hh.com| 国产精品国产自产拍在线| 探花视频在线观看| 亚洲大胆人体av| av免费在线网站| 91超碰在线免费观看| 欧美疯狂party性派对| 免费男同深夜夜行网站| 99精品久久只有精品| 久久机热这里只有精品| 亚洲第一级黄色片| 在线中文字幕电影| 成人精品一区二区三区| 99久久久国产精品美女| 国产美女三级视频| 久久一留热品黄| av大全在线观看| 亚洲精品www| 在线观看的黄色| 精品国产一区二区三区麻豆小说 | 97品白浆高清久久久久久| 国产一二三四五| 国产一区二区看久久| 91高清免费看| 精品成人在线观看| 久热在线观看视频| 精品麻豆av| 欧美一级一区| 蜜桃精品一区二区| 色久综合一二码| аⅴ资源新版在线天堂| 国产精品日韩专区| 98精品久久久久久久| 无人码人妻一区二区三区免费| 最新中文字幕一区二区三区| 国产日韩精品suv| 久久99久久亚洲国产| 亚洲三区欧美一区国产二区| 高清在线观看免费| 久久久另类综合| 中文字幕一级片| 精品国产欧美成人夜夜嗨| 国产95亚洲| av在线观看地址| 2021国产精品久久精品| 久草热在线观看| 在线免费看av不卡| 日韩中文字幕视频网| 波多野结衣50连登视频| 久久精品亚洲一区二区三区浴池| 国产又粗又猛又爽又| 欧美www在线| 欧美亚视频在线中文字幕免费| 成人午夜视频免费在线观看| 亚洲国产精品精华液ab| 亚洲综合视频在线播放| 国模吧一区二区三区| 国产精品三级| 在线播放av中文字幕| 亚洲五月六月丁香激情| 91福利在线视频| 999国内精品视频在线| 99视频一区| 2017亚洲天堂| 日韩欧美在线1卡| 欧美成人黑人| 成人免费a级片|