精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

RAG 分塊新突破！LGMGC 框架讓抽取式問答效率翻倍?

作者：Goldma 2025-10-29 12:00:00

今天要為大家介紹的 Logits-Guided Multi-Granular Chunker（LGMGC）框架，正是針對這一痛點提出的創新解決方案，讓文檔分塊既 “懂語義” 又 “多粒度”，大幅提升抽取式問答效果。

在檢索增強生成（RAG）技術席卷開放域問答（ODQA）領域的當下，多數研究者的目光都聚焦在檢索算法優化與生成模型升級上，卻忽略了一個關鍵環節 —— 文檔分塊。看似簡單的分塊過程，實則是決定 RAG 性能的 “隱形基石”：若分塊缺乏上下文，檢索到的信息碎片化；若分塊包含過多無關內容，生成器又會被冗余信息干擾。今天要為大家介紹的 Logits-Guided Multi-Granular Chunker（LGMGC）框架，正是針對這一痛點提出的創新解決方案，讓文檔分塊既 “懂語義” 又 “多粒度”，大幅提升抽取式問答效果。

01、為什么 RAG 分塊需要 “重新被重視”？

在聊 LGMGC 之前，我們先搞清楚：為什么分塊環節值得投入精力研究？

RAG 的 “短板” 藏在分塊里

RAG 模型的工作流程可拆解為 “分塊 - 檢索 - 合成” 三步。前兩步中，檢索器負責從海量文檔中找相關信息，合成器（LLM）負責基于檢索結果生成答案。但如果分塊環節出了問題，后續環節再優秀也難以發揮作用：

若分塊過小（如單句分塊），會丟失句子間的邏輯關聯，比如描述 “某實驗步驟” 的文本被拆分成多個孤立句子，檢索器無法捕捉完整流程；
若分塊過大（如整段分塊），會混入大量與查詢無關的內容，比如在 “AI 醫療診斷” 查詢中，檢索到的分塊包含大量 AI 基礎理論，反而干擾答案提取。

現有分塊方法的 “兩難困境”

目前主流的分塊方法，始終面臨 “語義連貫性” 與 “效率成本” 的兩難：

傳統分塊（遞歸分塊、語義分塊）：遞歸分塊按固定長度切割文本，完全忽略語義；語義分塊雖能通過句子嵌入距離識別分隔點，但難以確定 “最優分塊粒度”，比如對學術論文和小說，最優分塊長度差異極大，傳統方法無法自適應。
LLM 直接分塊：近年來有研究用 GPT-4、Gemini-1.5 等大模型直接劃分文本，雖能保證語義完整，但成本極高 —— 企業處理百萬級文檔時，頻繁調用 LLM API 的費用難以承受；同時，將敏感文檔上傳至第三方 API，還會引發數據安全風險。

正是在這樣的背景下，LGMGC 框架應運而生，它既借助 LLM 的語義理解能力，又規避了高成本與安全風險，還能實現多粒度分塊，完美解決了現有方法的痛點。

02、LGMGC 框架：兩大模塊實現 “語義 + 多粒度” 分塊

LGMGC 的核心思路是 “先找完整語義塊，再拆多粒度子塊”，整個框架由Logits-Guided Chunker（基于 Logits 的分塊器）和Multi-Granular Chunker（多粒度分塊器）兩大模塊組成，二者協同工作，兼顧語義完整性與檢索靈活性。

模塊 1：Logits-Guided Chunker

該模塊的核心是 “利用預訓練 LLM 的 Logits 信息，識別文本中的完整語義單元”。簡單來說，LLM 能預測每個 token 的后續概率分布，而句子結束標記（[EOS]）的概率，恰好能反映當前句子是否構成 “完整語義”。

具體實現分為 4 步，邏輯清晰且易于部署：

預處理：固定長度初分：先將輸入文檔按固定長度 θ（如 200/300/500 個單詞）切割成初始塊，避免文本過長導致 LLM 處理壓力；
算概率：聚焦 [EOS] 標記：給每個初始塊加一個提示（如 “請判斷以下句子是否完整，若完整則輸出 [EOS]”），然后讓 LLM 計算每個句子末尾 [EOS] 標記的條件概率 p [EOS]—— 概率越高，說明該句子越完整，越適合作為語義邊界；
定分割：選最高概率點：在初始塊中，選擇 p [EOS] 最高的位置作為分割點，分割點之前的文本即為 “語義完整的父塊”，剩余內容則與下一個初始塊拼接，進入下一輪迭代；
迭代：直到滿足閾值：重復上述步驟，直到剩余文本長度低于設定閾值，最終得到一系列 “上下文連貫、語義獨立” 的父塊。

這里有個關鍵優勢：該模塊僅需 LLM 的一次前向傳播（即輸出 Logits 信息），無需讓 LLM 生成完整文本，因此可使用本地部署的量化 LLM（如 8 位量化的 Llama3-8b），既降低了成本，又避免了數據外傳，完美適配企業場景。

模塊 2：Multi-Granular Chunker

檢索和生成對分塊粒度的需求完全不同：

檢索階段：需要小粒度塊 —— 塊越小，包含無關信息的概率越低，檢索精度越高；
生成階段：需要大粒度塊 —— 塊越大，包含的上下文越豐富，生成的答案越全面。

Multi-Granular Chunker 模塊的核心就是 “解耦“檢索” 與 “生成” 的粒度需求”，在父塊基礎上拆分出多粒度子塊，具體操作如下：

父塊打底：以 Logits-Guided Chunker 生成的 “語義完整父塊” 為基礎，確保子塊的語義根源是完整的；
子塊拆分：將每個父塊按 “θ/2” 和 “θ/4” 的長度拆分成兩個粒度的子塊（比如父塊是 400 個單詞，子塊就是 200 個和 100 個單詞）；
相似度聯動：推理時，父塊的相似度得分由其子塊的 “最高得分” 決定 —— 比如檢索 “某實驗的結論” 時，先計算所有子塊與查詢的相似度，取最高分作為對應父塊的得分；
選塊生成：最終選擇得分前 k 的父塊傳給 LLM 生成器，既保證了檢索精度（子塊篩選），又提供了完整上下文（父塊生成）。

整體流程：1+1>2 的協同效果

LGMGC 的整體流程可總結為 “兩步走”：

第一步：生成父塊：用 Logits-Guided Chunker 將文檔分割成語義完整的父塊，解決 “語義連貫性” 問題；
第二步：拆分多粒度子塊：用 Multi-Granular Chunker 將父塊拆分成不同粒度的子塊，解決 “檢索 - 生成粒度不匹配” 問題。

通過這種 “先整后分” 的邏輯，LGMGC 實現了 “1+1>2” 的效果：父塊保證了語義不破碎，子塊保證了檢索夠精準，二者結合讓后續的 RAG 流程效率大幅提升。

03、實驗驗證

為了驗證 LGMGC 的效果，研究者在段落檢索和開放域問答兩大任務中進行了對比實驗，選用了多個權威數據集和基線方法，結果證明 LGMGC 在所有指標上均表現最優。

實驗設置

數據集：

檢索任務：GutenQA（“大海撈針” 型數據集，每個問題的答案僅 1-2 句話，考驗檢索精度）；
問答任務：LongBench 單文檔數據集（含 NarrativeQA 敘事文本、QasperQA 學術論文、MultifieldQA 多領域文本，覆蓋不同文本類型，用于評估端到端的 RAG 性能）。

評價指標：

檢索任務：DCG@k（衡量檢索結果相關性與排名）、Recall@k（衡量檢索到相關證據的比例）；
問答任務：F1 分數（衡量預測答案與真實答案的匹配度）。

基線方法：遞歸分塊、語義分塊、段落級分塊、LumberChunker（LLM 直接分塊），以及 LGMGC 的兩個子模塊（LG Chunker、MG Chunker），確保對比的全面性。

段落檢索：語義連貫 + 多粒度 = 更高精度

實驗結果顯示，在不同塊大?。é?200/300/500）下，LGMGC 的表現始終碾壓基線：

Logits-Guided Chunker（LG Chunker）在不同塊大小（θ = 200、300、500 個單詞）下，始終優于Recursive Chunker、Semantic Chunker和Para Chunker。這表明 LG Chunker 在捕捉上下文連貫性和生成獨立、集中的語義塊方面具有顯著優勢。
LumberChunker在某些指標上略優于 LG Chunker，但 LG Chunker 更具成本效益且更易于部署。LumberChunker 需要遞歸調用 LLM API，而 LG Chunker 只需要一次前向傳播的 logits 信息，支持本地實現，避免了額外的計算成本和安全風險。
Multi-Granular Chunker（MG Chunker）也表現出顯著的性能提升，尤其是在多粒度分塊方面，能夠更好地適應不同類型的查詢需求。
LGMGC結合了 LG Chunker 和 MG Chunker 的優勢，在所有指標上均取得了最佳結果。LGMGC 不僅在語義連貫性方面表現出色，還在多粒度分塊方面展現了靈活性。

開放域問答：分塊優化讓 RAG 性能翻倍

在問答任務中，LGMGC 的優勢更明顯：

結果表明，與直接將整個文檔提供給生成器相比，應用RAG流程顯著提升了性能。關于分塊器的性能，結果與段落檢索評估中的結果一致。在使用最優塊大小的情況下，LGMGC在所有三個數據集上均表現出最高的性能，無論使用哪種檢索器和生成器。這表明，與現有基線相比，LGMGC在下游問答任務中能夠產生更優的結果。

04、總結

LGMGC 框架的創新之處，在于它跳出了 “要么重語義、要么重效率” 的傳統思維，通過 “Logits 引導語義分塊 + 多粒度適配需求” 的組合，為 RAG 分塊提供了全新范式。其核心價值可總結為三點：

語義更準：借助 LLM 的 Logits 信息，精準識別語義邊界，避免分塊碎片化；
成本更低：用本地量化 LLM 替代第三方 API，降低部署成本與安全風險；
適配性強：多粒度子塊能滿足檢索（小粒度）與生成（大粒度）的不同需求，適配學術、小說、新聞等多種文本類型。

當然，LGMGC 并非完美：目前它對超長篇文檔（如 10 萬字以上的書籍）的處理效率仍有提升空間；同時，塊大小 θ 的選擇仍需人工調試，未來若能實現 θ 的自適應調整，性能還能進一步提升。

但不可否認的是，LGMGC 為 RAG 技術的工程化落地提供了關鍵突破口 —— 對于企業而言，它既能提升問答系統的精度，又能控制成本與風險，是現階段分塊方案的優選。如果你正在搭建 RAG 系統，不妨試試 LGMGC，或許能讓你的系統性能實現 “質的飛躍”！

論文地址：https://arxiv.org/pdf/2501.09940

責任編輯：龐桂玉來源：小白學AI算法

RAG LGMGC 框架

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

一本大道久久a久久精二百| 我不卡伦不卡影院| 91九色最新地址| 在线国产精品网| 国产三级第一页| 亚洲人成毛片在线播放女女| 亚洲视频axxx| 四虎国产精品永久免费观看视频| 欧美亚洲日本精品| 国产精品久久久久一区二区三区 | 精品无码久久久久| 亚洲永久精品唐人导航网址| 在线不卡a资源高清| 男人添女人下部高潮视频在观看| 国产永久免费高清在线观看视频| 国内成人精品2018免费看| 91国产精品电影| 中国一级片在线观看| 日本国产精品| 日韩一区二区三区视频在线观看| 国产精品视频一区二区三区四区五区| 日本成人网址| 久久亚洲精精品中文字幕早川悠里| 成人激情春色网| 欧美性猛交bbbbb精品| 亚洲激情五月| 宅男66日本亚洲欧美视频| 丰满人妻一区二区三区免费视频棣| 国产成人a视频高清在线观看| 性做久久久久久免费观看欧美| 亚洲一区二区精品在线| 日韩在线免费看| 成人自拍视频在线观看| 国产在线精品播放| 中文字幕1区2区3区| 国产精品日韩久久久| 欧美国产日韩一区二区在线观看 | 红桃成人av在线播放| 亚洲第一二三四五区| 亚洲五月激情网| 国产亚洲人成a在线v网站| 色天使色偷偷av一区二区| 久久久久免费看黄a片app| 91高清在线观看视频| 日韩码欧中文字| 亚洲二区自拍| www.av在线播放| 国产视频亚洲色图| 欧美激情一区二区三区在线视频| 午夜小视频在线播放| av电影在线观看不卡| 成人xxxxx色| 亚洲爱爱综合网| 国产精品白丝jk黑袜喷水| 成人午夜一级二级三级| 97人妻人人澡人人爽人人精品| 日本va欧美va精品| 国产精品香蕉在线观看| 中文字幕观看在线| 蜜桃av噜噜一区| 国产美女久久久| 97caocao| 国产精品一区二区久激情瑜伽| 91嫩草视频在线观看| 精品久久久免费视频| 国产精品一区二区不卡| 成人女人免费毛片| 日韩中文字幕免费在线观看| 99视频一区二区| 日本精品一区二区三区不卡无字幕| 五月婷婷丁香花| 久久久久国产精品免费免费搜索| 欧美系列一区| 午夜看片在线免费| 亚洲综合在线免费观看| xxxx18hd亚洲hd捆绑| 黑人巨大亚洲一区二区久| 欧美性高清videossexo| 三级性生活视频| 99久久免费精品国产72精品九九| 亚洲成年人在线播放| ass精品国模裸体欣赏pics| 欧美日中文字幕| 麻豆国产va免费精品高清在线| 九九久久免费视频| 午夜一区不卡| 国产精品网址在线| 亚洲欧美高清视频| 久久久久国产精品厨房| 国产精品jizz在线观看老狼| 密臀av在线| 在线观看亚洲a| 中文字幕55页| 免费观看不卡av| 欧美xxxx18性欧美| 黄色免费av网站| 国产在线精品视频| 精品国产免费久久久久久尖叫 | 久久成人精品电影| 黄色免费av网站| 国产精品原创巨作av| 欧美精品尤物在线| av片在线观看网站| 色婷婷av一区二区三区大白胸| 日本中文字幕观看| 夜夜春成人影院| 久久影院中文字幕| 小泽玛利亚一区二区三区视频| 国产精品一区二区你懂的| 秋霞毛片久久久久久久久| 啪啪免费视频一区| 精品视频在线免费看| 污污内射在线观看一区二区少妇| 97视频热人人精品免费| 1769国产精品| www.四虎在线观看| 国产精品国产三级国产aⅴ中文 | 亚洲国产一区二区精品视频| 波多野结衣中文在线| 欧美精品123区| 91成年人网站| 在线免费观看欧美| 91久色国产| 国产cdts系列另类在线观看| 91国产丝袜在线播放| 先锋资源av在线| 自拍欧美日韩| 国产一区二区丝袜高跟鞋图片| 四虎在线观看| 午夜国产不卡在线观看视频| 久久久九九九热| 成人在线电影在线观看视频| 全球成人中文在线| 天堂а在线中文在线无限看推荐| 亚洲综合无码一区二区| 色噜噜狠狠一区二区三区狼国成人| 国产一区二区三区电影在线观看| 97超碰蝌蚪网人人做人人爽| 欧美熟妇乱码在线一区| 亚洲综合视频在线观看| 又黄又爽又色的视频| 天天做天天爱综合| 成人国产精品久久久久久亚洲| h网站在线免费观看| 一本色道久久加勒比精品| 美国黄色一级毛片| 国产精品久久久久久久久久妞妞 | av一区二区高清| 日韩免费观看在线观看| 欧美婷婷久久五月精品三区| 亚洲成人精品一区| 国产美女视频免费观看下载软件| 在线国产精品一区| 精品一区在线播放| 国产精品av一区二区三区 | 色综合久久影院| 欧美色大人视频| 国产喷水在线观看| 精品一区二区三区免费播放 | 伊人久久久大香线蕉综合直播 | 一区二区三区欧美| 清纯唯美日韩| 亚洲专区国产精品| 欧美6一10sex性hd| 亚洲黄色在线观看| 久久久精品毛片| 国产精品久久久久影院亚瑟| 99久久99精品| 欧美午夜影院| 久久综合九色欧美狠狠| 精品欧美日韩精品| 久久在线免费视频| 香蕉视频网站在线| 91国在线观看| 欧美日韩精品亚洲精品| 91麻豆国产福利在线观看| 毛葺葺老太做受视频| 99久久综合| 国产伦精品一区二区三区视频免费| 美女视频在线免费| 这里只有精品丝袜| 欧美日韩国产成人在线 91| 狠狠躁18三区二区一区| 色www亚洲国产阿娇yao| 国产91丝袜在线播放九色| 日韩精品一区二区三区久久| 第一sis亚洲原创| 国产福利久久| 韩日精品一区| 欧美国产第一页| 第九色区av在线| 欧美一二三四在线| www毛片com| 亚洲精品亚洲人成人网在线播放| 波多野结衣先锋影音| 裸体一区二区三区| 国产素人在线观看| 欧美韩日高清| 国产在线一区二| 精品九九久久| 国产91ⅴ在线精品免费观看| 国产激情小视频在线| 日韩精品免费在线视频观看| 国产精品国产三级国产aⅴ| 欧美午夜电影在线| 成年人av电影| 中文字幕av免费专区久久| 日韩Av无码精品| 激情久久五月天| 精品视频一区二区在线| 欧美日韩一区自拍| 亚洲欧洲国产精品久久| 你懂的一区二区三区| 99久久精品免费看国产一区二区三区 | 中文字幕av不卡| 爱爱的免费视频| 丁香桃色午夜亚洲一区二区三区| 一本色道久久亚洲综合精品蜜桃| 亚洲区一区二| www插插插无码免费视频网站| 欧美日韩激情在线一区二区三区| 国产伦精品一区二区三区高清版| 电影中文字幕一区二区| 国产精品日韩在线一区| 欧美7777| 国产91av在线| 玖玖在线播放| 国外成人在线视频| 免费男女羞羞的视频网站在线观看 | 国产麻豆剧传媒精品国产av| 国产二区国产一区在线观看| 日韩成人精品视频在线观看| 日本成人中文字幕| 中文字幕第21页| 性感少妇一区| 欧美日韩激情| 亚洲麻豆av| 3d动漫一区二区三区| 亚洲午夜一级| 国产精品日韩三级| 激情欧美日韩| 99在线免费视频观看| 欧美日韩三级电影在线| 国产亚洲精品久久久久久久| 综合久久久久| 成人午夜视频免费观看| 影视一区二区| 特级西西人体www高清大胆| 亚洲国产不卡| 国产精品av免费观看| 国内久久视频| 极品粉嫩国产18尤物| 悠悠资源网久久精品| 日本a视频在线观看| 亚洲麻豆视频| www黄色av| 日本不卡一区二区| 成人不卡免费视频| 国产成人亚洲精品狼色在线 | 中文字幕人妻一区二区在线视频| 欧美在线一二三| 一本色道久久综合无码人妻| 91麻豆精品国产91久久久更新时间| 国产女18毛片多18精品| 日韩欧美你懂的| 四虎在线视频免费观看| 日韩精品免费在线观看| www.亚洲视频| 久久6精品影院| 精品极品在线| 国产精品爽爽爽爽爽爽在线观看| 欧美综合影院| caoporen国产精品| 免费短视频成人日韩| 亚洲一区美女| 黄色欧美成人| 色诱视频在线观看| 国产呦精品一区二区三区网站| 无码人妻丰满熟妇区毛片蜜桃精品| 99久久综合狠狠综合久久| 成人做爰69片免网站| 亚洲精品久久久蜜桃| 伊人久久综合视频| 欧美日韩国产高清一区二区三区| www.国产麻豆| 亚洲天堂免费视频| 99福利在线| 日韩女优人人人人射在线视频| 亚洲热av色在线播放| 狠狠干一区二区| 97久久夜色精品国产| 国自产拍偷拍精品啪啪一区二区| 男人的天堂久久精品| 亚洲av人人澡人人爽人人夜夜| 国产欧美日韩在线看| 国产污片在线观看| 欧美日韩免费视频| 天天综合天天色| 久久久极品av| 日韩av中字| 国产精品久久久久免费| 日韩欧美伦理| 欧美女人性生活视频| 国产在线乱码一区二区三区| 日本黄色网址大全| 亚洲一区二区免费视频| 亚洲中文一区二区三区| 亚洲欧美激情在线视频| 日本片在线看| 成人黄色中文字幕| 国产探花在线精品一区二区| 亚洲色成人www永久在线观看| 麻豆成人久久精品二区三区小说| 亚洲午夜福利在线观看| 亚洲在线免费播放| 国产青青草视频| 有码中文亚洲精品| 在线中文字幕播放| 成人欧美一区二区三区视频xxx | 91麻豆精品国产综合久久久 | 国产精品久久久久久久久久10秀| 国产乱子夫妻xx黑人xyx真爽| 国产成+人+日韩+欧美+亚洲| 美国一级片在线观看| 欧美色综合影院| 你懂的视频在线| 欧美有码在线视频| 六月丁香久久丫| 无码人妻精品一区二区蜜桃网站| 久久精品国产99国产| 永久免费av无码网站性色av| 欧美三级xxx| 欧美日韩人妻高清中文| 欧美精品videosex性欧美| 成人综合日日夜夜| 激情五月五月婷婷| 国产乱妇无码大片在线观看| 男人av资源站| 这里只有精品电影| 久操视频在线观看| 91免费版网站入口| 久久久久久久久久久妇女| 五月天婷婷亚洲| 综合欧美亚洲日本| av免费在线不卡| 欧美大尺度激情区在线播放| 欧美午夜网站| 天天做天天躁天天躁| 国产成a人无v码亚洲福利| 国产亚洲精品久久久久久打不开| 欧美成人性福生活免费看| 四虎影院观看视频在线观看| 97久久人人超碰caoprom欧美| 黄色免费成人| 亚洲成人av免费在线观看| 欧美午夜精品伦理| 国产黄色片在线播放| 国产精品视频在线观看| 水蜜桃久久夜色精品一区| 在线免费看v片| 亚洲永久免费视频| 手机看片国产1024| 国产精品av在线播放| 91一区二区三区四区| 久久久精品视频国产| 亚洲动漫第一页| 免费毛片在线| 国产精品亚洲片夜色在线| 一区二区影院| 在线黄色免费网站| 在线视频欧美区| 乱人伦中文视频在线| 国产美女精品久久久| 久久这里只有| 三级黄色录像视频| 欧美精品一区二区精品网| 这里有精品可以观看| 黄色一级片网址| av一本久道久久综合久久鬼色| 波多野结衣理论片| 欧美成人午夜激情视频| 日本国产精品| 一级黄色在线播放| 婷婷成人激情在线网| 8888四色奇米在线观看| 国产免费高清一区| 美女视频免费一区| 国产无套内射又大又猛又粗又爽| 亚洲欧美日韩视频一区| 国产精品美女久久久久| 亚洲精品无码久久久久久| 亚洲精品中文在线观看| 黄视频在线播放| av成人观看| 日本在线不卡视频| 国产精品suv一区二区| 中国人与牲禽动交精品| h视频久久久| 日韩av片专区| 富二代精品短视频|