精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG 中的語義分塊:實現更優的上下文檢索

人工智能
語義分塊是RAG技術中不可或缺的關鍵環節。它通過優化文檔的分割方式,提升了上下文檢索的效果,進而顯著提高了RAG系統的性能。

檢索增強生成(RAG)技術異軍突起,席卷了整個大語言模型領域。通過將大語言模型(LLMs)的強大能力與外部知識檢索相結合,RAG使得模型能夠生成準確且有依據的回復,即便在專業領域也不例外。在每一個表現卓越的RAG流程背后,都有一個默默發揮關鍵作用的 “英雄”:分塊技術,尤其是語義分塊。

RAG生態系統與分塊的作用

RAG代表了人工智能系統獲取和利用知識方式的重大變革。傳統的大語言模型僅依賴于其預先訓練的知識,這可能存在局限性或時效性問題。RAG通過在生成過程中從外部資源(如數據庫、文檔或互聯網)檢索相關信息,很好地解決了這一局限性。這些外部知識就像補充彈藥,極大地擴展了模型的知識邊界,使其能夠應對各種復雜問題。

在RAG流程中,分塊是至關重要的一環。分塊指的是在對文檔進行嵌入和索引之前,將其分割成較小單元的過程。這些分塊在查詢時被檢索出來,并輸入到大語言模型中用于生成回復。然而,分塊并非簡單的切割操作,其方式直接影響著RAG系統的性能。如果分塊過大,它們可能無法適配模型的上下文窗口,導致信息丟失;而如果分塊過小或分割不當,語義信息會被破壞,使模型難以理解和處理,進而影響最終回復的質量。

分塊面臨的挑戰

以一段醫學文章為例,假設內容如下:“蝙蝠俠主要在哥譚市活動,這是一個犯罪猖獗、腐敗橫行的大都市。他的宿敵小丑在混亂和不可預測中如魚得水。盡管布魯斯·韋恩資助了哥譚市的許多社會項目,但他仍在為自己作為億萬富翁和義警的雙重身份而苦苦掙扎。” 如果使用簡單的分塊方法,可能會將其分割為:

  • 分塊1:“蝙蝠俠主要在哥譚市活動,這是一個犯罪猖獗的”
  • 分塊2:“大都市,腐敗橫行。他的宿敵小丑,”
  • 分塊3:“在混亂和不可預測中如魚得水。盡管布魯斯·韋恩”
  • 分塊4:“資助了哥譚市的許多社會項目,但他仍在為......”

此時,若用戶提問:“是什么讓蝙蝠俠的生活如此矛盾?” 檢索器可能會隨機獲取到句子中間的某個分塊,或者遺漏關于他雙重身份的關鍵信息,進而導致給出的答案籠統或錯誤。這清晰地展現了不恰當分塊帶來的問題,突出了語義分塊的重要性和必要性。

語義分塊詳解

語義分塊旨在以一種保留每個單元有意義、自包含上下文的方式分割文檔。它尊重自然的邊界,比如段落、句子或主題,確保每個分塊都能獨立回答相關的查詢。實現語義分塊通常涉及以下幾個關鍵步驟:

  1. 句子邊界檢測

準確識別句子的起止位置,這是保留語義完整性的基礎。因為句子是表達完整思想的基本語言單位,正確劃分句子邊界有助于將相關信息歸為一組。

  1. 主題建模或基于嵌入的分割

主題建模可以分析文檔內容,將具有相似主題的部分劃分為一個分塊。基于嵌入的分割則利用詞或句子的嵌入向量,通過計算向量之間的相似度來確定分割點,在語義發生變化的地方進行分割,使每個分塊內的語義更加連貫。

  1. 使用重疊窗口保留上下文

為了避免在分割過程中丟失上下文信息,通常會采用重疊窗口的方法。即相鄰分塊之間有一定比例的重疊內容,這樣可以確保在檢索和處理分塊時,前后信息能夠相互關聯,增強模型對上下文的理解。

分塊策略對比

常見的分塊策略有多種,從簡單到語義化程度高依次介紹如下:

  • 固定大小分塊(簡單方法)

在Python的LangChain庫中,可以使用 CharacterTextSplitter 進行固定大小分塊。示例代碼如下:

from langchain.text_splitter import CharacterTextSplitter
splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = splitter.split_text(document)

這種方法的優點是簡單直接,易于實現。但它存在明顯的缺陷,可能會在句子中間進行分割,破壞句子的完整性和上下文連貫性,影響語義的表達。

  • 基于句子的分塊

借助 NLTKTextSplitter 可以實現基于句子的分塊,示例代碼為:

from langchain.text_splitter import NLTKTextSplitter
splitter = NLTKTextSplitter(chunk_size=3, chunk_overlap=1)
chunks = splitter.split_text(document)
  • 該方法能夠保留句子邊界,一定程度上保證了語義的完整性。然而,它可能仍然會在分塊過程中分割主題,導致一個主題被分散到多個分塊中,不利于模型對完整主題的理解和處理。
  • 遞歸分塊

RecursiveCharacterTextSplitter 提供了遞歸分塊的功能,代碼如下:

from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
 separators=["\n\n", "\n", ".", " ", ""],
 chunk_size=500,
 chunk_overlap=100
)
chunks = splitter.split_text(document)

遞歸分塊嘗試在較大的邊界(如段落、句子、單詞)上進行分割,能夠在分塊長度和語義保持之間取得較好的平衡。不過,它可能仍然需要根據具體應用場景進行微調,以達到最佳效果。

  • 基于嵌入的語義分塊(高級方法)

這種技術利用句子嵌入來在語義發生變化的地方分割文本。示例代碼如下: 

from sentence_transformers import SentenceTransformer, util
import nltk
model = SentenceTransformer('all-MiniLM-L6-v2')
sentences = nltk.sent_tokenize(document)
embeddings = model.encode(sentences)
similarities = [util.cos_sim(embeddings[i], embeddings[i+1]) for i in range(len(embeddings)-1)]
chunks = []
chunk = [sentences[0]]
for i, score in enumerate(similarities):
    if score < 0.6:  # 可根據需要調整閾值
        chunks.append(" ".join(chunk))
        chunk = []
    chunk.append(sentences[i+1])
if chunk:
    chunks.append(" ".join(chunk))

基于嵌入的語義分塊能夠真正實現語義層面的分割,對于包含豐富主題的文檔效果顯著。但它的計算復雜度較高,處理速度相對較慢,實現過程也更為復雜。

評估分塊質量

分塊策略的優劣直接影響RAG系統下游的各個環節,因此評估分塊質量至關重要。可以從以下幾個方面進行評估:

指標

  • 與真實情況的分塊重疊度(如使用Recall@k指標)通過計算分塊與理想分塊(真實情況)的重疊比例,衡量分塊的準確性。重疊度越高,說明分塊結果越接近理想狀態,能夠更好地保留相關信息。
  • 嵌入一致性(分塊內相似度應較高)評估分塊內文本的嵌入向量之間的相似度。如果分塊內的文本相似度高,意味著分塊內的語義連貫性好,模型更容易理解和處理。
  • 模型回答準確率(端到端RAG評估)通過實際輸入查詢,觀察模型基于分塊生成的回答的準確率。這是最直接評估分塊策略對RAG系統整體性能影響的指標。

工具

  • LangChain RAG評估器LangChain庫提供的評估器可以方便地對RAG系統進行評估,包括對分塊效果的評估。
  • Ragas這是一個專門用于評估RAG系統的工具包,能夠從多個維度對分塊質量進行分析。
  • 帶有真實相關性標簽的自定義問答對通過創建自定義的問答對,并標注問題與答案之間的相關性,可以針對性地評估分塊策略在特定任務上的表現。

最佳實踐

為了實現有效的語義分塊,需要遵循以下最佳實踐:

  1. 優先選擇基于句子或語義感知的分塊方式

這種方式能夠更好地保留語義信息,提高模型對上下文的理解能力。

  1. 合理使用分塊重疊

通常,50 - 100個標記的重疊是比較合適的。分塊重疊可以確保相鄰分塊之間的信息連貫性,避免因分割導致的上下文丟失。

  1. 根據具體應用場景調整分塊大小

不同類型的文檔(如法律文檔和推文)對分塊大小的要求不同。法律文檔通常內容復雜、信息量大,可能需要較大的分塊;而推文內容簡短,分塊大小應相應減小。

  1. 利用元數據(如標題、副標題)進行層次感知分塊

元數據可以提供文檔的結構信息,幫助在分塊時更好地考慮文檔的層次結構,使分塊結果更符合邏輯。

  1. 持續評估、迭代和重新訓練檢索器

隨著數據的變化和應用場景的調整,分塊策略可能需要不斷優化。通過持續評估分塊質量,對檢索器進行迭代和重新訓練,可以確保RAG系統始終保持良好的性能。

語義分塊在現實中的巨大影響

語義分塊對于實際的RAG系統來說至關重要,甚至可以決定系統的成敗。以一個企業應用案例(法律合同問答機器人)為例,從簡單分塊切換到遞歸 + 語義分塊后,取得了顯著的效果:

  1. 答案準確率提高23%

語義分塊使得機器人能夠更準確地理解問題的上下文,從合同文檔中檢索到更相關的信息,從而生成更準確的答案。

  1. 幻覺現象減少41%

在生成式模型中,幻覺是一個常見問題,即模型生成看似合理但實際上錯誤的信息。語義分塊通過提供更準確的上下文,有效減少了這種現象的發生。

  1. 檢索器命中率從62% 提升到87%

語義分塊優化了分塊的內容和結構,使檢索器能夠更精準地匹配用戶的查詢,大大提高了命中率。

語義分塊是RAG技術中不可或缺的關鍵環節。它通過優化文檔的分割方式,提升了上下文檢索的效果,進而顯著提高了RAG系統的性能。隨著人工智能技術的不斷發展,語義分塊技術也將不斷演進和完善,為更多領域的應用提供有力支持。無論是開發內部知識機器人,還是構建特定領域的智能助手,深入理解和應用語義分塊技術都將帶來巨大的優勢,推動人工智能應用向更加智能、高效的方向發展。

責任編輯:武曉燕 來源: 大模型之路
相關推薦

2025-05-09 03:55:00

2024-01-29 08:49:36

RAG模型檢索

2024-09-30 14:10:00

2017-05-11 14:00:02

Flask請求上下文應用上下文

2025-10-13 08:00:00

2025-05-09 07:50:30

2025-10-20 09:06:00

2025-10-27 08:25:01

2025-04-07 01:02:00

GoAPI語言

2022-09-15 08:01:14

繼承基礎設施基礎服務

2024-06-06 08:42:01

2025-02-26 00:16:56

RAGAI服務

2017-06-27 18:52:05

TensorFlow深度學習

2012-07-18 11:39:18

ibmdw

2025-06-26 07:00:00

上下文工程AI智能體

2021-09-07 09:53:42

JavaScript變量提升

2025-10-13 01:22:00

2024-09-05 08:24:09

2024-10-29 11:54:25

2012-12-31 10:01:34

SELinuxSELinux安全
點贊
收藏

51CTO技術棧公眾號

97一区二区国产好的精华液| 免费大片黄在线| 久久综合婷婷| 欧美xxxx综合视频| 国产精品边吃奶边做爽| 日韩不卡在线| 亚洲最新在线观看| 日本最新一区二区三区视频观看| 一级黄色大毛片| 91久久久久| 日韩一区二区精品视频| 99久久免费看精品国产一区 | 日韩精选在线| 欧美区在线观看| 99福利在线观看| 在线播放免费av| 欧美高清一级片在线观看| 国产高清在线一区二区| 姑娘第5集在线观看免费好剧| 欧美日韩免费观看一区=区三区| 亚洲色图美腿丝袜| 久久黄色一级视频| 丁香婷婷久久| 日韩欧美成人区| 欧美日韩中文字幕在线播放| eeuss影院www在线播放| av激情综合网| 91黄色国产视频| 一本色道久久综合无码人妻| 亚洲在线网站| 久久噜噜噜精品国产亚洲综合 | 一区在线播放视频| 欧美日韩国产综合视频在线| 亚洲第一天堂影院| 久久99国产精品久久99| 国产精品劲爆视频| 欧美一级特黄视频| 亚洲欧洲日本一区二区三区| 欧美成人在线网站| 99鲁鲁精品一区二区三区| 精品久久精品| 亚洲色图第一页| 中文字幕丰满孑伦无码专区| 老司机成人在线| 精品久久久久久综合日本欧美| 在线观看免费的av| 久久91视频| 欧美人伦禁忌dvd放荡欲情| 国产一级不卡毛片| 免费成人直播| 一本色道久久综合亚洲精品按摩| 国产网站免费在线观看| 国产在线精彩视频| 亚洲成人精品一区二区| 日本福利视频一区| heyzo高清国产精品| 亚洲国产精品天堂| 日韩亚洲欧美视频| 成人免费观看在线观看| 亚洲一区二区av电影| av动漫在线播放| 欧美xxxx性xxxxx高清| 亚洲国产日韩a在线播放| 欧美大黑帍在线播放| 成人免费高清观看| 婷婷久久综合九色国产成人| 黄网站欧美内射| 在线成人av观看| 91久久精品午夜一区二区| 亚洲天堂网一区| 在线不卡一区| 欧美大片免费久久精品三p| 最新中文字幕日本| 欧美人与动xxxxz0oz| 亚洲人成电影在线| 精品亚洲乱码一区二区| 欧美国内亚洲| 96精品视频在线| 天堂网一区二区| 久久精品999| 97se亚洲综合| 欧美午夜黄色| 国产精品久久夜| www插插插无码免费视频网站| 国产美女高潮在线观看| 91黄色激情网站| 中国黄色片一级| 精品三级在线观看视频| 国产亚洲精品高潮| 澳门黄色一级片| 久久精品人人| 7777奇米亚洲综合久久| 午夜激情小视频| 国产精品免费av| 日韩伦理在线免费观看| 在线成人视屏| 精品免费日韩av| 成人无码av片在线观看| 欧美精品入口| 国产精品入口日韩视频大尺度| www.日韩高清| 欧美极品少妇xxxxⅹ高跟鞋| h无码动漫在线观看| 日本一区二区三区视频在线| 欧美不卡一二三| 毛片aaaaaa| 国产精品视频久久一区| 成人有码在线视频| 久草在现在线| 午夜电影久久久| 中文字幕在线视频一区二区三区| 任我爽精品视频在线播放| 精品久久久av| 秋霞av一区二区三区| 精久久久久久久久久久| 日韩理论片在线观看| 狂野欧美激情性xxxx欧美| 欧美色爱综合网| 大乳护士喂奶hd| 欧美一区激情| 国产欧美中文字幕| 国产黄在线看| 欧美日韩国产丝袜另类| 久久免费精品国产| 欧美三级第一页| 91社区国产高清| 午夜视频在线观看网站| 色狠狠色狠狠综合| 国产精品一区二区入口九绯色| 欧美日韩第一区| 91热精品视频| 天堂аⅴ在线地址8| 色综合中文字幕国产| 日韩精品视频一区二区| 黄色av日韩| 成人18视频| 亚洲电影视频在线| 日韩午夜精品视频| 紧身裙女教师波多野结衣| 美女视频黄 久久| 五月天久久狠狠| 91精品韩国| 亚洲丝袜av一区| 久久久免费高清视频| 91亚洲永久精品| 91视频最新入口| 香蕉久久精品日日躁夜夜躁| 91av在线精品| 你懂的视频在线播放| 色综合亚洲欧洲| 97超碰在线免费观看| 久久www成人_看片免费不卡| 久久精精品视频| 另类激情视频| 一区二区三区亚洲| 一本色道久久综合亚洲| 亚洲麻豆国产自偷在线| 国产成人精品综合久久久久99| 欧美黄色一区| 99久久99久久| 免费一二一二在线视频| 亚洲欧洲激情在线| 少妇又紧又色又爽又刺激视频| 国产精品无人区| 亚洲黄色片免费| 国产综合欧美| 美女三级99| 国产一区高清| 麻豆成人在线看| 性一交一乱一乱一视频| 五月天亚洲精品| 巨胸大乳www视频免费观看| 欧美aaa在线| 色哺乳xxxxhd奶水米仓惠香| 久久97精品| 国产成一区二区| 免费a级毛片在线播放| 日韩一区二区在线观看| 国产精品一区二区6| 欧美高清在线精品一区| 男人添女人荫蒂国产| 亚洲主播在线| 一级黄色免费在线观看| 欧美aaaaa级| 国产狼人综合免费视频| 久久香蕉av| 视频在线观看一区二区| 欧美一级在线免费观看| 欧美视频中文字幕| 亚洲精品午夜久久久久久久| 国产日韩欧美在线一区| 亚洲妇女无套内射精| 久久一二三区| 成人小视频在线观看免费| 嫩草影视亚洲| 成人高清在线观看| aaaa欧美| 欧美一区二区色| 在线免费观看a视频| 亚洲香蕉在线观看| 性欧美18一19性猛交| 一本到高清视频免费精品| 麻豆明星ai换脸视频| 久久综合色之久久综合| 一本色道久久亚洲综合精品蜜桃| 国产精品s色| 一本色道久久综合亚洲精品婷婷 | 国产精品第二十页| 国产精品欧美精品| 内射中出日韩无国产剧情| 国产一区视频在线看| 精品免费国产一区二区| 伊人久久成人| 糖心vlog在线免费观看| 色777狠狠狠综合伊人| 美女视频久久| 久久av国产紧身裤| 亚洲自拍中文字幕| 欧美高清免费| 国产精品久久久久久久app| sm捆绑调教国产免费网站在线观看| 日韩专区中文字幕| 粉嫩av一区| 亚洲欧美一区二区精品久久久| 亚洲av少妇一区二区在线观看| 欧美日韩一区二区三区四区五区| 一级片中文字幕| 亚洲成人tv网| 久久久久久久久毛片| 亚洲丝袜自拍清纯另类| 你懂得视频在线观看| 久久久久久97三级| 草草地址线路①屁屁影院成人| 国产高清精品在线| 九九久久久久久| 精品一区二区三区香蕉蜜桃 | 欧美.com| 97人人干人人| 视频一区中文字幕精品| 91久久嫩草影院一区二区| 亚洲成人高清| 国产这里只有精品| av在线精品| 91免费视频国产| 视频一区日韩| 国产高清不卡av| 卡通动漫国产精品| 国产亚洲欧美一区二区三区| 国产伦精品一区二区三区在线播放| 99久热re在线精品996热视频| 美女精品久久| 豆国产97在线| 久久久久久毛片免费看| 久久精品国产精品青草色艺| 日韩av字幕| 麻豆91蜜桃| 青青草国产成人a∨下载安卓| 图片区小说区区亚洲五月| 欧美电影《睫毛膏》| 最近免费观看高清韩国日本大全| 亚洲一区二区日韩| 人妻av无码专区| 国产免费成人| 男女啪啪网站视频| 久久91精品久久久久久秒播| 九九热视频免费| 处破女av一区二区| 黄色短视频在线观看| 国产日产亚洲精品系列| 无码人妻精品中文字幕| 亚洲国产精品久久久久婷婷884| 四虎成人精品永久免费av| 婷婷综合久久一区二区三区| 无码人妻精品一区二区三区蜜桃91| 91久久精品国产91性色tv| 96日本xxxxxⅹxxx17| 精品久久久久久久久久久久久久久久久 | 蜜臀av一区二区三区| 婷婷中文字幕在线观看| 国产aⅴ综合色| 91l九色lporny| 亚洲视频免费观看| 国语对白永久免费| 欧美精品久久天天躁| 日韩一级免费毛片| 中文字幕亚洲无线码a| 肉肉视频在线观看| 国产91免费看片| 国产高清精品二区| 久久综合一区| 91成人网在线观看| 日韩av资源在线| 国产另类ts人妖一区二区| 欧美大片免费播放器| 中文字幕在线免费不卡| 日本三级中文字幕| 欧美日韩dvd在线观看| 免费观看黄一级视频| 中文字幕在线日韩| 黄色软件视频在线观看| 国产一区二区香蕉| 欧洲专线二区三区| 91网站在线观看免费| 日韩av成人高清| 自拍视频一区二区| 亚洲免费高清视频在线| 波多野结衣一二区| 亚洲黄页网在线观看| www国产在线观看| 国产成人综合一区二区三区| 精品少妇3p| 91嫩草国产丨精品入口麻豆| 日本视频在线一区| 国产三级视频网站| 亚洲中国最大av网站| 国产精品国产三级国产普通话对白| 国产视频亚洲精品| 91禁在线看| 99久久伊人精品影院| 午夜精品视频一区二区三区在线看| 2022亚洲天堂| 成人av在线影院| 波多野结衣爱爱视频| 欧美日韩精品二区第二页| 久久久久久青草| 欧洲成人在线视频| 国产精东传媒成人av电影| 丰满人妻一区二区三区53号| 精品写真视频在线观看| 婷婷国产成人精品视频| 欧美亚洲综合色| 人人九九精品| 欧美性视频精品| 日韩激情啪啪| 少妇高潮毛片色欲ava片| 国产成人在线观看| 唐朝av高清盛宴| 欧美一级理论片| gogo在线观看| 亚洲一区二区中文| 真实国产乱子伦精品一区二区三区| 中文字幕第一页在线视频| 日韩一区欧美小说| 91在线精品入口| 久久成人这里只有精品| 国产一区二区高清在线| 亚洲av综合色区| 国产999精品久久久久久绿帽| 久久精品一区二区三| 日韩视频123| 久操av在线| 精品乱码一区二区三区| 99精品视频免费观看| 国产全是老熟女太爽了| 欧美亚洲综合久久| 黄色网页在线看| 成人精品一二区| 国产精品毛片在线| 精品人妻一区二区三区四区| 欧美午夜免费电影| 日本免费视频在线观看| 91天堂在线视频| 亚洲成人直播| 精品人妻互换一区二区三区| 欧美色涩在线第一页| caoporn免费在线| 国产日韩精品久久| 日日夜夜精品免费视频| fc2ppv在线播放| 日韩精品一区二区三区老鸭窝| 久久青草伊人| 亚洲欧美日韩国产yyy| 国产风韵犹存在线视精品| 中日韩黄色大片| 最近中文字幕mv在线一区二区三区四区| 91视频成人| 欧美国产亚洲一区| 国产精品久久久久一区二区三区共| 欧美三级一区二区三区| 综合一区av| 久久久久久国产| 欧美男女视频| 男人天堂手机在线视频| 91香蕉国产在线观看软件| 午夜一级黄色片| 欧美另类69精品久久久久9999| 久久97精品| 久久久久xxxx| 天天综合天天综合色| 97电影在线| 国产区欧美区日韩区| 免费观看在线综合| 国产亚洲成人av| 在线观看国产精品日韩av| silk一区二区三区精品视频 | 国产一二三四区在线| 日韩一区二区精品葵司在线| 日韩电影网站| 亚洲中文字幕无码一区二区三区| 久久久久国产一区二区三区四区 |