精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Chunking:基于大模型RAG系統中的文檔分塊

原創 精選
人工智能
在RAG系統中, 文本分塊技術是必不可少的。對于大型文檔而言,可以嘗試采用面向主題感知的句子嵌入來提升RAG 系統的性能,使其生成更相關且一致的內容。

將大文檔分割成較小的分塊是一項關鍵而復雜的任務,對RAG系統的性能有著重大的影響。一般地,RAG系統旨在通過將基于檢索的方法和基于生成的方法相結合,提高產出的質量和相關性。有多種框架提供了文檔分塊方法,每種方法都有自己的優點和典型用例。或許,利用主題感知的句子嵌入來識別文檔中的主題變更,確保每個塊封裝一個主題會是一種不錯的選擇。

1.回顧RAG

RAG系統是一個復雜的機器學習模型,它融合了基于檢索的技術和生成式AI。RAG 系統的主要目標是通過合并從數據集中檢索的信息來提高生成內容的質量和相關性。回顧一下 RAG 系統的工作原理:

  • 檢索階段: 系統首先根據輸入查詢檢索相關文檔或信息。這個階段依賴于搜索算法和索引方法來快速識別大量集合中最相關的數據。
  • 生成階段: 一旦檢索到相關文檔,就會使用一個通常是基于transformer的大語言模型,如 GPT-4來創建一個連貫的、與上下文相適應的響應。此模型使用檢索到的信息來確保生成的內容是準確的,而且信息豐富。

RAG 系統的混合特性使它們對于知識密集型任務特別有效,在這些任務中,檢索和生成的結合極大地提高了總體性能。

2. 常見的文本分塊技術

文本分塊是許多自然語言處理任務的基礎步驟,可以采用多種技術來確保分塊方式保留了語義和上下文。根據任務的具體要求,可以以多種方式來實現文本分塊,下面是針對不同需求分塊方法:

2.1 按字符分塊

此方法將文本分解為單個字符。它適用于需要細粒度文本分析的任務,例如字符級語言模型或某些類型的文本預處理。

2.2 按Token分塊

將文本分割成token,是自然語言處理中的一種標準方法。基于令牌的組塊對于文本分類、語言建模和其他依賴于token化輸入的 NLP 應用程序等任務來說是必不可少的。

2.3 按段落分塊

按段落分段整理文本有助于維護文檔的整體結構和流程。此方法適用于需要較大上下文的任務,如文檔摘要或內容提取。

2.4 遞歸分塊

這涉及到重復地將數據分解成更小的塊,通常用于分層數據結構。遞歸組塊有利于需要多級分析的任務,如主題建模或層次聚類。

2.5 語義分塊

根據意義而非結構元素對文本進行分組對于需要理解數據上下文的任務至關重要。語義塊利用諸如句子嵌入等技術來確保每個塊代表一個連貫的主題或想法。

2.6 代理分塊

這種方法的重點是在識別和分組文本的基礎上增加參與的代理,如人或組織。它在信息抽取和實體識別任務中非常有用,因為理解不同實體之間的角色和關系非常重要。

3.基于Langchain的文本分塊技術——5行代碼

Langchain 框架中提供了很多可以開箱即用的技術,常見的文本分塊技術如下:

  • 遞歸字符分塊
  • token分塊
  • 句子分塊
  • 正則分塊 
  • Markdown分塊

3.1 遞歸字符文本分塊

此方法基于字符數來遞歸地分割文本。每個塊都保持在指定的長度以下,這對于具有自然段落或句子間斷的文檔特別有用,確保了塊的可管理性和易于處理性,而不會丟失文檔的固有結構。

Langchain中的遞歸字符文本分割器方法根據字符數將文本分割成塊,以確保每個塊低于指定的長度。這種方法有助于保持文檔中段落或句子的自然斷開。

from langchain.text_splitter import RecursiveCharacterTextSplitter

text = " long document text here..."

# 初始化 RecursiveCharacterTextSplitter,塊大小1k字符以及50個跨文本字符
charSplitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)

# 分塊
chunks = charSplitter.split_text(text)

# 打印輸出
for chunk in chunks:
    print(chunk)

3.2 Token文本分塊

這種技術使用token劃分文檔,token可以是單詞或詞元。在處理具有token限制的大語言模型時,它確保了每個塊都符合模型的約束。在自然語言處理任務中,通常使用基于token分塊來保持文本的完整性,同時遵守模型的限制。

from langchain.text_splitter import TokenSplitter

text = " long document text ..."

# 初始化TokenSplitter,最大token限制為 512
splitter = TokenSplitter(max_tokens=512)

chunks = splitter.split_text(text)

for chunk in chunks:
    print(chunk)

3.3 句子分塊

通過在句子邊界上分割文本,保持了文本的上下文完整性。句子通常代表完整的思想,這使得這種方法非常適合那些對內容有連貫理解的場景。

from langchain.text_splitter import SentenceSplitter

text = "long document text ..."

# 初始化SentenceSplitter ,每個塊最多5個句子
splitter = SentenceSplitter(max_length=5)

chunks = splitter.split_text(text)

for chunk in chunks:
    print(chunk)

3.4 正則分塊

此方法使用正則表達式來自定義拆分點。它為各種用例提供了最高的靈活性,允許用戶根據特定于他們的用例模式來拆分文檔。例如,可以在特定關鍵字或標點符號的每個實例上文檔拆分。

from langchain.text_splitter import RegexSplitter

# Example long document text
text = "Your long document text goes here..."

# 用一個模式初始化 RegexSplitter,以雙換行符分割文本
splitter = RegexSplitter(pattern=r'\n\n+')

chunks = splitter.split_text(text)

for chunk in chunks:
    print(chunk)

3.5 Markdown 的文檔分塊

該方法專為 markdown文檔定制,根據特定元素(如標題、列表和代碼塊)分割文本,保留了標記文檔的結構和格式,使其適合于技術文檔和內容管理。

from langchain.text_splitter import MarkdownSplitter

text = "long markdown document..."

splitter = MarkdownSplitter()

chunks = splitter.split_text(text)

for chunk in chunks:
    print(chunk)

4. 面向主題的分塊技術

大型文檔,如學術論文、長篇報告和詳細文章,通常包含多個主題。langchain中的分割技術,都難以準確識別主題轉換點。這些方法經常會錯過細微的轉換或錯誤地識別它們,導致分塊重疊。

面向主題的分塊技術旨在使用句子嵌入來識別文檔中主題的變化。通過標識主題轉移的位置,確保每個塊封裝一個單一的、連貫的主題,具體包括:

  • 句子嵌入: 句子嵌入將句子轉換成高維向量,從而捕捉句子的語義。通過分析這些向量,我們可以確定主題變化的點。
  • 主題檢測: 使用為主題建模的相關算法,檢測主題的變化并確定分割文檔的最佳點。這確保了每個塊在主題上是一致的。
  • 增強的檢索和嵌入: 通過確保每個塊代表一個主題,RAG 系統中的檢索和嵌入步驟變得更加有效。每個塊的嵌入更有意義,從而提高檢索性能和響應的準確性。

這種技術已經在過去主題建模的場景下得到了證明,但是它同樣適用于 RAG 系統。通過采用這種方法,RAG 系統可以在其生成的內容中實現更高的準確性和相關性,使其更有效地完成復雜和知識密集型的任務。

4.1 生成句子嵌入

可以使用Sentence-BERT (SBERT) 為單個句子生成嵌入,這些嵌入是密集的向量表示,封裝了句子的語義內容,使我們能夠衡量它們的相似性。

from sentence_transformers import SentenceTransformer

sentences = ["Sentence 1...", "Sentence 2...", ...]

model = SentenceTransformer('paraphrase-MiniLM-L6-v2')

embeddings = model.encode(sentences)

4.2 計算相似度

句子之間的相似度是通過余弦距離或者其他距離度量來衡量的,比如曼哈頓或者歐氏距離。這有助于識別連續句之間的連貫性。

from sklearn.metrics.pairwise import cosine_similarity

similarity_matrix = cosine_similarity(embeddings)

4.3 差異評分

為了檢測主題轉換,我們定義了一個參數 n,指定要比較的句子數。該算法根據余弦距離計算差距得分。

import numpy as np

#定義參數 
n = 2

# 計算差異評分
gap_scores = []
for i in range(len(embeddings) - n):
    similarity = cosine_similarity(embeddings[i:i+n], embeddings[i+n:i+2*n])
    gap_scores.append(np.mean(similarity))

為了解決差異分數中的噪聲,可以采用平滑算法,窗口大小 k 決定了平滑的程度。

# 定義窗口大小 k
k = 3

# 平滑差異評分
smoothed_gap_scores = np.convolve(gap_scores, np.ones(k)/k, mode='valid')

4.4 邊界檢測

通過分析平滑后的差距得分來識別局部極小值,這表明潛在的話題轉換,可以用閾值來確定重要的邊界。

# 檢測本地極小值
local_minima = (np.diff(np.sign(np.diff(smoothed_gap_scores))) > 0).nonzero()[0] + 1


# 設置閾值 c
C = 1.5

# 確定顯著的界限

significant_boundaries = [i for i in local_minima if smoothed_gap_scores[i] < np.mean(smoothed_gap_scores) - c * np.std(smoothed_gap_scores)]

4.5 分段的聚類

對于較長的文檔,類似的主題可能會重新出現。為了處理這個問題,使用類似的內容聚類算法,可以減少冗余并確保每個主題都是唯一表示的。

from sklearn.cluster import KMeans

# 轉化為embedding
segment_embeddings = [np.mean(embeddings[start:end], axis=0) for start, end in zip(significant_boundaries[:-1], significant_boundaries[1:])]

# Kmeans 聚類示例
kmeans = KMeans(n_clusters=5)
clusters = kmeans.fit_predict(segment_embeddings)

這里的代碼只是示意, 還可以通過自動參數優化、采用 transformer 模型、基于知識圖譜的層次分類等方法來進一步增強面向主題感知的分塊技術。

5.一句話小結

在RAG系統中, 文本分塊技術是必不可少的。對于大型文檔而言,可以嘗試采用面向主題感知的句子嵌入來提升RAG 系統的性能,使其生成更相關且一致的內容。

責任編輯:武曉燕 來源: 喔家ArchiSelf
相關推薦

2025-03-21 14:34:17

2025-10-30 00:00:00

2025-09-03 04:00:45

RAG系統分塊

2025-04-02 04:00:00

RAG分塊優化

2024-02-26 00:00:00

RAG系統圖譜

2024-06-19 16:11:22

2024-02-05 14:12:37

大模型RAG架構

2025-11-04 04:15:00

RAG系統文本分塊

2025-05-28 01:00:00

大模型智能問答AI

2025-01-23 08:00:00

2025-05-27 08:35:00

2025-05-07 08:35:11

2025-03-05 08:57:55

2024-12-11 08:28:15

2024-12-04 10:35:21

2025-06-10 04:30:00

2025-04-29 09:15:49

AI數據模型

2025-04-29 08:09:39

2025-11-07 04:00:00

2024-10-14 14:45:00

數據模型
點贊
收藏

51CTO技術棧公眾號

日韩国产精品久久| av中文字幕在线看| 激情欧美一区二区三区| 欧美亚洲国产bt| av免费观看久久| 国产精品高清无码在线观看| 91美女视频在线| 99re国产精品| 欧美一区二区三区免费在线看 | 日韩五码电影| 久久这里只有精品首页| 欧美精品免费看| 尤物国产在线观看| 日韩精品视频无播放器在线看| 99久久婷婷这里只有精品 | 日本一区二区三区在线不卡| 久久久久久伊人| 婷婷中文字幕在线观看| 日本中文字幕在线视频| 久久亚洲图片| 日韩精品高清在线| 国产自产在线视频| av免费在线观看不卡| 97精品视频| 欧美日韩一区二区三区视频| 视频一区二区精品| 国产伦精品一区二区三区视频网站| 国产95亚洲| 国产精品久久综合| 国产精品偷伦视频免费观看国产 | 国产精品久久久久久久久久白浆| 亚洲精品你懂的| 国产激情久久久久| 亚洲性猛交xxxx乱大交| 亚洲精品一区| 久久久久久99精品| 日本精品久久电影| 少妇精品一区二区三区| 在线看片福利| 久久久久国色av免费看影院| 热草久综合在线| 午夜理伦三级做爰电影| 成人免费无遮挡| 国产日韩欧美电影| 国产精品啪视频| 手机免费观看av| 欧美一区二区三区婷婷| 亚洲色图欧美激情| 91成人理论电影| 欧美三级小视频| а√中文在线天堂精品| 精品国产91久久久久久| 国产一区二区不卡视频在线观看| 日韩免费av片| 亚洲另类av| 欧美午夜宅男影院| 在线免费观看一区二区三区| 99热这里只有精品1| 伊人精品在线| 日韩激情第一页| 一区二区在线播放视频| 成人性生交大片免费看午夜| 久久 天天综合| 欧美精品成人91久久久久久久| 欧美做受高潮中文字幕| 成人美女黄网站| 国产精品久久看| 波多野结衣成人在线| 免费在线不卡视频| 精品一区电影| 亚洲成人久久一区| www.色就是色| jizz一区二区三区| 国产日韩精品一区| 91久久偷偷做嫩草影院| 日韩精品在线一区二区三区| 亚洲国产不卡| 亚洲欧洲一区二区三区久久| 加勒比av中文字幕| 国产精选在线| 综合久久久久综合| 久久国产精品一区二区三区| 亚洲熟妇av乱码在线观看| 一本精品一区二区三区| 日韩精品在线播放| 不卡中文字幕在线观看| 国产嫩草在线视频| 中文字幕亚洲综合久久菠萝蜜| 国产传媒欧美日韩| 一区二区久久精品66国产精品 | 欧美啪啪免费视频| 很黄的网站在线观看| 久久欧美中文字幕| 97netav| 波多野结衣电影在线播放| 中文字幕一区二区三区久久网站| 国产午夜精品久久久| 久久久久亚洲av无码网站| 成人mm视频在线观看| 五月激情六月综合| 久久这里只有精品8| 日本免费中文字幕在线| 久久久久久影视| 久久久一本精品99久久精品| 午夜久久久久久久久久| 久久av资源网| 国产精品美女久久| 国产又大又黄视频| 韩国精品一区二区三区| 美女视频久久黄| 五月婷婷婷婷婷| 精品视频网站| 亚洲欧美日本另类| 免费日本黄色网址| 国产伦精品一区二区三区在线播放 | 欧美日韩精品在线观看视频| 欧美xxxx中国| 中文字幕不卡av| 午夜理伦三级做爰电影| 妖精视频一区二区三区| 亚洲精品短视频| 韩国三级视频在线观看| 国产亚洲观看| 欧美一级日韩免费不卡| 亚洲va在线va天堂va偷拍| 日韩高清不卡| 欧美日韩精品欧美日韩精品一 | 日韩精品在线免费视频| 亚洲狼人精品一区二区三区| 久久久久久久久久久国产| 久久精品国产亚洲AV无码男同| 91精品婷婷色在线观看| 久久精品久久久久电影| 日本妇女毛茸茸| 黑人一区二区| 欧美怡春院一区二区三区| 91精品国产乱码久久久张津瑜| 国产精品久久| 97超碰色婷婷| 日本黄色一级视频| 日本少妇一区二区| 成人精品视频久久久久| 999免费视频| 成人蜜臀av电影| 国内精品国语自产拍在线观看| 欧美 日韩 国产 成人 在线 91 | 欧美另类69xxxx| 99精品在线观看| 欧美成人激情在线| 精品国产免费观看| 日韩精品一级二级| 国产中文日韩欧美| 成 人 免费 黄 色| av成人老司机| 日韩精品久久久免费观看| 在线激情免费视频| 亚洲国产一区二区三区| 日韩有码免费视频| 自拍偷拍欧美日韩| 精品国产乱码久久久久久免费| jlzzjizz在线播放观看| 成人亚洲一区| 欧美福利视频在线观看| 久久久久久久久久久影院| 蜜桃传媒麻豆第一区在线观看| 91久久久久久久久久久| 亚洲av无码乱码国产麻豆| 久久理论电影网| 黄瓜视频免费观看在线观看www| 1区2区在线| 欧美午夜精品一区| 亚洲av无码专区在线播放中文| 自拍亚洲一区| 欧美尺度大的性做爰视频| 五月婷婷中文字幕| 秋霞成人午夜伦在线观看| 国产精品九九九| 欧洲精品久久一区二区| 国产精品无码永久免费888| 一卡二卡三卡视频| 精品三级在线| 亚洲激情电影中文字幕| 国产av无码专区亚洲av毛网站| 美女网站久久| yy111111少妇影院日韩夜片| 自拍视频在线网| 精品国产福利在线| 国产精品嫩草影视| 日韩国产一区二区三区| 97超级碰碰碰久久久| 亚洲AV无码精品国产| 中文字幕中文乱码欧美一区二区| 欧美不卡在线播放| 麻豆国产一区| 色妞欧美日韩在线| 无码人妻精品一区二区| 成人福利在线看| 欧美日韩视频免费在线观看| 欧美大片免费观看网址| 亚洲精品美女久久久| 中文字幕手机在线观看| 激情国产一区二区| 日韩一区二区电影在线观看| 久草免费在线视频| 亚洲国产99精品国自产| 一区二区成人免费视频| 麻豆视频观看网址久久| 日韩欧美精品一区二区三区经典| 色戒汤唯在线| 亚洲精品一区二三区不卡| 国产精品suv一区二区| 国产成人综合视频| 蜜臀av性久久久久蜜臀av| 黄色成人小视频| 中文字幕在线观看日韩| 一级黄色大毛片| 欧美国产精品中文字幕| caoporn超碰97| 狠狠做六月爱婷婷综合aⅴ | 亚洲美女av网站| 日本中文字幕在线免费观看| 99久久亚洲一区二区三区青草 | 欧美xxxx性xxxxx高清| 日韩一区二区影院| 男女做暖暖视频| 国产精品18久久久久| 欧美 国产 精品| 欧美.com| 欧美激情视频三区| 国产91久久久| 亚洲成a人片在线不卡一二三区| 中国特级黄色大片| 亚洲区一区二| 欧美日韩综合网| 成人免费一区| 最近中文字幕日韩精品| 国产麻豆免费视频| 亚洲综合色婷婷| 亚洲av综合色区无码另类小说| 黄色国产精品| 免费一区二区三区在在线视频| 免费亚洲电影| 日韩亚洲第一页| 国产极品999| 精品免费在线视频| 女人十八毛片嫩草av| 极品少妇xxxx精品少妇| 无码日本精品xxxxxxxxx| 欧美日韩另类图片| 国产精品美女久久久久久免费| www视频在线免费观看| 亚洲精品一区二区三区精华液| 男人的天堂一区二区| 国产精品入口麻豆九色| 伊人免费视频二| 99在线观看免费视频精品观看| 日本一区二区三区免费观看 | 999热视频在线观看| 牛牛精品一区二区| 怡红院精品视频| 亚洲国产精品国自产拍久久| 欧美视频不卡中文| 天堂av免费在线| 9i在线看片成人免费| www.超碰com| 亚洲视频综合| 一区视频二区视频| 卡一精品卡二卡三网站乱码| 国产欧美日韩综合精品| 免费成人在线电影| 美日韩丰满少妇在线观看| 日本一区高清| 欧美videos中文字幕| 亚洲欧美一二三区| 一区二区三区鲁丝不卡| 国产视频不卡在线| 成人在线综合网| 亚洲天堂av一区二区| 久久一区视频| 日韩一级性生活片| 香蕉精品视频在线观看| 欧美日韩在线精品一区二区三区| 深夜激情久久| 国产精品中文字幕在线观看| 91美女主播在线视频| 啊v视频在线一区二区三区 | 久久久av一区| 狠狠v欧美ⅴ日韩v亚洲v大胸| 精品黑人一区二区三区久久| 丰满熟女人妻一区二区三| 黄色91在线观看| 久久久久久久国产精品毛片| 中文字幕在线免费不卡| 免费a级黄色片| 成人黄色国产精品网站大全在线免费观看 | 精品国产第一区二区三区观看体验 | 亚洲精品欧美极品| 懂色aⅴ精品一区二区三区| 亲子乱一区二区三区电影| 678在线观看视频| 久久成人亚洲精品| 久草免费在线| 日韩在线中文视频| 浮生影视网在线观看免费| 亚洲欧美日本精品| 黄色小视频在线免费观看| 日韩av网站电影| 手机看片一区二区| 亚洲成人av在线播放| 精品人妻av一区二区三区| 91精品啪在线观看国产60岁| 国产孕妇孕交大片孕| 欧美日韩在线观看一区二区| 亚洲视屏在线观看| 欧美色涩在线第一页| 波多野结衣在线观看视频| 欧美吻胸吃奶大尺度电影 | 欧美日韩国产精品一卡| 伊人久久大香线蕉综合网蜜芽| 麻豆视频成人| 九九热爱视频精品视频| 日本一区二区在线视频| 奇米亚洲欧美| 亚洲精品8mav| 成人综合专区| 亚洲欧美成人一区| 97久久视频| 免费观看国产视频在线| 中文无码久久精品| 久久精品无码中文字幕| 亚洲午夜精品久久久久久app| 日本黄大片在线观看| 国产欧美日本| 免费观看精品视频| 日产欧产美韩系列久久99| 亚洲欧洲日本精品| 久久超级碰视频| 男人添女人荫蒂国产| 97久久久精品综合88久久| 中文字幕av网址| 国产精品萝li| 久草免费在线视频观看| 五月婷婷激情综合| 国产字幕在线观看| 欧美电影一区二区| 亚洲高清在线观看视频| 日韩国产欧美精品在线| 在线观看国产原创自拍视频| 九色精品美女在线| 伊人网在线播放| 成人精品久久久| 欧美韩一区二区| 亚洲精品欧洲精品| 欧美国产激情| 97在线播放视频| 蜜桃视频一区二区三区| 少妇欧美激情一区二区三区| 99精品国产99久久久久久白柏| 国产高潮呻吟久久| 亚洲免费视频成人| caoporn国产| 欧美一区二区三区不卡| 人成在线免费视频| 美女福利精品视频| 波多野结衣亚洲| 114国产精品久久免费观看| 丝袜久久网站| 天天做天天爱天天高潮| aa亚洲婷婷| 亚洲精品在线网址| 久久久久九九视频| 国产一级大片在线观看| 欧美视频三区在线播放| 亚洲精品一区二区三区四区| 亚洲最新中文字幕| 国产精品一二三产区| 91在线免费观看网站| 国产亚洲一区| 国产九九九九九| 国产综合成人久久大片91| 性少妇bbw张开| 亚洲国产视频一区二区| 国产又粗又猛又爽又黄的视频一| 精品国产一区二区三区忘忧草| 超碰免费在线观看| 欧美在线观看网站| 亚洲精品午夜| 青青草免费在线视频观看| 琪琪一区二区三区| 欧美亚一区二区三区| 亚洲女同女同女同女同女同69| 依依成人综合网| 日韩视频一区二区| 免费在线看黄网站| 国产精品热视频| 欧美欧美黄在线二区| 欧美日韩一道本| 成人免费不卡视频| 国产亚洲自拍av| 日韩欧美成人一区二区|