精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Unstructured專家分享RAG應用中文檔分塊(Chunking)的最佳實踐

發布于 2024-7-19 11:55
瀏覽
0收藏

近日,Maria Khalusova在Unstructured官方博客分享了有關分塊的最佳實踐。

Unstructured成立于2022年9月,致力于解決自然語言處理(NLP)和大型語言模型(LLM)應用中的數據預處理問題。公司總部位于美國,專注于將非結構化數據轉化為LLM可以處理的格式,當下流行的pdf解析庫就來自于它們,它們在數據預處理方面擁有非常前沿的技術和經驗。

分塊是文檔處理的一個步驟,當各種格式的文檔被解析變成文本文檔后,接下來就需要對文檔進行分塊。而這一步驟也直接會影響到后期檢索和模型推理總結的效果。這時候必然會帶來一些常見的問題如:為什么要分塊?最佳塊大小是多少?拆分文本的最佳方法是什么?等等。  在這篇文章里,博文作者將給出他們的實踐分享。

為什么需要分塊?

出于多種原因,在為 RAG 準備數據時,分塊是必不可少的預處理步驟。

1)上下文窗口限制

首先從基礎開始。檢索到的塊將直接作為上下文輸入到提示中,以便LLM生成響應。這意味著所有檢索到的塊的總長度至少不能超過LLM的上下文窗口。盡管當下許多LLM有相當大的上下文窗口,但實際上并不希望填滿上下文窗口,因為這些LLM會面臨“大海撈針”的問題(延伸閱讀:超長上下文窗口大模型的“照妖鏡”——大海撈針實驗,大模型“打假”必知必會)。另外,開發者可能還想以其他方式利用這個大上下文窗口,比如提供詳細的指令、角色描述或一些少樣本示例(few-shot)。

此外,如果打算使用相似性搜索并嵌入(embedding)文檔,必須考慮到嵌入模型也有一個有限的上下文窗口。這些模型不能嵌入超過其上下文窗口最大長度的文本。這個限制因具體模型而異,但可以在模型的描述中找到這些信息,例如在Hugging Face Hub上的模型卡片上。一旦知道將使用哪種模型來生成嵌入,就能確定文本塊的最大值(以token為單位,而不是字符或單詞)。嵌入模型通常在上下文窗口大小上的最大值約為8K token或更少,這相當于英語中的大約6200個單詞。為了直觀理解有多大,比如,整個《指環王》系列,包括《霍比特人》,大約有576,459個單詞,所以如果想利用這個語料庫進行RAG與相似性搜索,需要將其分成至少93個塊。

2)塊大小對檢索精度的影響

雖然嵌入模型對其可以嵌入的標記數量規定了硬性的最大限制,但這并不意味著分塊必須達到這個長度。這只是意味著它們不能超過這個長度。事實上,在許多情況下,使用每個分塊的最大長度(如 6200 字(8K 標記))可能會過長。這里有幾個令人信服的理由來選擇較小的語塊。

回想一下當我們嵌入一段文本以獲得嵌入向量時會發生什么。大多數嵌入模型都是編碼器類型的轉換器模型,輸入文本的最大長度為 768。不管你給模型的是 10 個字的句子還是 1000 個字的段落,得到的嵌入向量的維度都是一樣的,都是 768。其工作原理是,模型首先將文本轉換為token,在預訓練過程中為每個token學習了一個向量表征。然后,它將應用一個池化操作,將單個token表征平均為一個單向量表征。

常見的池化類型包括:

  • CLS池化:特殊CLS token的向量表征成為整個序列的表征
  • 平均池化:token向量表征的平均值作為整個序列的表征返回
  • 最大池化:具有最大值的token向量表征成為整個序列的表征

其目標是將細粒度的token級表征壓縮成單一的固定長度表征,其中包含整個輸入序列的含義。這種壓縮本身就是有損的。對于較大的塊,表征可能會變得過于粗糙,可能會掩蓋重要的細節。為確保精確檢索,文本塊必須擁有有意義且細致入微的表征。

現在,請考慮另一個潛在問題。一個大塊可能包含多個主題,其中一些可能與用戶查詢相關,而另一些則不相關。在這種情況下,單個向量中每個主題的表示可能會變得模糊,這同樣會影響檢索精度。

另一方面,較小的片段可以保持重點突出的上下文,從而可以更精確地匹配和檢索相關信息。通過將文檔分解成有意義的片段,檢索器可以更準確地找到特定段落或事實,從而最終提高 RAG 性能。那么,在保持上下文完整性的前提下,文件塊可以有多小?這取決于文檔的性質,可能需要進行一些試驗。通常情況下,250 個 token 左右的塊大小(相當于約 1000 個字符)是一個合理的實驗起點。

分塊的常見方法

1)字符級分塊

將大文檔分割成小塊的最基本方法是將文本分成 N 個字符大小的塊。通常在這種情況下,還會指定一定數量的字符,這些字符應在連續的文本塊之間重疊。這在一定程度上降低了句子或觀點在相鄰兩塊之間的邊界被突然切斷的可能性。不過,可以想象,即使有重疊,每個塊的固定字符數加上固定的重疊窗口,也不可避免地會導致信息流中斷、不同主題混合,甚至句子在一個詞的中間被分割。字符分割法完全不考慮文檔結構。

2)句子級分塊或遞歸分塊

字符分割是一種簡單化的方法,完全沒有考慮到文檔的結構。這種方法完全依賴于固定的字符數,經常會導致句子在中途甚至在詞的中間被拆分,效果并不好。

解決這一問題的方法之一是使用遞歸分塊法,這種方法有助于保留單個句子。使用這種方法,您可以指定一個有序的分隔符列表來指導分割過程。例如,以下是一些常用的分隔符:

  • "\n\n" - 雙換行符,通常表示段落斷開
  • "\n" - 單換行符
  • "." - 句號
  • " " - 空格

如果按照指定的順序使用上述分隔符,過程將是這樣的。首先,遞歸分塊會在每次出現雙新行("\n\n")時分解文檔。然后,如果這些分段仍然超過了所需的分塊大小,它將在新行處進一步分解它們("\n"),以此類推。

雖然這種方法大大降低了中途斷句的可能性,但仍然無法捕捉到復雜的文檔結構。文檔通常包含多種元素,如段落、章節頁眉、頁腳、列表、表格等,所有這些元素都有助于文檔的整體組織。然而,上述遞歸分塊法主要考慮的是段落和句子,而忽略了其他結構上的細微差別。

此外,文檔以多種本地格式存儲,因此必須為每種不同的文檔類型設計不同的分隔符。上面的列表可能對純文本很有效,但對于標記符,你需要一個更細致、更有針對性的分隔符列表;如果是 HTML 或 XML 文檔,還需要另一個列表,等等。將這種方法擴展到處理 PDF 和 PowerPoint 演示文稿等基于圖像的文檔,會帶來更多復雜性。如果使用場景涉及各種非結構化文檔,那么統一應用遞歸分塊很快就會成為一項繁重的任務。

使用Unstructured智能分塊

Unstructured提供了多種智能分塊策略,所有這些策略都比前面提到的方法有明顯優勢。一旦使用 Unstructured 對任何類型的文檔進行分區,分塊處理就會應用于一組單獨的文檔元素,這些元素代表原始文檔的邏輯單元并反映其結構,而不是處理一堵帶有隨機潛在分隔符的純文本墻。

Unstructured專家分享RAG應用中文檔分塊(Chunking)的最佳實踐-AI.x社區

這就意味著,你不必再想辦法區分文檔的各個部分。Unstructured 已經完成了這些繁重的工作,直接展示不同的文檔元素,這些元素封裝了文檔中的段落、表格、圖片、代碼片段和其他任何有意義的文本單元。在完成分區步驟后,文檔已經被劃分為更小的片段。這是否意味著文檔已經分塊?不完全是,但已經成功了一半!

分區后得到的某些文檔元素可能仍會超出嵌入模型的上下文窗口或所需的塊大小。這些需要進一步分割。相反,有些文檔元素可能太小,無法包含足夠的上下文。例如,一個列表被分割成單個的 ListItem元素,但你可以選擇將這些元素合并成一個單一的塊,只要它們仍然符合偏好設置的塊大小。

從系統劃分為離散元素的文檔開始,Unstructured 提供的智能分塊策略可以做到這一點:

  • 確保信息流不中斷,防止簡單的字符分塊造成的中途分詞。
  • 控制塊的最大和最小尺寸。
  • 保證不同的主題或想法,如不同主題的獨立章節,不會被合并。

智能分塊比遞歸分塊更進一步,它實際上考慮到了文檔的語義結構和內容。

智能分塊提供了四種策略,它們在保證分塊內容純凈度方面各有不同:

  • 基本分塊策略:這種方法可以在遵守最大分塊大小限制的前提下,將連續元素組合起來,最大限度地填充每個分塊。如果單個孤立的元素超過了最大硬限制,就會被分成兩個或更多塊。
  • 按標題分塊策略:該策略利用分區過程中識別的文檔元素類型來理解文檔結構,并保留章節邊界。這就意味著,單個數據塊永遠不會包含出現在兩個不同章節中的文本,從而確保主題保持自足,提高檢索精度。
  • 按頁面分塊策略(僅支持API調用):該策略專為每一頁都能傳遞獨特信息的文檔而設計,可確保來自不同頁面的內容絕不會混雜在同一個分塊中。當檢測到一個新頁面時,即使下一個元素可以放在之前的內容塊中,也會完成現有的內容塊并開始一個新的內容塊。
  • 按相似性分塊策略(僅支持API調用):當文檔結構無法提供明確的主題邊界時,可以使用 "通過相似性 "策略。該策略使用 "sentence-transformers/multi-qa-mpnet-base-dot-v1 "嵌入模型來識別在主題上相似的順序元素,并將它們組合成塊。

Unstructured 智能分塊策略的另一個優勢是可普遍適用于各種文檔類型。不需要像遞歸分塊那樣,為每個文檔硬編碼和維護分隔符列表。可以輕松嘗試分塊大小和分塊策略,為任何給定的使用場景找出最佳方案。

結論

分塊是任何 RAG 系統中必不可少的預處理步驟之一。設置時的選擇會影響檢索質量,進而影響系統的整體性能。以下是設計分塊步驟時需要注意的一些事項:

  • 嘗試不同的塊大小:雖然大塊可能包含更多上下文,但也會導致表述粗糙,對檢索精度產生負面影響。最佳塊大小取決于文檔的性質,但要在不丟失重要上下文的情況下優化較小的塊。
  • 利用巧妙的分塊策略:選擇分塊策略,在有語義意義的邊界上分隔文本,避免信息流中斷或內容混雜。
  • 評估分塊選擇對 RAG 整體性能的影響:為您的特定用例設置評估集,并跟蹤分塊大小和分塊策略實驗對整體性能的影響。無論文檔類型如何,您只需調整一兩個參數,非結構化技術就能簡化分塊實驗。

原文:https://unstructured.io/blog/chunking-for-rag-best-practices

本文轉載自?? AI工程化??,作者:ully

收藏
回復
舉報
回復
相關推薦
影音先锋黄色资源| 国产91xxx| www.国产免费| 国产欧美欧美| 日韩中文字幕视频| 在线xxxxx| 黑人巨大精品欧美一区二区桃花岛| 国产亚洲欧美日韩俺去了| 国产精品久久久久久久久久新婚 | 26uuu国产日韩综合| 人人做人人澡人人爽欧美| 成人午夜免费影院| 国产福利一区二区精品秒拍| 欧美色涩在线第一页| 国产xxxx振车| 欧美尤物美女在线| av不卡免费电影| 91久久在线播放| 免费看一级视频| 国产一区亚洲| 日韩中文字幕网址| 国产在线观看h| 盗摄牛牛av影视一区二区| 欧美综合天天夜夜久久| 男人日女人下面视频| 黄av在线免费观看| 中文字幕不卡在线播放| 久久超碰亚洲| 亚洲免费成人在线| 激情久久久久久久久久久久久久久久| 51久久精品夜色国产麻豆| 婷婷丁香综合网| 妖精视频一区二区三区| 精品欧美乱码久久久久久1区2区| 亚洲综合色在线观看| 欧美gv在线观看| 亚洲一级片在线观看| 制服国产精品| 98在线视频| 国产欧美一区二区在线| 久久久久资源| 日韩一级片免费观看| 国产一区二区三区不卡在线观看 | 在线电影av不卡网址| 一本加勒比波多野结衣| 亚洲视频国产| 日韩女优毛片在线| 四虎1515hh.com| 96视频在线观看欧美| 欧美日韩一区久久| 九热视频在线观看| 国产成人精品一区二区三区视频| 日本精品免费观看高清观看| 国产成人亚洲精品无码h在线| 爱啪啪综合导航| 亚洲电影在线免费观看| 黄色一级视频在线播放| av电影免费在线看| 亚洲高清不卡在线| 色欲色香天天天综合网www| 538在线视频| 五月天一区二区三区| 日韩中字在线观看| 在线女人免费视频| 欧美午夜女人视频在线| 东京热加勒比无码少妇| 亚洲欧美在线成人| 欧美日韩亚洲国产综合| 涩涩网站在线看| 玖玖玖电影综合影院| 欧美xxxx在线观看| 色婷婷免费视频| 免费成人高清在线视频theav| 日韩精品日韩在线观看| www.av天天| 加勒比久久综合| 精品国产拍在线观看| 精品国产乱码久久久久久鸭王1 | 一区二区三区亚洲视频| 精一区二区三区| 成人欧美一区二区| 日韩电影网址| 国产精品网站在线观看| 国产精品jizz在线观看老狼| 色婷婷在线播放| 天天综合色天天综合色h| 成人精品视频一区二区| 24小时成人在线视频| 精品免费视频一区二区| 五级黄高潮片90分钟视频| 日韩精品欧美| 欧美激情免费看| 久久久精品毛片| 久久99精品久久久久久久久久久久 | 视频在线精品一区| 国产福利视频在线| 欧美午夜xxx| 中文字幕亚洲影院| 久久大胆人体视频| 久久精品99久久久香蕉| 日韩网红少妇无码视频香港| 日本va欧美va精品发布| 国产精品theporn88| 国产精品久久久久一区二区国产| 亚洲欧美福利一区二区| 色综合av综合无码综合网站| 精品视频在线观看免费观看| 日韩久久免费视频| 强乱中文字幕av一区乱码| 香蕉久久夜色精品| 97超碰人人看人人| 波多野结衣在线网站| 亚洲午夜电影在线观看| 亚洲 欧美 另类人妖| 青青草久久爱| 欧美黑人巨大xxx极品| 中文字幕在线天堂| 99久久精品费精品国产一区二区| 在线国产精品网| 成人爱爱网址| 亚洲精品乱码久久久久久按摩观| 日韩精品一区二区三区在线视频| 亚洲欧美bt| av免费观看久久| 午夜在线小视频| 欧洲一区二区三区在线| 亚洲永久无码7777kkk| 欧美一区二区三区另类| 国产伦精品免费视频| 视频一区二区三区在线看免费看| 亚洲一区二区三区四区在线免费观看| www亚洲成人| 精品国产中文字幕第一页| 久久久久久久爱| 国产高清视频免费| 亚洲欧美日本在线| 免费在线观看的av网站| 精品嫩草影院| 91国产精品91| 蜜臀久久99精品久久久| 一区二区三区日本| 亚洲在线观看网站| 国产精品福利在线观看播放| 国产精品久久久久久久久| 男女视频在线观看免费| 狠狠久久亚洲欧美专区| 波多野结衣有码| 极品少妇一区二区三区| 国产精品二区在线观看| 欧美videossex另类| 欧美一区二区三区在线看| 亚洲伦理一区二区三区| 久久99久久99| 狠狠干视频网站| 亚洲精品一区二区三区在线| 欧美激情极品视频| 亚洲免费不卡视频| 精品国产电影一区| 三级电影在线看| 午夜在线精品| 日韩欧美亚洲日产国产| 日韩一区二区三区在线免费观看| 亚洲天堂久久av| 中文在线免费看视频| 国产精品你懂的| 国产欧美激情视频| 欧美日韩理论| 精品国产乱码久久久久软件 | 国产精品毛片一区二区在线看| 国产精品入口尤物| 国产调教视频在线观看| 欧美mv日韩mv国产网站| 日韩不卡视频在线| 26uuu另类欧美| 成人性生交免费看| 欧美精品黄色| 快播日韩欧美| 欧美xxxx网站| 久久久久久久久久久免费精品| 日韩一级免费毛片| 在线观看视频一区二区欧美日韩| 自拍偷拍第9页| 国产一区二区美女诱惑| 精品无码国模私拍视频| 欧美美女视频| 91av免费看| 综合毛片免费视频| 久久久成人的性感天堂| 少妇高潮久久久| 欧美日韩一区二区欧美激情| 国产av无码专区亚洲av毛网站| 成人禁用看黄a在线| 色婷婷综合久久久久中文字幕| 久久免费大视频| 国产精品一区视频| 人人玩人人添人人澡欧美| 国内精品久久久久影院 日本资源 国内精品久久久久伊人av | 欧美性生交大片| 岛国精品一区二区| 欧美黄色性生活| 亚洲韩日在线| 中文字幕中文字幕在线中一区高清| 日韩影片在线观看| 日本成人精品在线| 青春草免费在线视频| 在线观看日韩欧美| 人人妻人人澡人人爽久久av | 亚洲精品成人少妇| 亚洲精品国产一区黑色丝袜| 豆国产96在线|亚洲| 一级在线免费视频| 在线亚洲一区| 先锋影音男人资源| 精品理论电影在线| 精品欧美一区二区精品久久| 久久精品一级| 国产精品视频久| 手机在线观看av| 欧美第一淫aaasss性| 午夜在线观看视频| 亚洲人成在线免费观看| 日本xxxx人| 日韩一区二区在线看| 看黄色一级大片| 精品久久久视频| 国产亚洲精品久久777777| 中文字幕在线一区免费| 自拍偷拍亚洲天堂| 91在线一区二区| 大尺度在线观看| 国产精品99久久久久久似苏梦涵 | 好色先生视频污| 日韩毛片视频| 视频在线一区二区三区| 国产一区国产二区国产三区| 蜜桃传媒一区二区| 婷婷国产精品| 国产日韩久久| 大伊香蕉精品在线品播放| 成人看片在线| 亚洲3区在线| av在线不卡观看| 精品国产乱码久久久久久樱花| 国产在线视频欧美| 涩涩涩久久久成人精品| 国产精品日本精品| 成人自拍视频网| 国产精品夜间视频香蕉| 国产a亚洲精品| 国产精品男女猛烈高潮激情| 免费观看成人性生生活片| 日本成人在线视频网址| 欧美性理论片在线观看片免费| 日本成人黄色片| 亚洲天堂1区| 国产精品欧美日韩一区二区| 粉嫩91精品久久久久久久99蜜桃| 国产精品久久精品| 欧美黄页免费| 亚洲精品日韩av| 永久免费精品视频| 激情久久av| 欧美猛男同性videos| 天堂av一区二区| 婷婷综合久久| 免费人成在线观看视频播放| 狠久久av成人天堂| 成人在线免费在线观看| 日韩精品久久理论片| 手机av在线网| 国产福利一区二区三区| 在线观看国产免费视频 | 亚洲欧美精品aaaaaa片| 综合在线观看色| 九九免费精品视频| 午夜欧美在线一二页| 中文字幕一区二区人妻视频| 欧美理论片在线| 亚洲AV无码精品自拍| 精品亚洲aⅴ在线观看| 国产精品二线| 久久av资源网站| 色综合桃花网| 国产精品最新在线观看| 在线播放一区二区精品视频| 欧美日韩最好看的视频| 国产韩日影视精品| 免费av观看网址| 青青草伊人久久| 91人妻一区二区| 中文字幕不卡的av| 久久高清无码视频| 91国偷自产一区二区三区成为亚洲经典 | 欧美三级欧美一级| 亚洲第一视频在线| 亚洲性生活视频在线观看| 中文字幕在线播放网址| 国产大片精品免费永久看nba| 成人亚洲精品| 日本欧美色综合网站免费| 欧美成人一品| 日韩福利视频在线| 国产91精品入口| 欧美性猛交xxxx乱大交少妇| 亚洲成av人**亚洲成av**| 国产精品久久久午夜夜伦鲁鲁| 亚洲精品98久久久久久中文字幕| 9i精品一二三区| 2021国产精品视频| 九九99久久精品在免费线bt| 欧美一区二区三区成人久久片| 欧美激情在线| 妞干网在线免费视频| 成人午夜电影久久影院| 午夜激情福利网| 色88888久久久久久影院野外| 亚洲精品国产片| 日韩一区av在线| 日韩电影免费观| 国产视色精品亚洲一区二区| 91tv官网精品成人亚洲| 蜜臀视频一区二区三区| 成人免费视频国产在线观看| 久久精品一区二区三区四区五区 | 欧美极品欧美精品欧美图片| 懂色av一区二区夜夜嗨| 开心激情五月网| 欧美最猛黑人xxxxx猛交| 欧美精品久久久久久久久久丰满| 久久人人爽人人| a级日韩大片| 国产黄色激情视频| 久国产精品韩国三级视频| 日本理论中文字幕| 欧美日韩中文字幕日韩欧美| 欧美一级一区二区三区| 欧美人在线视频| 国产精品欧美一区二区三区不卡 | 91久久精品一区二区别| 四虎成人av| gogogo高清免费观看在线视频| 国产日韩欧美电影| 无码人妻精品一区二区三区蜜桃91 | 欧美激情黄色片| 乌克兰美女av| 国产精品女主播av| 国产一区二区三区三州| 日韩在线视频国产| 日韩在线你懂得| 国产又大又长又粗又黄| 国产一区二区在线电影| 国产人妻精品一区二区三区不卡| 69堂国产成人免费视频| 国产精品剧情| 亚洲一区二区三区四区视频| 五月开心六月丁香综合色啪| 欧美激情第一区| 一区二区三区四区在线| 丰满熟女一区二区三区| 久久人人看视频| 精品在线观看入口| 别急慢慢来1978如如2| 中文字幕不卡三区| 99热这里只有精品在线| 久久99久国产精品黄毛片入口| eeuss国产一区二区三区四区| 日本wwwcom| 久久久久综合网| 91成品人影院| 欧美激情第1页| 免费电影一区二区三区| 色乱码一区二区三区在线| 亚洲欧美电影一区二区| 殴美一级特黄aaaaaa| 日本高清视频一区| 成人看的羞羞网站| 亚洲成人av免费观看| 亚洲二区视频在线| 国产免费av高清在线| 国产精品永久免费观看| 午夜精品久久| 成人网站免费观看| 欧美日韩一区二区三区高清| 牛牛精品在线视频| 精品欧美国产一区二区三区不卡| 日韩国产在线观看一区| 亚洲色图综合区| 日韩av一区在线观看| www.国产精品| 免费高清一区二区三区| 国产午夜精品一区二区三区嫩草 | 日韩av资源在线播放| 成人综合网站| 丰满少妇久久久| 国产精品国产三级国产aⅴ无密码| 成人高潮片免费视频| 日韩美女视频中文字幕| 欧美精品三区| 欧美做受高潮6| 精品美女被调教视频大全网站|