遲分:RAG中長(zhǎng)文本處理的突破性技術(shù)
在自然語(yǔ)言處理領(lǐng)域,如何有效處理長(zhǎng)文本一直是一個(gè)挑戰(zhàn)。傳統(tǒng)的文本分塊方法雖然簡(jiǎn)單直接,但往往會(huì)導(dǎo)致上下文信息的丟失。今天,將介紹一種名為"遲分"的創(chuàng)新技術(shù),它不僅能夠保留長(zhǎng)文本的上下文信息,還能顯著提升文本處理的質(zhì)量。
傳統(tǒng)方法的局限性
在討論遲分之前,讓先回顧一下傳統(tǒng)的文本處理流程,特別是在檢索增強(qiáng)生成(RAG)系統(tǒng)中:
- 分塊:將長(zhǎng)文本切割成小段
- Embedding:對(duì)每個(gè)小段進(jìn)行向量化
- 檢索:根據(jù)查詢找到相關(guān)的文本段
- 生成:基于檢索結(jié)果生成回答
這種方法雖然廣泛應(yīng)用,但存在明顯的缺陷:
- 上下文丟失:當(dāng)關(guān)鍵信息分散在多個(gè)文本塊中時(shí),單獨(dú)的文本段可能失去原有意義。
- 指代問(wèn)題:像"它"、"這座城市"等指代詞可能無(wú)法正確鏈接到其指向的實(shí)體。
- 語(yǔ)義不連貫:相鄰的文本塊之間可能缺乏語(yǔ)義連貫性。
遲分:重新思考文本處理流程
圖片
遲分技術(shù)提供了一種全新的思路來(lái)解決這些問(wèn)題。它的核心理念是:先進(jìn)行整體的語(yǔ)義理解,再進(jìn)行文本分割。
遲分的工作流程
- 整體處理:將整個(gè)長(zhǎng)文本(或盡可能長(zhǎng)的文本段)輸入到支持長(zhǎng)上下文的Embedding模型中。
- Token級(jí)Embedding:為文本中的每個(gè)token生成包含豐富上下文信息的向量表示。
- 后續(xù)分塊:根據(jù)需要,對(duì)token級(jí)的向量序列進(jìn)行分塊和聚合,得到最終的文本塊Embedding。
遲分的優(yōu)勢(shì)
- 保留上下文:每個(gè)文本塊的Embedding都包含了整體文檔的語(yǔ)義信息。
- 解決指代問(wèn)題:模型能夠更好地理解長(zhǎng)距離的語(yǔ)義依賴關(guān)系。
- 提高檢索精度:生成的Embedding更準(zhǔn)確地反映了文本的語(yǔ)義內(nèi)容。
實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證遲分的效果,進(jìn)行了一系列實(shí)驗(yàn):
定性評(píng)估
以維基百科上關(guān)于柏林的文章為例,比較了傳統(tǒng)分塊和遲分在處理指代關(guān)系時(shí)的表現(xiàn):
查詢塊 | 傳統(tǒng)分塊相似性 | 遲分相似性 |
柏林是德國(guó)的首都... | 0.849 | 0.850 |
其超過(guò)385萬(wàn)人口... | 0.708 | 0.825 |
這座城市也是德國(guó)的一個(gè)州... | 0.753 | 0.850 |
可以看到,遲分在處理指代詞(如"其"、"這座城市")時(shí),顯著提高了與"柏林"這個(gè)關(guān)鍵詞的語(yǔ)義相似度。
BEIR基準(zhǔn)測(cè)試
還在BEIR(一個(gè)檢索基準(zhǔn)測(cè)試集)上進(jìn)行了更全面的評(píng)估。以下是部分?jǐn)?shù)據(jù)集的nDCG@10指標(biāo)比較:
數(shù)據(jù)集 | 文檔平均長(zhǎng)度 | 傳統(tǒng)分塊 | 遲分 | 無(wú)分塊 |
SciFact | 1498.4 | 64.20% | 66.10% | 63.89% |
TRECCOVID | 1116.7 | 63.36% | 64.70% | 65.18% |
FiQA2018 | 767.2 | 33.25% | 33.84% | 33.43% |
NFCorpus | 1589.8 | 23.46% | 29.98% | 30.40% |
結(jié)果顯示,遲分在多數(shù)情況下都優(yōu)于傳統(tǒng)分塊,特別是在處理較長(zhǎng)文檔時(shí)效果更為顯著。
技術(shù)實(shí)現(xiàn)
要實(shí)現(xiàn)遲分,需要以下關(guān)鍵組件:
- 長(zhǎng)上下文Embedding模型:如jina-embeddings-v2-base-en,支持處理長(zhǎng)達(dá)8192個(gè)token的文本。
- 邊界線索提取:使用正則表達(dá)式或其他方法識(shí)別合適的分塊點(diǎn)。
- Token級(jí)Embedding聚合:對(duì)生成的token級(jí)向量進(jìn)行平均池化等操作,得到塊級(jí)Embedding。
圖片
結(jié)論與展望
遲分技術(shù)為長(zhǎng)文本處理帶來(lái)了新的可能性。它不僅解決了傳統(tǒng)方法中的上下文丟失問(wèn)題,還顯著提升了文本處理的質(zhì)量和準(zhǔn)確性。隨著文檔長(zhǎng)度的增加,遲分的優(yōu)勢(shì)更加明顯。
這項(xiàng)技術(shù)的成功,再次證明了長(zhǎng)上下文Embedding模型的重要性。期待看到更多基于遲分的創(chuàng)新應(yīng)用,以及它在各種NLP任務(wù)中的表現(xiàn)。
未來(lái),將繼續(xù)優(yōu)化遲分技術(shù),探索其在更復(fù)雜場(chǎng)景下的應(yīng)用,如多語(yǔ)言處理、跨模態(tài)任務(wù)等。也鼓勵(lì)社區(qū)參與到這項(xiàng)技術(shù)的研究和應(yīng)用中來(lái),共同推動(dòng)NLP技術(shù)的發(fā)展。
本文轉(zhuǎn)載自 ??芝士AI吃魚(yú)??,作者: 芝士AI吃魚(yú)

















