精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

再談大模型長文本分塊,以及分塊在RAG中的作用? 原創(chuàng)

發(fā)布于 2024-12-19 14:39
瀏覽
0收藏

“ 向量數(shù)據(jù)庫的檢索原理,就是存儲不同數(shù)據(jù)之間的向量關(guān)系,在檢索時通過向量關(guān)系查詢相關(guān)數(shù)據(jù) ”

文本分塊也就是chunk技術(shù)是大模型領(lǐng)域中非常重要的一項技術(shù),原因就在于大模型眾所周知的問題,上下文窗口限制;雖然說現(xiàn)在大模型的窗口經(jīng)過幾次擴容之后已經(jīng)達到了一個非常可觀的長度,但依然還存在很多問題。

比如說,長文本導(dǎo)致的模型幻覺問題;中間丟失現(xiàn)象等多種性能問題;而且,在RAG技術(shù)中,長文本也是一個亟待解決的問題。

而現(xiàn)在業(yè)內(nèi)普遍的處理方式就是文本分塊,把一段長文本根據(jù)某種方式拆分成多種小的文本塊;這樣就有助于大模型進行處理,也能間接降低大模型的幻覺等問題。

文本分塊

在大模型上下文窗口中文本分塊就比較好理解,這就類似于我們平常看一本很厚的書;我們無法做到一次就給全部看完,因此常見的做法就是今天看一點,明天看一點,然后一段時間之后就看完了。

而我們在看書的過程中,比如昨天看了一部分停了下來;今天接著看,但可能我們一時想不起來昨天看到哪里了;因此就會找到昨天看的大概位置再往前一點,這樣有助于我們回憶昨天看的內(nèi)容;也有助于上下文的連貫性。

而大模型長文本處理有一種方式也是采用類似的方式,那就是把文本按照chunk_size進行分塊;然后使用chunk_overlap重疊一部分內(nèi)容。而chunk_overlap重疊的部分就相當(dāng)于我們看書時往前看的一部分,這樣有助于上下文的連貫性,特別是對大模型這種沒有記憶能力的系統(tǒng)來說。

而在代碼方面具體的表現(xiàn)就如下所示,加載文檔之后使用分詞工具根據(jù)不同的長度進行分詞,分詞的長度和重疊部分就是由chunk_size和chunk_overlap來指定,之后再轉(zhuǎn)化為向量。

"""
加載文檔
"""
def load_documents(directory=dir_path):
    loader = DirectoryLoader(directory)
    documents = loader.load()


    # for document in documents:
    #     print(document)
    # 文檔分割
    text_spliter = CharacterTextSplitter(chunk_size=256, chunk_overlap=10)
    spliter_docs = text_spliter.split_documents(documents)


    return spliter_docs

當(dāng)然,在一些沒有語義相關(guān)的上下文中,也可以不使用chunk_overlap參數(shù);只根據(jù)chunk_size或其它方式進行分塊。比如說,今天工作日我在上班;今天天氣不錯;這兩句話從語義上來說沒有任何相關(guān)性,因此可以進行完全分塊。

雖然說文本分塊是大模型技術(shù)中很常見的一種處理方式,但現(xiàn)在有一個疑問就是;在大模型上下文窗口中這樣的使用方式很容易理解;但在RAG中就存在一個問題。

RAG中一般使用向量數(shù)據(jù)庫作為數(shù)據(jù)的存儲方式,原因就在于向量數(shù)據(jù)庫能很好的保證文本之間的語義關(guān)系(也有圖像關(guān)系,混合關(guān)系等多種情況)。

但長文本被分塊之后,在向量數(shù)據(jù)庫中的表現(xiàn)形式也是一條一條的記錄;如果說一條語義相關(guān)的長文本被拆分成多個小塊,然后存儲在向量數(shù)據(jù)庫的不同位置。

再談大模型長文本分塊,以及分塊在RAG中的作用?-AI.x社區(qū)

這時在進行向量檢索時,向量數(shù)據(jù)庫是怎么保證檢索內(nèi)容的相關(guān)性的?

難道是因為具有語義相關(guān)的內(nèi)容被保存在相近距離的向量空間中?比如歐氏距離就是通過計算不同向量之間的距離來表示其相關(guān)性。

但如果面對著百億級以上的向量存儲需求,向量數(shù)據(jù)庫怎么保證快速且準(zhǔn)確高效的檢索到相關(guān)數(shù)據(jù)? 

個人猜測,長文本被拆分之后,為了保證語義相關(guān)性,因此采用了chun_overlap的方式來讓拆分的文本有重疊的內(nèi)容;根據(jù)這些重疊的內(nèi)容,在進行向量計算的時候會把這相關(guān)的數(shù)據(jù)放到一塊;或者能夠通過一種方式進行快速檢索。

如下圖所示,文本被拆分之后,因為有chunk_overlap參數(shù)關(guān)聯(lián)文本的語義關(guān)系;那么,在向量數(shù)據(jù)庫中就會把語義相關(guān)的內(nèi)容記錄到更近的位置;這樣在檢索的時候,就可以根據(jù)向量之間的關(guān)系獲取相關(guān)的數(shù)據(jù)。

再談大模型長文本分塊,以及分塊在RAG中的作用?-AI.x社區(qū)

這就類似于傳統(tǒng)SQL語句的like功能,可以根據(jù)某個字段或語句查詢到多條記錄;然后再從這多條記錄中篩選出語義相關(guān)性最高的數(shù)據(jù)。

但這同樣有新的問題,那就是chunk_overlap只是文檔拆分的一種方式;還有很多其它的方式可以拆分;那么這就說明一件事,chunk_overlap只是一種表象,核心在于怎么保證上下文語義的相關(guān)性;如果不使用chunk_overlap的方式,或者不使用歐式距離的計算方式, 那么怎么才能保證文本上下文的相關(guān)性呢?

而且,我們都知道大模型是經(jīng)過訓(xùn)練和微調(diào)的方式,通過不斷調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)值來“學(xué)習(xí)”不同文本(多模態(tài))數(shù)據(jù)之間的關(guān)系,那這個學(xué)習(xí)的過程是不是就是在不斷的計算向量之間的關(guān)系?


本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/VL10Snh_jqbtGLR38vOXMQ??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
狠狠狠色丁香婷婷综合激情| 久久中文字幕一区二区| 久久精品人人做人人爽97| 欧日韩不卡在线视频| 人与嘼交av免费| 国产精品视频一区二区三区综合| 亚洲国产精品久久不卡毛片| 久久综合九色综合网站| 伊人免费在线观看| 亚洲视频高清| 中文字幕免费精品一区| 亚洲欧美综合视频| 久久久加勒比| 欧美日韩国产色| 欧美少妇一区二区三区| 黄色片免费在线| 国产成+人+日韩+欧美+亚洲| 国产精品青青在线观看爽香蕉 | 亚洲中文一区二区三区| 99精品视频免费全部在线| 精品国产一区久久久| free性中国hd国语露脸| 麻豆国产一区二区三区四区| 在线日韩av片| 麻豆tv在线播放| 黄色成人在线| 欧美极品另类videosde| 久久九九视频| www黄色在线观看| 久久激情五月激情| 国产成+人+综合+亚洲欧洲| 黄色一级视频在线观看| 91精品一区二区三区综合在线爱| 日韩av综合网站| 欧美激情一区二区三区p站| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 国产美女永久免费| 美腿丝袜亚洲一区| 国产精品91一区| 久久99精品波多结衣一区| 欧美日韩三级| 久久亚洲国产精品| 影音先锋男人资源在线观看| 欧美精品尤物在线观看| 亚洲人高潮女人毛茸茸| 亚洲一区二区三区蜜桃| 国产在线播放精品| 日韩天堂在线观看| 亚洲国产综合av| 精品国产亚洲一区二区三区在线| 欧美日韩国产综合一区二区三区| 中文字幕在线观看第三页| 午夜av不卡| 婷婷综合在线观看| 又粗又黑又大的吊av| 99热99re6国产在线播放| 亚洲一区免费观看| 久久久久久久久久久99| 九九精品调教| 精品久久久久久国产| 男人添女人下面高潮视频| 麻豆视频在线观看免费网站黄| 亚洲午夜精品网| 国产深夜男女无套内射| 成人香蕉视频| 欧美日韩精品一二三区| 亚洲欧美国产中文| 国产精品亚洲一区二区在线观看| 91精品在线免费| 日批视频免费看| 另类ts人妖一区二区三区| 亚洲老头同性xxxxx| 扒开jk护士狂揉免费| 精品欧美激情在线观看| 久久精品电影一区二区| 国产在线视频第一页| 99国产成+人+综合+亚洲欧美| 欧美整片在线观看| 最近日韩免费视频| 国产麻豆精品95视频| 国产福利久久| 国内在线精品| 亚洲美女视频在线观看| 日本www在线视频| 国产毛片精品久久| 欧美草草影院在线视频| 法国伦理少妇愉情| 91精品国产乱码久久久久久久 | 欧美黑人一级片| 一区二区三区国产在线| 国产精品女视频| 亚洲精品18p| 国产欧美日韩激情| 国产激情片在线观看| 国产美女高潮在线| 欧美日韩精品一区二区三区蜜桃 | 国产成人久久777777| 欧美激情啪啪| 亚洲国产精品yw在线观看| www成人啪啪18软件| 狠狠色丁香久久综合频道| 国产精品扒开腿做| 亚洲女人18毛片水真多| 国产区在线观看成人精品| 国产女主播av| 成人精品国产亚洲| 日韩精品福利在线| 看片网站在线观看| 日韩av一区二| 久久99精品久久久久久三级| 精品国产丝袜高跟鞋| 色婷婷亚洲综合| 国产免费无码一区二区| 色狮一区二区三区四区视频| 性欧美xxxx交| 国产黄色一级大片| 中文字幕在线观看一区| 黄色高清无遮挡| 国产精品午夜av| 久久国产精品网站| 中文字幕观看视频| 久久先锋影音av| www.好吊操| 国产高清日韩| www.日韩av.com| 91在线视频免费播放| 99久久99久久精品免费观看 | 久久96国产精品久久99软件| 日韩av官网| 欧美一级黄色大片| 男人的午夜天堂| 人人精品人人爱| 欧美自拍资源在线| 中文字幕在线中文字幕在线中三区| 日韩精品影音先锋| 欧美精品一级片| 国产一区二区看久久| 视频一区三区| 国产精品毛片久久久久久久久久99999999 | 日日橹狠狠爱欧美超碰| 91午夜精品| 久久久久成人网| www.黄色小说.com| 一区二区三区四区不卡在线 | 亚洲精品v日韩精品| 国产福利精品一区二区三区| 小小影院久久| 91色琪琪电影亚洲精品久久| 色影院视频在线| 欧美日韩国产精品自在自线| 亚洲一级理论片| 蜜芽一区二区三区| 偷拍视频一区二区| 视频欧美精品| 久久的精品视频| 国产精品欧美综合亚洲| 亚洲欧美一区二区三区久本道91| 亚洲图片 自拍偷拍| 午夜久久久久| 九九九九九九精品| 电影网一区二区| 中文字幕亚洲综合久久筱田步美| 伊人久久亚洲综合| 一区二区欧美国产| 国产性生活毛片| 欧美中文日韩| 亚洲一区精品视频| 日韩视频在线直播| 7m第一福利500精品视频| 亚洲AV成人无码一二三区在线| 日韩欧美中文字幕在线播放| 精品亚洲aⅴ无码一区二区三区| 久国产精品韩国三级视频| av影院在线播放| 欧美日韩一区二区三区在线电影| 日本成熟性欧美| 欧美成年黄网站色视频| 日韩久久精品一区| 久久久久女人精品毛片九一| 亚洲国产激情av| 美女流白浆视频| 乱人伦精品视频在线观看| 一区二区三区四区国产| silk一区二区三区精品视频| 日本免费久久高清视频| 免费a在线看| 亚洲福利精品在线| 99久久久无码国产精品免费蜜柚 | 狠狠人妻久久久久久综合| 国产精品免费丝袜| 国产乱淫av麻豆国产免费| 久久久国产亚洲精品| 国产a级片免费看| 日韩有码av| 91久热免费在线视频| 中文字幕色婷婷在线视频| 久久成人精品电影| 欧美视频免费一区二区三区| 欧美一区二区三区视频在线| 二区视频在线观看| 一区二区三区国产精品| 免费黄色片网站| 成人av在线播放网址| 亚洲综合欧美在线| 国产手机视频一区二区| 手机福利在线视频| 免费成人高清在线视频theav| 91在线高清视频| 欧美大片1688网站| 91精品国产91久久久久久不卡| 久久久久久久久免费视频| 亚洲女人天堂网| 午夜精品久久久久久久99热黄桃 | 亚洲制服中文字幕| 久久综合九色| 日韩精品一区二区免费| 亚洲老妇激情| 亚洲欧洲日本国产| 国产一区2区| 精品蜜桃传媒| 成人在线视频你懂的| 成人在线视频网站| 国产精成人品2018| 日本精品免费一区二区三区| 国产第一页在线| 欧美猛少妇色xxxxx| 幼a在线观看| 在线播放日韩av| 免费看男男www网站入口在线 | 日本久久电影网| 日韩字幕在线观看| 亚洲图片一区二区| 久久老司机精品视频| 亚洲精品乱码久久久久久久久| 蜜桃视频最新网址| 中文字幕在线观看一区二区| 手机av在线不卡| 国产精品日日摸夜夜摸av| 日本成人午夜影院| 欧美国产精品一区| 女人黄色一级片| 国产免费成人在线视频| x88av在线| 国产精品午夜久久| 欧美xxxooo| 中文字幕日韩av资源站| 欧洲美女女同性互添| 亚洲欧洲另类国产综合| 国产免费一区二区三区四区| 成人欧美一区二区三区| 在线观看黄网址| 亚洲精品成人悠悠色影视| 国产亚洲精品久久久久久无几年桃| 一区二区成人在线视频| 久久综合加勒比| 婷婷成人激情在线网| 久久黄色精品视频| 欧美在线视频不卡| 在线免费a视频| 欧美一区二区三区不卡| 亚洲毛片在线播放| 国产手机视频精品| 丁香婷婷在线| 久久国产精品久久久久久| 91桃色在线| 国产91在线播放| 香蕉久久一区| 国产精品初高中精品久久| 日韩av中文字幕一区| 日韩欧美精品一区二区| 亚洲色图欧美| 国产在线播放观看| 视频一区二区国产| 欧美精品色视频| www.日韩精品| 国产成人精品视频免费| 亚洲女同ⅹxx女同tv| 久久国产精品免费看| 欧美视频自拍偷拍| 性一交一乱一色一视频麻豆| 亚洲欧美日韩国产中文| 国产激情在线观看| 欧美亚洲视频在线看网址| 欧美在线一级| 久久精品中文字幕一区二区三区| 欧美第一精品| 国产婷婷一区二区三区| 久88久久88久久久| 中文字幕在线观看网址| 亚洲天堂福利av| 欧美一级特黄视频| 欧美一级专区免费大片| 你懂的免费在线观看| 久久69精品久久久久久国产越南| 伊人久久综合一区二区| 亚洲一区二区三区视频| 国产成人调教视频在线观看 | 韩国精品在线观看| 性久久久久久久久久| 亚洲美女淫视频| 波多野结衣家庭主妇| 亚洲成人性视频| 2024最新电影在线免费观看| 国产福利视频一区| 日本亚洲不卡| av无码久久久久久不卡网站| 美女久久久精品| 偷拍女澡堂一区二区三区| 一区二区在线观看不卡| 依依成人在线视频| 亚洲精品久久7777777| caoporn免费在线视频| 国产精品成人播放| 小说区图片区色综合区| 久久这里只有精品8| 国内不卡的二区三区中文字幕 | 国产精品网站入口| 美女少妇全过程你懂的久久| www.av91| 成人永久免费视频| 在线免费观看亚洲视频| 欧美日韩一本到| 黄色片在线播放| 奇米四色中文综合久久| 久久精品凹凸全集| 国产精品无码电影在线观看| 精品一区二区三区在线观看国产| mm131丰满少妇人体欣赏图| 精品人伦一区二区三区蜜桃免费 | 成人免费观看49www在线观看| 三级三级久久三级久久18| 免费日韩av| 3d动漫精品啪啪一区二区下载| 婷婷激情综合网| 日本高清视频www| 国语自产精品视频在线看一大j8 | 国产区在线观看成人精品| 欧美brazzers| 亚洲午夜未删减在线观看| 新片速递亚洲合集欧美合集| 欧美国产一二三区| 首页综合国产亚洲丝袜| av在线网站观看| 欧美性一二三区| 97视频在线观看网站| 国产精品一区二区三| 99久久久久久中文字幕一区| 成人日韩在线视频| 亚洲男人天堂av网| www国产一区| 97视频在线免费观看| 在线观看欧美理论a影院| 91色国产在线| 一色屋精品亚洲香蕉网站| 国产欧美久久久| 国内揄拍国内精品少妇国语| 综合伊思人在钱三区| 黄色一级二级三级| 亚洲视频在线观看一区| 成人黄色在线观看视频| 2024亚洲男人天堂| 精品国产乱码久久久久久果冻传媒 | 久久一区二区三区视频| 亚洲性线免费观看视频成熟| 玖玖精品在线| 17c丨国产丨精品视频| 97精品久久久久中文字幕| 成人黄色免费网| 欧美激情视频网站| 免费毛片在线不卡| 最新av免费在线观看| 亚洲国产一区视频| 欧美在线一卡| 成人性生交大片免费观看嘿嘿视频| 在线看片日韩| 亚洲精品国产精品国自产网站| 欧美日韩国产免费一区二区 | 欧美午夜电影一区| 在线黄色网页| 日韩精品无码一区二区三区| 国产精品亚洲视频| 日韩精品一区二区亚洲av| 日韩在线观看高清| 国产精品毛片久久久| 一区二区在线播放视频| 亚洲影院久久精品| 福利在线播放| 超碰国产精品久久国产精品99| 久久精品网址| av资源吧首页| 日韩中文字幕不卡视频| 精品国产乱码一区二区三区| 欧美日韩亚洲第一| 亚洲欧美精品午睡沙发| 日本福利在线观看| av成人免费观看| 美女视频黄 久久| 欧美videossex极品| 免费91在线视频| japanese国产精品|