精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG(五)BGE-M3,最流行的開源text embedding模型

人工智能 開源
text embedding作為檢索增強生成中至關重要的一環,今天來了解下最流行的開源text embedding模型,智源研究院發布的BGE-M3。

項目地址:https://huggingface.co/BAAI/bge-m3

圖片

首先說明下為什么需要text embedding?

Text Embedding 是一種將文本數據映射到高維向量空間的技術,這些向量能夠捕捉文本的語義信息。通過將文本嵌入到向量空間中,我們可以利用向量之間的距離或相似性來衡量文本之間的語義相關性。

在信息檢索領域,Text Embedding 的重要性尤為突出。傳統的基于關鍵詞匹配的檢索方法往往無法準確理解用戶的真實意圖,也無法處理語義相似但用詞不同的查詢。而通過 Text Embedding,我們可以將查詢和文檔都嵌入到同一個語義空間中,從而能夠更準確地檢索出與用戶查詢語義相關的文檔,而不僅僅是包含相同關鍵詞的文檔。

此外,隨著多語言內容的不斷增加,跨語言檢索的需求也日益增長。Text Embedding 能夠將不同語言的文本映射到一個統一的語義空間中,使得跨語言檢索成為可能。

智源發布的BGE-M3在多語言、多功能和多粒度方面展現出前所未有的通用性,能夠支持超過100種語言的語義檢索,并且可以處理從句子到長文檔的各種輸入。下面來詳細看下:

1、方法介紹

M3-Embedding 實現了三方面的多功能性,支持多種語言,并能夠處理不同粒度的輸入數據。此外,它還統一了文本嵌入的常見檢索功能。形式上,給定任意語言 x 中的查詢 q,它能夠從語料庫圖片中檢索出語言 y 中的文檔圖片

數據整理

BGE-M3-Embedding 需要一個大規模且多樣化的多語言數據集。為了構建這樣的數據集,從三個來源進行了全面的數據收集:

  1. 無監督數據:來源包括 Wikipedia、S2ORC、xP3、mC4、CC-News 和 MTP 等多語言語料庫。從這些語料庫中提取豐富的語義結構,例如標題-正文、標題-摘要、指令-輸出等。為了學習跨語言語義匹配的統一嵌入空間,引入了平行句子數據,來自 NLLB 和 CCMatrix 兩個翻譯數據集。總共整理出1.2 億個文本對,涵蓋 194 種語言和 2655 種跨語言對應關系
  2. 微調數據:
    英語:整合了 8 個數據集,包括 HotpotQA、TriviaQA、NQ、MS MARCO、COLIEE、PubMedQA、SQuAD 和 SimCSE 的 NLI 數據。
    中文:整合了 7 個數據集,包括 DuReader、mMARCO-ZH、圖片、LawGPT、CMedQAv2、圖片和 LeCaRDv2。
    其他語言:利用 Mr. TyDi 和 MIRACL 的訓練數據。
  3. 合成數據:為緩解長文檔檢索任務的短缺,生成了額外的多語言微調數據(稱為 MultiLongDoc)。從 Wikipedia、Wudao 和 mC4 數據集中抽取長篇文章,并從中隨機選擇段落。使用 GPT-3.5 根據這些段落生成問題,生成的問題和抽取的文章構成新的文本對

混合檢索

BGE-M3-Embedding 統一密集檢索、詞匯(稀疏)檢索和多向量檢索的具體實現如下:

  1. 密集檢索:輸入查詢q通過文本編碼器轉換為隱藏狀態圖片,使用特殊標記 "[CLS]" 的歸一化隱藏狀態表示查詢:圖片。同樣,段落p的嵌入為圖片。查詢和段落之間的相關性得分通過內積計算:圖片
  2. 詞匯檢索:輸出嵌入用于估計每個詞項的重要性,以促進詞匯檢索。對于查詢中的每個詞項t,詞項權重計算為圖片,其中圖片是將隱藏狀態映射到浮點數的矩陣。如果詞項t在查詢中出現多次,只保留其最大權重。查詢和段落之間的相關性得分通過查詢和段落中共存詞項的聯合重要性計算:圖片
  3. 多向量檢索:作為密集檢索的擴展,多向量方法利用整個輸出嵌入來表示查詢和段落:圖片,其中圖片是可學習的投影矩陣。使用延遲交互計算細粒度的相關性得分:圖片,其中N和M分別是查詢和段落的長度。

自知識蒸餾

圖片

嵌入模型被訓練為將正樣本與負樣本區分開,對于每種檢索方法,期望為查詢的正樣本分配比負樣本更高的得分。訓練過程旨在最小化 InfoNCE 損失,其一般形式為:

圖片

其中,圖片圖片分別表示查詢q的正樣本和負樣本;s(?)是圖片中的任意一個函數。

不同檢索方法的訓練目標可能會相互沖突。為了促進多種檢索功能的優化,在訓練Bge-M3時,提出在自知識蒸餾的基礎上統一訓練過程。具體步驟如下:

1. 集成預測得分:將不同檢索方法的預測得分整合為更準確的相關性得分:

圖片

2. 計算損失函數:計算圖片的加權和作為沒有自知識蒸餾的損失:

圖片

3. 修改損失函數:使用集成得分圖片作為教師,修改每個檢索方法的損失函數:

圖片

其中,p(?)是 softmax 激活函數;圖片圖片中的任意一個成員。

4. 最終損失函數:

  • 進一步整合并歸一化修改后的損失函數:

圖片

  • 最終損失函數為:
    圖片

訓練過程分為兩個階段:

  1. 預訓練階段:使用大規模無監督數據對文本編碼器(XLM-RoBERTa 模型,通過 RetroMAE 方法調整)進行預訓練,僅以對比學習的基本形式訓練密集檢索。
  2. 微調階段:應用自知識蒸餾,對嵌入模型進行微調,以建立三種檢索功能。在此階段使用標注數據和合成數據,并引入硬負樣本。

高效批處理

嵌入模型需要從多樣化和大規模的多語言數據中學習,以充分捕捉不同語言的通用語義。為了確保文本嵌入的區分性,模型需要盡可能保持大批量(引入大量批內負樣本)。然而,由于 GPU 內存和計算能力的限制,傳統的做法是將輸入數據截斷為短序列,以實現高訓練吞吐量和大批量。這種方法雖然有效,但對于BGE-M3-Embedding 來說并不適用,因為它需要同時處理短序列和長序列數據,以有效支持不同粒度的輸入。

為了克服上述挑戰,本文提出了一種高效的批處理策略,具體包括以下幾個關鍵步驟:

  • 按序列長度分組:訓練數據按序列長度分組,生成小批量時從同一組中采樣,顯著減少序列填充,提高了 GPU 的利用效率。
  • 固定隨機種子:在為不同 GPU 采樣訓練數據時,固定隨機種子,確保負載平衡并減少每個訓練步驟的等待時間。
  • 子批量處理:在處理長序列訓練數據時,將小批量進一步劃分為子批量,然后使用梯度檢查點(gradient checkpointing)技術,迭代編碼每個子批量,顯著減少內存占用的同時顯著增加了批量大小。
  • 跨 GPU 廣播:在分布式訓練環境中,將來自不同 GPU 的嵌入結果進行廣播,使每個 GPU 都可以獲取所有嵌入結果。通過廣播,每個 GPU 上的模型可以訪問更多的負樣本,從而顯著擴大了批內負樣本的規模,有助于提高嵌入的區分性,進一步提升模型的性能。

圖片


2、實驗結果

多語言檢索

使用 MIRACL,包含 18 種語言的臨時檢索任務,每個任務由同一語言的查詢和段落組成

  • Dense 方法:M3-Embedding 在密集檢索上表現出色,平均性能優于所有基線方法。例如,在英語上與 E5mistral-7b 相比,M3-Embedding 在其他語言上表現更好。
  • Sparse 方法:M3-Embedding 的稀疏檢索功能優于傳統的 BM25 方法。
  • Multi-vec 方法:多向量檢索進一步提升了性能,通過細粒度的交互計算相關性得分。
  • 混合方法:Dense+Sparse 和 All 方法通過結合不同方法的優勢,進一步提升了檢索性能,其中 All 方法表現最佳。

圖片

跨語言檢索

使用 MKQA,包含 25 種非英語語言的查詢,目標是從英文維基百科中檢索包含答案的段落

M3-Embedding 在跨語言檢索任務中表現出色,尤其是在密集檢索和多向量檢索方面。結合不同方法的混合檢索進一步提升了性能。此外,M3-Embedding 在低資源語言上的表現相對穩定。

圖片

多語言長文檔檢索

BGE-M3可以支持長達8192的輸入文檔,同時長文檔檢索的效果要顯著優于此前的基線模型。非常有意思的是,從實驗結果可以觀察到,稀疏檢索(Sparse)的效果要顯著高于稠密檢索(Dense),這說明關鍵詞信息對于長文檔檢索極為重要。

圖片

消融實驗

自知識蒸餾和多階段訓練對 M3-Embedding 的性能提升起到了關鍵作用。通過這些技術,M3-Embedding 在多語言檢索、跨語言檢索和長文檔檢索任務中均表現出色。

圖片


3、總結

BGE-M3-Embedding模型的目的是構建一個多功能、多語言、多粒度的文本嵌入模型,能夠高效地支持各種信息檢索和自然語言處理任務。它的意義在于:

  • 多功能性:統一了多種檢索功能,適應不同的檢索需求。
  • 多語言支持:支持超過100種語言,適用于全球化的信息檢索和多語言對話系統。
  • 多粒度處理:能夠處理從短句子到長文檔的不同粒度的輸入,適應各種文本長度的需求。
  • 實際應用:在搜索引擎、問答系統、推薦系統、文檔分析和多語言對話系統等領域具有廣泛的應用前景。

從評測結果來看,BGE-M3全面應用于檢索任務,包括訓練數據也全是檢索的相關任務,非常適合檢索增強任務。

在實際應用中,BGE-M3也是text-embedding模型中下載量最高的模型,是目前最適合檢索增強任務的開源文本嵌入模型之一。

責任編輯:龐桂玉 來源: 小白學AI算法
相關推薦

2024-07-01 08:56:14

2025-09-28 07:11:56

2025-03-06 08:20:00

RAG嵌入模型

2009-02-04 09:11:52

Web2.0術語FTW

2025-03-26 11:05:13

2010-05-25 15:12:59

Web

2018-08-09 09:22:55

開源web服務器

2023-10-17 18:07:36

2018-09-11 15:18:41

編程語言TJavaScriptJava

2014-02-04 19:44:23

編程語言開發

2014-02-19 10:34:48

JavaScript代碼規范

2017-10-28 23:35:08

CSS框架開發工具

2013-12-10 21:23:07

開源Ubuntu

2017-04-19 10:32:01

2024-10-14 10:58:13

2011-01-04 18:04:49

PHP

2011-03-21 13:01:10

2024-11-21 15:44:21

2025-03-19 09:30:00

2024-01-30 14:21:13

點贊
收藏

51CTO技術棧公眾號

亚洲精品一区二区三区四区| 丁香花五月激情| 成人黄色图片网站| 国产精品国产自产拍高清av| 97人人模人人爽人人喊38tv| 精品小视频在线观看| 欧美热在线视频精品999| 欧美裸体一区二区三区| 国产日本在线播放| 夜级特黄日本大片_在线| 成人免费毛片高清视频| 国产精品丝袜一区二区三区| 日本三级网站在线观看| 欧美独立站高清久久| 精品久久99ma| 国产视频1区2区3区| 国产夫妻在线| 亚洲免费观看高清完整版在线 | 91淫黄看大片| 爱情岛论坛亚洲品质自拍视频网站| 国产亚洲综合av| 操一操视频一区| 在线观看国产成人| 新狼窝色av性久久久久久| 欧美精品一二区| 国产精品一区二区亚洲| 偷拍自拍亚洲色图| 精品国产91乱码一区二区三区 | av高清久久久| 91久久国产综合久久蜜月精品| av毛片在线免费观看| 亚洲精品社区| 欧美韩国理论所午夜片917电影| 国产第一页精品| 国产乱码精品一区二区三区四区| 精品国产三级电影在线观看| 爱情岛论坛亚洲自拍| 久久人体av| 在线视频中文字幕一区二区| 欧美一区二区三区爽大粗免费| 香蕉久久aⅴ一区二区三区| 国产精品你懂的在线欣赏| 欧美日韩在线高清| 欧美偷拍视频| 2022国产精品视频| 久久青青草综合| 亚洲欧美日本在线观看| 成人aaaa免费全部观看| 国产福利久久精品| 亚洲av永久纯肉无码精品动漫| 久久69国产一区二区蜜臀| 国产精品精品久久久久久| 精品无码一区二区三区的天堂| 国产精品久久久久9999高清| 91国自产精品中文字幕亚洲| 欧美一级视频免费观看| 在线亚洲欧美| 日本免费在线精品| 精品久久久久久久久久久国产字幕| 国产欧美一级| 国产激情999| 国产精品无码一区| 久久国产视频网| 91视频国产高清| 国产成人精品毛片| 成人激情黄色小说| 精品国产一区二区三区日日嗨 | 91视频国产观看| 欧美第一黄网| wwwxxx在线观看| 99在线视频精品| 国产日韩av在线播放| 国产深喉视频一区二区| 国产99一区视频免费| 国内精品视频在线播放| 久久久pmvav| 国产精品久久久久久妇女6080| 午夜啪啪福利视频| heyzo一区| 一本到高清视频免费精品| 91网址在线播放| 精品视频在线观看免费观看| 欧美精品一区二区不卡| 五月天综合视频| 欧美一区二区| 91精品国产91久久久| 欧美视频xxxx| 国产suv精品一区二区883| 欧美日韩大片一区二区三区| 欧美18一19xxx性| 午夜视频在线观看一区二区 | 亚洲欧洲日产国产网站| 91香蕉视频网| 国产欧美成人| 91免费精品视频| 九九热精品在线| 九九热国产精品视频| 亚洲激情网站| 国产精品一区=区| 亚洲第一页在线观看| 久久婷婷色综合| 亚洲小说欧美另类激情| 欧美在线极品| 欧美一区二视频| 泷泽萝拉在线播放| 91超碰成人| 国产成人av网| 日韩中文字幕免费观看| 综合久久国产九一剧情麻豆| 久久综合九色综合88i| 99精品视频在线免费播放| 日韩av资源在线播放| 999精品视频在线观看播放| 午夜综合激情| 丁香五月网久久综合| 91sp网站在线观看入口| 精品久久久久久国产91| 精品国产一二区| 天天色天天射综合网| 日本精品免费一区二区三区| 国产成人手机在线| 国产精品传媒视频| 国产 porn| 亚洲区小说区图片区qvod按摩| 欧美精品做受xxx性少妇| 看黄色一级大片| 久久久精品免费免费| 欧美视频免费看欧美视频| 成人自拍视频| 中文字幕精品网| 四虎成人在线观看| 成人免费va视频| www.国产亚洲| 国产一区二区三区精品在线观看 | 欧美日韩国产亚洲一区| 国产精品自产拍在线观| 国产一区电影| 在线视频一区二区三区| 精品黑人一区二区三区观看时间| 影音国产精品| 国产精品视频免费一区二区三区| gogogogo高清视频在线| 51精品国自产在线| 女人18毛片毛片毛片毛片区二| 日韩精品亚洲一区二区三区免费| 久久精品午夜一区二区福利| sis001亚洲原创区| 亚洲成人久久一区| 女人十八岁毛片| 91免费观看视频| 六月激情综合网| 最近国产精品视频| 日韩免费在线观看视频| 国产免费av高清在线| 色综合咪咪久久| 2019男人天堂| 久久av资源网| 最近免费观看高清韩国日本大全| 成人污版视频| 欧美黑人国产人伦爽爽爽| 亚洲女人18毛片水真多| 亚洲va天堂va国产va久| 中文字幕在线观看的网站| 久久美女性网| 亚洲黄色成人久久久| 91精品福利观看| 久久777国产线看观看精品| 好吊视频一二三区| 日韩欧美aaa| 国产精品酒店视频| 精品影院一区二区久久久| 99久re热视频精品98| 99ri日韩精品视频| 国产91亚洲精品| 嫩草在线视频| 亚洲国产高清高潮精品美女| 久久久成人免费视频| 国产精品乱码一区二三区小蝌蚪| 在线免费看污网站| 亚洲福利久久| 日本午夜精品一区二区三区| 欧美电影在线观看网站| 欧美激情亚洲一区| 国产中文在线观看| 91精品国产综合久久久蜜臀粉嫩 | 一本不卡影院| 亚洲一区bb| 白嫩白嫩国产精品| 国产精品美女在线| 黄色污污视频在线观看| 亚洲香蕉av在线一区二区三区| 91麻豆成人精品国产| 亚洲成人av在线电影| 少妇av片在线观看| 成人精品免费看| 视频在线观看免费高清| 黄色亚洲大片免费在线观看| 日韩精品欧美在线| 91综合久久爱com| 国产精品久久久久aaaa九色| 欧美6一10sex性hd| 神马国产精品影院av| 欧美熟妇交换久久久久久分类| 欧美影视一区二区三区| 国产精彩视频在线| 国产精品萝li| 国产aⅴ激情无码久久久无码| 国产一区激情在线| 成人观看免费完整观看| 国内精品久久久久久久影视麻豆| 手机看片福利永久国产日韩| 高清精品xnxxcom| 国产精品中文字幕在线观看| 天堂av中文在线观看| 欧美精品一区三区| 免费不卡视频| 亚洲图片欧洲图片av| 人妻无码一区二区三区久久99| 欧美日韩二区三区| 欧美超碰在线观看| 天天av天天翘天天综合网| 国产女人18水真多毛片18精品| 国产欧美一区二区精品秋霞影院| 污污免费在线观看| 国产精品一品二品| 国产探花在线看| 日韩精品一二区| 青青草原成人网| 亚洲精品免费观看| 国产毛片久久久久久国产毛片| 99国产精品一区二区| 亚洲国产综合自拍| 大片网站久久| 视频一区免费观看| 青青草综合网| 亚洲欧美精品| 色综合色综合| 手机成人在线| 色狮一区二区三区四区视频| 色乱码一区二区三在线看| 一区二区美女| 日本在线成人一区二区| 亚洲区小说区图片区qvod按摩| 精品亚洲欧美日韩| 竹菊久久久久久久| 日韩国产精品一区二区三区| 欧美日韩激情| 亚洲精品日韩成人| 欧美激情成人| 免费在线精品视频| 欧美日韩亚洲一区| 日韩视频免费播放| 性色av一区二区怡红| 亚洲人成无码www久久久| 日日夜夜免费精品视频| 美女网站免费观看视频| 日韩国产精品久久久久久亚洲| 制服丝袜综合网| 精品系列免费在线观看| 亚洲欧美日韩一二三区| 国产成人在线看| 四季av综合网站| 91美女在线观看| 欧美 日韩 国产 成人 在线观看| 亚洲国产精品成人综合色在线婷婷 | 91性感美女视频| 人妻熟女aⅴ一区二区三区汇编| 26uuu色噜噜精品一区| 亚洲图片另类小说| 国产精品福利一区二区| 深夜福利影院在线观看| 亚洲h在线观看| 波多野结衣小视频| 91精品国产综合久久香蕉的特点| 亚洲国产精品视频在线| 亚洲福利小视频| av影片免费在线观看| 欧美精品日韩三级| 欧美黑人巨大xxxxx| 成人精品一区二区三区| 精品成人自拍视频| 亚洲蜜桃av| 亚洲激情精品| 中文字幕第38页| 99久久精品一区| 日韩欧美视频免费观看| 亚洲超丰满肉感bbw| 在线免费观看一区二区| 精品国产乱码久久久久久牛牛| 玖玖综合伊人| 欧美日韩高清区| av亚洲一区二区三区| 99re在线播放| 欧洲杯半决赛直播| 欧美一级视频在线播放| 三级欧美在线一区| 日本少妇xxx| 国产日产精品1区| 在线免费日韩av| 欧美专区亚洲专区| 视频污在线观看| 超薄丝袜一区二区| 欧洲av一区二区| 国产综合动作在线观看| 午夜精品毛片| 91麻豆精品91久久久久久清纯| 亚洲中文字幕一区二区| 亚洲国产精品成人av| 无遮挡动作视频在线观看免费入口| 久久久久久国产精品久久| 久久亚洲人体| 久久香蕉综合色| 欧美激情无毛| 久久久久久久久久一区| 国产亚洲精品bt天堂精选| 国产欧美日韩另类| 日韩一二三四区| 麻豆电影在线播放| 国产精品久久久久aaaa九色| 亚洲天堂日韩在线| 2022亚洲天堂| 成人福利在线看| 国产精品九九九九九九| 91精品欧美久久久久久动漫| 大胆av不用播放器在线播放| 热久久视久久精品18亚洲精品| 哺乳一区二区三区中文视频| 日韩精品免费一区| 国内久久精品视频| 蜜桃av.com| 欧美精品久久一区二区三区| 在线观看h片| 国产精品久久久久久婷婷天堂| 中文字幕精品影院| 国产成人无码一二三区视频| 91丨九色丨蝌蚪富婆spa| 久久网一区二区| 日韩免费在线观看| 18av在线播放| 成人欧美一区二区三区在线观看| 欧美a级片一区| 风韵丰满熟妇啪啪区老熟熟女| 亚洲人成人一区二区在线观看| 91久久精品国产91性色69| 久久激情五月丁香伊人| av在线播放一区二区| 2021狠狠干| 夫妻av一区二区| 亚洲一区 视频| 日韩av网址在线| 在线女人免费视频| 日韩成人av网站| 狠狠狠色丁香婷婷综合激情| 国产稀缺精品盗摄盗拍| 精品日本一线二线三线不卡| 国产精品—色呦呦| 精品久久久三级| 日韩激情视频网站| 国产精品久久久免费看| 日韩精品中文字幕一区| 1024在线看片你懂得| 欧美精品亚洲精品| 久久精品国产一区二区三区免费看| 日韩av网站在线播放| 日韩一区二区不卡| 多野结衣av一区| 色之综合天天综合色天天棕色 | 亚洲香蕉伊在人在线观| 丝袜+亚洲+另类+欧美+变态| 国产成人精品午夜| 亚洲经典一区| 性色av蜜臀av色欲av| 欧美视频在线一区| 亚洲大胆人体大胆做受1| 久久久精品动漫| 美国三级日本三级久久99| 九九热精彩视频| 亚洲欧美中文日韩在线v日本| 久久av影院| 国产高清av在线播放| 国产喷白浆一区二区三区| av资源免费看| 国产91久久婷婷一区二区| 91日韩欧美| 免费a在线观看播放| 欧美精品久久一区二区三区| aa国产成人| 中国一区二区三区| 99精品黄色片免费大全| 一级黄色大毛片| 88国产精品欧美一区二区三区| 日韩欧美中字| 久久人人爽人人人人片| 69成人精品免费视频| 亚洲欧洲自拍| 日韩欧美一级在线| 中文字幕精品一区二区精品绿巨人| 黑人操亚洲女人| 国产区精品在线观看| 国产亚洲精品v|