精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

利用LLM本身訓(xùn)練SoTA embedding模型

發(fā)布于 2024-5-29 12:25
瀏覽
0收藏

大家好,我是HxShine

今天分享一篇Microsoft公司的一篇文章,Title: Improving Text Embeddings with Large Language Models:使用大型語言模型改善文本嵌入。

這篇文章探索了直接利用LLM來做embedding模型,其只需要利用合成數(shù)據(jù)和少于1000次的訓(xùn)練步驟就能獲得高質(zhì)量文本表征。

該方法分為兩步:1)利用LLM生成文本embedding任務(wù)合成數(shù)據(jù)集:利用專有的大型語言模型(LLM)生成近100種語言的數(shù)十萬個文本嵌入任務(wù)的多樣化合成數(shù)據(jù)。2)對比損失微調(diào):使用標準對比損失對開源的decoder-only LLM進行微調(diào)。

該方法特點總結(jié)如下:1)充分挖掘了大模型生成數(shù)據(jù)多樣性還不錯的特點,利用這個特點,可以利用LLM生成多樣性比較好、類型豐富、以及多語言的文本表征模型數(shù)據(jù)集。2)相對于之前例如SimCSE等模型,需要在大量語料上繼續(xù)做預(yù)訓(xùn)練以及微調(diào),本文發(fā)現(xiàn)自回歸的LLM只需少量監(jiān)督數(shù)據(jù)就能獲得一個非常不錯的效果。3)多語言的檢索能力也不錯。

一、概述

Title:Improving Text Embeddings with Large Language Models論文地址:https://arxiv.org/abs/2401.00368

1 Motivation

  • 現(xiàn)有的文本嵌入方法依賴于多階段預(yù)訓(xùn)練和少量標注數(shù)據(jù)的微調(diào)【大量數(shù)據(jù)->弱監(jiān)督預(yù)訓(xùn)練,少量標注數(shù)據(jù)->fine-tuning】,需要構(gòu)建復(fù)雜的訓(xùn)練流程,且數(shù)據(jù)集通常受限于任務(wù)多樣性和語言覆蓋范圍。
  • 本文提出了一種新的方法:利用大型語言模型生成多樣化的合成數(shù)據(jù),通過簡單但有效的訓(xùn)練步驟改善文本嵌入的質(zhì)量,特別在多種語言環(huán)境中效果非常不錯。

2 Methods

省流版總結(jié):

  • 合成數(shù)據(jù)生成:分兩步生成合成數(shù)據(jù),第一步生成檢索任務(wù)主題,第二步根據(jù)主題生成問題、正樣本、負樣本。其特點是生產(chǎn)的檢索任務(wù)多樣性不錯、同時還可以生成多語言的數(shù)據(jù)集。
  • 對比學習訓(xùn)練:利用常規(guī)的對比學習loss InfoNCE函數(shù)訓(xùn)練模型,只是用合成數(shù)據(jù),只需要1k步左右訓(xùn)練就能有一個不錯的效果,疊加監(jiān)督數(shù)據(jù)效果更佳 。

2.1 利用LLM生成訓(xùn)練樣本

通常訓(xùn)練embedding模型強烈依賴正負樣本數(shù)據(jù),標注成本比較高。這里本文嘗試利用專有LLM(如GPT-4)生成近100種語言的多樣化合成數(shù)據(jù),用于訓(xùn)練embedding模型。

背景:使用LLM合成數(shù)據(jù),增強文本嵌入模型的多樣性和魯棒性。方法:設(shè)計了多種任務(wù)類型和語言的模板,通過LLM生成合成數(shù)據(jù)。特點:  能夠覆蓋廣泛的任務(wù)和語言類型,提高數(shù)據(jù)的多樣性和質(zhì)量。

1)利用LLM列舉檢索任務(wù):

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

2)針對每個任務(wù),利用LLM按照要求生成訓(xùn)練樣本:

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

2.2 模型訓(xùn)練

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

要點一:需要指定任務(wù)task_definition,輸入用戶問題。其中合成的數(shù)據(jù)用2.1中第一步LLM生成的任務(wù)定義,其他數(shù)據(jù)集人工設(shè)置固定的模版。

要點二:相似度計算方式為cos相似度,并結(jié)合溫度系數(shù)超參數(shù)來調(diào)節(jié)具體值。

要點三:Loss函數(shù)為標準的InfoNCE函數(shù),其懲罰了負樣本,提升正樣本的相似度分數(shù)。

3 Conclusion

結(jié)論1: 使用LLM生成的合成數(shù)據(jù)可以顯著提升文本嵌入的性能。

結(jié)論2: 方法在多語言環(huán)境下表現(xiàn)良好,特別是在BEIR和MTEB基準上。

結(jié)論3: 本方法提供了一種更高效的文本嵌入訓(xùn)練策略,避免了復(fù)雜的多階段訓(xùn)練。

4 Limitation

  1. 盡管在多種語言中表現(xiàn)良好,但對低資源語言的支持仍有待改進,利用LLM做文本embedding成本還比較高。
  2. 未來工作將探索使用開源LLM生成合成數(shù)據(jù),并提高模型在長文本處理方面的效率。

二、詳細內(nèi)容

2.1 合成數(shù)據(jù)的統(tǒng)計分析

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論1: 生成了500k個樣例,涵蓋了150k個獨特指令。包括非對稱任務(wù)(query和doc不對稱):short-long代表query是短文本,doc為長文本,其他可以反推。另一類任務(wù)是對稱任務(wù)(query和doc語義相近,但是不對等):sts代表單語言語義相似度計算、bitext代表雙語言檢索任務(wù)。結(jié)論2: 生成數(shù)據(jù)中覆蓋93種語言。語言多樣性不錯,英語占大多數(shù),其他語言占比也不少。

2.2 模型微調(diào)與評估

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

試驗設(shè)置:基座模型為Mistral-7b,微調(diào)方法為Lora,rank=16。

結(jié)論1: "E5mistral-7b + full data"模型在MTEB基準上超過先前最佳模型2.4分。結(jié)論2: 使用混合數(shù)據(jù)微調(diào)的模型在MTEB基準上取得了最高平均得分。結(jié)論3: w/synthetic data only代表僅使用合成數(shù)據(jù)訓(xùn)練的模型表現(xiàn)仍然競爭力十足。

結(jié)論4: 該方法的實驗結(jié)果顯示了生成語言建模和文本嵌入之間的潛在聯(lián)系。

2.3 與商業(yè)閉源模型對比

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論:在BEIR Retrieval數(shù)據(jù)集和MTEB數(shù)據(jù)集都取得了SoTa。

2.4 LLM只需要少量數(shù)據(jù)做微調(diào)即可取得比較好的效果

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論一:傳統(tǒng)數(shù)據(jù)利用大量數(shù)據(jù)結(jié)合對比學習做無監(jiān)督訓(xùn)練可以帶來不錯的提升。

結(jié)論二:經(jīng)過大量語料訓(xùn)練的自回歸LLM模型已經(jīng)不需要繼續(xù)做預(yù)訓(xùn)練了,只需要少量的數(shù)據(jù)微調(diào)即可取得比較好的效果。

2.5 多語言任務(wù)上也非常有競爭力

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論一:高資源(數(shù)據(jù)量多)任務(wù)例如英語,效果比之前的mE5模型效果好,低資源任務(wù)效果相對mE5也非常有競爭力。

2.6 消融實驗:instruction設(shè)置比較關(guān)鍵

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論一:基座模型選擇也比較重要,選擇LLaMA-2的基座模型比Mistral-7b作為基座模型差。

結(jié)論二:instruction的設(shè)置也非常重要,對最終結(jié)果的影響可能差4個點以上。

2.7 context長度對檢索質(zhì)量的影響:4k左右上下文文本表征都還不錯,隨后效果急劇下降。

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論:引入了一項名為個性化密碼檢索的新型合成任務(wù),此任務(wù)需要在長上下文中將密鑰信息編碼到嵌入中。通過更改圖5中的滑動窗口大小和RoPE旋轉(zhuǎn)底座來比較不同變體的性能。結(jié)果顯示,帶有4k滑動窗口的默認配置在4k token數(shù)達到100%的準確性,但隨著上下文長度的增長,準確性會迅速下降。

三、總結(jié)

結(jié)論1:利用LLM生成的合成數(shù)據(jù)可以顯著提升文本嵌入的性能。 這種方法在處理多種語言時尤其有效,能夠生成高質(zhì)量、多樣化的合成數(shù)據(jù)。

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論2:利用LLM訓(xùn)練Embedding模型可以非常高效。 與現(xiàn)有多階段方法相比,其只需要少于1000次的訓(xùn)練步驟就可以拿到比較好的效果,而現(xiàn)有方法可能要先利用大量數(shù)據(jù)做自監(jiān)督訓(xùn)練,然后再使用有監(jiān)督數(shù)據(jù)訓(xùn)練,效率不高。結(jié)論3:本文利用LLM做embedding是一個突破,但產(chǎn)業(yè)界還不太適用。 本文首次探索LLM做embedding,效果還不錯,但模型大,推理成本也高,產(chǎn)業(yè)界實用性不高(bge相關(guān)模型只有400M左右,本文方法模型達到7B以上),后續(xù)可以探索LLM生成和挖掘正負樣本數(shù)據(jù),利用傳統(tǒng)方法例如雙塔+SimCSE系列等模型進行訓(xùn)練,然后再應(yīng)用到產(chǎn)業(yè)界。

本文轉(zhuǎn)載自?? NLP PaperWeekly??,作者: ??NLP PaperWeekly?? 

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
欧美日韩视频在线观看一区二区三区| 国产二区三区在线| 亚洲成aⅴ人片久久青草影院| 国产suv精品一区二区883| 精品国产拍在线观看| 日韩精品视频网址| 久草免费在线色站| 欧美高清一区| 精品日韩在线观看| 免费在线a视频| 国产午夜视频在线观看| 国产精品免费看| 尤物九九久久国产精品的分类| 日本a√在线观看| 二区三区四区高清视频在线观看| 国产69精品久久久久777| 欧洲亚洲免费视频| 97精品在线播放| 理论片一区二区在线| 久久久综合网站| 91免费在线视频| 性囗交免费视频观看| 大片免费在线看视频| 成人午夜视频在线| 国产精品福利在线观看网址| 伊人在线视频观看| 天海翼精品一区二区三区| 亚洲欧美福利一区二区| 精品国产乱码久久久久软件| 中文字幕乱码av| 91精品久久久久久综合五月天| 天天色图综合网| 五月天亚洲综合小说网| 亚洲精选一区二区三区| 国产日产精品一区二区三区四区的观看方式| 在线视频亚洲一区| 人人妻人人澡人人爽欧美一区| 你懂的视频在线播放| 麻豆高清免费国产一区| 日韩精品免费在线| 岛国av免费在线| 狠狠躁少妇一区二区三区| 国产精品国产精品国产专区不片 | 久久久久久久久久久久久久久久久| 久久a爱视频| 欧美一级黄色录像| 婷婷六月天在线| 亚洲校园激情春色| 一区二区欧美在线观看| 一区在线电影| 亚洲乱码国产乱码精品| 蜜桃精品wwwmitaows| 欧美日韩在线三级| 97成人在线观看视频| 污污影院在线观看| 九九国产精品视频| 日本免费在线精品| 天堂网一区二区三区| 午夜国产精品视频免费体验区| 在线精品播放av| 三级网站在线免费观看| 日韩高清成人在线| 精品国产乱子伦一区| 杨幂一区二区国产精品| 在线观看亚洲精品福利片| 欧美午夜片在线观看| 精品一卡二卡三卡| 原纱央莉成人av片| 亚洲伊人色欲综合网| 青青草原网站在线观看| gogo在线观看| 亚洲码国产岛国毛片在线| 中文字幕不卡每日更新1区2区| 可以在线观看的黄色| 久久这里只有精品6| 久久久精彩视频| 色噜噜一区二区三区| 成人一级片在线观看| 国产成人一区二区三区免费看| 亚洲精品视频91| 国产精品亚洲专一区二区三区| 久久国产精品偷| √天堂中文官网8在线| 婷婷伊人综合| 久久国产精品影视| 四虎精品免费视频| 欧美日韩国内| 欧美一级大片在线免费观看| 在线观看日本网站| 老司机一区二区| 亚洲综合大片69999| 亚洲欧美激情在线观看| 99在线热播精品免费99热| 97在线视频免费观看| av中文字幕网址| 成人三级小说| 欧美激情一区二区三区蜜桃视频| 日本一区二区在线视频| 91九色在线porn| 亚洲色图欧美激情| 亚洲人成人77777线观看| 麻豆视频网站在线观看| 一二三四社区欧美黄| 精品少妇人妻av免费久久洗澡| 成人动漫在线播放| 亚洲色图都市小说| 加勒比成人在线| 日韩欧美另类一区二区| 欧美日韩成人一区| 人人妻人人澡人人爽欧美一区双| 国产理论在线| 欧美系列亚洲系列| 国产a√精品区二区三区四区| 成人看片网页| 日韩欧美aaaaaa| 3d动漫精品啪啪一区二区下载 | 国产在线精品一区免费香蕉| 久草视频免费在线| 日韩视频二区| 国产日韩欧美成人| 国产成人无码www免费视频播放| wwwwxxxxx欧美| 国产日韩成人精品| 日韩av大片免费看| 在线免费观看一级片| 岛国一区二区在线观看| 色99中文字幕| 17videosex性欧美| 欧美日韩成人一区二区| 亚洲欧美色图视频| 99a精品视频在线观看| 亚洲少妇中文在线| 久久中文字幕在线观看| 美女国产一区二区| 精品亚洲第一| 在线三级中文| 欧美日韩一区二区三区四区| chinese麻豆新拍video| 亚洲字幕久久| 美日韩在线视频| 夜夜爽妓女8888视频免费观看| 另类天堂av| 成人欧美一区二区三区视频| 日韩精品视频无播放器在线看 | 五月天久久久| 国产精品老牛影院在线观看| 少妇人妻偷人精品一区二区| 亚洲日本电影在线| 日韩精品你懂的| 免费看成人吃奶视频在线| 久久久久久欧美| 国产哺乳奶水91在线播放| 中文字幕国产一区| 五月天亚洲综合| 97久久香蕉国产线看观看| 亚洲国产私拍精品国模在线观看| 熟女人妻在线视频| 在线成人www免费观看视频| 91在线中文字幕| 看女生喷水的网站在线观看| 91国产福利在线| 99久久久无码国产精品衣服| 国产美女一区| 欧美亚洲国产免费| 日韩av超清在线观看| 中文字幕精品国产| 成人av免费播放| 91色在线porny| 国产极品美女高潮无套久久久| 神马影视一区二区| 国产日韩欧美视频在线| 最新黄网在线观看| 亚洲国产黄色片| 懂色av蜜臀av粉嫩av永久| 国产一区二区调教| 日韩av电影免费在线观看| 成人国产综合| www.亚洲一区| 成人乱码一区二区三区| 欧美视频在线观看免费网址| 一级二级黄色片| 国产精品一区二区三区四区| 国产av国片精品| 精品视频亚洲| 99re热精品| 成人影院av| 日韩一区视频在线| 五月婷婷丁香花| 欧美日韩一区二区在线观看视频| 久久久精品国产sm调教网站| 久久综合国产精品| 美女被爆操网站| 88国产精品视频一区二区三区| 99超碰麻豆| 午夜日韩成人影院| 欧美猛交免费看| 国产乱码久久久| 第一福利永久视频精品| 永久免费看mv网站入口| 97久久人人超碰| 亚洲综合在线一区二区| 久久精品天堂| 精品人妻人人做人人爽| 青青草综合网| 国产欧美日韩一区二区三区| 欧洲亚洲精品| 国产精彩精品视频| 大香伊人久久| 伦理中文字幕亚洲| 99久久一区二区| 91搞黄在线观看| 日本熟妇毛耸耸xxxxxx| 国产精品第四页| 亚洲天堂视频一区| 懂色av中文字幕一区二区三区 | 欧美三级小视频| 欧美经典三级视频一区二区三区| 国产女人18毛片水真多18| 韩国成人福利片在线播放| 伊人情人网综合| 久久99国产成人小视频| 国产精品免费一区二区三区在线观看 | 欧美极品xxxx| 国内外激情在线| 中文字幕国产亚洲2019| 国产一级在线| 亚洲精品永久免费| 婷婷色在线观看| 精品久久久久香蕉网| 国产伦一区二区| 欧美三级在线看| 日韩精品在线一区二区三区| 欧美日韩一区二区在线| 日韩免费一级片| 五月天中文字幕一区二区| 五月婷婷一区二区| 亚洲人精品午夜| 欧美丰满熟妇bbbbbb| 国产精品国产精品国产专区不片| 成人小视频免费看| 国产欧美精品国产国产专区| 国产高潮呻吟久久| 国产欧美一区二区精品仙草咪| 国精产品一区一区三区免费视频| 91在线丨porny丨国产| 艳妇乳肉豪妇荡乳xxx| 成人18精品视频| 人妻精品无码一区二区三区| 激情综合在线| 玩弄中年熟妇正在播放| 99热这里只有精品8| 亚洲熟妇av日韩熟妇在线| 一区二区三区国产在线| 无码aⅴ精品一区二区三区浪潮| 亚洲欧美网站| 国产精品视频黄色| 久久精品国产**网站演员| 99sesese| 国产自产v一区二区三区c| 精品人妻一区二区三| 成人免费av资源| www.超碰97| 国产三级一区二区| 亚洲AV成人无码网站天堂久久| 国产精品不卡视频| 强乱中文字幕av一区乱码| 亚洲成av人影院| 99久久久久久久久| 欧美日韩亚洲综合在线| jlzzjlzzjlzz亚洲人| 日韩av在线一区| 国产一级在线| 久国内精品在线| 午夜影院在线观看国产主播| 国产精品成人品| 欧美视频二区欧美影视| 国模精品一区二区三区| 精品国产一区二区三区香蕉沈先生| 伊人久久99| 亚洲二区免费| 91网址在线播放| 福利91精品一区二区三区| 亚洲精品国产91| 一区二区三区四区蜜桃| 国产一区二区99| 亚洲精品成人少妇| 亚洲 欧美 日韩 综合| 欧美综合在线视频| 亚洲AV无码精品国产| 亚洲人成毛片在线播放| 亚洲淫性视频| 日韩av色综合| 五月亚洲婷婷| 色一情一乱一伦一区二区三区| 亚洲精品国产成人影院| 噜噜噜久久亚洲精品国产品麻豆| 蜜桃视频一区二区三区在线观看| 成人做爰www看视频软件| 国产精品久久久久久一区二区三区| 精品无码m3u8在线观看| 欧美巨大另类极品videosbest | 一个人www欧美| 精品日韩av| 国产这里只有精品| 免费成人av| 菠萝蜜视频在线观看入口| 日韩精品乱码av一区二区| 缅甸午夜性猛交xxxx| 美女精品自拍一二三四| 中文字幕5566| 亚洲国产婷婷综合在线精品| 91精品国产色综合久久不8| 精品一区二区电影| 丁香花在线电影| 91亚洲va在线va天堂va国| 精品国产乱码久久久| 亚洲熟妇国产熟妇肥婆| 国产成人亚洲综合a∨猫咪| 国产伦精品一区二区三区妓女下载| 久久尤物电影视频在线观看| 久草视频免费在线| 这里是久久伊人| 91亚洲欧美| 国产成人极品视频| 性欧美lx╳lx╳| 成年女人18级毛片毛片免费| 国产精品1区二区.| 国产精品免费人成网站酒店| 欧美日韩一区在线观看| 成人在线免费公开观看视频| 欧美一级免费看| 国产精品传媒| 日韩精品综合在线| 国产宾馆实践打屁股91| 国产精品久久久精品四季影院| 欧美另类z0zxhd电影| av在线免费一区| 国产精品免费久久久| 欧美美女一区| 91人人澡人人爽人人精品| 国产女主播一区| 伊人精品一区二区三区| 最新国产成人av网站网址麻豆| 91p九色成人| 亚洲日本欧美在线| 久久99久久久久| 久久国产波多野结衣| 制服丝袜日韩国产| 高清全集视频免费在线| 97se在线视频| 国产精品av久久久久久麻豆网| 中文字幕在线观看91| 亚洲国产成人av网| 无码精品在线观看| 国产999在线| 不卡日本视频| 天美一区二区三区| 亚洲一卡二卡三卡四卡无卡久久| 成人小说亚洲一区二区三区| 国内揄拍国内精品| 在线日韩网站| 91福利国产成人精品播放| 18欧美乱大交hd1984| 亚洲天堂视频网站| 欧美一区二区视频网站| 在线看一级片| 精品国产一区二区三区日日嗨| 亚洲综合日韩| 国产黄a三级三级| 日韩欧美国产不卡| 激情国产在线| 亚洲欧美久久234| 国产美女精品| 精品手机在线视频| 日韩欧美三级在线| 亚洲同志男男gay1069网站| 伊人av成人| 99久久久国产精品| 在线播放国产一区| 久久久久国色av免费观看性色| 天天躁日日躁狠狠躁欧美巨大小说| 天天插天天操天天射| 亚洲免费观看高清完整版在线观看 | 欧美日韩精品免费看| 久久99国内精品| 日韩成年人视频| 中文字幕不卡在线视频极品| 日韩成人在线观看视频| 国产无套内射久久久国产| 18成人在线视频| 嫩草研究院在线| 99免费在线观看视频| 久久精品日产第一区二区| 91精品国产高清一区二区三蜜臀| 日韩精品视频免费专区在线播放 | 激情五月深爱五月| 精品国产91九色蝌蚪| 国产一区二区三区四区五区3d| 男女视频网站在线观看| ...av二区三区久久精品|