精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡

發(fā)布于 2024-4-7 14:07
瀏覽
0收藏

文本嵌入模型在自然語(yǔ)言處理中扮演著重要角色,為各種文本相關(guān)任務(wù)提供了強(qiáng)大的語(yǔ)義表示和計(jì)算能力。


在語(yǔ)義表示上,文本嵌入模型將文本轉(zhuǎn)換為高維向量空間中的向量表示,其中語(yǔ)義上相似的文本在向量空間中距離較近,從而捕捉了文本的語(yǔ)義信息,這種表示有助于計(jì)算機(jī)更好地理解和處理自然語(yǔ)言;在文本相似度計(jì)算上,基于文本嵌入的向量表示,可以輕松地計(jì)算文本之間的相似度,從而支持各種應(yīng)用,如信息檢索、問答系統(tǒng)和推薦系統(tǒng);在信息檢索上,文本嵌入模型可以用于改善信息檢索系統(tǒng),通過將查詢與文檔嵌入進(jìn)行比較,找到最相關(guān)的文檔或段落;在文本分類和聚類上,通過將文本嵌入到向量空間中,可以進(jìn)行文本分類和聚類任務(wù)。


不同于以往,最近的研究重點(diǎn)不是為每個(gè)下游任務(wù)構(gòu)建單獨(dú)的嵌入模型,而是尋求創(chuàng)建支持多個(gè)任務(wù)的通用嵌入模型。


然而,通用文本嵌入模型面臨這樣一個(gè)挑戰(zhàn):這些模型需要大量的訓(xùn)練數(shù)據(jù)才能全面覆蓋所需的領(lǐng)域,研究主要集中在使用大量的訓(xùn)練示例來(lái)解決所面臨的挑戰(zhàn)。


LLM 的出現(xiàn)提供了一種強(qiáng)大的替代方案,因?yàn)?LLM 包含跨各個(gè)領(lǐng)域的大量知識(shí),并且被認(rèn)為是出色的小樣本學(xué)習(xí)者。最近的研究已經(jīng)證明了使用 LLM 進(jìn)行合成數(shù)據(jù)生成的有效性,但重點(diǎn)主要是增強(qiáng)現(xiàn)有的人類標(biāo)記數(shù)據(jù)或提高特定領(lǐng)域的性能。


這就促使研究者開始審視這一問題:我們可以在多大程度上直接利用 LLM 來(lái)改進(jìn)文本嵌入模型。


為了回答這一問題,本文來(lái)自谷歌 DeepMind 的研究者提出了 Gecko,這是一種從 LLM 中蒸餾出來(lái)的多功能文本嵌入模型,其在 LLM 生成的合成數(shù)據(jù)集 FRet 上進(jìn)行訓(xùn)練,并由 LLM 提供支持。


通過將 LLM 的知識(shí)進(jìn)行提煉,然后融入到檢索器中,Gecko 實(shí)現(xiàn)了強(qiáng)大的檢索性能。在大規(guī)模文本嵌入基準(zhǔn)(MTEB,Massive Text Embedding Benchmark)上,具有 256 個(gè)嵌入維度的 Gecko 優(yōu)于具有 768 個(gè)嵌入尺寸的現(xiàn)有模型。具有 768 個(gè)嵌入維度的 Gecko 的平均得分為 66.31,在與 7 倍大的模型和 5 倍高維嵌入進(jìn)行比較時(shí),取得了相競(jìng)爭(zhēng)的結(jié)果。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


  • 論文地址:https://arxiv.org/pdf/2403.20327.pdf
  • 論文標(biāo)題:Gecko: Versatile Text Embeddings Distilled from Large Language Models?


方法介紹


Gecko 是一個(gè)基于 1.2B 參數(shù)預(yù)訓(xùn)練的 Transformer 語(yǔ)言模型,該模型經(jīng)歷了兩個(gè)額外的訓(xùn)練階段:預(yù)微調(diào)和微調(diào)。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


預(yù)微調(diào)


該研究使用兩個(gè)預(yù)微調(diào)數(shù)據(jù)集。首先是使用 Ni 等人提出的大規(guī)模社區(qū) QA 數(shù)據(jù)集,該數(shù)據(jù)集包括來(lái)自在線論壇和 QA 網(wǎng)站的文本對(duì)。接下來(lái),研究者從 Web 上抓取標(biāo)題 - 正文文本對(duì),這些文本對(duì)可以從網(wǎng)站上獲得。


對(duì)大量無(wú)監(jiān)督文本對(duì)進(jìn)行預(yù)微調(diào)已被證明可以提高小型雙編碼器在各種下游任務(wù)中的性能,包括文檔檢索和語(yǔ)義相似性 。預(yù)微調(diào)階段的目標(biāo)是讓模型接觸大量的文本多樣性,這對(duì)于訓(xùn)練緊湊型文本嵌入模型是必要的。


FRet :兩步蒸餾


使用 LLM 生成 FRet 的兩階段方法。一般來(lái)講,訓(xùn)練嵌入模型的傳統(tǒng)方法依賴于大型的、手動(dòng)標(biāo)記的數(shù)據(jù)集。然而,創(chuàng)建此類數(shù)據(jù)集既耗時(shí)又昂貴,并且常常會(huì)導(dǎo)致不良偏差和缺乏多樣性。在這項(xiàng)工作中,本文提出了一種生成合成數(shù)據(jù)來(lái)訓(xùn)練多任務(wù)文本嵌入模型的新方法,該方法通過兩步蒸餾可以全面利用 LLM 掌握的知識(shí)。生成 FRet 的整體流程如圖 2 所示:


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


統(tǒng)一微調(diào)混合


接下來(lái),本文將 FRet 與其他學(xué)術(shù)訓(xùn)練數(shù)據(jù)集以相同的格式結(jié)合起來(lái):任務(wù)描述、輸入查詢、正向段落(或目標(biāo))和負(fù)向段落(或干擾項(xiàng)),從而創(chuàng)建一種新穎的微調(diào)混合。然后,本文使用這種混合與標(biāo)準(zhǔn)損失函數(shù)來(lái)訓(xùn)練嵌入模型 Gecko。


除了 FRet 之外,學(xué)術(shù)訓(xùn)練數(shù)據(jù)集包括:Natural Questions 、HotpotQA、FEVER、MedMCQA、MedMCQA、SNLI、MNLI 以及來(lái)自 Huggingface 的幾個(gè)分類數(shù)據(jù)集。對(duì)于多語(yǔ)言模型,本文添加了來(lái)自 MIRACL 的訓(xùn)練集。所有數(shù)據(jù)集都經(jīng)過預(yù)處理,具有統(tǒng)一的編碼格式,包含任務(wù)描述、查詢、正向段落和負(fù)向段落。


實(shí)驗(yàn)


該研究在 MTEB 基準(zhǔn)上評(píng)估了 Gecko。表 1 總結(jié)了 Gecko 和其他基線的比較結(jié)果。


Gecko 在每個(gè)文本嵌入任務(wù)上都顯著超越了所有類似大小的基線模型(<= 1k 嵌入尺寸,<= 5B 參數(shù))。與 text-embedding-3-large-256(OpenAI)、GTR 和 Instructor 研究相比,Gecko-1b-256 性能更好。Gecko-1b-768 通常可以匹配或超過更大模型的性能,包括 text-embedding-3-large (OpenAI)、E5-mistral、GRit 和 Echo 嵌入。值得注意的是,這些模型都使用 3-4k 嵌入維度并且參數(shù)均超過 7B。此外,該研究還觀察到 Gecko 在分類、STS 和摘要方面達(dá)到了新的 SOTA 水平。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


多語(yǔ)言檢索結(jié)果。表 2 總結(jié)了 Gecko 和其他基線在 MTEB 上的性能比較。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


表 3 總結(jié)了不同的標(biāo)記策略用于 FRet 的結(jié)果,實(shí)驗(yàn)過程中使用了不同的正樣本和負(fù)樣本段落。從結(jié)果可以發(fā)現(xiàn)使用 LLM 選擇的最相關(guān)段落總是優(yōu)于使用原始段落。表 5 也說(shuō)明了這種情況經(jīng)常發(fā)生。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


FRet 提供了對(duì)多種任務(wù)的查詢結(jié)果,包括問答、搜索結(jié)果、事實(shí)檢查和句子相似度。表 4 測(cè)試了 FRet 的多樣性如何影響 MTEB 中任務(wù)之間的模型泛化性。首先,該研究使用來(lái)自特定任務(wù)(例如,F(xiàn)Ret 問答)的 30 萬(wàn)個(gè)數(shù)據(jù)來(lái)訓(xùn)練各個(gè)模型。此外,研究者還使用原始采樣分布或均勻采樣分布從所有四個(gè)任務(wù)中抽取的 300k 樣本(每個(gè)任務(wù) 75k;FRet-all-task)來(lái)訓(xùn)練模型。觀察到 FRet-all-tasks 模型的卓越性能,特別是當(dāng)任務(wù)被均勻采樣時(shí)。該研究還發(fā)現(xiàn)統(tǒng)一格式顯著影響嵌入的質(zhì)量,因?yàn)樗兄谀P透玫胤蛛x不同的任務(wù)。


表 4 的最后幾行展示了 Gecko 如何學(xué)習(xí)更好的語(yǔ)義相似性和分類。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


了解更多內(nèi)容,請(qǐng)參考原論文。


本文轉(zhuǎn)自 機(jī)器之心,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/5e_Py_Xm0RsmP1YMcikpaQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产大尺度在线观看| 国产日韩在线看片| 男人舔女人下部高潮全视频| 欧美中文字幕精在线不卡| 国产精品三级视频| 国产高清精品一区二区| 久久久久久久久久一级| 一本一本久久a久久综合精品| 精品久久久久久久久久久久包黑料| 噜噜噜久久亚洲精品国产品麻豆 | 成人性生交大合| 日本精品视频在线观看| 天天天天天天天天操| 伊人久久大香线蕉| 欧美一区午夜视频在线观看| 男人的天堂99| caopo在线| 久久亚洲精精品中文字幕早川悠里| 国产精品爽爽爽| 日韩免费一级片| 正在播放日韩欧美一页| 亚洲天堂免费视频| 污污内射在线观看一区二区少妇 | 成人在线免费看片| 国产午夜精品久久| 国产精品露出视频| 亚洲怡红院av| 天堂久久久久va久久久久| 欧美韩国理论所午夜片917电影| 久久精品无码一区| 国产精品tv| 欧美一级精品大片| 国产九九在线观看| 成人看片网页| 一本色道久久综合亚洲aⅴ蜜桃 | 日韩电影免费在线观看中文字幕| 国产三级生活片| japanese23hdxxxx日韩| 午夜伦欧美伦电影理论片| 好吊色视频988gao在线观看| 男人资源在线播放| 国产精品天美传媒沈樵| 热舞福利精品大尺度视频| 亚洲 精品 综合 精品 自拍| 成人福利视频网站| av色综合网| 午夜免费福利视频| 国产成人综合精品三级| 亚洲伊人第一页| 国产精品乱码久久久| 免费久久精品视频| 国产在线观看一区二区三区| 在线观看免费视频一区| 久久精品国产成人一区二区三区| 国产精品视频免费在线| 这里只有久久精品视频| 青娱乐精品视频| 国产精品视频免费观看www| 中文字幕日本视频| 美女久久久精品| 91精品国产综合久久久久久蜜臀| 最近中文字幕在线免费观看| 久久电影网电视剧免费观看| 国产精品美女主播| 亚洲一区二区影视| 国产精一区二区三区| 99国产高清| 蜜桃av噜噜一区二区三区麻豆| 粉嫩绯色av一区二区在线观看| 666精品在线| 成人1区2区3区| 91老师片黄在线观看| 日韩理论片在线观看| av女优在线| 亚洲精品免费一二三区| 国产男女免费视频| 不卡av影片| 欧美吞精做爰啪啪高潮| 久久久久亚洲av无码麻豆| 国产厕拍一区| 亚洲免费人成在线视频观看| 黄色国产在线播放| 午夜精品久久久久99热蜜桃导演 | 欧美成欧美va| 一区二区三区高清视频在线观看| 国产成人精品一区| 国产日韩精品suv| heyzo一本久久综合| 欧美在线一区二区三区四区| 免费a级毛片在线播放| 亚洲国产综合色| 国产天堂在线播放| 亚洲第一二区| 亚洲人午夜精品免费| av成人免费网站| 另类国产ts人妖高潮视频| 成人黄色短视频在线观看| 殴美一级特黄aaaaaa| 欧美激情综合在线| 东北少妇不带套对白| 欧美三级精品| 亚洲福利精品在线| 女人18毛片毛片毛片毛片区二| 国产精品videosex极品| 国产精品免费久久久久影院| 人妻91麻豆一区二区三区| 国产精品蜜臀av| 免费成人在线视频网站| 玖玖精品一区| 中文字幕日韩av电影| 国产一级特黄aaa大片| 捆绑紧缚一区二区三区视频| 国产一级精品aaaaa看| 日韩在线观看www| 色综合中文字幕| 黄色激情在线观看| 羞羞色午夜精品一区二区三区| 欧美在线影院在线视频| 成人无码一区二区三区| 日韩毛片在线免费观看| 嫩草av久久伊人妇女超级a| 精品素人av| 色综合91久久精品中文字幕| 亚洲最新av网站| 久久免费的精品国产v∧| 欧美人成在线观看| 日韩精品中文字幕吗一区二区| 中文字幕精品—区二区| 日韩不卡视频在线| 成人看片黄a免费看在线| 97超碰人人爱| 欧美黄色成人| 最近2019年手机中文字幕| 日本免费在线观看视频| www.成人在线| 精品无码一区二区三区爱欲| 日韩精品三级| 欧美日本黄视频| 国产精品伦一区二区三区| 国产精品色眯眯| 国产精品一区二区羞羞答答| 国产精品亚洲片在线播放| 日韩美女写真福利在线观看| 国产精品国产高清国产| 精品久久久免费| 素人fc2av清纯18岁| 国产精品v日韩精品v欧美精品网站 | 国产一级中文字幕| 国产成人高清视频| 免费人成自慰网站| 麻豆精品av| 26uuu另类亚洲欧美日本一 | 亚洲午夜免费| 欧美激情一区二区久久久| 精品人妻无码一区二区| 亚洲宅男天堂在线观看无病毒| 中文字幕在线视频一区二区| 欧美精品观看| 国产91免费视频| 秋霞伦理一区| 亚洲网站在线播放| 中文字幕一区二区三区免费看| 欧美国产亚洲另类动漫| 香蕉视频999| 在线成人直播| 国产三区精品| 在线天堂新版最新版在线8| 亚洲美女中文字幕| 亚洲视频久久久| 亚洲精品精品亚洲| av鲁丝一区鲁丝二区鲁丝三区| 国产精品夜夜夜| 亚洲国产欧美一区二区三区不卡| 欧美啪啪网站| 欧美国产欧美亚洲国产日韩mv天天看完整| 亚洲国产精品久久久久久久| 精品国产电影一区| 亚洲一二三四视频| 国产传媒日韩欧美成人| 欧美精品99久久| 日韩欧美视频在线播放| 91成人免费在线观看| 极品美鲍一区| 中日韩美女免费视频网站在线观看| 国产精品永久久久久久久久久| 亚洲综合视频在线| 日本性高潮视频| 国产激情偷乱视频一区二区三区| 亚洲熟妇无码一区二区三区导航| 精品大片一区二区| 亚洲尤物视频网| 625成人欧美午夜电影| zzjj国产精品一区二区| 手机在线精品视频| 欧美日韩国产一级| 久久久久久久久久影院| 中文字幕一区二区三区不卡| 朝桐光av一区二区三区| 久久精品免费看| 国产精品一区二区免费在线观看| 国产精品99久久精品| 久久精品国产第一区二区三区最新章节 | 熟妇女人妻丰满少妇中文字幕| 亚洲欧美卡通另类91av| 麻豆传媒网站在线观看| av亚洲免费| 国内视频一区| 精品成人18| 国产精品欧美激情| 欧亚av在线| 欧美精品久久久久久久久久| 五月婷婷在线观看| 亚洲欧美激情在线视频| 亚洲国产精品久久人人爱潘金莲| 欧美日韩一级视频| 国产农村妇女aaaaa视频| 一区二区三区中文字幕| 日韩精品久久久久久久的张开腿让| av一区二区三区黑人| 三上悠亚 电影| 精品在线你懂的| 亚洲视频在线观看一区二区三区| 亚洲经典三级| 欧美精品久久久久久久自慰| 91精品天堂福利在线观看 | 成人亚洲综合天堂| 日韩电影在线观看永久视频免费网站| 国产美女主播在线观看| 欧美日韩国产色站一区二区三区| 亚洲综合久久网| 午夜久久电影网| 国产在线视频在线观看| 亚洲乱码国产乱码精品精可以看 | 国产白袜脚足j棉袜在线观看| 激情综合色播激情啊| 日本888xxxx| 日韩电影免费在线看| 国产精品-区区久久久狼| 一本色道久久综合亚洲精品不| 久久男人资源站| 欧美激情亚洲| 国产精品免费看久久久无码| 亚洲91视频| av不卡在线免费观看| 久久精品影视| 中国黄色录像片| 综合国产精品| 日韩黄色片在线| 狠狠干成人综合网| 免费无码毛片一区二三区| 136国产福利精品导航网址| 国产黄色片免费在线观看| 欧美日韩影院| 野外做受又硬又粗又大视频√| 亚洲二区在线| 国产裸体舞一区二区三区| 久久一区二区三区超碰国产精品| 亚洲精品中文字幕无码蜜桃| 久久一区国产| 国产亚洲视频一区| 国产激情一区二区三区四区 | 97人人爽人人爽人人爽| 欧美高清视频不卡网| 中文字幕精品在线观看| 911精品国产一区二区在线| 精品国产无码一区二区| 亚洲激情在线观看视频免费| 久久av少妇| 日韩亚洲欧美中文在线| 中文字幕在线播放网址| 久久久久女教师免费一区| 手机av在线| 国产精品视频午夜| 亚洲啊v在线免费视频| 久久99精品久久久久子伦| 精品久久不卡| 热久久最新网址| 国产精品亚洲综合久久| 中文字幕22页| 成人免费精品视频| 性猛交ⅹxxx富婆video| 亚洲免费伊人电影| 中文字幕免费在线观看视频| 欧美日韩夫妻久久| 欧美在线欧美在线| 好吊日av在线| 欧美一区深夜视频| 亚洲人成777| 久久久久久久久久久久久9999| 久久99蜜桃| 97av中文字幕| 久久久人人人| 免费黄视频在线观看| 国产日韩欧美a| 免费在线视频一区二区| 欧美综合色免费| 亚洲第一页视频| 中文字幕少妇一区二区三区| av影视在线| 国产主播在线一区| 亚洲传媒在线| 老子影院午夜伦不卡大全| 男女性色大片免费观看一区二区| 欧美图片自拍偷拍| 中文幕一区二区三区久久蜜桃| 69精品久久久| 7777精品伊人久久久大香线蕉完整版| 亚洲 欧美 精品| 欧美成人精品xxx| 99精品在免费线偷拍| 精品日本一区二区三区在线观看| 国产精品久久久乱弄 | 黄色aa久久| 91精品视频在线免费观看| 伊人成综合网yiren22| 蜜臀av色欲a片无码精品一区| 久久国产尿小便嘘嘘| 日本一级免费视频| 精品久久久久久国产| 精品人妻一区二区三区日产乱码| 色阁综合伊人av| 日韩精品影院| 蜜桃999成人看片在线观看| 影音先锋在线一区| 自拍一级黄色片| 国产精品二三区| 波多野结衣黄色网址| 日韩精品在线看| cao在线视频| 国产富婆一区二区三区| 欧美fxxxxxx另类| 亚洲五月激情网| 亚洲天堂av一区| 91亚洲国产成人精品一区| 日韩在线视频网| 国产亚洲精品精品国产亚洲综合| 日韩av不卡播放| 日韩专区中文字幕一区二区| 欧美图片一区二区| 色综合夜色一区| 欧美挠脚心网站| 热门国产精品亚洲第一区在线| 欧美1区二区| 免费毛片小视频| 91在线高清观看| 黄色片中文字幕| 亚洲一区二区久久| a∨色狠狠一区二区三区| 色综合电影网| 久久se这里有精品| 久热这里有精品| 欧美精品一区二区三区一线天视频| 国产在线观看免费麻豆| 999在线观看免费大全电视剧| 先锋影音av在线| 1000精品久久久久久久久| 国产特级黄色片| 欧美黄色性视频| 日韩av中文字幕一区| 国产三区在线视频| 日本一区免费视频| 一区二区国产欧美| 欧美伦理91i| 人妖一区二区三区| 成年人网站大全| 综合欧美一区二区三区| 亚洲乱码国产乱码精品精软件| 久久久久久成人精品| 欧美激情99| 一区二区在线播放视频| 日韩美女精品在线| 色一情一乱一区二区三区| 日本欧美精品在线| 久久一区二区中文字幕| 91人妻一区二区| 日韩欧美在线观看视频| 四虎久久免费| 国产精品乱子乱xxxx| 美女诱惑黄网站一区| 亚洲女人久久久| 精品久久久久av影院 | 国产欧美日韩中文| 午夜视频一区| 欧美成人午夜精品免费| 欧美日韩亚洲综合| 爱看av在线入口| 午夜精品一区二区在线观看| 国产寡妇亲子伦一区二区| 东京热一区二区三区四区| 久热精品视频在线观看| 色狼人综合干| 人妻少妇偷人精品久久久任期| 欧美日韩一二三四五区| bestiality新另类大全| 日本不卡在线观看| 国产精品123区| 中文字幕一区二区三区波野结| 97欧美精品一区二区三区| 久久视频精品| 亚洲一区二区三区蜜桃|