精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

11個LLM一起上,性能爆炸提升!AI2聯合USC開源LLM-Blender集成學習框架:先排序再融合

人工智能 新聞
11個LLM臭皮匠,能不能比得上GPT-4?

隨著Alpaca, Vicuna, Baize, Koala等諸多大型語言模型的問世,研究人員發現雖然一些模型比如Vicuna的整體的平均表現最優,但是針對每個單獨的輸入,其最優模型的分布實際上是非常分散的,比如最好的Vicuna也只在20%的任務里比其他模型有優勢。

有沒有可能通過集成學習來綜合諸多開源的「弱」LLM的能力,來使得他們整體成為一個「強」LLM呢?

AI2,USC,和浙大的研究員由此提出了一個集成學習框架,LLM-Blender,它通過排序和融合來對各個LLM的輸出進行集成,從而達到了較為穩定的提升。

圖片

論文鏈接:https://arxiv.org/abs/2306.02561

代碼鏈接:https://github.com/yuchenlin/LLM-Blender

對于同一條指令來自不同LLMs的回答,LLM-Blender框架可以有效選擇出其中質量更高的回答,再基于這些回答融合生成一個新的質量更高的回答。

圖片

為了促進集成學習在LLM社區的發展和測試LLM-Blender的能力,論文作者們構建了一個新的指令數據集MixInstrcut。

數據采樣于Aplapa-GPT-4, Laion, ShareGPT等流行的指令數據集。對于每個指令,MixInstruct還包括了11個包括Vicuna, Baize, Open Asssistant等當前流行的開源大型語言模型的回答。

論文的進行了一系列實驗評估了不同LLMs在MixInstruct數據集上的差異性,并測試了LLM-Blender在集成多個LLMs回答的能力。

實驗證明了LLM-Blender集成得到的回答在所有LLM回答中平均排名為3.01,其中68.59%都排名在前三,這遠超平均排名最好為3.90的單個模型Open Assistant,以及Vicuna(只有有52.88%的回答被排到前三)。

主要貢獻

1. 提出了一個新的針對大型語言模型的集成學習框架LLM-Blender,用于對多個LLMs的回答進行排序與融合。LLM-Blender由兩個簡單有效的模塊PairRanker與GenFuser組成。

2. 一個新的指令數據集MixInstruct。其中的每一條指令都包含了來自Vicuna等數十個當前流行的開源LLMs的回答,用來訓練與評估集成學習框架LLM-Blender。

3. 首次證明了集成學習在LLM社區的顯著效果與其應用價值。

4. 開源LLM-Blender工具包,方便LLM社區研究人員使用與進一步研究。

大型語言模型的集成學習

LLM-Blender: 排序+融合

LLM-Blender主要包含兩個模塊,PairRanker和GenFuser,分別對應框架運行的兩個階段:排序(Rank)與融合(Fuse)。

在排序階段,論文首先通過PairRanker對不同的LLMs回答進行成對比較,得到這些回答的排名。

在融合階段,論文選擇其中的排名中的前k(如k=3)個回答,將其于原指令一起打包送到GenFuser模塊作為輸入,再重新生成一個融合回答。

圖片

對于第一個模塊PairRanker,論文認為基于雙向注意力的成對比較在候選回答較為相似的情況下十分重要。

以往的排序模型均采用將源文本和單個候選序列連接編碼,并在推導時直接輸出一個絕對分數作為對候選序列排序的依據。

而LLM-Blender的第一個模塊PairRanker將源文本與一組(兩個)候選序列同時連接進行編碼,利用雙向注意力來提高排序模型的表現,作者認為這種方法可以更好的捕捉不同候選回答之間的微小差異,從而提高比較的正確率。

圖片

此外,與傳統的成對排序方法僅僅在訓練過程中采用成對比較的損失函數不同的是,PairRanker在推導過程中同樣采用成對比較。

論文提出了三種簡單的聚合方法,MaxLogits, MaxWins, 與Bubble Sort來完成從比較矩陣到單個候選序列分數的計算,這三種方法在后續實驗中均被證明有效。其中MaxLogits效果最好。

圖片

與現有的部分文本融合方法不同,GenFuser并未直接將所有候選序列(即數十個LLMs的回答)作為一起送入這一模塊,而是在PairRanker的排序結果上選擇最好的前k個,與源文本一起送入GenFuser進行融合。

這是因為論文認為部分未經篩選的低質量的候選序列可能會影響GenFuser模塊的融合質量。

MixInstruct: 新的LLMs集成學習基準

為了更好地評估LLM-Blender地能力,論文構建了MixInstruct數據集。指令來源包括Alpaca-GPT4 等四種流行的大型指令數據集,標準回答來源于GPT-4, ChatGPT和人類標注。

其中每一條指令都包含Vicuna等數十個當前流行的大型語言模型的回答。

圖片

論文還使用ChatGPT對在測試集(5K)這些回答進行成對比較,并統計每個回答在比較中獲勝的次數,將不同LLMs獲勝次數排名第一的比例在圖中進行了總結。可以明顯看到不同LLM回答的質量各有千秋,并非一家獨大。

此結果證明了不同LLMs之間能力的多樣性,而這也正是集成學習框架LLM-Blender能夠成功的原因之一。

實驗

實驗設置

論文實驗中,LLM-Blender的兩個模塊PairRanker與GenFuser分別采用Deberta-v3-Large(400m)和Flan-T5-XL(3b)作為各自的骨架模型(backbone)。兩個模型均在MixInstruct大小為100k的訓練集上進行訓練(更多細節見論文)。

為了更好地評估不同各種生成模型在MixInstruct上的能力,論文不僅采用了一些傳統自動度量指標BERTScore, BLEURT和BARTScore, 并將ChatGPT的比較結果按照比較中獲勝的次數歸并為整體排名值(GPT-Rank)。

由于Vicuna與Open Assistant在LLM社區的顯著表現,論文還特別將所有模型的結果與這兩個模型進行了比較,給出了對應的獲勝比例。此外,實驗還統計了不同模型在與其他所有模型比較的過程中被排名為前3的比例(Top-3)。

LLMs:各有千秋

在這些模型中,Open Assistant、Vicuna和Alpaca是表現最好的三個模型,繼它們之后,Baize、Moss和ChatGLM也在MixInstruction上表現出色。

而Mosaic MPT、StableLM和Flan-T5在評估中排名較為靠后。盡管如此,他們的GPT-Rank也并非一個接近最低排名(11)的數字,再次說明每個LLM的回答都有他們自己的優勢。

此外,同樣可以注意的是,盡管Open Assistant和Vicuna綜合表現最為出色,在其他模型與這兩個模型的比較中,仍舊有部分比例的回答被認為要優于他們。

Rankers:PairRanker優勢明顯

而在諸多排序模型的比較中,PairRanker作為成對比較的排序模型,表現明顯要優于SummaReranker和SimCLS等非成對比較的模型。

尤其在GPT-Rank,BARTScore,BLEURT和Top-3的比例上,PairRanker取得了所有排序模型中最好的效果,并且要優于任意一個LLM。

除了對排序模型得到的Top-1選擇進行分析外,論文還對排序模型的整體排序質量通過Pearson相關系數,Spearman相關系數和Searman’s Footrule距離進行了評估。

正如表中所示,在所有的自動度量指標的排序中,BartScore的排序結果與GPT-Rank相關性最高。而PairRanker的排序結果在所有排序模型中取得的相關性最高,甚至超過BARTScore。

GenFuser進一步提高PairRanker效果

論文最后比較了整個LLM-Blender框架生成的回答的質量。LLM-Blender將PairRanker排序得到的前3個回答送入到GenFuser中進行融合生成。

最終發現,融合生成的回答不僅在三個自動度量指標BARTScore等上取得了巨大的提升,還在GPT-Rank和Top-3比例上取得了最佳的結果,LLM-Blender在實驗的評估中展現了預期中的卓越性能。

結語

LLM-Blender是一個簡單的集成學習框架,適用于任何LLMs和任務。它通過學習通過成對比較的方式來排序每個回答的質量,再通過融合生成的方式來決定最后的輸出。在MixInstruct的測試集上取得了最優的效果。

作者簡介

圖片

Dongfu Jiang 姜東甫, 本科畢業于浙江大學[1] 計算機學院,南加州大學INK Research Lab科研實習生,將前往加拿大滑鐵盧大學攻讀計算機科學博士學位。他在本科期間曾獲國家獎學金等榮譽。

圖片

Xiang Ren 任翔(USC)南加州大學副教授,領導INK Research Lab。曾獲得Forbes' Asia 30 Under 30,NAACL Outstanding Paper Award 2022,Google Research Scholar, 2022,Facebook Sponsored Research Award, 2021,NSF CAREER Award, 2021等榮譽。

圖片

Yuchen Lin 林禹臣(AI2)現任Allen Institute for AI(AI2)研究員。他本科畢業于上海交通大學IEEE試點班(2018),博士畢業于USC南加州大學 (2022)。曾獲得WWW 2020 Best Paper Runner-Up,TrustNLP Best Paper Award。他多次擔任NLP和ML領域頂級會議審稿人,Area Chair (ACL2023; EMNLP 2023),多次參與組織workshop和tutorials。他目前的研究興趣在將大語言模型的分析和增強,以及如何利用常識知識構建通用的智能體。


責任編輯:張燕妮 來源: 新智元
相關推薦

2023-07-24 15:20:05

機器學習集成學習

2023-06-15 14:06:13

2023-09-11 09:37:58

開源軟件套AI模型

2024-07-29 09:46:00

2024-05-06 12:52:30

2023-08-11 13:17:12

AI模型

2023-06-30 09:00:00

Falcon LLM開源

2025-02-05 12:53:21

2025-01-24 15:40:00

2024-05-06 08:44:25

FrugalGPT大型語言模型LLM

2024-11-27 16:17:00

2024-02-26 07:43:10

大語言模型LLM推理框架

2024-11-26 10:44:18

2025-10-20 09:05:00

2024-06-05 09:59:13

2025-02-03 00:00:01

Ai2o1LLM

2024-04-18 10:39:57

2025-06-06 07:00:00

2023-06-19 16:05:22

大型語言模型人工智能

2023-08-14 10:54:34

AI框架大型語言模型
點贊
收藏

51CTO技術棧公眾號

综合久久中文字幕| 99久久久无码国产精品性| 宅男网站在线免费观看| 国产成人亚洲综合a∨婷婷| 久久99精品久久久久久噜噜| 极品白嫩少妇无套内谢| 午夜不卡影院| 国产精品久久久久久亚洲毛片 | 亚洲国产高清aⅴ视频| 91久久久久久久一区二区| 不卡的免费av| 成人高清电影网站| 亚洲成人av在线| 性生活免费在线观看| 美女精品导航| 国产精品久久网站| 国产在线精品二区| 国产精品无码久久av| 国产精品久久久久久模特| 日韩亚洲欧美中文在线| 草草地址线路①屁屁影院成人| 日本欧美在线| 欧美视频第一页| 800av在线免费观看| 韩日视频在线| 成人爱爱电影网址| 成人啪啪免费看| 69亚洲精品久久久蜜桃小说| 亚洲一级二级| 超碰日本道色综合久久综合| 受虐m奴xxx在线观看| 伊人精品久久| 欧美日韩www| 日本成人黄色网| 亚洲人体视频| 亚洲va韩国va欧美va| 日本xxx免费| 欧美成人视屏| 国产欧美日韩视频一区二区| 久久久久一区二区| 熟妇高潮一区二区三区| 国产精品一二三四区| 91精品久久久久久久久久入口| 台湾佬中文在线| 99精品欧美| 91国产视频在线播放| 免费人成年激情视频在线观看| 五月天久久777| 日韩中文字幕欧美| 麻豆视频免费在线播放| 精品国产1区| 亚洲人av在线影院| 97人妻人人揉人人躁人人| 农村少妇一区二区三区四区五区| 欧美xingq一区二区| 99热这里只有精品2| 国产精品日本一区二区不卡视频 | 国产精品美女av| 黄色av网站免费观看| 久久久久久色| 国产成人精品久久久| 中文字幕在线播| 石原莉奈在线亚洲二区| 国产成人免费av| 一区二区乱子伦在线播放| 日韩精品乱码免费| 国产精品欧美在线| 伊人久久亚洲综合| 国产资源精品在线观看| 91久久国产自产拍夜夜嗨| 99久久久国产精品无码免费| 国产麻豆一精品一av一免费 | 国产成人毛毛毛片| 国产麻豆9l精品三级站| 3d精品h动漫啪啪一区二区| 成人av无码一区二区三区| a美女胸又www黄视频久久| 久久精品国产99精品国产亚洲性色| 天天综合天天综合| 日本一区二区成人| 久久精品在线免费视频| 国产福利电影在线播放| 色综合一区二区三区| 少妇一级淫免费放| 天堂va在线高清一区| 国产日韩欧美一区二区三区在线观看| 久久精品91久久久久久再现| 成人自拍小视频| 欧美日韩免费| 欧美主播福利视频| 艳妇乳肉豪妇荡乳av| 国产成人日日夜夜| 农村寡妇一区二区三区| 日本暖暖在线视频| 亚洲h在线观看| 制服丝袜综合网| japanese色系久久精品| 亚洲视频一区二区| 久久久久久久久久99| 校园激情久久| caoporen国产精品| 国产1区2区3区在线| 亚洲精品乱码久久久久久久久 | 久久av高潮av无码av喷吹| 夜夜爽av福利精品导航| 国产深夜精品福利| 香蕉av在线播放| 国产精品久久久久精k8| 好吊妞无缓冲视频观看| 四虎精品在线观看| 亚洲人成自拍网站| 九九在线观看视频| 久久国产尿小便嘘嘘| 国产一级特黄a大片99| 免费在线观看av片| 欧美性xxxx| 久久久久久久久久影视| 日韩免费在线| 青草青草久热精品视频在线观看| 99热这里只有精品5| 久久精品一区二区三区不卡牛牛 | 免费一级suv好看的国产网站| 精品69视频一区二区三区Q| 国产欧美va欧美va香蕉在线| 神马亚洲视频| 亚洲国产精品久久艾草纯爱| 午夜一级免费视频| 国产不卡一二三区| 国产91ⅴ在线精品免费观看| 超碰在线观看av| 中文字幕在线视频一区| 日本男人操女人| 无码日韩精品一区二区免费| 久久久久久久久爱| 国产三级按摩推拿按摩| 国产精品国产精品国产专区不蜜| 欧美伦理视频在线观看| 亚洲精品动态| 欧洲一区二区视频| 性xxxx视频| 精品人伦一区二区三区蜜桃网站| 国产精九九网站漫画| 欧美日韩hd| 99精品国产高清一区二区| а√中文在线8| 欧美一区二区三区在线视频| 国产精品夜夜夜爽阿娇| 蜜桃av一区二区| 亚洲精品成人久久久998| 中文另类视频| 日韩在线观看免费av| 中文字幕在线视频第一页| 欧美激情中文不卡| 美女在线视频一区二区| 久久视频在线| 亚洲一区二区久久久久久久| 2024最新电影免费在线观看| 欧美成人女星排行榜| 精品午夜福利视频| 成人免费毛片a| 欧美二区在线视频| 婷婷国产精品| 国产精品久久久久av免费| 国产1区2区3区在线| 欧美日本乱大交xxxxx| 国产性生活大片| 夫妻av一区二区| 丰满少妇久久久| 欧美日韩xxxx| 国产欧美最新羞羞视频在线观看| 欧美极品视频| 精品国产免费久久| 国产情侣自拍av| 中文成人av在线| 深夜做爰性大片蜜桃| 在线观看日韩av电影| 欧美成人蜜桃| 自拍偷拍亚洲图片| 午夜精品久久久久久99热软件| 日本午夜在线| 7777精品伊人久久久大香线蕉超级流畅 | 国产精东传媒成人av电影| 欧美一级视频一区二区| www在线免费观看| 欧美videos中文字幕| 免费黄色网址在线| 国产精品白丝在线| 伊人网综合视频| 免费精品视频最新在线| 成人黄色片免费| 免费观看不卡av| 91精品国产一区二区三区动漫 | 麻豆精品免费视频| 极品美女销魂一区二区三区免费| 亚洲色成人www永久在线观看| 久久不见久久见国语| 91美女片黄在线观| 一区二区乱码| 另类天堂视频在线观看| 你懂的免费在线观看视频网站| 7777精品伊人久久久大香线蕉的| 美日韩一二三区| 亚洲欧美色综合| 受虐m奴xxx在线观看| 粉嫩绯色av一区二区在线观看 | 欧美v亚洲v综合v国产v仙踪林| 欧美激情免费观看| 在线激情免费视频| 亚洲精品日韩欧美| 精品二区在线观看| 精品视频免费看| 欧美日韩综合一区二区三区| 亚洲一二三四久久| 一级性生活免费视频| 久久午夜免费电影| 国产人成视频在线观看| 国内精品写真在线观看| 日本老熟妇毛茸茸| 奶水喷射视频一区| 黄色片网址在线观看| 综合一区二区三区| 亚洲精美视频| 成人毛片免费看| 欧美自拍资源在线| 亚洲婷婷伊人| 激情伦成人综合小说| 日韩精品三级| 亚洲自拍偷拍福利| 日韩成人在线一区| 国产精品青青在线观看爽香蕉| 国产精品vvv| 性色av一区二区三区免费| 性欧美1819sex性高清大胸| www亚洲精品| 午夜精品一区| 亚洲午夜精品久久久久久性色| 亚洲色图 校园春色| 亚洲第一网站男人都懂| 欧美视频一二区| 亚洲成人精品视频在线观看| 国产不卡av在线播放| 日韩一区二区三区四区| 国产熟女一区二区三区五月婷| 欧美放荡的少妇| 国产一区二区麻豆| 欧美狂野另类xxxxoooo| 艳妇乳肉豪妇荡乳av| 91精品午夜视频| 精品人妻一区二区三区麻豆91| 欧美一区午夜视频在线观看| av中文字幕第一页| 精品国产露脸精彩对白| 你懂的网站在线| 亚洲精品国产综合久久| 奇米影视888狠狠狠777不卡| 亚洲人成电影在线观看天堂色| 成人在线观看黄色| 久久精品国产99国产精品澳门| 黄色网页在线播放| 久久久久中文字幕2018| 国产剧情av在线播放| 日本精品免费观看| 精品三区视频| 成人免费直播live| 国产精品45p| 欧美亚洲免费高清在线观看| 欧美特黄一级大片| 日日噜噜夜夜狠狠久久丁香五月| 亚洲午夜一级| 久久国产成人精品国产成人亚洲| 久久这里只有| www.久久com| av资源站一区| 少妇无套高潮一二三区| 亚洲欧美综合色| 国产一级生活片| 欧洲精品视频在线观看| 精品国产99久久久久久宅男i| 精品国产免费人成电影在线观看四季 | 捆绑调教美女网站视频一区| 亚洲色图欧美自拍| 99re66热这里只有精品3直播| 欧美午夜激情影院| 一区二区三区在线免费播放 | 制服丝袜中文字幕一区| 丰满人妻一区二区| 在线视频精品一| 日韩伦理av| 国产精品福利网站| 亚洲成人影音| 五码日韩精品一区二区三区视频| 午夜视频精品| 波多野结衣天堂| 成人av网站在线观看免费| 久久久久亚洲AV成人无在| 亚洲制服丝袜av| 免费一级a毛片| 亚洲成人在线视频播放| 黄色一级大片在线免费看产| 2019中文在线观看| 精品欧美视频| 亚洲成人精品电影在线观看| 亚洲韩日在线| 亚洲日本黄色片| 国产视频一区二区在线| 久久高清免费视频| 91麻豆精品91久久久久同性| 青青青手机在线视频观看| 色综合天天狠天天透天天伊人| 亚洲综合av一区二区三区| 狠狠干一区二区| 欧美区亚洲区| 一级黄色片国产| 欧美激情一区二区三区在线| 好吊妞视频一区二区三区| 日韩精品一区在线观看| 浪潮av一区| 国产欧美va欧美va香蕉在| 国产亚洲一区二区三区不卡| 三上悠亚久久精品| 丁香婷婷综合色啪| 国产三级国产精品国产国在线观看| 欧美曰成人黄网| 国产一级免费在线观看| 2019中文在线观看| 日韩精品亚洲aⅴ在线影院| 屁屁影院ccyy国产第一页| 国产九九视频一区二区三区| 又嫩又硬又黄又爽的视频| 91高清视频在线| 电影在线一区| 国产福利成人在线| 精品视频国产| 毛葺葺老太做受视频| 久久九九久精品国产免费直播| 日韩欧美不卡视频| 日韩av中文字幕在线免费观看| 国产美女一区视频| 国产精品三区在线| 激情综合中文娱乐网| 插我舔内射18免费视频| 亚洲成av人综合在线观看| 亚洲精品国产手机| 欧美国产第二页| 国产精品香蕉| 欧美aⅴ在线观看| 久久久久久毛片| 国产女主播喷水视频在线观看| 亚洲欧美日韩天堂| 丰满少妇一区| 欧美精品一区二区性色a+v| 国产麻豆成人传媒免费观看| 久久久久成人片免费观看蜜芽| 精品国产一区二区亚洲人成毛片 | 久久久久亚洲av成人网人人软件| 尤物在线观看一区| 蜜臀av午夜精品| 欧美亚洲成人网| 日韩高清欧美| 奇米777在线视频| 亚洲国产精品综合小说图片区| 少妇精品高潮欲妇又嫩中文字幕| 欧美专区在线观看| 日韩黄色大片| 久久久无码人妻精品无码| 偷拍亚洲欧洲综合| 国产精品麻豆一区二区三区| 国产在线视频2019最新视频| 黄色成人精品网站| a级大片在线观看| 9191精品国产综合久久久久久| 久久香蕉av| 日本黄网免费一区二区精品| 蜜桃精品在线观看| 久久精品99久久久久久| 日韩成人中文电影| 国产精品蜜月aⅴ在线| 欧美 日韩 国产精品| 99精品在线观看视频| 在线观看毛片视频| 久久久女女女女999久久| 国产影视精品一区二区三区| 亚洲一区二区福利视频| 午夜视频一区二区| p色视频免费在线观看| 超碰在线97av| 日韩黄色片在线观看| 免费人成在线观看| 中文字幕日韩在线观看| 91嫩草精品| 三级视频中文字幕| 亚洲h在线观看| 国产精品刘玥久久一区| 欧美自拍资源在线| 成人一区二区视频| 亚洲视频一区在线播放| 91超碰caoporn97人人| 亚洲乱码电影| 日本免费www| 精品中文视频在线|