精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

人工智能 新聞
研究人員開源了一個130億參數規模的大模型Auto-J,能對評估當下大模型的對齊效果。

評估大模型對齊表現最高效的方式是?

在生成式AI趨勢里,讓大模型回答和人類價值(意圖)一致非常重要,也就是業內常說的對齊(Alignment)。

讓大模型自己上。”

這是上海交通大學生成式人工智能研究組(GAIR)提出的最新思路。

但是目前的評估方法還存在透明度不夠、準確性不佳等問題。

所以研究人員開源了一個130億參數規模的大模型Auto-J,能對評估當下大模型的對齊效果。

它可同時分析兩個大模型的回答,分別做出評價并進行對比。

也能評估單個回復。并且在這一任務上的表現超越了GPT-4

目前,該項目開源了大量資源,包括:

  • Auto-J的130億參數模型(使用方法、訓練和測試數據也已經在GitHub上給出);
  • 所涉及問詢場景的定義文件;
  • 每個場景手工構建的參考評估準則;
  • 能夠自動識別用戶問詢所屬場景的分類器等。

用大模型指導大模型回答

在實際任務中,Auto-J不僅可以在兩個不同模型的回復中,指明更優秀的回答,而且會從多個具體維度給出判斷和分析。

同時對于它認為不夠好的回復,能提出改進建議

注:本節提供的示例已由原始英文文本翻譯為中文

具體來看Auto-J在成對回復比較單回復評估任務的效果。

成對回復比較部分給出的問題是:

起草一份給我家人的郵件,告訴他們我已經買好了感恩節的機票。我會在11月22日出發,30日離開。

實驗對比了GPT4ALL-13B-snoozy和Claude-1的回復。

Auto-J給出的判斷是Claude-1的回復更好,原因是信息更豐富、吸引人、個性化。

同時它也給出了具體的分析過程,從目的、語氣、正文內容、個性化、信息豐富度幾個方面評估,并講明了各個方面兩個大模型的優劣。

圖片

單回復評估任務的提問是:

在烤架上烤三文魚最好的方法是什么?

待評估的回復是:

在烤架上烹制三文魚的最好辦法是首先將烤架預熱至中高溫,刷上橄欖油,撒上鹽和胡椒,然后把三文魚皮朝下放在烤架上。讓三文魚烤5-7分鐘,直到皮酥脆,用叉子輕松刺入魚肉。翻轉三文魚,再烤3-4分鐘,配上你喜歡的配菜,享受美味。

對于這段回答,Auto-J給出的評價是“答得害行但是在幾個方面缺乏深度和詳細信息”。

比如沒有提到具體的烹飪溫度或時間,沒有提到三文魚的品質。

而且還給出了具體建議能讓回復更加有個性化:通過詢問用戶有關具體烤肉設備或烹飪三文魚的經驗。

圖片

支持50+場景

在性能表現上,Auto-J在以下兩方面都表現不錯。

功能使用方面

支持50+種不同的真實場景的用戶問詢(query)(如常見的廣告創作,起草郵件,作文潤色,代碼生成等)能夠評估各類大模型在廣泛場景下的對齊表現;

它能夠無縫切換兩種最常見的評估范式——成對回復比較單回復評估;并且可以“一器多用”,既可以做對齊評估也可以做“獎勵函數”(Reward Model)對模型性能進一步優化;

同時,它也能夠輸出詳細,結構化且易讀的自然語言評論來支持其評估結果,使其更具可解釋性與可靠性,并且便于開發者參與評估過程,迅速發現價值對齊過程中存在的問題

性能開銷方面

在性能和效率上,Auto-J 的評估效果僅次于GPT-4而顯著優于包括ChatGPT在內的眾多開源或閉源模型,并且在高效的vllm推理框架下能每分鐘評估超過100個樣本

在開銷上,由于其僅包含130億參數,Auto-J能直接在32G的V100上進行推理,而經過量化壓縮更是將能在如3090這樣的消費級顯卡上部署使用,從而極大降低了LLM的評估成本 (目前主流的解決方法是利用閉源大模型(如GPT-4)進行評估,但這種通過調用API的評估方式則需要消耗大量的時間和金錢成本。)

具體方法

訓練數據總體上遵循如下的流程示意圖:

圖片

△訓練數據收集流程示意圖

場景的定義和參考評估標準:

圖片

圖片

△場景定義與參考評估標準

為了更廣泛的支持不同的評估場景,Auto-J 定義了58種不同的場景,分屬于8大類(摘要,重寫,代碼,創作,考題,一般交流,功能性寫作以及其他NLP任務)。

對于每個場景,研究者手動編寫了一套用作參考的評估標準(criteria),覆蓋了這類場景下常見的評估角度,其中每條標準包含了名稱和文本描述。

評估標準的構建遵循一個兩層的樹狀結構:先定義了若干組通用基礎標準(如文本與代碼的一般標準),而每個場景的具體標準則繼承了一個或多個基礎標準,并額外添加了更多的定制化標準。

以上圖的“規劃”(planning)場景為例,針對這一場景的標準包括了該場景特定的內容與格式標準,以及繼承而來的基礎標準。

收集來自多種場景的用戶問詢和不同模型的回復

Auto-J被定位成能夠在定義的多種廣泛場景上均表現良好,因此一個重要的部分就是收集不同場景下相應的數據。為此,研究者手動標注了一定量用戶問詢的場景類別,并以此訓練了一個分類器用以識別任意問詢的所屬場景。

在該分類器的幫助下,成功從包含了大量真實用戶問詢和不同的模型回復的若干數據集中(如Chatbot Arena Conversations數據集)通過降采樣的方式篩選出了類別更加均衡的3436個成對樣本和960個單回復樣本作為訓練數據的輸入部分,其中成對樣本包含了一個問詢,兩個不同的針對該問詢的回復,以及人類標注的偏好標簽(哪個回復更好或平局);而單回復樣本則只包含了一個問詢和一個回復。

收集高質量的評判(judgment)

除了問詢和回復,更重要是收集作為訓練數據輸出部分的高質量評估文本,即“評判”(judgment)。

研究者定義一條完整的評判包含了中間的推理過程和最后的評估結果。對于成對回復比較而言,其中間推理過程為識別并對比兩條回復之間的關鍵不同之處,評估結果是選出兩條回復中更好的一個(或平局);而對于單回復樣本,其中間推理過程是針對其不足之處的評論(critique),評估結果則是一個1-10的總體打分。

在具體操作上,選擇調用GPT-4來生成需要的評判。

對于每個樣本,都會將其對應場景的評估標準傳入GPT-4中作為生成評判時的參考;此外,這里還觀察到在部分樣本上場景評估標準的加入會限制GPT-4發現回復中特殊的不足之處,因此研究者還額外要求其在給定的評估標準之外盡可能地發掘其他的關鍵因素。

最終,會將來自上述兩方面的輸出進行融合與重新排版,得到更加全面、具體且易讀的評判,作為訓練數據的輸出部分,其中對于成對回復比較數據,進一步根據已有的人類偏好標注進行了篩選。

訓練

研究者將來自兩種評估范式的數據合并使用以訓練模型,這使得Auto-J僅通過設置相應的提示詞模板即可無縫切換不同的評估范式。

另外,還采用了一種類似于上下文蒸餾的(context distillation)技術,在構建訓練序列時刪去了GPT-4用以參考的場景評估標準,僅保留了輸出端的監督信號。

在實踐中發現這能夠有效增強Auto-J的泛化性,避免其輸出的評判僅限制在對評估標準的同義重復上而忽略回復中具體的細節。

同時,對于成對回復比較數據部分,還采用了一個簡單的數據增強方式,即交換兩個回復在輸入中出現的順序,并對輸出的評判文本進行相應的重寫,以盡可能消除模型在評估時的位置偏好。

實驗和結果

針對Auto-J所支持的多個功能,分別構建了不同的測試基準以驗證其有效性:

在成對回復比較任務上,評估指標為與人類偏好標簽的一致性,以及在交換輸入中兩個回復的順序前后模型預測結果的一致性。

可以看到Auto-J在兩個指標上均顯著超過了選取的基線模型,僅次于GPT-4。

圖片

圖片

△成對回復比較任務的結果

在單回復評論生成任務上,將Auto-J生成的評論與其他模型的評論進行了一對一比較,可以看到不管是基于GPT-4的自動比較還是人類給出的判決,Auto-J所生成的評論都顯著優于大部分基線,且略微優于GPT-4。

圖片

△Auto-J在單回復評論生成任務上相比基線的勝率

研究者還探索了Auto-J作為獎勵模型(Reward Model)的潛力。

在常用的檢測獎勵模型有效性的Best-of-N設定下(即基座模型生成多個候選答案,獎勵模型根據自身輸出選擇最佳回復),Auto-J給出的單回復打分比各類基線模型能選出更好的回復(以GPT-4評分為參考)。

同時,其打分也顯示了與GPT-4打分更高的相關性。

圖片

△不同模型作為獎勵模型的表現

最后,開發者也探究了Auto-J在系統級別的評估表現。

對AlpacaEval(一個流行的基于GPT-4評估的大模型排行榜)上提交的開源模型使用Auto-J的單樣本打分進行了重新排序。

可以看到,基于Auto-J的排序結果與GPT-4的排序結果有極高的相關性。

圖片

圖片

△Auto-J與GPT-4對AlpacaEval排行榜提交的開源模型排序之間的相關性及具體排名數據

作者總結和展望

總結來說,GAIR研究組開發了一個具有 130 億參數的生成式評價模型 Auto-J,用于評估各類模型在解決不同場景用戶問詢下的表現,并旨在解決在普適性、靈活性和可解釋性方面的挑戰。

實驗證明其性能顯著優于諸多開源與閉源模型。

此外,也公開了模型之外的其他資源,如模型的訓練和多個測試基準中所使用的數據,在構建數據過程中得到的場景定義文件和參考評估標準,以及用以識別各類用戶問詢所屬場景的分類器。

該項目具體的論文、主頁信息如下:

論文地址:https://arxiv.org/abs/2310.05470
項目地址:https://gair-nlp.github.io/auto-j/
代碼地址:https://github.com/GAIR-NLP/auto-j

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-10-21 12:42:06

數據模型

2023-09-11 15:57:16

人工智能模型GPT-4

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-01-19 12:51:00

AI數據

2023-08-27 14:08:17

開源代碼Meta大模型

2024-01-30 21:18:57

模型智能CMMLU

2024-01-12 19:07:26

GPT-4AI產品

2025-05-30 07:40:56

2023-12-20 13:34:56

2023-05-08 12:47:48

IBM模型

2023-03-30 11:08:49

AI模型訓練

2022-06-01 16:47:53

AI模型開源

2024-12-25 20:01:13

2024-04-02 11:17:18

2024-02-27 11:46:40

2024-06-17 18:04:38

2023-06-16 13:02:22

GPT-5GPT-4AI

2024-09-06 13:00:29

2023-10-14 13:09:53

谷歌模型

2025-04-15 06:13:46

點贊
收藏

51CTO技術棧公眾號

99国产视频| 美日韩在线视频| 国产视频一区二区三区在线播放| 国产高清av在线| 精品亚洲porn| 国自在线精品视频| 成人在线手机视频| 在线日韩成人| 欧美丝袜丝交足nylons图片| 久久天天东北熟女毛茸茸| 青青草免费在线| 国产一区二区免费在线| 奇米四色中文综合久久| 97在线观看免费高| 亚洲欧美日本伦理| 在线成人av网站| 女性女同性aⅴ免费观女性恋| eeuss影院在线观看| 成人av高清在线| 成人福利网站在线观看11| a v视频在线观看| 欧美日韩国产欧| 中日韩美女免费视频网站在线观看| 国产又粗又猛大又黄又爽| 性欧美1819sex性高清| 一区二区免费看| 国产精品美女在线播放| 色视频在线看| 欧美激情手机在线视频 | 国产精品国产一区二区三区四区 | 性生生活大片免费看视频| av成人福利| 亚洲男人天堂av| 亚洲啪啪av| 国产在线视频你懂得| 成人97人人超碰人人99| 亚洲一区二区在线播放| 888奇米影视| 老司机一区二区| 国产成人午夜视频网址| 中文字幕第15页| 精品91在线| 欧美精品videosex极品1| 91高清免费看| 99久久夜色精品国产亚洲狼| 伊人精品在线观看| 国产小视频自拍| 九一精品国产| 亚洲欧美日韩国产成人| 成人免费看aa片| 日韩激情啪啪| 国产丝袜一区二区三区| 国产交换配乱淫视频免费| 亚洲日本视频在线| 精品国产凹凸成av人网站| 日本少妇一区二区三区| 91麻豆精品激情在线观看最新| 67194成人在线观看| 手机在线观看日韩av| 欧美成人精品一级| 欧美mv日韩mv| 99精品一区二区三区无码吞精| 都市激情亚洲| 日韩久久精品电影| 国产精品国产三级国产专业不 | 成人18视频在线播放| 国产日韩在线一区二区三区| 天天爱天天干天天操| 久久综合久久综合九色| 日韩hmxxxx| 日本在线免费网| 玉足女爽爽91| 亚洲中文字幕无码专区| 成人直播视频| 精品污污网站免费看| 999在线精品视频| av日韩在线播放| 日韩国产精品亚洲а∨天堂免| a毛片毛片av永久免费| 国产一区二区三区91| 色噜噜久久综合伊人一本| 午夜69成人做爰视频| 99在线|亚洲一区二区| 国产成人精品av| 一级黄色a视频| 粉嫩高潮美女一区二区三区 | 国产精品视频资源| 午夜精品久久久久久久第一页按摩 | ㊣最新国产の精品bt伙计久久| 超碰超碰超碰超碰超碰| 日韩激情电影免费看| 欧美日韩亚洲另类| 成熟妇人a片免费看网站| 精品99在线| 欧美精品久久久久久久免费观看| 四虎成人在线观看| 国内精品国产成人| 久久久久久99| www在线观看播放免费视频日本| 香蕉成人啪国产精品视频综合网| 欧美一级黄色影院| 粉嫩av一区二区| 欲色天天网综合久久| 国产污片在线观看| 蜜桃久久久久久| 精品无人乱码一区二区三区的优势 | 久久久久久久网| 国产乱子伦精品无码专区| 黑人巨大亚洲一区二区久 | 亚洲午夜精品在线观看| 久久不见久久见免费视频7| 久久影院中文字幕| 久久久精品毛片| 不卡电影免费在线播放一区| 一区二区在线观看网站| 色综合桃花网| 欧美aaa在线| y111111国产精品久久婷婷| 欧美孕妇性xxxⅹ精品hd| 亚洲欧美视频在线观看视频| 女人扒开屁股爽桶30分钟| 国产一区二区久久久久| 亚洲天堂第二页| 欧美日韩国产成人精品| 88xx成人精品| 亚洲大尺度视频| 中文字幕视频一区二区三区久| 欧美 日韩 激情| 综合视频一区| 美女福利精品视频| 国产精品久久久久久久成人午夜| 国产亚洲一区二区三区四区| 久久久久久久久久久99| 日韩一区二区三区在线看| 最好看的2019的中文字幕视频| 91午夜视频在线观看| 粉嫩13p一区二区三区| 女女同性女同一区二区三区按摩| 欧美aaaaaaaa| 神马久久久久久| 中文字幕日韩经典| 国产精品热久久久久夜色精品三区 | 久草免费资源站| 综合在线一区| 69堂成人精品视频免费| 亚洲综合影视| 日韩三级视频中文字幕| 欧美日韩精品在线观看视频| 国产在线播放一区三区四| 国产成人精品免费看在线播放 | 国产精品久久久久久久天堂第1集| gogogogo高清视频在线| 日韩一区二区三| 久久久久亚洲av无码专区| 国产凹凸在线观看一区二区| 免费高清一区二区三区| 国产ts一区| 91精品国产网站| 日本啊v在线| 欧洲色大大久久| 亚洲综合欧美综合| 久久97超碰国产精品超碰| 91制片厂免费观看| 最新国产一区二区| 欧美性受xxxx黑人猛交| 国产日本在线观看| 制服丝袜中文字幕一区| 久久精品www人人爽人人| a级高清视频欧美日韩| 一本大道熟女人妻中文字幕在线 | 亚洲国产欧洲综合997久久| 国产精品蜜月aⅴ在线| 麻豆国产va免费精品高清在线| av中文字幕免费在线观看| 性做久久久久久久久| 短视频在线观看| 九九热在线视频观看这里只有精品| 91免费网站视频| 欧美一级全黄| 国产成人拍精品视频午夜网站| 久久99精品久久| 日韩高清中文字幕| 国产精品人人爽| 红桃视频成人在线观看| 林心如三级全黄裸体| 国产成人免费视频| 自拍偷拍 国产| 欧美欧美天天天天操| 欧美成人一区二区在线| 97久久精品一区二区三区的观看方式 | av中文字幕免费观看| 久久国产婷婷国产香蕉| 大伊香蕉精品视频在线| 欧美精选视频在线观看| 亚洲中国色老太| 欧美最新精品| 欧美黑人性视频| av在线播放免费| 亚洲国产女人aaa毛片在线| 成人黄色免费网| 性做久久久久久免费观看欧美| 一区二区三区在线播放视频| 91小视频在线免费看| 伊人免费视频二| 水蜜桃久久夜色精品一区的特点| 免费看污污视频| 欧美日韩在线网站| 精品一卡二卡三卡四卡日本乱码 | 亚洲偷欧美偷国内偷| www.久久伊人| 欧美日韩国产美| 伊人手机在线视频| 亚洲在线视频一区| 国产精品夜夜夜爽阿娇| 久久久久99精品国产片| 日韩无码精品一区二区| 国产精品自拍在线| 一本色道久久亚洲综合精品蜜桃| 国产亚洲欧洲| 99er在线视频| 欧美黄色大片网站| 中文字幕剧情在线观看一区| 成人精品中文字幕| 欧美日韩精品久久| 欧美性生活一级片| 国产乱码精品一区二区三区不卡| 99视频有精品高清视频| 国产精品视频成人| 美女写真久久影院| 欧美一区二区影院| 国产在线精彩视频| 97视频在线播放| 草草影院在线| 欧美黑人性猛交| 丰满诱人av在线播放| 欧美巨猛xxxx猛交黑人97人| 黄色片网站在线| 日韩小视频在线观看| 日本三级在线视频| 永久免费看mv网站入口亚洲| 国产美女视频一区二区三区| 亚洲欧洲国产伦综合| 免费在线性爱视频| 亚洲日韩欧美视频| 国产爆初菊在线观看免费视频网站| 亚洲欧美在线播放| 牛牛热在线视频| 国产一区二区三区在线观看视频 | 欧美精品18videos性欧| 韩国日本一区| 欧美性视频在线| 欧美精品高清| 国产精品视频999| 在线免费观看亚洲| 91在线免费网站| 91精品国产自产精品男人的天堂| 97超碰人人看人人| 成人动态视频| 老牛影视免费一区二区| 蜜桃一区二区| 一本色道久久综合亚洲精品婷婷| 婷婷综合激情| 激情五月六月婷婷| 99热在线精品观看| www.欧美日本| 一区二区高清不卡| 亚洲免费毛片网站| 欧美第一页在线观看| 亚洲一区二区三区四区在线免费观看| 久久成人在线观看| 一本大道久久精品懂色aⅴ| 中文字幕在线播出| 日韩欧美资源站| 色久视频在线播放| 中文综合在线观看| 丁香花电影在线观看完整版| 国产91在线播放| 激情视频亚洲| 久久精彩视频| 99久久夜色精品国产亚洲1000部| 久久手机在线视频| 日韩精品乱码免费| 国产精品igao网网址不卡| 99视频精品全部免费在线| 日本一级免费视频| 一区二区三区四区不卡在线 | 麻豆91精品视频| 亚洲少妇一区二区| 国产亚洲视频系列| 青青草免费av| 在线观看一区二区视频| 亚洲成人中文字幕在线| 在线观看不卡av| 97人澡人人添人人爽欧美| 国产精品老牛影院在线观看| 91精品国产自产在线丝袜啪| 先锋影音亚洲资源| 亚洲精品影视| 善良的小姨在线| 国产欧美日本一区视频| 国产午夜福利一区二区| 欧美精品国产精品| 蝌蚪视频在线播放| 国内精品久久久久伊人av| 只有精品亚洲| 色女人综合av| 欧美专区在线| 95视频在线观看| 自拍偷拍亚洲激情| 国产午夜无码视频在线观看| 欧美精品一区二区三区蜜桃| 日本免费在线观看| 国产成人精品av| 天堂成人娱乐在线视频免费播放网站 | 国产精品mm| 亚洲国产日韩欧美在线观看| 久久久久国产免费免费| 日韩毛片在线播放| 日韩视频免费观看高清在线视频| 在线观看av的网站| 国产激情视频一区| 最新精品国偷自产在线| 免费一级特黄毛片| 成人动漫一区二区在线| 欧美日韩三级在线观看| 在线播放日韩导航| 在线国产情侣| 国产在线高清精品| 日韩av免费大片| 婷婷激情四射五月天| 国产香蕉久久精品综合网| 青青草av在线播放| 精品国产不卡一区二区三区| 污污在线观看| 亚洲一区二区三区香蕉| 综合一区二区三区| 特黄特黄一级片| 亚洲美女偷拍久久| 国产国语亲子伦亲子| 欧美老女人xx| 一区二区在线视频观看| www国产免费| 国产成人午夜99999| 欧美日韩精品在线观看视频 | 91黄色精品| 国语对白精品一区二区| 成年人小视频在线观看| 亚洲国产视频一区二区| 天堂在线观看视频| 欧美一二三视频| 国产探花一区| 亚洲一区二区不卡免费| 日韩欧美成人一区二区三区| 日韩精品丝袜在线| 欧美第一视频| 日韩欧美三级电影| 久久 天天综合| 免费一级片在线观看| 亚洲国产精品专区久久| 超碰超碰人人人人精品| 少妇特黄a一区二区三区| 久久激五月天综合精品| 国产一区二区视频在线观看免费| 日韩精品一区二区三区视频| 91福利区在线观看| 欧美日韩喷水| 久久精品国产99久久6| 中文字幕av久久爽av| 亚洲精品在线观| 成人免费网站视频| 亚洲一区三区电影在线观看| 国产精品一区二区久久不卡| 男女视频免费看| 国产一区二区三区久久精品| 国产激情精品一区二区三区| 男人天堂av片| 日本一区二区免费在线观看视频| 国产精品久久久久久久一区二区| 久久久久久尹人网香蕉| 免费成人av| www.久久com| 福利一区视频在线观看| 日本三级在线视频| 国产综合欧美在线看| 精品一区精品二区高清| 国产精品suv一区二区| 一区二区三区久久精品| 日韩精品一区国产| 热久久精品免费视频| 一区av在线播放| 国产高清免费在线播放| 国产乱子伦精品| 久久成人久久鬼色| 91久久国产视频| 久久精品视频在线观看| 亚洲精品亚洲人成在线| wwwww在线观看| 欧美性欧美巨大黑白大战| 91九色porn在线资源| 亚洲综合激情五月|