精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Evaluation is All You Need!首個開源多模態大模型通用評測器LLaVA-Critic

人工智能 新聞 開源
LLaVA-Critic 是首個通用的開源多模態大模型評測器,能夠在多個開放式多模態場景中評測模型表現。

作者介紹:本文作者來自于字節跳動和馬里蘭大學。其中第一作者為馬里蘭大學博士生熊天翼,主要研究領域為計算機視覺,多模態基礎大模型;通訊作者為 Chunyuan Li (https://chunyuan.li/)。

本文作者也包括馬里蘭大學博士生王璽堯,字節跳動研究員 Dong Guo、Qinghao Ye、Haoqi Fan、Quanquan Gu, 馬里蘭大學教授 Heng Huang。

引言:Evaluation is All You Need

隨著對現有互聯網數據的預訓練逐漸成熟,研究的探索空間正由預訓練轉向后期訓練(Post-training),OpenAI o1 的發布正彰顯了這一點。

而 Post-training 的核心在于評測(Evaluation)。可靠的 AI 評測不僅能在復雜任務的評測中提供可擴展的解決方案,減少人工勞動,還能在強化學習中生成有效的獎勵信號并指導推理過程。


例如,一個 AI 評測器可以遵循用戶設計的評分標準,在視覺對話任務中為不同模型的回復(model response)提供 1 到 10 的評分。除了評分外,它還會提供相應的給分理由,確保模型性能評測的透明性和一致性。


來自字節跳動和馬里蘭大學的研究團隊發布了首個用于多任務評測的開源多模態大模型 LLaVA-Critic,旨在啟發社區開發通用大模型評測器(generalist evaluator)

圖片

  • 論文標題:LLaVA-Critic: Learning to Evaluate Multimodal Models
  • 論文鏈接:https://arxiv.org/abs/2410.02712
  • 項目主頁:https://llava-vl.github.io/blog/2024-10-03-llava-critic/
  • 數據與模型開源:https://huggingface.co/collections/lmms-lab/llava-critic-66fe3ef8c6e586d8435b4af8

首先,該團隊構建了一個涵蓋了多樣化評測場景和評分標準的評測指令遵循數據集(critic instruction-following dataset);之后,在這一數據集上訓練 LLaVA-Critic,使之學會對模型回復給出合理評分(judgement)和打分依據(reason);更進一步,在多模態評測(LMM-as-a-Judge)偏好學習(preference learning)兩個場景中驗證了 LLaVA-Critic 的有效性。

評測指令遵循數據集

該團隊首先構建了一個高質量的評測指令遵循數據集,旨在涵蓋多個復雜的評測場景,根據對應的評測提示給出相應的打分和評分理由。

論文中將使用 AI 模型(如 GPT)作為評測器的開放式多模態評測任務分為兩類:

1. 單點評分(pointwise-scoring):根據評測提示,對單個模型回復進行打分。

2. 成對排序(pairwise-ranking):對于兩個(一對)模型回復,給出二者之間的偏序關系或宣布平局。

圖片

LLaVA-Critic-113k 主要包含單點評分和成對排序兩種評測設定。在兩種評測中,LLaVA-Critic 均需要根據給定的圖片、問題、模型回復以及評測提示中給定的評分要求,對模型回復打分并給出理由。

針對單點評分,該團隊從 8 個多模態數據集中收集了輸入指令(圖片 - 問題),使用 13 個 LMM 生成模型回復,并匯集了 7 個常用開放式評測基準中的評測提示,由此整理得到評測樣本。針對于每一條評測樣本,再詢問 GPT-4o 進行評測,得到判斷得分與理由。

針對成對排序,該團隊收集了三個偏好數據集中的模型回復,這些數據中已經包含了人類或 GPT-4V 的偏好排序結果。之后,將每一對模型回復和已知的偏序關系輸入給 GPT-4o,獲取其對偏序關系的解釋。

在此基礎上,他們設計了 30 個包含不同格式與評分標準的評測提示模板,將【圖片 - 問題輸入,兩個模型回復,偏序關系,解釋】打包成涵蓋多種評測場景的評測指令遵循數據。

由此,LLaVA-Critic-113k 數據集得以構建,共計包含 46k 張圖片和 113k 個評測數據樣本。下圖展示了具體的數據統計:

圖片

LLaVA-Critic-113k 數據集的數據統計。該團隊收集了廣泛的輸入指令與模型回復,涵蓋了多個評測任務和領域。需要注意的是,以上全部數據來源于開源的指令遵循訓練數據,與實際的評測基準(evaluation benchmark)沒有重合。

LLaVA-Critic

首個具有通用評測能力的開源多模態大模型

為了使模型具備通用的評測能力,該團隊對一個已經具備強大指令遵循能力的預訓練多模態大模型進行指令微調。這一點非常關鍵,因為模型自身能高質量處理復雜視覺任務是其具備評測能力的基礎;而評測能力則在此之上,作為附加的判別能力得到進一步開發。

在訓練中,LLaVA-Critic 會接受一個評測提示(evaluation prompt),包含多模態指令輸入、模型回復及可選的參考回復。它會根據評測提示中的評分標準,預測定量分數或成對排序,并給出詳細的理由。

該團隊對評測結果(分數或偏序關系)理由同時應用交叉熵損失進行訓練。實驗中,他們從 LLaVA-OneVision (OV) 7B/72B 預訓練模型開始,使用 LLaVA-Critic-113k 數據集進行 1 輪微調,得到 LLaVA-Critic 模型。

場景一:多模態大模型作為評測器(LMM-as-a-Judge)

該團隊首先對 LLaVA-Critic 模型在多個多模態評測任務中與 GPT-4o 以及人類的打分一致性進行了驗證。

圖片

在評分的整體分布和對回復模型 (response model) 的排序層面上,LLaVA-Critic 均展現了與 GPT-4o 的一致性

如上圖所示,在單點評分的評估任務中,LLaVA-Critic 大幅超越其基礎模型 LLaVA-OneVision—— 在多個開放式問答評估基準上,其評分一致性和模型排序與 GPT-4o 高度吻合。

圖片

上表比較了不同評測器在成對排序方面與人類偏好的一致性。LLaVA-Critic-72B 在評測準確率(不包含平局)方面達到了 73.6%,已經超越了 GPT-4V/4o;在其余兩個指標中也與商用的 GPT 模型差異很小。

盡管 LLaVA-Critic-7B 的模型參數大幅減少,但其在包含與不包含平局的評測準確率上仍分別達到了 59.6% 和 72.2%。這為在資源受限的環境中部署 LLaVA-Critic 提供了可行的解決方案。

圖片

上表展示了 LLaVA-Critic 在 MLLM-as-a-Judge 基準測試中的表現,該測試包括了訓練數據中未見過的更廣泛評測場景。面對全新的評測任務,LLaVA-Critic 也顯著縮小了開源模型與 GPT-4o/4V 在評測準確性上的差距,充分展現其泛化性與通用性。

在上述實驗結果中,72B 模型的表現優于 7B 模型,Critic-7B 的表現也優于使用弱化版本評測數據訓練的 Critic-7B(v0.5)—— 這進一步強調了模型擴展(model scaling)和數據擴展(data scaling)在構建通用評測器中的重要性。

圖片

在這個成對排序示例中,LLaVA-Critic 能夠準確識別輸入圖像的內容(手寫數字 「7」),并基于回復間的差異做出判斷,給出了和人類評估者一致的排序,并提供了清晰的理由說明。后者(評分理由)對于構建可靠人工智能至關重要,它使 LLaVA-Critic 的評測過程更透明,評測結果更可信。

場景二:偏好學習(Preference Learning)

LLaVA-Critic 的評測能力也可用于比較成對模型回復的好壞,從而作為獎勵信號應用于 RLHF 和 DPO 等強化學習算法。實驗中,該團隊將 LLaVA-Critic 用于迭代直接偏好優化( iterative DPO)算法,具體方式如下:

給定一個預訓練 LMM 和一組圖片 - 問題輸入,首先讓 LMM 對每一個圖片 - 問題輸入隨機生成 K=5 個候選回復,由此構建出 Kx (K-1)=20 個成對回復。

接著,使用 LLaVA-Critic 對這 20 個回復對進行成對排序,選出最好和最壞的回復,形成成對的反饋數據集。

之后,使用這一數據集對于預訓練 LMM 進行直接偏好優化(DPO)訓練。

在此基礎上,漸進式迭代這一過程共計 M 輪,每次使用最新訓練的模型生成候選回復,最終得到與 LLaVA-Critic 反饋對齊的模型。

該團隊采用 LLaVA-OneVision 作為初始 LMM,進行 3 輪 iterative DPO 訓練,最終將訓練后的模型命名為 LLaVA-OneVision-Chat。隨后,他們在多個開放式問答評測基準上測試了最終模型的表現,以比較 LLaVA-Critic 和其他獎勵模型的效果。

如上表所示,無論是在 7B 還是 72B 基礎模型上,LLaVA-Critic(AI 反饋)均超越了 LLaVA-RLHF (人類反饋),顯著提升了基礎模型在 6 個多模態開放式問答評測基準上的表現。

下方的柱狀圖進一步直觀展示了 LLaVA-Critic 的反饋對 LLaVA-OneVision 模型在視覺問答性能上的提升效果。可見,LLaVA-Critic 作為一種提供有效獎勵信號的可擴展方案,不僅減少了對昂貴人工反饋的依賴,還通過 AI 生成的反饋進一步優化了模型的偏好對齊效果。

圖片

結論

LLaVA-Critic 是首個通用的開源多模態大模型評測器,能夠在多個開放式多模態場景中評測模型表現。為實現這一目標,研究團隊精心構建了一個高質量的評測指令遵循數據集,涵蓋多樣化的評測任務與標準。

實驗中展示了 LLaVA-Critic 在兩個關鍵領域的有效性:

1. 作為通用的評測器,LLaVA-Critic 能夠為需要評測的模型回復提供單點評分和成對排序,這些評分和排序與人類和 GPT-4o 的偏好高度一致,為自動評測多模態大模型的開放式回復提供了一個可行的開源替代方案。

2. 在偏好學習方面,LLaVA-Critic 提供的偏好信號能有效提升多模態大模型的視覺對話能力,甚至超越了基于人類反饋的 LLaVA-RLHF 獎勵模型。

這項工作在利用開源多模態大模型自身的評價能力方面,邁出了重要的一步。我們期待更多的研究可以由此出發,通過探究更具可擴展性的,超越人類的對齊反饋機制,進一步推動多模態大模型的發展。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-04-27 09:33:01

EasyNLP開源框架

2024-03-25 12:30:18

AI訓練開源

2025-07-04 16:50:07

工具AI模型

2024-09-10 12:11:18

2025-01-08 08:21:16

2024-03-25 12:40:19

訓練模型

2025-05-14 08:51:00

2025-07-18 11:37:52

2024-01-22 13:59:00

模型訓練

2025-10-17 10:03:23

2025-07-24 11:38:40

2025-09-16 09:35:52

2024-08-19 13:35:09

2025-06-13 14:27:05

AI模型智能體

2024-01-24 13:16:00

AI訓練

2025-08-06 09:10:10

2021-06-17 10:28:42

谷歌開源轉譯器
點贊
收藏

51CTO技術棧公眾號

天天操天天爱天天爽| 欧美专区中文字幕| 韩国三级丰满少妇高潮| 在线中文字幕-区二区三区四区 | 天天操夜夜操很很操| 日本三级韩国三级欧美三级| 99国产精品久久| 国产精品美女999| 久久99久久久| 欧美极品中文字幕| 91精品国产综合久久精品麻豆| www.66久久| 亚洲欧洲99久久| www久久99| 黄色片网站在线免费观看| 成人动漫免费在线观看| 一区二区三区在线视频111| 国产三级在线观看完整版| 北岛玲精品视频在线观看| 亚洲国产综合在线| 欧美在线视频二区| av免费观看网址| 国产精品亚洲综合久久| 久久精品91久久香蕉加勒比| 欧美在线一级片| 日韩美女在线| 日韩欧美aⅴ综合网站发布| 在线国产精品网| 日韩a级作爱片一二三区免费观看| 麻豆精品国产91久久久久久| 久久精品动漫| 亚洲最新在线视频| 亚洲av无码专区在线播放中文| 在线看欧美视频| 亚洲成人免费在线| 国产手机视频在线观看| 韩日视频在线| 99精品偷自拍| 国产98在线|日韩| 国产男女无套免费网站| 日韩高清中文字幕一区| 亚洲91精品在线观看| wwwav国产| 91精品动漫在线观看| 一夜七次郎国产精品亚洲| 中文字幕5566| 老司机精品视频在线播放| 日韩一二三四区| 国内自拍第二页| 亚洲tv在线| 欧美日韩黄色影视| 亚洲精品久久久中文字幕| 免费观看一级欧美片| 午夜精品久久久久影视| 久久久久99精品成人片| 欧美家庭影院| 美女视频黄免费| 国内成人自拍| 亚洲精品一区二区网址| 免费看黄色片的网站| 日韩黄色av| 日韩午夜激情视频| 成年人看片网站| 国产精品久久久久久久久久久久久久久 | 国产日韩在线播放| 一区二区三区亚洲视频| 精品中文字幕一区二区| 92国产精品久久久久首页| 国产男男gay体育生白袜| 国产一区二区导航在线播放| 91免费观看| 欧美一区二区黄片| 97久久精品人人爽人人爽蜜臀| 久久久久国产精品视频| 高清在线观看av| 国产精品污网站| 免费看污污视频| av在线最新| 色诱视频网站一区| 91av视频免费观看| 影音先锋欧美激情| 日韩毛片在线观看| 日本黄区免费视频观看 | 欧美国产视频一区| av资源中文在线| 91高清视频免费看| 五月六月丁香婷婷| 欧美人体视频| 视频在线一区二区| 精品视频久久久久| 日韩制服丝袜av| 亚洲最大成人免费视频| 天天操天天操天天操| 琪琪第一精品导航| 日韩久久精品视频| 天堂成人免费av电影一区| 国产精品男人爽免费视频1| 一炮成瘾1v1高h| 国产在线精品一区二区三区不卡| 国产高清在线一区| 国产精品久久一区二区三区不卡 | 91禁在线看| 欧美在线视频日韩| 美国黄色一级视频| 日本久久黄色| 97热在线精品视频在线观看| 在线观看日批视频| 99国产精品久久久久| 中日韩在线视频| 97在线视频免费看| 欧美中文字幕不卡| 欧美成人手机在线| 日本一区网站| 在线a人片免费观看视频| 一区二区三区欧美日韩| 日韩中文字幕二区| 色妞ww精品视频7777| 一本一道久久a久久精品逆3p| 久久丫精品久久丫| 麻豆精品一二三| 欧美一区免费视频| 1024在线看片你懂得| 欧美精选午夜久久久乱码6080| 国产精品边吃奶边做爽| 欧美黄色一区二区| 国产欧美日韩精品丝袜高跟鞋| 欧洲av在线播放| 亚洲视频你懂的| 午夜精品在线免费观看| 秋霞影视一区二区三区| 欧美激情videoshd| 97人妻人人澡人人爽人人精品| 久久人人爽爽爽人久久久| 国产一二三区在线播放| 国内不卡的一区二区三区中文字幕 | 丝袜亚洲另类欧美重口| 久久国产视频精品| eeuss国产一区二区三区| 热久久最新网址| 北岛玲精品视频在线观看| 色偷偷88888欧美精品久久久| 黄色av网站免费观看| 久久一夜天堂av一区二区三区| 欧美,日韩,国产在线| 超碰在线一区| 国内外成人免费激情在线视频| 超碰在线观看av| 一区二区三区四区在线播放| 男生和女生一起差差差视频| 午夜久久影院| 99久久99久久| 黄色小说在线播放| 精品久久久久久久久久久久包黑料| 久久久久99精品成人片试看| 国产一区二区三区四| 国产经典久久久| 91国内精品| 国内精品在线一区| 外国精品视频在线观看| 欧美日韩国产页| 精品无码国产污污污免费网站 | 视频午夜在线| 色天使色偷偷av一区二区| 37p粉嫩大胆色噜噜噜| 日日摸夜夜添夜夜添国产精品| 欧美一进一出视频| jvid一区二区三区| 久久亚洲影音av资源网| 亚洲AV无码成人片在线观看 | 一级特黄免费视频| 国产精品毛片无遮挡高清| 加勒比av中文字幕| 欧美喷水视频| 麻豆成人小视频| yy6080久久伦理一区二区| 乱亲女秽乱长久久久| 后入内射欧美99二区视频| 精品毛片网大全| 久久久久亚洲AV成人无在| 国产一区美女在线| 国产玉足脚交久久欧美| 国产一区二区三区四区大秀| 91九色国产在线| 国产桃色电影在线播放| 亚洲人成网站在线播| 在线观看黄色网| 亚洲一区二区三区影院| 人人人妻人人澡人人爽欧美一区| 韩国精品久久久| 男人用嘴添女人下身免费视频| 亚洲一区尤物| 国产亚洲小视频| av电影在线观看完整版一区二区| 国产91在线免费| 日韩视频在线观看| 成人免费在线看片| 在线精品亚洲欧美日韩国产| 综合欧美国产视频二区| 99久久久国产精品无码网爆 | 亚洲激情视频网站| 久草热在线观看| 亚洲国产精品久久不卡毛片 | 热久久这里只有| 国产在线观看av| 国产网站欧美日韩免费精品在线观看| 在线免费看毛片| 午夜日韩在线电影| www.4hu95.com四虎| 不卡的看片网站| 亚洲精品成人在线播放| 国产视频一区三区| 在线观看18视频网站| 国产精品一区二区av交换| 97伦理在线四区| 成人亚洲网站| 欧美一级免费视频| 日本h片在线| 久久精品国产一区| 久久国产精品高清一区二区三区| 欧美一级在线观看| 中文字幕777| 日韩欧美a级成人黄色| 久久网中文字幕| 亚洲欧美日韩在线播放| 黄色三级生活片| 91免费观看在线| 视频免费在线观看| 国产成人精品三级麻豆| www.久久av.com| 日本成人中文字幕| 免费无码国产v片在线观看| 黄色另类av| 日韩欧美猛交xxxxx无码| 日韩精品诱惑一区?区三区| 欧美日韩在线观看一区| 欧美性生活一级片| 成人自拍爱视频| 久久99成人| 亚洲一区二区在线播放| 91麻豆精品国产91久久久更新资源速度超快| 26uuu久久噜噜噜噜| 丁香花在线高清完整版视频| 美日韩精品视频免费看| 蜜芽在线免费观看| xvideos国产精品| 日韩三级影院| 久久躁狠狠躁夜夜爽| 日本中文字幕电影在线免费观看| 在线观看国产精品91| 国产在线三区| 尤物yw午夜国产精品视频| 国产福利片在线| 伊人久久精品视频| 日本三级视频在线播放| 日韩网站免费观看高清| 精产国品自在线www| 久久久国产影院| 制服丝袜激情欧洲亚洲| 亚洲精品第一区二区三区| 日韩av网址大全| 精品免费二区三区三区高中清不卡 | 欧美性久久久久| 天堂久久久久va久久久久| 国语对白做受xxxxx在线中国| 六月丁香综合| 牛夜精品久久久久久久| 久久超碰97中文字幕| 欧美日韩一区二区区| 粉嫩av一区二区三区| 999精品免费视频| 久久久久青草大香线综合精品| 成年人免费观看视频网站| 国产精品天天摸av网| 亚洲国产123| 亚洲午夜电影在线观看| 波多野结衣国产| 色成人在线视频| 国产女人高潮毛片| 欧美精品一区二区三区四区 | 欧洲av无码放荡人妇网站| 日韩精品久久久久久| 天天做天天干天天操| 成人蜜臀av电影| 91在线无精精品白丝| 亚洲视频1区2区| 久久夜靖品2区| 欧美视频一区二区三区在线观看| 国产乱人乱偷精品视频a人人澡| 欧美不卡在线视频| 免费毛片在线| 久久久国产精品一区| 国产精品蜜芽在线观看| 国产精品你懂得| 成人免费直播在线| 神马影院午夜我不卡| 欧美a级在线| 免费在线观看的毛片| 国产麻豆精品在线| 欧美色图亚洲激情| 亚洲黄色尤物视频| 亚洲大尺度在线观看| 日韩精品一区二区三区中文精品| 全色精品综合影院| 免费97视频在线精品国自产拍| 午夜裸体女人视频网站在线观看| 国产在线精品播放| 人人精品亚洲| 日韩精品福利片午夜免费观看| 免费日韩av片| 精品人妻二区中文字幕| 国产精品三级av在线播放| 精品成人久久久| 91精品国产一区二区| 成人h小游戏| 777午夜精品福利在线观看| 国产精品一区免费在线| 日韩欧美视频第二区| 国产欧美日韩综合一区在线播放 | 美国成人xxx| 女同性恋一区二区| 日韩不卡免费视频| 日本japanese极品少妇| 一区二区三区.www| 一级特黄aaa大片在线观看| 亚洲第一中文字幕在线观看| h视频在线免费观看| 国产欧美日韩中文字幕| 自拍偷拍欧美一区| 精品无码国模私拍视频| 国产精品99久久久久久宅男| av免费播放网站| 91精品91久久久中77777| 午夜成人鲁丝片午夜精品| 欧美裸身视频免费观看| 国产精品国产三级在线观看| 中文字幕乱码一区二区三区| 日韩成人一级大片| 亚洲第一香蕉网| 色综合久久六月婷婷中文字幕| 日本激情一区二区| 久久久久久国产| 成人直播在线观看| 国产精品久久久久9999爆乳| 国产福利91精品| 午夜少妇久久久久久久久| 4438亚洲最大| 成人看av片| 亚洲va久久久噜噜噜| 亚洲情侣在线| 欧美体内she精高潮| 樱桃国产成人精品视频| 国产黄色av网站| 欧美麻豆久久久久久中文| 亚洲午夜精品| 国产综合中文字幕| 99精品视频在线观看免费| 国产成人自拍视频在线| 亚洲美女在线观看| 快播电影网址老女人久久| 欧美亚洲国产免费| 日韩高清中文字幕一区| 国产中文字幕久久| 国产精品高清无码| 亚洲国产电影在线观看| 日韩电影在线观看一区二区| 亚洲性线免费观看视频成熟| 毛片免费看不卡网站| 日韩在线电影一区| 玖玖玖国产精品| 青青青手机在线视频| 91精品国产乱| 变态调教一区二区三区| 久久av一区二区三区漫画| 视频一区视频二区在线观看| 亚洲高潮女人毛茸茸| 制服丝袜av成人在线看| 黄色成人在线网| 欧美韩国日本精品一区二区三区| 日精品一区二区| 999精品视频在线观看播放| 欧美一区二区啪啪| 麻豆理论在线观看| 日韩精品一区二区三区四区五区 | 欧美一级淫片aaaaaaa视频| 国产一区网站| 日批视频在线看| 福利视频一区二区| av在线电影院| 国产精品福利视频| 日本不卡视频一二三区| 黄色一级片在线免费观看| 日韩精品欧美激情| 伊人久久综合网另类网站| 男女激情免费视频| 国产日韩成人精品| 亚洲国产成人一区二区| 国产极品精品在线观看| 欧美91福利在线观看| 性欧美精品男男| 亚洲高清福利视频|