精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密

發(fā)布于 2025-3-17 10:00
瀏覽
0收藏

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2503.05236 
項(xiàng)目鏈接: https://codegoat24.github.io/UnifiedReward/ 
Github鏈接: https://github.com/CodeGoat24/UnifiedReward  
Huggingface鏈接: https://huggingface.co/papers/2503.05236 
Models鏈接: https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a 
Datasets鏈接: https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede 

亮點(diǎn)直擊

  • 構(gòu)建了一個(gè)大規(guī)模的人類偏好數(shù)據(jù)集,涵蓋多種視覺(jué)任務(wù),并開(kāi)發(fā)了UNIFIEDREWARD,這是首個(gè)用于多模態(tài)理解和生成模型評(píng)估的統(tǒng)一獎(jiǎng)勵(lì)模型,能夠執(zhí)行成對(duì)排名和單點(diǎn)評(píng)分。
  • 提出了一種通用流程,以用于圖像和視頻理解/生成模型的偏好對(duì)齊,該領(lǐng)域在當(dāng)前研究中仍然較少被探索。大量實(shí)驗(yàn)表明,該方法在各個(gè)領(lǐng)域均能有效提升視覺(jué)模型的性能。
  • 實(shí)驗(yàn)表明,同時(shí)學(xué)習(xí)評(píng)估圖像和視頻任務(wù)能夠在不同視覺(jué)領(lǐng)域之間產(chǎn)生協(xié)同提升。通過(guò)本研究,旨在擴(kuò)展獎(jiǎng)勵(lì)模型的適用范圍,使其在各種視覺(jué)應(yīng)用中更加適應(yīng)性強(qiáng)、可推廣且高效。

總結(jié)速覽

解決的問(wèn)題

  • 任務(wù)特定性限制:現(xiàn)有的獎(jiǎng)勵(lì)模型通常針對(duì)特定任務(wù)設(shè)計(jì),缺乏跨多種視覺(jué)任務(wù)的適應(yīng)性。
  • 數(shù)據(jù)收集成本高:大規(guī)模收集人類反饋數(shù)據(jù)用于模型優(yōu)化既耗時(shí)又資源密集。
  • 任務(wù)間的孤立性:視覺(jué)任務(wù)之間存在內(nèi)在聯(lián)系,但現(xiàn)有方法未能充分利用這種聯(lián)系來(lái)提升模型性能。

提出的方案

  • 統(tǒng)一獎(jiǎng)勵(lì)模型:提出了UNIFIEDREWARD,首個(gè)用于多模態(tài)理解和生成評(píng)估的統(tǒng)一獎(jiǎng)勵(lì)模型,支持成對(duì)排序和點(diǎn)對(duì)點(diǎn)評(píng)分。
  • 大規(guī)模數(shù)據(jù)集構(gòu)建:構(gòu)建了一個(gè)涵蓋圖像和視頻生成/理解任務(wù)的大規(guī)模人類偏好數(shù)據(jù)集。
  • 自動(dòng)數(shù)據(jù)生成:利用UNIFIEDREWARD自動(dòng)生成高質(zhì)量偏好對(duì)數(shù)據(jù),通過(guò)多階段過(guò)濾(如成對(duì)排序和點(diǎn)篩選)選擇特定基線模型的輸出。
  • 直接偏好優(yōu)化:使用生成的偏好對(duì)數(shù)據(jù),通過(guò)直接偏好優(yōu)化(DPO)方法對(duì)齊模型輸出與人類偏好。

應(yīng)用的技術(shù)

  • 獎(jiǎng)勵(lì)模型學(xué)習(xí):從有限的偏好數(shù)據(jù)中學(xué)習(xí)獎(jiǎng)勵(lì)模型,生成合成偏好數(shù)據(jù)。
  • 多任務(wù)聯(lián)合學(xué)習(xí):聯(lián)合學(xué)習(xí)多個(gè)視覺(jué)任務(wù),利用任務(wù)間的協(xié)同效應(yīng)提升模型性能。
  • 多階段過(guò)濾:采用成對(duì)排序和點(diǎn)篩選技術(shù),自動(dòng)構(gòu)建高質(zhì)量偏好對(duì)數(shù)據(jù)。
  • 直接偏好優(yōu)化(DPO):使用偏好對(duì)數(shù)據(jù)進(jìn)行模型優(yōu)化,減少對(duì)人類注釋的依賴。

達(dá)到的效果

  • 跨任務(wù)適應(yīng)性:UNIFIEDREWARD模型能夠適應(yīng)多種視覺(jué)任務(wù),提升了模型的通用性和靈活性。
  • 性能提升:通過(guò)聯(lián)合學(xué)習(xí)多個(gè)視覺(jué)任務(wù),顯著提升了圖像和視頻理解/生成任務(wù)的性能。
  • 數(shù)據(jù)效率:自動(dòng)生成的偏好對(duì)數(shù)據(jù)減少了對(duì)大規(guī)模人類注釋的依賴,提高了數(shù)據(jù)利用效率。
  • 協(xié)同效應(yīng):圖像理解的提升改善了圖像生成評(píng)估,圖像評(píng)估的改進(jìn)通過(guò)更好的幀分析提升了視頻評(píng)估,形成了任務(wù)間的良性循環(huán)。

方法

概述

本研究旨在提出一個(gè)用于視覺(jué)模型偏好對(duì)齊的統(tǒng)一獎(jiǎng)勵(lì)模型?,F(xiàn)有研究通常為特定任務(wù)開(kāi)發(fā)專門的獎(jiǎng)勵(lì)模型,如下表 1 所示,這限制了它們?cè)诓煌曈X(jué)應(yīng)用中的適應(yīng)性。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

同時(shí)學(xué)習(xí)多個(gè)視覺(jué)任務(wù)可以產(chǎn)生相互增強(qiáng)的效果,但這一領(lǐng)域尚未被充分探索。為此,本研究提出 UNIFIEDREWARD,這是首個(gè)用于多模態(tài)理解和生成評(píng)估的統(tǒng)一獎(jiǎng)勵(lì)模型,能夠執(zhí)行 成對(duì)排名 和 單點(diǎn)評(píng)分。該模型被用于 視覺(jué)-語(yǔ)言模型(VLMs) 和 擴(kuò)散模型(Diffusion Models) 的對(duì)齊,以實(shí)現(xiàn)更穩(wěn)健且適應(yīng)性更強(qiáng)的偏好學(xué)習(xí),涵蓋多種視覺(jué)任務(wù)。流程如下圖 2 所示。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

首先構(gòu)建一個(gè)大規(guī)模的統(tǒng)一偏好數(shù)據(jù)集,并在此數(shù)據(jù)集上訓(xùn)練 UNIFIEDREWARD 模型。然后通過(guò)對(duì) VLMs 和擴(kuò)散模型的輸出進(jìn)行 成對(duì)排名 和 單點(diǎn)評(píng)分,來(lái)構(gòu)建相應(yīng)的偏好數(shù)據(jù)集。這些數(shù)據(jù)集隨后被用于 直接偏好優(yōu)化(DPO),從而有效增強(qiáng)模型對(duì)人類偏好的對(duì)齊能力。

統(tǒng)一獎(jiǎng)勵(lì)模型訓(xùn)練

統(tǒng)一偏好數(shù)據(jù)集構(gòu)建

一個(gè)涵蓋多種視覺(jué)相關(guān)任務(wù)的綜合性人類偏好數(shù)據(jù)集,對(duì)于訓(xùn)練統(tǒng)一獎(jiǎng)勵(lì)模型至關(guān)重要。然而,現(xiàn)有的人類反饋數(shù)據(jù)集(如 [29, 40, 44])通常是為特定任務(wù)設(shè)計(jì)的,限制了其泛化能力。目前,還沒(méi)有一個(gè)能全面涵蓋 視覺(jué)理解 和 視覺(jué)生成 任務(wù)的人類偏好數(shù)據(jù)集,這凸顯了構(gòu)建更通用數(shù)據(jù)集的必要性。為彌補(bǔ)這一空白,我們整合并預(yù)處理現(xiàn)有數(shù)據(jù)集,構(gòu)建了首個(gè) 大規(guī)模統(tǒng)一人類偏好數(shù)據(jù)集,其中包含約 236K 條數(shù)據(jù),涵蓋 圖像和視頻理解/生成 任務(wù)。數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息和可視化分布分別展示在下表 2 和圖 3 中。我們將在下文介紹各任務(wù)的數(shù)據(jù)構(gòu)建過(guò)程。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

圖像生成

  • EvalMuse:包含4K個(gè)文本提示,每個(gè)提示對(duì)應(yīng)多個(gè)不同模型生成的圖像。每張圖像由至少三名標(biāo)注員進(jìn)行評(píng)估,提供總體評(píng)分(1-5)以及元素級(jí)標(biāo)簽,指示特定元素是否存在。
  • 單點(diǎn)評(píng)分學(xué)習(xí):最終得分取所有評(píng)分的平均值。若至少兩名標(biāo)注員認(rèn)定某元素存在,則視為已生成,否則視為未生成。
  • 成對(duì)排名:選取同一提示得分最高得分最低的圖像,形成排名對(duì)。
  • **Human Preference Dataset (HPD)**:包含70 萬(wàn)條人類偏好投票。對(duì)于每個(gè)文本提示,提供兩張不同模型生成的圖像及對(duì)應(yīng)投票數(shù)。我們直接利用投票數(shù)構(gòu)建成對(duì)排名數(shù)據(jù),得票較多的圖像被認(rèn)為更受偏好。
  • **Open-Image-Preferences (OIP)**:包含7.4K條文本到圖像的偏好數(shù)據(jù),直接用于本研究。

圖像理解

  • LLava-Critic-113K:包含40K條單點(diǎn)評(píng)分?jǐn)?shù)據(jù)和73K條成對(duì)排名數(shù)據(jù),主要用于圖像理解評(píng)估。我們從中選取25K條數(shù)據(jù)用于成對(duì)排名,另25K條數(shù)據(jù)用于單點(diǎn)評(píng)分訓(xùn)練。

視頻生成

  • VideoDPO:包含10K條合成視頻對(duì)比數(shù)據(jù),適用于文本到視頻的 DPO 任務(wù)。我們直接使用該數(shù)據(jù)集進(jìn)行視頻生成任務(wù)的成對(duì)排名學(xué)習(xí)。
  • LiFT-HRA&VideoFeedback:提供大量人類反饋,用于合成視頻的單點(diǎn)評(píng)分,我們直接將其納入訓(xùn)練。

視頻理解

  • ShareGPTVideo-DPO:包含17K條視頻理解 DPO 數(shù)據(jù),其中每對(duì)響應(yīng)均被賦予一個(gè)評(píng)價(jià)得分。我們使用配對(duì)數(shù)據(jù)進(jìn)行成對(duì)排名學(xué)習(xí),同時(shí)提取單個(gè)響應(yīng)的得分進(jìn)行單點(diǎn)評(píng)分學(xué)習(xí)。

數(shù)據(jù)標(biāo)準(zhǔn)化

  • 成對(duì)排名數(shù)據(jù)集采用統(tǒng)一格式:

“圖像/視頻/響應(yīng) X 優(yōu)于 圖像/視頻/響應(yīng) Y”其中 “X” 和 “Y” 代表相應(yīng)索引。如果數(shù)據(jù)集中包含 評(píng)估理由,我們會(huì)保留,以便模型學(xué)習(xí)人類推理過(guò)程。


  • 單點(diǎn)評(píng)分?jǐn)?shù)據(jù)集不強(qiáng)制統(tǒng)一評(píng)分格式或分?jǐn)?shù)范圍,使模型能夠?qū)W習(xí)不同數(shù)據(jù)集的評(píng)分風(fēng)格和體系。為確保評(píng)估標(biāo)準(zhǔn)與回答內(nèi)容對(duì)齊,我們相應(yīng)調(diào)整提示詞,具體模板見(jiàn)附錄 C。

如上圖 3 所示,相較于其他任務(wù),視頻生成任務(wù)的成對(duì)排名數(shù)據(jù)較少,但我們認(rèn)為 多任務(wù)學(xué)習(xí)的協(xié)同效應(yīng) 能夠彌補(bǔ)這一不足??傮w而言,我們的數(shù)據(jù)集 涵蓋廣泛,包含 成對(duì)排名 和 單點(diǎn)評(píng)分 數(shù)據(jù),適用于 圖像與視頻的理解和生成任務(wù),從而支持 高效的獎(jiǎng)勵(lì)模型訓(xùn)練,確保在多模態(tài)理解和生成任務(wù)中的 穩(wěn)健性能。后續(xù)章節(jié)將介紹相關(guān)模型訓(xùn)練細(xì)節(jié)。

統(tǒng)一偏好學(xué)習(xí)

基于綜合性數(shù)據(jù)集,對(duì)一個(gè)具有強(qiáng)大視覺(jué)理解能力的預(yù)訓(xùn)練 VLM進(jìn)行微調(diào),以開(kāi)發(fā) UNIFIEDREWARD,并在多個(gè)視覺(jué)任務(wù)上進(jìn)行聯(lián)合訓(xùn)練。與從零開(kāi)始學(xué)習(xí)評(píng)估能力不同,我們將評(píng)估能力作為額外的判別技能進(jìn)行整合,利用模型現(xiàn)有的視覺(jué)理解能力來(lái)增強(qiáng)其在不同任務(wù)上的評(píng)估性能。


前面圖 2(頂部)展示了我們的訓(xùn)練流程。具體而言,在多模態(tài)生成評(píng)估任務(wù)中,我們的模型以視覺(jué) token、指令輸入和字幕作為輸入。而在多模態(tài)理解任務(wù)中,字幕被替換為問(wèn)題及其對(duì)應(yīng)的回答,以使輸入格式與任務(wù)需求對(duì)齊。模型基于指令提示中指定的標(biāo)準(zhǔn),學(xué)習(xí)預(yù)測(cè)單點(diǎn)評(píng)分或成對(duì)排序。如果訓(xùn)練數(shù)據(jù)包含評(píng)估理由,模型還會(huì)學(xué)習(xí)生成詳細(xì)解釋,以支持其評(píng)估結(jié)果。在訓(xùn)練過(guò)程中,優(yōu)化目標(biāo)是標(biāo)準(zhǔn)的交叉熵?fù)p失,但僅計(jì)算模型預(yù)測(cè)答案的損失。


在訓(xùn)練好 UNIFIEDREWARD 之后,我們將其用于多模態(tài)理解和生成模型的偏好對(duì)齊。該過(guò)程包括兩個(gè)順序步驟:偏好數(shù)據(jù)構(gòu)建 和 生成/理解模型對(duì)齊。接下來(lái)的章節(jié)將詳細(xì)介紹每個(gè)步驟。

偏好數(shù)據(jù)構(gòu)建

偏好對(duì)齊數(shù)據(jù)的質(zhì)量直接決定了模型對(duì)齊的有效性?,F(xiàn)有方法 [28, 40, 44] 通常僅采用單一的評(píng)估策略,要么為模型輸出分配成對(duì)排序,要么給予單點(diǎn)評(píng)分,限制了數(shù)據(jù)的質(zhì)量和多樣性。相較之下,本文的方法同時(shí)利用 UNIFIEDREWARD 的成對(duì)排序和單點(diǎn)評(píng)分能力,從而構(gòu)建出更高質(zhì)量的偏好數(shù)據(jù)集,流程如前面圖 2(左下)所示。


本文的數(shù)據(jù)構(gòu)建流程包括以下三個(gè)順序步驟:

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)


通過(guò)結(jié)合成對(duì)排序和單點(diǎn)評(píng)分,最終的偏好數(shù)據(jù)能夠提供高質(zhì)量且可靠的偏好信號(hào),有效捕捉相對(duì)比較和絕對(duì)質(zhì)量評(píng)估。

生成/理解模型對(duì)齊

在構(gòu)建偏好數(shù)據(jù)后,我們利用該數(shù)據(jù)進(jìn)行多模態(tài)生成和理解模型的對(duì)齊。我們采用 DPO(Direct Preference Optimization) 方法,使模型能夠在不顯式建模獎(jiǎng)勵(lì)的情況下對(duì)齊其輸出與人類偏好,直接基于排序的偏好對(duì)進(jìn)行優(yōu)化。

多模態(tài)生成的 DPO

在多模態(tài)生成任務(wù)中,擴(kuò)散模型由于其在圖像和視頻合成方面生成高質(zhì)量和多樣化輸出的能力,被廣泛應(yīng)用。因此,我們?cè)跀U(kuò)散模型上應(yīng)用 DPO,使其輸出對(duì)齊人類偏好。

給定構(gòu)造的偏好對(duì)數(shù)據(jù)集

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

該損失函數(shù)鼓勵(lì)微調(diào)后的擴(kuò)散模型減少對(duì)更受偏好樣本的去噪誤差,同時(shí)增加對(duì)較不受偏好樣本的去噪誤差,從而提升生成質(zhì)量。

多模態(tài)理解的 DPO

類似于生成模型的對(duì)齊,我們將 DPO 應(yīng)用于多模態(tài)理解模型(即 VLMs),以調(diào)整模型的響應(yīng)偏好。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

該損失函數(shù)鼓勵(lì)微調(diào)后的 VLMs 增加生成偏好響應(yīng)的概率,同時(shí)降低生成較不受偏好響應(yīng)的概率,從而提升模型對(duì)齊人類偏好的能力,并增強(qiáng)推理質(zhì)量。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

模型與超參數(shù)設(shè)置

  • 獎(jiǎng)勵(lì)模型(Reward Model):我們采用LLaVA-OneVision 7B (OV-7B)作為UNIFIEDREWARD的基礎(chǔ)架構(gòu),以利用其在圖像和視頻理解方面的強(qiáng)大性能。訓(xùn)練超參數(shù)如下:

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 多模態(tài)理解 DPO:

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 多模態(tài)生成 DPO:

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 數(shù)據(jù)集規(guī)模:

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

評(píng)測(cè)指標(biāo)

  • 多模態(tài)理解評(píng)測(cè):
  • 圖像理解:VLRewardBench
  • 視頻理解:ShareGPTVideo(測(cè)試樣本數(shù):1K)
  • 多模態(tài)生成評(píng)測(cè):
  • 圖像/視頻生成獎(jiǎng)勵(lì)評(píng)測(cè)GenAI-Bench
  • 視頻生成評(píng)測(cè)VideoGen-RewardBench
  • DPO 評(píng)測(cè):
  • 文本-圖像生成基準(zhǔn)Partiprompt(1632 captions)、HPSv2  (3200 captions)
  • 獎(jiǎng)勵(lì)模型PickScore、HPDv2、ImageReward
  • 圖像理解LLaVABench、WildVisionLLaVABench-Wilder 、LiveBenchMMHal
  • 視頻理解MSRVTT、MSVDTGIF、LongVideoBench、MLVUVideoMME
  • 圖像生成評(píng)測(cè):
  • 視頻生成評(píng)測(cè)VBench

獎(jiǎng)勵(lì)模型對(duì)比實(shí)驗(yàn)

圖像理解

本文的方法與最新的開(kāi)源模型 LLaVA-Critic 及兩個(gè)閉源模型 Gemini-1.5-Pro 和 GPT-4o 進(jìn)行對(duì)比。


實(shí)驗(yàn)結(jié)果(見(jiàn)下表 3)表明,本文的方法在大多數(shù)指標(biāo)上優(yōu)于最佳基線。例如,在 macro accuracy 方面,本文的方法達(dá)到了66.5%,顯著高于 LLaVA-Critic 的 62.5%,驗(yàn)證了我們方法在圖像理解評(píng)測(cè)中的優(yōu)越性。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

視頻理解

由于目前尚無(wú)公開(kāi)可用的基線模型,我們探索了 多任務(wù)學(xué)習(xí) 在視頻理解評(píng)測(cè)中的有效性,并將在后續(xù)章節(jié)詳細(xì)分析其影響。

圖像生成評(píng)測(cè)

本文的方法與傳統(tǒng)及最新的獎(jiǎng)勵(lì)模型進(jìn)行對(duì)比,包括:

  • PickScore
  • HPSv2
  • ImageReward
  • VisionReward

實(shí)驗(yàn)結(jié)果(見(jiàn)下表 5)顯示,最新的 VisionReward 方法同時(shí)支持圖像和視頻生成的獎(jiǎng)勵(lì)建模,但它為不同任務(wù)分別訓(xùn)練單獨(dú)的模型,而本文的方法在 統(tǒng)一框架 下進(jìn)行多任務(wù)聯(lián)合學(xué)習(xí),從而在多個(gè)指標(biāo)上取得更優(yōu)結(jié)果。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

視頻生成評(píng)測(cè)

本文的方法與以下最新方法進(jìn)行對(duì)比:

  • VideoScore(視頻生成評(píng)測(cè)模型)
  • LiFT(視頻獎(jiǎng)勵(lì)模型)
  • VisionReward
  • VideoReward

盡管我們的視頻生成評(píng)測(cè)數(shù)據(jù)相對(duì)較少(見(jiàn)前面圖3),但實(shí)驗(yàn)結(jié)果(上表 5)表明,本文的方法在所有基線方法中表現(xiàn)最佳。這表明 多任務(wù)學(xué)習(xí) 不僅能緩解訓(xùn)練數(shù)據(jù)不足的問(wèn)題,還能增強(qiáng)視頻生成評(píng)測(cè)的學(xué)習(xí)效果。

多任務(wù)評(píng)估學(xué)習(xí)

在這項(xiàng)工作中,認(rèn)為視覺(jué)任務(wù)本質(zhì)上是相互關(guān)聯(lián)的,聯(lián)合學(xué)習(xí)多個(gè)視覺(jué)任務(wù)可能會(huì)產(chǎn)生相互增強(qiáng)的效果。因此,探索了多任務(wù)學(xué)習(xí)對(duì)獎(jiǎng)勵(lì)模型的有效性。具體來(lái)說(shuō),對(duì)于每個(gè)任務(wù),我們使用不同的訓(xùn)練數(shù)據(jù)配置來(lái)訓(xùn)練模型,研究在不同模態(tài)(圖像和視頻)和任務(wù)(理解和生成)之間聯(lián)合學(xué)習(xí)的影響。例如,對(duì)于圖像理解任務(wù),我們?cè)O(shè)計(jì)了三種訓(xùn)練配置來(lái)探討多任務(wù)學(xué)習(xí)的影響:(1)僅在圖像理解評(píng)估上訓(xùn)練,(2)聯(lián)合學(xué)習(xí)圖像理解和圖像生成評(píng)估,(3)聯(lián)合學(xué)習(xí)圖像理解和視頻理解評(píng)估。結(jié)果如表3所示,值得注意的是,研究表明,相較于單一任務(wù)訓(xùn)練,多任務(wù)學(xué)習(xí)顯著增強(qiáng)了模型的整體性能。例如,在圖像和視頻理解任務(wù)上聯(lián)合訓(xùn)練,相較于僅在圖像理解上訓(xùn)練,整體準(zhǔn)確率提高了5.3%,宏觀準(zhǔn)確率提高了8.3%。下表4和表5中的其他任務(wù)結(jié)果一致地證明了聯(lián)合學(xué)習(xí)的有效性。這些結(jié)果突顯了跨不同視覺(jué)任務(wù)共享知識(shí)的好處,從而提高了獎(jiǎng)勵(lì)模型的魯棒性和泛化能力。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

DPO比較結(jié)果

為了進(jìn)一步展示本文方法在圖像和視頻理解與生成任務(wù)中的有效性,通過(guò)精細(xì)化輸出篩選來(lái)構(gòu)建偏好數(shù)據(jù),然后通過(guò)DPO進(jìn)行模型對(duì)齊。

  • 圖像理解:將本文的方法與最新的獎(jiǎng)勵(lì)模型LLaVA-Critic進(jìn)行比較,使用相同的圖像-問(wèn)題對(duì)源(LLaVA-RLHF)來(lái)構(gòu)建OV-7B的偏好數(shù)據(jù),確保公平比較。下表7中的結(jié)果表明,本文的方法在所有基準(zhǔn)測(cè)試中始終優(yōu)于LLaVA-Critic,例如,在LLaVABench上提高了3.4%的效果,突顯了其優(yōu)越性。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 視頻理解:從ShareGPTVideo-DPO中提取提示,構(gòu)建LLaVA-Video-7B的偏好數(shù)據(jù)。我們的結(jié)果表明,本文的方法在MSRVTT、MSVD和TGIF等數(shù)據(jù)集上顯著優(yōu)于基線,展示了其在視頻理解中的有效性,具體見(jiàn)下表6。對(duì)于其他三種多選問(wèn)題數(shù)據(jù)集,盡管我們的DPO數(shù)據(jù)不包含此類數(shù)據(jù),但我們的性能仍與基線相當(dāng),表明了我們方法的魯棒性和泛化能力。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 圖像生成:使用Pick-a-Pic人類偏好圖像數(shù)據(jù)集的數(shù)據(jù),構(gòu)建偏好數(shù)據(jù)。下表9中的結(jié)果顯示,相較于直接在原始數(shù)據(jù)集上訓(xùn)練,本文的方法表現(xiàn)更好,證明了其在精細(xì)化偏好數(shù)據(jù)以改善模型對(duì)齊方面的有效性。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 視頻生成:將本文的方法與VideoDPO進(jìn)行比較,使用相同的提示源來(lái)構(gòu)建偏好數(shù)據(jù)。下表8中的結(jié)果表明,本文的方法顯著提高了生成質(zhì)量和語(yǔ)義一致性,突顯了其有效性。

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

圖像生成定性結(jié)果

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

視頻生成定性結(jié)果

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

結(jié)論

本文提出了UNIFIEDREWARD,第一個(gè)用于多模態(tài)理解和生成評(píng)估的統(tǒng)一獎(jiǎng)勵(lì)模型,能夠處理配對(duì)排名和點(diǎn)評(píng)分兩種任務(wù)。UNIFIEDREWARD通過(guò)在涵蓋廣泛視覺(jué)任務(wù)的大規(guī)模綜合數(shù)據(jù)集上對(duì)預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(VLM)進(jìn)行微調(diào)來(lái)開(kāi)發(fā)。然后,該模型用于通過(guò)詳細(xì)的過(guò)濾過(guò)程自動(dòng)構(gòu)建高質(zhì)量的偏好配對(duì)數(shù)據(jù),這些數(shù)據(jù)隨后用于通過(guò)直接偏好優(yōu)化(DPO)進(jìn)行模型對(duì)齊。實(shí)驗(yàn)結(jié)果表明,跨不同視覺(jué)任務(wù)的聯(lián)合學(xué)習(xí)在圖像和視頻理解與生成任務(wù)中帶來(lái)了顯著的性能提升。這種方法增強(qiáng)了視覺(jué)模型與人類偏好之間的對(duì)齊,從而提高了推理質(zhì)量和任務(wù)性能。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/UBCaPLh-Tht2FJTUNaqfDw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧美一区一区| 成人高清免费在线| 亚洲欧美日韩视频二区| 亚洲最新av在线网站| 日韩av加勒比| av中文资源在线资源免费观看| 91在线视频观看| 国产精品色悠悠| 欧美日韩免费做爰视频| 青青草久久爱| 日韩片之四级片| 99精品视频在线看| 欧美jizzhd69巨大| 97精品超碰一区二区三区| 国产中文字幕亚洲| 免费看日批视频| 国产精品v一区二区三区| 日韩精品丝袜在线| 天天干天天干天天干天天干天天干| 婷婷av在线| 国产精品欧美久久久久无广告| 国语精品中文字幕| 99热精品在线播放| 蜜臀精品一区二区三区在线观看| 97视频在线观看免费高清完整版在线观看 | 欧美精品成人一区二区三区四区| 黄页网站大全在线观看| 国内外激情在线| 国产三级精品视频| 激情久久av| 国产 欧美 自拍| 激情小说亚洲一区| 国产精品视频网址| 日韩精品久久久久久免费| 亚洲三级国产| 久久久久久69| 天天干中文字幕| 天天影视综合| 日韩综合中文字幕| 亚洲综合欧美综合| 精品国产精品| 亚洲欧美成人一区二区在线电影| v天堂中文在线| 成人精品动漫一区二区三区| 911精品国产一区二区在线| 日本xxxxxxx免费视频| 在线毛片观看| 天天操天天综合网| 无码中文字幕色专区| 深夜国产在线播放| 亚洲精品国产第一综合99久久| 国产又爽又黄ai换脸| av中文资源在线| 国产精品午夜电影| 亚洲午夜精品国产| 午夜伦理在线| 亚洲视频一二三| 国产亚洲精品久久久久久久| av在线官网| 亚洲一区二区三区四区在线观看| 300部国产真实乱| 欧美日韩色网| 精品久久久久人成| 欧美激情国产精品日韩| 美女福利一区二区| 在线精品视频一区二区三四| 九一精品在线观看| 久久不卡日韩美女| 欧美中文字幕一区二区三区亚洲 | 久草成人在线视频| 国产一区久久| **欧美日韩vr在线| 日本一本在线观看| 久久se精品一区二区| 亚洲a中文字幕| 狠狠躁日日躁夜夜躁av| 99r国产精品| 日韩欧美一区二区在线观看| 免费大片黄在线观看视频网站| 亚洲日本在线天堂| 国产精品www在线观看| 中文一区一区三区高中清不卡免费| 欧美性感美女h网站在线观看免费| 国产情侣av自拍| 国产精品一区二区三区av| 亚洲第一区中文字幕| 国产激情在线免费观看| 婷婷激情图片久久| 性欧美xxxx视频在线观看| 国产视频1区2区| 国内欧美视频一区二区| 国产欧美日韩亚洲| 国产日韩精品在线看| 亚洲人成精品久久久久久| 777精品久无码人妻蜜桃| 成人一区视频| 精品国产乱码久久久久久1区2区 | 春暖花开成人亚洲区| 亚洲伦理在线精品| 免费高清在线观看免费| 国产麻豆一区二区三区| 精品亚洲永久免费精品| 日本 欧美 国产| 国产亚洲网站| 亚洲在线免费看| 男男电影完整版在线观看| 亚洲人成小说网站色在线| 欧美 日韩 国产一区| 日本高清精品| 一本色道久久88综合日韩精品| 国产精品2020| 久久99精品视频| 蜜桃91精品入口| 九色91在线| 欧美日韩国产bt| 亚洲区免费视频| 国产精品vip| 成人激情av在线| 国产在线视频网址| 午夜精品久久久久久久| 欧美日韩理论片| 日韩黄色大片| 国产精品9999| 免费福利在线观看| 精品国产1区2区| 农村末发育av片一区二区| 99精品在线| 国产成人精彩在线视频九色| 欧美自拍第一页| 亚洲欧美激情小说另类| 中文字幕成人在线视频| 精品久久久久久久久久久下田| 97免费视频在线| 亚洲国产精品视频在线| 一区精品在线播放| 亚洲综合婷婷久久| 成人黄色av| 国产精品久久久久久久美男| 婷婷亚洲一区二区三区| 亚洲精品国产a久久久久久| 一区二区三区四区毛片| 999国产精品| 国产欧美久久一区二区| 99视频在线观看地址| 色妞www精品视频| 久久国产柳州莫菁门| 视频在线观看一区| 欧美视频1区| 粉嫩一区二区三区| 亚洲夜晚福利在线观看| 欧美性猛交xxxx乱大交hd| 久久久久久亚洲综合| 精品一卡二卡三卡| 视频一区在线观看| 国产精品96久久久久久又黄又硬| 韩国精品视频| 欧洲av一区二区嗯嗯嗯啊| 精品日韩在线视频| 久久精品国产**网站演员| japanese在线视频| 亚洲精品一区二区三区中文字幕 | 成人h在线观看| 中文字幕日韩av电影| 伊人网中文字幕| 日韩毛片视频在线看| 在线观看视频在线观看| 欧美破处大片在线视频| 国产伦精品一区二区三区照片91| 国产在线拍揄自揄拍视频 | 91中文精品字幕在线视频| 182tv在线播放| 亚洲国产成人91精品| 天堂а√在线中文在线新版 | 亚洲电影在线看| 伊人中文字幕在线观看| 国产精品私房写真福利视频| 交换做爰国语对白| 亚洲精品裸体| 亚洲高清视频一区| 日韩三级av高清片| 欧美一级免费看| 欧美成年黄网站色视频| 精品国产一二三| 久久久精品毛片| 亚洲欧美日韩一区| 中文字幕日韩三级片| 老鸭窝一区二区久久精品| 97在线免费视频观看| 欧美午夜寂寞| 成人免费黄色网| 人人草在线视频| 日韩在线观看免费高清| 好吊色一区二区| 欧美午夜精品一区| 日本特黄特色aaa大片免费| 国产婷婷色一区二区三区四区| 中文字幕第66页| 亚洲在线视频| 青青草免费在线视频观看| 日本成人中文| 97视频热人人精品| 久久久人成影片一区二区三区在哪下载| 久久艹在线视频| 国产在线自天天| 亚洲激情小视频| 国产精品亚洲欧美在线播放| 色综合天天综合| 国产一级特黄视频| 国产精品剧情在线亚洲| 亚洲综合自拍网| 国内精品在线播放| 国产天堂在线播放| 99热在线精品观看| 欧美少妇一区二区三区| av影片在线一区| 精品久久中出| 亚洲网一区二区三区| 国产欧美一区二区三区在线| 中文字幕在线直播| 国内精品美女av在线播放| 麻豆电影在线播放| 国产一区二区三区免费视频| 三级av在线| 亚洲国产免费av| 亚洲欧美另类日韩| 欧美一二区视频| 亚洲综合精品国产一区二区三区 | 亚洲精品一区二区口爆| 欧美日韩国产精选| 中文字幕在线观看免费| 色成年激情久久综合| 男人的天堂一区二区| 亚洲国产成人精品视频| 青青草原在线免费观看视频| 亚洲欧美日韩国产手机在线| 亚洲精品国产精品国自| 国产亚洲精久久久久久| 亚洲天堂久久新| 91影院在线观看| 无码任你躁久久久久久老妇| 国产不卡在线播放| 欧美69精品久久久久久不卡| 国产乱码精品一品二品| 先锋资源在线视频| 国产激情精品久久久第一区二区 | 国产女大学生av| 亚洲国产综合在线看不卡| 少妇久久久久久被弄到高潮| 欧美在线首页| 日本男女交配视频| 红桃视频欧美| 精品中文字幕av| 欧美一级二区| 亚洲欧美另类动漫| 免费高清视频精品| 亚洲综合20p| 国产高清亚洲一区| 亚洲中文字幕无码一区| 91免费看`日韩一区二区| 中文字幕在线免费看线人| 久久亚洲一级片| 99精品欧美一区二区| 中文在线一区二区| 黄色一级大片在线免费观看| 亚洲激情网站免费观看| 精品少妇一二三区| 欧美日韩久久久久| 波多野结衣影片| 91精品国产高清一区二区三区| 午夜老司机福利| 亚洲精品国产综合久久| 国产免费a∨片在线观看不卡| 视频在线观看一区二区| 性欧美高清come| 日韩女优在线播放| 亚洲精品无播放器在线播放| 国产福利一区二区三区在线观看| 亚洲女娇小黑人粗硬| 亚洲色图自拍| 在线看片一区| 色七七在线观看| 国产成人丝袜美腿| 国精产品一区一区三区免费视频 | 国产 欧美 日韩 一区| 一本久道久久综合婷婷鲸鱼| 国产成人综合一区| 国产一区二区免费视频| 人体私拍套图hdxxxx| 欧美国产禁国产网站cc| 九九视频免费在线观看| 欧美丝袜一区二区三区| 91好色先生tv| 日韩精品有码在线观看| 成人影院在线看| 欧美专区日韩视频| 精品成人18| 欧美二区在线看| 欧美激情综合| 日本精品久久久久中文字幕| 国产成人一区在线| 97在线观看免费视频| 亚洲一区二区精品视频| 亚洲成人av网址| 亚洲电影免费观看| 日韩在线资源| 日韩美女视频在线观看| 一区二区三区在线免费看 | 好看不卡的中文字幕| 免费激情视频在线观看| 成人国产精品免费| 国产黄色小视频网站| 欧美日韩一二三四五区| 99久久久久成人国产免费| 中文字幕久热精品在线视频| 2021中文字幕在线| 亚洲精品日韩av| 色中色综合网| 久草在在线视频| av资源站一区| 九九视频免费在线观看| 欧美美女bb生活片| 中文日本在线观看| 奇米成人av国产一区二区三区| 一区二区三区免费在线看| 中文字幕精品在线播放| 麻豆一区二区99久久久久| 无码熟妇人妻av| 欧美日韩国产区| 人妻无码一区二区三区久久99| 另类天堂视频在线观看| 视频91a欧美| 一区精品视频| 激情欧美日韩一区二区| 国产一二三四区在线| 色天天综合久久久久综合片| 亚州视频一区二区三区| 久久久在线观看| 中文字幕一区二区三区日韩精品| 手机看片日韩国产| 国产一区日韩二区欧美三区| 萌白酱视频在线| 欧美日韩第一区日日骚| 日本在线免费| 国产精品自在线| 999精品一区| 一二三av在线| 一区二区三区四区精品在线视频| av在线免费在线观看| 久久久精品久久久| 精品国产18久久久久久二百| 激情视频小说图片| 国产ts人妖一区二区| 国产精品999久久久| 国产视频精品久久久| 亚洲永久av| 视频一区不卡| 久草热8精品视频在线观看| 色偷偷www8888| 欧美变态tickle挠乳网站| 欧美性受ⅹ╳╳╳黑人a性爽| 国产区二精品视| 另类激情亚洲| 国产又粗又猛又爽又黄的视频四季 | 精品一区二区三区免费看| 国产精品啪啪啪视频| 成人免费视频视频| 久久国产视频播放| 国产小视频国产精品| 亚洲国产aⅴ精品一区二区三区| 最近中文字幕免费mv| 成人免费黄色在线| 国产精品男女视频| 这里只有视频精品| 欧美片网站免费| 草草久久久无码国产专区| 国产午夜三级一区二区三| 一级特黄录像免费看| 久久99精品久久久久久青青91| 麻豆一区二区麻豆免费观看| www日韩在线观看| 亚洲精品videosex极品| 美女做暖暖视频免费在线观看全部网址91| 国产精品久久国产精品99gif| 91精品久久久久久久久久不卡| 一级特级黄色片| 欧美乱妇20p| 在线免费三级电影网站| 五月天男人天堂| 91香蕉国产在线观看软件| 亚洲天堂久久久久| 久久久亚洲精品视频| 日韩精品91| 在线看黄色的网站| 欧美性大战久久久久久久| 成人在线高清免费| 色综合久久久久久久久五月| av在线这里只有精品| 中文字幕一区二区三区四区免费看| 久久久久久九九九| 久久中文字幕二区|