精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CVPR 2025 | 多模態統一學習新范式來了,數據、模型、代碼全部開源

人工智能 新聞
本文分別從數據和模型的角度出發,提出了統一視聽場景理解的顯示互助范式來實現任務間的顯示互助,大量的實驗結果以及可視化分析均證明了該范式的有效性。

本文第一作者杜恒輝為中國人民大學二年級碩士生,主要研究方向為多模態大模型視聽場景理解與推理,長視頻理解等,師從胡迪副教授。作者來自于中國人民大學,清華大學和北京騰訊 PCG AI 技術中心。

我們人類生活在一個充滿視覺和音頻信息的世界中,近年來已經有很多工作利用這兩個模態的信息來增強模型對視聽場景的理解能力,衍生出了多種不同類型的任務,它們分別要求模型具備不同層面的能力。

過去大量的工作主要聚焦于完成單一任務,相比之下,我們人類對周圍復雜的的世界具有一個通用的感知理解能力。因此,如何設計一個像人類一樣對視聽場景具有通用理解能力的模型是未來通往 AGI 道路上一個極其重要的問題。當前主流的學習范式是通過構建大規模的多任務指令微調數據集并在此基礎上直接做指令微調。然而,這種學習范式對于多任務學習而言是最優的嗎?

最近中國人民大學高瓴人工智能學院 GeWu-Lab 實驗室,清華大學和北京騰訊 PCG AI 技術中心合作發表的 CVPR 2025 論文指出,當前這種主流的學習范式忽視了多模態數據的異質性和任務間的復雜關系,簡單地將所有任務聯合訓練可能會造成任務間的相互干擾。

為了有效實現任務間的顯示互助,作者團隊提出了多模態大模型學習的新范式,分別從數據和模型兩個角度實現了多模態場景理解任務的高效一統,并在多個場景理解任務上超過了垂類專家模型,數據集、模型和代碼全部開源。目前工作還在進一步拓展中,歡迎感興趣的領域專家加入,共同構建一個統一的理解、生成與推理的框架。如有興趣,請郵件聯系 dihu@ruc.edu.cn。

圖片

  • 論文標題:Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
  • 論文鏈接:https://arxiv.org/abs/2503.13068
  • 項目主頁:https://github.com/GeWu-Lab/Crab

統一的多模態場景理解能力展示

時序定位

輸入一段音視頻,讓模型找到發生的音視頻事件并定位出時序片段。

空間定位

輸入一段音頻和一張圖像,讓模型定位出圖片中發聲的物體為止。

時空推理

輸入一段樂器演奏的音視頻場景,讓模型回答相關問題,涉及到時序和空間信息的理解以及推理。

像素級理解

輸入一段音頻和一張圖片,讓模型分割出圖片中發聲的物體,具體包含 S4, MS3, AVSS 和 Ref-AVS 等多種分割任務。

圖片


圖片



圖片


圖片

視覺和聽覺信息是我們人類接觸最多的兩類信息,近年來已經有很多工作開始探究基于這兩個模態的視聽場景理解任務,主要可以分為時序定位、空間定位、像素級理解和時空推理等四種不同類型的任務,它們分別要求模型具備不同層面的能力。過去大量的工作聚焦于完成單一任務,相比之下,我們人類對周圍復雜的世界具有一個通用的感知理解能力。因此,讓模型也像人類一樣具有統一的視聽場景理解能力是具有重要意義的。

隨著多模態大語言模型的發展,構建大規模的指令微調數據集并將各種不同的任務直接進行聯合訓練已經成為當前主流的學習范式。然而,這種學習范式忽視了多模態數據的異質性和任務間的復雜關系,簡單地將所有任務聯合訓練可能會造成任務間的相互干擾,這種現象在之前的工作中已經被證實,并且這個問題對于任務間差異較大的視聽場景理解任務來說則更為重要。為了有效解決上述問題,本文分別從數據和模型的角度針對性地提出了一個統一的顯示互助學習范式來有效實現任務間的顯示互助。為了明確任務間的互助關系,首先構建了一個具有顯示推理過程的數據集 AV-UIE,它包含具體的時序和空間信息,可以有效建立任務間的互助關系。然后為了進一步在學習過程中促進任務間的相互協助,本文提出了一種具有多個 Head 的類 MoE LoRA 結構,每個 Head 負責學習多模態數據交互的不同層面,通過這種結構將模型的不同能力解耦,讓任務間的互助關系顯示地展現出來,共享的能力在不同任務間建立起相互協助的橋梁。

AV-UIE: 具有顯示推理過程的視聽場景指令微調數據集

從數據的角度來看,現有視聽場景理解數據集的標簽是簡單的單詞或者短語,這樣簡單的標簽在訓練過程中并不能顯著地幫助到其它任務,或者說只能以一種隱式的方式增強模型的訓練效果,我們并不能確保一定是對其它任務有幫助的。為了進一步地促進任務間的顯示互助并將互助關系顯示地體現出來,本文提出了具有顯示推理過程的視聽場景指令微調數據集 AV-UIE,通過細化現有數據集的標簽,額外增加了顯示的推理過程,其中包含具體的時空信息,這些信息明確了任務間的互助關系。

圖片

圖 1. 具有顯示推理過程的 AV-UIE 數集構造流程和統計分析

圖 1 展示了具體的構建過程以及對數據集的統計分析,通過 in-context learning 的方式利用現有的強大的多模態大模型進行標注,從不同任務中的數據中獲取音視頻場景,為了保證結果的準確性和推理過程的合理性,原有數據的標簽也作為輸入,讓 Gemini 1.5 Pro 針對該場景輸出帶有時序和空間等信息的顯示推理過程。為了保證數據的質量,最終再由人工進行檢查糾正。在訓練過程中這些細化后的標簽能夠鼓勵模型準確理解視聽場景內容并輸出相應的時空信息,以此來增強模型特定的能力,從而幫助到其它依賴這些特定能力的任務。圖 2 展示了 AVQA 和 AVVP 這兩種任務實現顯示互助的數據樣例,不同的顏色表示不同類型的時空信息,這兩個任務都能夠受益于增強后的空間定位和時序定位能力。

圖片

圖 2. AVQA 和 AVVP 任務通過顯示推理過程實現相互幫助的示例

AV-UIE 數據集包含九種任務的數據,總共 200K 訓練樣本。其中,時序定位任務包含 AVE 和 AVVP,數據占比 6.8%,空間定位任務包含 ARIG,數據占比 25.8%,像素級理解任務包含 S4,MS3,AVSS 和 Ref-AVS,數據占比 41.6%,時空理解任務包含 AVQA,數據占比 25.8%。相比于其它的指令微調數據集,盡管每一個任務的訓練樣本數比較小,但是在顯示推理過程的幫助下,任務間的顯示互助仍然可以增強模型在單個任務上的性能。 

Crab: 實現任務間顯示互助的統一學習框架

從數據的角度保證了模型可以輸出帶有時序信息的顯示推理過程,這是從結果上對模型進行約束,顯示地增強不同類型的能力,但是如何保證模型在學習過程中可以有效地學到這些不同的能力呢?為此,本文提出了一個視聽場景理解的統一學習框架,圖 3 展示了模型的整體架構,主要包括三個統一的多模態接口,分別用來處理 audio, visual 和 segmentation mask 數據,一個具有 interaction-aware LoRA 結構的大模型,用于在學習過程中有效學習數據交互的不同層面從而實現任務間的顯示互助。

圖片

圖 3. 模型總體架構

傳統的 LoRA 結構由一組對稱的 A 矩陣和 B 矩陣組成,用于在下游任務上高效微調模型,具有多組對稱的 AB 矩陣的 LoRA MoE 結構通常被用來多任務微調,每一組 LoRA 負責解決單個任務。為了進一步地促進任務間的相互協助,本文提出的 Interaction-aware LoRA 結構(如圖 4 所示)由一個共享的 A 矩陣和多個不同的 LoRA Head B 矩陣組成,每個 Head 期望去學習數據交互的不同層面,進而具備不同的能力。為了有效區分不同的 Head,額外增加一個 Router 用來給不同的任務分配不同的權重。例如,在學習過程中,時空推理任務 AVQA 聚焦于增強模型的時序和空間定位能力,那么就會更多的激活對應 Head 的參數,增強它們特定的能力,而其它的時序定位和空間任務都可以受益于這些增強后的 Head。從這個角度來說,模型的能力被解耦成多個特定的能力,模型可以顯示地依賴這些能力完成不同類型的任務,而多個任務間共享的能力建立起了任務間協助的橋梁。

圖片

圖 2. 具有多個 LoRA head 的 Interaction-aware LoRA 結構

實驗與分析

為了證明顯示互助學習范式的有效性,本文分別對比了在所有任務上通用的模型以及在單個任務上專有的模型,并提供了全面的消融實驗對比結果。表 1 展示了與多個任務上的通用模型的對比結果,相比于其它模型,本文提出的 Crab 統一學習框架在所有類型的任務上具有更加通用的理解能力,并且在多個任務上取得了更好的表現。這表明了 Crab 在視聽場景通用理解能力方面的優越性。

圖片

表 1. 與多個任務上的通用模型的對比結果

表 2,3,4,5 分別展示了與時序定位、空間定位、像素級理解和時空推理等四種類型任務的專有模型對比結果,可以看到在 AVE、ARIG、AVQA 等任務上 Crab 均優于單個任務上的專有模型,在 AVVP 和 AVS 任務上取得了相近的表現。表 6 展示了全面的消融實驗結果,相比于單個任務,簡單的多任務 LoRA 微調并不能充分實現任務間的相互協助,甚至在一些任務上可能會降低性能。相比之下,在顯示互助的學習范式下,任務間的相互干擾被有效緩解,任務間的相互協助提高了單個任務的性能。

圖片

表 2. 與時序定位任務專有模型對比結果

圖片

表 3. 與空間定位任務專有模型對比結果

圖片

表 4. 與像素級理解任務專有模型對比結果

圖片

表 5. 與時空推理任務專有模型對比結果

圖片

表 6. 全面的消融實驗對比結果

為了進一步證明任務間顯示互助的過程,本文對多個 LoRA Head 進行了可視化分析實驗。在推理過程中,對于每個任務的多模態輸入數據,每個 LoRA Head 會產生一個權重,權重越大,表明完成該任務越依賴于這個 Head。圖 3 對比了 3 個 Head 在不同任務上的權重,左圖是 B1 和 B2,右圖是 B2 和 B3。可以發現兩點:1)相同類型的任務對不同 Head 的依賴程度是類似的,它們對不同 Head 的依賴權重分別形成不同的簇;2)不同任務對 3 個 Head 的不同依賴性表明每個 Head 具備不同的能力。這表明模型的能力被解耦成多種不同的能力,多個任務間可能會依賴于同一種能力,因此它們可以建立相互協助的關系。

圖片

圖 3. 3 個 LoRA Head 的權重可視化

總述

本文分別從數據和模型的角度出發,提出了統一視聽場景理解的顯示互助范式來實現任務間的顯示互助,大量的實驗結果以及可視化分析均證明了該范式的有效性。我們希望本文提出的想法可以為該領域的發展提供新的研究視角,并且在未來的工作中我們將聚焦于多模態推理的新范式,希望將現有的多模態推理工作提升到一個新的高度。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-06 14:09:32

模型開源

2025-05-14 08:51:00

2025-06-17 02:25:00

工業異常檢測

2025-11-18 08:50:00

2025-06-09 09:32:35

2024-03-25 12:40:19

訓練模型

2025-07-31 08:45:00

模型AI開源

2025-01-06 10:00:00

模型視覺生成

2023-07-30 16:05:44

多模態學習框架自然語言

2025-11-11 08:45:00

2025-08-25 08:45:00

模型代碼開源

2025-07-14 08:42:00

開發模型圖像生成

2024-10-22 13:33:48

2025-10-28 08:46:00

2023-10-07 09:29:09

2024-12-23 14:10:00

AI模型數據

2024-04-08 12:19:19

AI數據

2024-04-15 12:28:00

AI模型

2025-10-23 14:05:35

點贊
收藏

51CTO技術棧公眾號

91精品欧美综合在线观看最新| 国产精品视频一二三区| 51ⅴ精品国产91久久久久久| 奇米精品在线| 一级片一区二区三区| 亚洲精品国产首次亮相| 亚洲精品成人久久| 五月天婷婷亚洲| 91白丝在线| 国产精品久久久久久亚洲伦| 国产视频一区二区不卡| 精品无码一区二区三区蜜臀 | 视频精品在线观看| 欧美日韩精品一区二区天天拍小说 | 中文字幕日韩一区二区不卡| 日韩精品在线观看一区| 手机精品视频在线| 国产精品高清乱码在线观看| 在线播放日韩专区| 欧美亚洲免费高清在线观看 | 亚洲欧美视频一区二区三区| 久久亚洲精品国产亚洲老地址| 欧美极品少妇无套实战| 男人天堂综合| 成人av免费在线观看| 成人国产精品一区| 波多野结衣啪啪| 精品不卡视频| 欧美精品在线免费| 日日操免费视频| 欧美美女在线| 亚洲精品久久久久久久久| 日本成人xxx| 国产亚洲精彩久久| 色爱区综合激月婷婷| 少妇人妻大乳在线视频| 日本在线视频中文有码| 成人污污视频在线观看| 国产+人+亚洲| 欧美黑人一级片| 久久社区一区| 中文字幕不卡av| 奇米视频888| 亚洲日本网址| 色综合久久中文综合久久97| 免费看成人片| 亚洲日本在线播放| 成人av在线资源网| 国产福利久久精品| 成人毛片在线免费观看| 国产精品一区二区在线观看网站| 国产精品视频资源| 又色又爽又黄无遮挡的免费视频| 日本不卡123| 国产精品第1页| 伊人亚洲综合网| 免费成人你懂的| 成人久久久久久| 国产女人18毛片水真多| 国内外成人在线| 亚洲精品女av网站| 国产富婆一级全黄大片| 成人午夜碰碰视频| 精品在线不卡| 精品视频一二区| 欧美96一区二区免费视频| 国产精品成人久久久久| 国产一区二区三区黄片| 国产乱人伦偷精品视频不卡| 99国产在线观看| 免费a级片在线观看| 97se亚洲国产综合在线| 欧洲亚洲一区二区| 在线激情小视频| 亚洲精品美腿丝袜| 国产v片免费观看| 日韩av中字| 欧美日本一区二区在线观看| wwwxxx色| 免费电影一区二区三区| 正在播放欧美视频| 久久免费视频精品| 老司机午夜精品视频| 成人黄色av播放免费| 超碰在线播放97| 91香蕉视频污| 在线无限看免费粉色视频| 欧美精品videosex| 色婷婷亚洲精品| 亚洲天堂网站在线| 亚洲第一二三区| 色黄久久久久久| 中文在线观看免费网站| 午夜一级在线看亚洲| 91精品视频观看| 亚洲人午夜射精精品日韩| 国产精品福利一区二区| 少妇人妻无码专区视频| 国产激情欧美| 亚洲国产精品va在线| 免费一级特黄3大片视频| 欧美日韩亚洲一区| 国产精品va在线播放| 亚洲国产福利视频| 久久99精品国产麻豆婷婷| 91久久久一线二线三线品牌| 搞黄视频免费在线观看| 亚洲国产一区二区三区| 在线看的黄色网址| 久久久久久毛片免费看 | 18video性欧美19sex高清| 色狠狠综合天天综合综合| 永久免费看片在线观看| 欧美美女视频| 97色在线视频| a天堂视频在线| 国产精品每日更新| 免费无码av片在线观看| 日韩视频一区二区三区四区| 中文字幕一区日韩电影| 亚洲另类在线观看| 成人福利视频网站| 日韩视频 中文字幕| 久久99久久久精品欧美 | 黄网站在线播放| 日本韩国一区二区| 熟妇高潮精品一区二区三区| 国产精品av一区二区| 国产在线观看一区二区三区| 成人18在线| 国产精品少妇自拍| 国产成人亚洲精品无码h在线 | 欧美日韩系列| 中文一区一区三区高中清不卡免费| 亚洲不卡一区二区三区| 麻豆网站免费观看| 99re6这里只有精品| 国产精品久久不能| av资源在线观看免费高清| 色综合欧美在线视频区| 182在线视频| 亚洲国产日本| 久久av免费观看| 中文在线免费二区三区| 日韩精品久久久久| 少妇一级淫片免费放中国 | 欧美一区二区三区播放老司机| 永久免费av无码网站性色av| 奇米888四色在线精品| 日韩av在线电影观看| 亚洲最大网站| 国产午夜精品一区理论片飘花| 亚洲不卡在线视频| 国产日韩在线不卡| 日韩精品视频一二三| 忘忧草精品久久久久久久高清| 91精品国产综合久久久久久蜜臀| 麻豆影视在线观看_| 欧美一区二区三区免费| 久久精品久久国产| 91网站黄www| 国产又黄又猛视频| 成人激情免费视频| 久久99国产精品自在自在app| 国产精品一区二区黑人巨大| 一区二区三区中文字幕| 催眠调教后宫乱淫校园| 亚洲在线黄色| 视频一区二区在线| 99热这里有精品| 国内成人精品一区| 久久经典视频| 欧美日韩成人高清| 欧美日韩综合一区二区| av中文字幕亚洲| 手机在线视频你懂的| 一本色道69色精品综合久久| 午夜精品理论片| 福利视频在线看| 91精品午夜视频| 日韩成人av毛片| 欧美激情在线一区二区三区| 久久久精品视频国产| 一区二区三区精品视频在线观看 | av动漫免费看| 亚洲天天综合| 鲁鲁狠狠狠7777一区二区| 久久天天久久| 午夜精品在线观看| 视频免费一区| 福利视频一区二区| 日本在线观看网址| 成人h动漫精品一区二区| 无码少妇一区二区三区芒果| 你懂的网址国产 欧美| 久久资源亚洲| 美女久久精品| 国产精品xxxxx| 成人三级小说| 精品国产美女在线| 日韩a级作爱片一二三区免费观看| 欧美老女人在线| 伊人中文字幕在线观看| 亚洲综合另类小说| 日本黄色www| 亚洲影视在线| 国产一级大片免费看| 欧美色婷婷久久99精品红桃| 国产精品麻豆免费版| 欧美韩国亚洲| 91av视频在线播放| 深夜视频在线免费| 制服视频三区第一页精品| 国产美女激情视频| 亚洲国产成人av网| 老湿机69福利| 国产精品国产a级| 李宗瑞91在线正在播放| 成人黄色av网站在线| 一卡二卡三卡四卡五卡| 免费精品99久久国产综合精品| 波多野结衣乳巨码无在线| 欧美日韩亚洲一区在线观看| 一本—道久久a久久精品蜜桃| 国产免费播放一区二区| 精品一卡二卡三卡四卡日本乱码 | 狠狠色综合色区| 亚洲精品v亚洲精品v日韩精品| 国产综合香蕉五月婷在线| 日韩久久一区二区三区| 日本精品久久中文字幕佐佐木| 超碰在线资源| 欧美精品中文字幕一区| 人人干在线视频| 色99之美女主播在线视频| 91高清在线| 色吧影院999| 嫩草在线视频| 久久精品视频导航| 亚洲成人av综合| 欧美一区二区三区色| 国产精品欧美激情在线| 在线91免费看| 99视频国产精品免费观看a| 欧美美女黄视频| 国产乱淫av片免费| 欧美一级二级三级蜜桃| 日本一二三区视频| 亚洲自拍偷拍图区| 国产真人真事毛片| 午夜电影久久久| 国产精品999在线观看| 欧美视频专区一二在线观看| 中文字幕av影院| 日本乱码高清不卡字幕| 欧美人一级淫片a免费播放| 日本丶国产丶欧美色综合| 一区二区视频网| 日韩一区二区影院| 亚洲精品18p| 日韩大陆毛片av| 理论视频在线| 最近2019中文字幕大全第二页| 日本在线免费播放| 久久91超碰青草是什么| 国模私拍一区二区国模曼安| 国产97免费视| 美女视频一区| 97超碰人人模人人爽人人看| 国产精品国产| 日本一区二区三区在线视频| 色中色综合网| 欧美一区二区三区成人久久片| 国产欧美日韩精品一区二区三区 | 亚洲一区中文字幕在线观看| av动漫精品一区二区| 欧美lavv| 婷婷综合伊人| 久久久久久久久久网| 日韩成人免费电影| 可以看的av网址| 91麻豆国产福利精品| 乱老熟女一区二区三区| 亚洲成年人网站在线观看| 欧美在线视频精品| 欧美va亚洲va| www亚洲人| 久久久久久12| yiren22亚洲综合| 国产精品久久久久久久小唯西川 | 久久精品99久久香蕉国产色戒 | 国产精品露脸自拍| 亚洲视频一起| 亚洲视频精品一区| 国产日韩一区| 国内精品国产三级国产aⅴ久| 久久品道一品道久久精品| 国产1区2区3区4区| 在线视频欧美精品| 亚洲乱码国产乱码精品精软件| 亚洲欧洲视频在线| 精灵使的剑舞无删减版在线观看| 国产精品极品美女在线观看免费| 91九色鹿精品国产综合久久香蕉| 五码日韩精品一区二区三区视频| 国自产拍偷拍福利精品免费一| 日韩av手机版| 91在线porny国产在线看| 婷婷在线精品视频| 欧美日韩日日骚| 免费国产在线观看| 久久青草福利网站| 日本一区二区三区视频在线看| 视频一区二区在线| 国产精品五区| 妖精视频一区二区| 亚洲精品国产视频| 一本大道伊人av久久综合| 亚洲男人天堂久| 瑟瑟视频在线看| 国产一区二区精品免费| 黄色成人91| 性鲍视频在线观看| 中文字幕永久在线不卡| 欧美在线视频精品| 一区二区福利视频| 久久电影tv| 欧美男人的天堂| 久久精品二区三区| 人妻无码一区二区三区| 亚洲成人你懂的| 黄色aaa大片| 久久久欧美一区二区| 6080亚洲理论片在线观看| 今天免费高清在线观看国语| 在线不卡视频| www日本在线观看| 一区二区三区四区不卡在线 | 欧美午夜在线播放| 福利网在线观看| 国产一区二区不卡在线| 极品久久久久久| 日韩一区二区在线看| 女同一区二区免费aⅴ| 97视频资源在线观看| 一区二区视频欧美| 中文乱码人妻一区二区三区视频| 婷婷六月综合网| 三级毛片在线免费看| 日韩美女在线观看| 欧美在线电影| 污污的视频免费观看| ...av二区三区久久精品| 国产精品一品二区三区的使用体验| 欧美成人免费观看| 国产毛片久久久| 成年人在线看片| 国产精品天美传媒沈樵| 国产情侣一区二区| 欧美区在线播放| 日韩高清一级| 狠狠热免费视频| 国产精品久久久久久久岛一牛影视 | 欧美高清性hdvideosex| 天堂av在线电影| 久久精品女人的天堂av| 日本午夜精品一区二区三区电影| 国产探花视频在线| 欧美不卡激情三级在线观看| 两个人看的在线视频www| 日本一区网站| 国产精品一二三四五| 亚洲免费在线观看av| 中文字幕精品网| 香港久久久电影| 国产熟女高潮视频| 亚洲卡通动漫在线| 亚洲av成人精品毛片| 国产精品一区久久久| 韩国久久久久| 少妇愉情理伦三级| 精品捆绑美女sm三区| 肉色欧美久久久久久久免费看| 久久免费视频2| 99精品久久99久久久久| 一级aaaa毛片| 韩国v欧美v日本v亚洲| 欧美国产一级| 99久久免费看精品国产一区| 欧美蜜桃一区二区三区| 成人一级福利| 天堂av免费看| 久久综合九色综合欧美就去吻 | 亚洲精品福利在线| 国产亚洲人成a在线v网站 | 亚洲国产精品午夜在线观看| 一区二区三区国产视频| 久久大胆人体视频| 人妻巨大乳一二三区| 欧洲生活片亚洲生活在线观看|