精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度

發布于 2024-3-28 09:34
瀏覽
0收藏

多模態技術是 AI 多樣化場景應用的重要基礎,多模態大模型(MLLM)展現出了優秀的多模態信息理解和推理能力,正成為人工智能研究的前沿熱點。然而,與大語言模型一樣,多模態大模型也依然受到“幻覺”問題的困擾,即模型在回答中出現與圖片信息不符的內容。經過測試發現,即便是 GPT-4V 也會在 45.9% 的圖片回答中出現明顯的“幻覺”


大模型出現“幻覺”的癥結之一在于未經人類對齊時發生的“過泛化”情況。例如,讓模型描述街景圖片時,無論畫面中是否有行人出現,模型都會因為自身過度的泛化問題,輸出對行人的描述。這種現象在當前的多模態大模型中普遍存在,也使得多模態大模型的應用在可信度問題得到解決之前仍受限制。


因此,如何盡可能減少多模態大模型的“幻覺”,提高回答的準確性和可信度,是所有人工智能研究者都在奮力攻克的難題。


為緩解多模態大模型的幻覺問題,我們提出了全新的多模態大模型對齊框架 RLHF-V,從數據和算法層面入手顯著減少“幻覺”的出現。


目前,這一工作已被 CVPR 2024 接收。應用該方法訓練的開源模型 OmniLMM-12B 在多個幻覺指標上取得了接近 GPT-4V 的水平。


核心優勢:

  • 首次提出采用人工修改的方法獲得細粒度多模態人工偏好數據;
  • 擁有突出的數據效率:僅需 1.4k 人類反饋的細粒度數據單機 8×A100 訓練 1 小時即可使模型幻覺率降低 34.8%;
  • 具有優秀模型可信度和通用性能:在保持模型輸出信息量的情況下,RLHF-V 在幻覺評測中超越現有的開源多模態大模型,甚至抵抗“過泛化”的效果超越 GPT-4V

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

論文地址:

??https://arxiv.org/abs/2312.00849??

項目主頁:

??https://rlhf-v.github.io??

DEMO:

??http://120.92.209.146:8081??


01 效果展示:RLHF-V方法有效減少“幻覺”問題

?

將使用 RLHF-V 方法訓練后的模型與 InstructBLIP、LLaVA-RLHF、GPT-4V 模型在相同視覺問答 (VQA,Visual Question Answering)任務下的表現進行比較,結果如下:


測試效果1:在短回復問題上,RLHF-V 模型能夠給出正確且簡練的回復。


CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 在短回復問題上 RLHF-V 模型與其他模型效果對比,其中紅色部分為幻覺,綠色部分為正確的回答。


可以看到,當用戶提問:“圖片中的男人正在干什么?”時,RLHF-V 模型正確地答出圖中的人在“豎大拇指”。InstructBLIP 也給出正確回答,即圖中的人在接電話。而 LLaVA-RLHF 的過長回答里包含多條事實錯誤,GPT-4V 的短回答里正確與錯誤信息參半出現。


測試效果2:在更容易產生“幻覺”的長回復問題上,RLHF-V 模型提供的回復可信度高,且包含充足有效信息。

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 在長回復問題上 RLHF-V 模型與其他模型效果對比,其中紅色部分為幻覺。


用戶提問“你覺得這張照片里發生了什么?”,RLHF-V 模型和 GPT-4V 都在盡可能通過圖片細節正確地描述場景,而 InstructBLIP 和 LLaVA-RLHF 的回答里則包含多處事實“幻覺”。


測試效果3:在減少多模態大模型因過泛化產生的 “幻覺”問題上,RLHF-V 的表現超過 GPT-4V。

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 長回復問題中,RLHF-V 與 GPT-4V 在“過泛化”現象上的對比,其中紅色部分為幻覺,深紅色部分為“過泛化”導致的場景相關的幻覺。


當用戶提出“對給定圖片進行詳細描述”時,GPT-4V 的回答產生了與圖片中廚房場景高度相關的過泛化“幻覺”答案,如 “排風扇”、“盤子架” 等,而 RLHF-V 則沒有出現場景相關的物體幻覺。

02 關鍵創新:細粒度偏好標注與稠密對齊方法

RLHF-V 包含兩項創新方法:數據層面,應用基于人工修改的細粒度偏好對齊數據;算法層面,采用稠密監督信號的 DDPO 算法。

基于修改的細粒度偏好對齊數據

在數據標注時,通過人工修改多模態大模型輸出回復的方式,得到細粒度的人類偏好對齊數據。這種標注方式相比傳統基于排序的數據收集方式具有三點顯著優勢:


第一,回答更準確:基于排序的偏好數據在訓練正例中仍然可能包含幻覺,例如下圖中對時鐘具體時間的識別,包括 GPT-4V 在內的模型都頻繁出現錯誤,而人工修改的答案能夠保證訓練正例準確無誤,極大提高多模態偏好數據的質量。


第二,無歧義的回答偏好判斷:關于豐富圖像內容的優質回答一般長而復雜,標注人員對這些回答進行優劣排序的過程是困難的,但如果使用 RLHF-V 提出的人工修改方法,只需找出并修改回答中的錯誤語句,因優劣排序而帶來的標注歧義問題就會迎刃而解。


第三,提供細粒度監督信號:由于 RLHF-V 同時也提供了細化到短語級別的人類偏好數據,所以能夠更加精準地鼓勵或懲罰模型表現,對齊人類偏好。

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 細粒度偏好對齊數據標注過程示意圖


目前,我們利用這一方法在 LLaVA、InstructBLIP、Qwen-VL-Chat 等 5 個模型輸出上標注了總計 5.7K 高質量偏好對齊數據,該數據已經開源至 Hugging Face。

稠密監督信號的 DDPO 算法

模型“幻覺”的產生很大程度源于人類 “正/負反饋” 的缺失,從而使模型表現偏離人類偏好。在算法層面,緩解模型“幻覺”可以從采用偏好對齊算法入手。目前應用最廣的人類偏好對齊算法有兩種:近端策略優化(PPO,Proximal Policy Optimization)和直接偏好優化(DPO,Direct Preference Optimization)。


雖然新提出的 DPO 有資源消耗更低、訓練更穩定的優勢,但作為一個回復級別的算法,DPO 無法直接鼓勵或懲罰回復中的細粒度行為。基于此,研究團隊提出了 DPO 的“強化版”——DDPO(Dense-DPO)算法,即提高修改片段的優化權重,讓模型著重學習人工修改過的語句部分,以更加充分地利用標注數據中的細粒度信息對齊人類偏好。

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ 稠密監督 DDPO 算法示意圖


03 實驗驗證和結果

?

首先,RLHF-V 在長回復與短回復任務上模型幻覺均顯著下降,且通用性能不受損失。


為了對模型進行幻覺評測,研究團隊測試了模型在長回答指令和短回答指令下的幻覺比例情況,前者需要詳細描述圖片內容,后者只需簡短回答圖片相關問題。與此同時,為了評估模型的通用性能,研究團隊還分別測試了模型在開放對話(LLaVA Bench)與圖片問答(VQAv2)上的性能表現。


實驗結果表明:RLHF-V 在幻覺評測指標上超越了已有的開源多模態大模型,且能夠在顯著減小幻覺的情況下,保持模型優秀的通用性能

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ RLHF-V 與其他開源模型及 GPT-4V 在幻覺比例和通用性能上的對比


第二,RLHF-V 解決“過泛化” 問題的表現優于 GPT-4V。


為了評測模型在“過泛化”問題上的表現,作者選擇了多模態指令數據中的 4 個典型場景,以及最常出現在每個場景中的 10 個常見物體類別(COCO 物體類別),統計這些物體在所有條目中的幻覺率,以及在對應場景下的幻覺率。


實驗結果表明,包括 GPT-4V 在內的現有 MLLM,均有明顯“過泛化”傾向,而 RLHF-V 模型“過泛化”傾向最低

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ RLHF-V 與其他開源模型及 GPT-4V 在“過泛化”問題上的效果對比


第三,細粒度對齊數據在訓練中具有高效性以及規模效應。


數據集規模對模型性能的影響也是非常重要的評測方向。從實驗結果來看,相比基于排序的偏好數據,采用細粒度修改標注能夠在 1/10 的數據規模下達到相近的模型效果。同時,隨著數據量增加,模型幻覺率顯著降低

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

▲ RLHF-V 數據的規模效應曲線

04 方法應用

?

實際上,將 RLHF-V 數據和方法用于調整 LLaVA 等其他多模態大模型,也可以有效降低模型“幻覺”的出現次數,提高模型回答可信度。近期研究團隊應用 RLHF-V 方法訓練的開源模型 OmniLMM-12B 在多模態綜合能力上達到開源模型頂尖水平,并且在多模態幻覺評測指標中顯著超越其他開源模型效果

CVPR 2024 | 通過細粒度人類反饋對齊數據,提高多模態大模型可信度-AI.x社區

在未來,研究團隊也將繼續在多模態大模型算法及數據領域進行研究,助力開源多模態大模型向成熟應用的轉變。


作者團隊簡介


清華大學計算機系自然語言處理與社會人文計算實驗室(THUNLP)是國內最早開展大模型研究、最具影響力的科研單位之一。


THUNLP 多模態大模型方向深度探索通用多模態大模型的技術體系,研究內容包括通用多模態基礎大模型構建、多模態大模型對齊、多模態大模型評測等。研究團隊已在多模態大模型研究方面取得多項前沿成果,相關成果發表在國際人工智能頂級會議上。其中基于跨語言跨模態泛化技術構建的中英雙語多模態大模型 VisCPM 被 ICLR 2024 收錄為 Spotlight 論文;多模態大模型對齊算法 RLHF-V 被 CVPR 2024 收錄;端側大模型 MiniCPM-V 發布一個月內在開源平臺下載量超 3 萬次。


如果你熱衷于探索大模型技術前沿,對多模態大模型研究充滿熱情,歡迎加入我們!無論期望在公司實習,還是在實驗室作為訪問學者,我們都會為你提供理想的工作環境和成長空間。


論文地址:https://arxiv.org/abs/2312.00849

項目主頁:https://rlhf-v.github.io

DEMO:??http://120.92.209.146:8081?


本文轉自 PaperWeekly ,作者:讓你更懂AI的

原文鏈接:??https://mp.weixin.qq.com/s/3iHewRj_IIgor_SIedbWjA??

標簽
收藏
回復
舉報
回復
相關推薦
久久久久麻豆v国产精华液好用吗 在线观看国产免费视频 | 亚洲国产精品成人| 欧美日韩久久一区二区| 国产成年人在线观看| 亚洲黄色精品视频| 久久九九精品| 久久久国产影院| 日本一卡二卡在线| a成人v在线| 夜夜嗨av一区二区三区中文字幕| 久久精品国产美女| 97xxxxx| 免费黄网站在线观看| 麻豆精品一区二区综合av| 久久久噜久噜久久综合| 国产日韩精品中文字无码| 成人h动漫精品一区二区器材| 91久久一区二区| av中文字幕av| 91成人国产综合久久精品| 激情欧美丁香| 日韩一区二区三区国产| 2一3sex性hd| 96sao精品免费视频观看| 欧美日韩国产中文字幕| 精品嫩模一区二区三区| 成人在线免费看| 成人h精品动漫一区二区三区| 色噜噜久久综合伊人一本| 涩视频在线观看| 精品女同一区二区三区在线观看| 久久综合国产精品| 国产91|九色| 中文字幕av播放| 日本a人精品| 综合久久久久久久| 日韩高清av| 天堂在线观看av| 国产成人精品www牛牛影视| 国产精品丝袜白浆摸在线 | 伊人网综合在线| 一区二区三区国产盗摄| 正在播放亚洲1区| 乱子伦一区二区| 国产强伦人妻毛片| 麻豆精品一区二区av白丝在线| 88xx成人精品| 日韩美女黄色片| 日韩成人视屏| 免费毛片在线播放免费| 欧美精品尤物在线| 亚洲成色777777女色窝| 国产日韩高清一区二区三区在线| 最新日韩欧美| 日韩高清av在线| 91人人澡人人爽| 国产精品视频一区二区三区综合| 欧美午夜一区二区三区| 久久九九国产视频| 成人性生活视频| 色婷婷精品久久二区二区蜜臀av | 日韩伦理一区| 正在播放国产一区| 午夜黄色福利视频| 欧美疯狂party性派对| 色一区av在线| 日本激情视频一区二区三区| 免费在线国产视频| 亚洲欧洲精品一区二区三区 | 激情视频一区| 久久人人爽国产| 日韩欧美激情视频| 亚洲色诱最新| 日韩av大片在线| 中文字幕人妻互换av久久| 另类成人小视频在线| 91在线观看免费高清| www.我爱av| eeuss鲁片一区二区三区在线观看| 国产精品午夜av在线| 日韩中文字幕观看| 久久久久久久网| 亚洲毛片aa| av免费网站在线| 调教+趴+乳夹+国产+精品| 黄在线观看网站| 成人综合网站| 精品少妇一区二区三区视频免付费 | 综合另类专区| 欧美日韩在线精品一区二区三区激情 | 福利写真视频网站在线| 欧美性极品xxxx做受| 男人女人黄一级| 国产精品麻豆| 国产视频精品久久久| 极品尤物一区二区| 激情国产一区| 日韩av电影国产| 国产裸体永久免费无遮挡| 成人激情综合网站| 视频在线精品一区| 女同一区二区免费aⅴ| 色爱区综合激月婷婷| 亚洲综合伊人久久| 精品福利一区| 久久香蕉国产线看观看网| 日韩女优在线观看| 久久国产成人午夜av影院| 国产精品日韩一区二区| av福利在线播放| 天天综合色天天| 亚洲精品永久视频| 日韩欧美美女在线观看| 爱福利视频一区| 久久精品视频1| 国产乱淫av一区二区三区 | 欧美日韩大片| 欧美一卡2卡三卡4卡5免费| 国产精品九九九九九| 中文视频一区| 精品国产一区二区三区久久狼黑人 | 中文字幕一区视频| 国产精品欧美激情在线观看| 日本精品视频| 中文字幕视频在线免费欧美日韩综合在线看| 欧美日韩免费做爰视频| 日本网站在线观看一区二区三区 | 五月天婷婷社区| 亚洲美女视频一区| 色哟哟精品视频| 日韩有码av| 欧美精品videosex牲欧美| 中文字幕自拍偷拍| 久久精品一级爱片| 国产精品久久久久9999爆乳| 国产精区一区二区| xxx成人少妇69| 中文字幕一区二区免费| 国产亚洲精品7777| 哪个网站能看毛片| 日本中文字幕在线一区| 国产视频亚洲视频| 国产一级中文字幕| 国产一区二区三区在线观看精品| 日本一区免费| 欧美成人黑人| 亚洲精品视频中文字幕| 日韩欧美成人一区二区三区| 国产.欧美.日韩| av久久久久久| 超碰97免费在线| 日韩欧美国产麻豆| 秋霞欧美一区二区三区视频免费| 日韩vs国产vs欧美| 日韩免费三级| 91亚洲视频| 中文字幕日韩高清| 亚洲在线观看av| 粉嫩久久99精品久久久久久夜| 麻豆一区二区三区在线观看| 91成人app| 草民午夜欧美限制a级福利片| 91久久精品无码一区二区| 中文字幕在线不卡国产视频| 红桃视频 国产| 在线免费观看日本欧美爱情大片| 51国产成人精品午夜福中文下载| 中文字幕伦理免费在线视频| 欧美v国产在线一区二区三区| 久久精品www人人爽人人| 粉嫩高潮美女一区二区三区| 精品久久一二三| 九九久久成人| 国产在线精品播放| 香蕉久久aⅴ一区二区三区| 欧美精品一区二区三区视频| 日韩 国产 在线| 国产视频亚洲色图| 免费网站在线观看黄| 国精品一区二区| 女同一区二区| 亚洲一区av| 久久免费精品日本久久中文字幕| 色网站在线免费观看| 精品视频1区2区3区| 欧美日韩亚洲国产另类| 26uuu成人网一区二区三区| 国产视频手机在线播放| 国产精品一线| 国产国产精品人在线视| 色网站免费在线观看| 日韩午夜中文字幕| 国产又色又爽又黄的| 久久―日本道色综合久久| xx欧美撒尿嘘撒尿xx| 欧美亚洲不卡| 日韩精品欧美在线| 深夜福利一区| 国产成人综合亚洲| 日本动漫同人动漫在线观看| 国产亚洲精品久久久久久牛牛| 久久久久久久极品内射| 久久国产精品99久久久久久老狼 | 亚洲第一成人网站| 国产综合成人久久大片91| 成 年 人 黄 色 大 片大 全| 成人激情开心网| 国产成人精品福利一区二区三区| 成人短视频app| 欧美精品亚州精品| 国模吧精品人体gogo| 欧美va亚洲va香蕉在线| 亚洲天堂自拍偷拍| 精品日韩中文字幕| 国产黄色片在线免费观看| 国产午夜精品美女毛片视频| 日批免费观看视频| 看片的网站亚洲| 欧美黄色免费影院| 亚洲午夜一区| 亚洲精品偷拍视频| 欧美日韩国产免费观看视频| 国产在线视频欧美一区二区三区| 国产精品1区| 国产精品99一区| 韩国精品一区| 久久久亚洲精品视频| 国产欧美久久久久久久久| 亚洲一区二区精品| 天堂a√中文在线| 亚洲不卡av一区二区三区| 亚洲aaa视频| 国产日韩一级二级三级| 日韩一级视频在线观看| 丁香啪啪综合成人亚洲小说 | 成人的网站免费观看| 亚洲色图欧美自拍| 极品少妇xxxx偷拍精品少妇| 婷婷六月天在线| 日韩国产在线观看一区| aa在线免费观看| 亚洲全部视频| 性高湖久久久久久久久aaaaa| 欧美国产91| 欧美一区二区视频在线播放| 中文字幕av亚洲精品一部二部| 亚洲精品国产一区| 精品国产一区二区三区| 欧洲精品亚洲精品| 精品久久久亚洲| 先锋影音日韩| 国产精品精品国产一区二区| 亚洲欧洲日韩综合二区| 欧美电影一区| 色婷婷777777仙踪林| 欧美日韩国产在线一区| 欧美一级中文字幕| 亚洲欧美一级二级三级| 国产高清不卡无码视频| 亚洲先锋成人| 激情伊人五月天| 鲁大师影院一区二区三区| 欧美伦理视频在线观看| 蜜桃视频免费观看一区| 国产手机视频在线观看| 亚洲成av人片乱码色午夜| 色婷婷777777仙踪林| 在线看片一区| 无码精品国产一区二区三区免费| 久久久久99| 国产3p在线播放| 国产经典欧美精品| 少妇激情一区二区三区视频| 国产亚洲精品超碰| 国产天堂av在线| 亚洲一区二区五区| 在线看片中文字幕| 成人av电影在线观看| av直播在线观看| 国产精品网站一区| 麻豆精品一区二区三区视频| 性感美女久久精品| 久久人人爽人人爽人人片av免费| 欧美日韩成人一区| 刘亦菲久久免费一区二区| 日韩精品视频在线观看网址| seseavlu视频在线| 欧美高清性猛交| 88xx成人免费观看视频库| 成人亲热视频网站| 欧美成人午夜77777| 亚洲国产一区二区三区在线| 午夜精品国产| av观看免费在线| 国产精选一区二区三区| 无码人妻精品一区二区三区温州 | 欧美色片在线观看| 91精品国产91久久久久久吃药| 韩国成人漫画| 97超碰人人看人人 | 成人综合在线网站| 亚洲图片第一页| 午夜私人影院久久久久| 亚洲天堂男人网| 日韩精品免费在线| 2024最新电影在线免费观看| 日本精品性网站在线观看| 欧洲大片精品免费永久看nba| 欧美高清性xxxxhd| 欧美精品网站| 亚洲欧美日韩三级| 91色视频在线| 久久久久久国产精品视频| 欧美日韩不卡在线| 免费一级在线观看| 久久久久久美女| 国产免费av国片精品草莓男男| 久久综合九色综合网站| 激情久久久久久久| 一级黄色片在线免费观看| 国产午夜精品一区二区| www日韩精品| 精品剧情在线观看| 国产成人无吗| 日韩女优在线播放| 亚洲日本三级| 青青草成人免费在线视频| 国产精品1区2区| 91在线播放观看| 欧美人妇做爰xxxⅹ性高电影| 青春有你2免费观看完整版在线播放高清 | 亚洲精品影视| 免费观看污网站| 亚洲最新在线观看| 国产欧美一区二区三区视频在线观看| 国产一区二区三区高清在线观看| 手机av在线| 国产一区免费| 亚洲日本欧美| 麻豆精品国产传媒av| 亚洲综合区在线| 亚洲精品一区二区三区新线路| 欧美xxxx综合视频| 日本在线视频一区二区三区| 国产av不卡一区二区| 精品系列免费在线观看| 成人做爰视频网站| 7777精品久久久大香线蕉| 日本中文字幕在线观看| 国产精品直播网红| 国产精品久久久久久麻豆一区软件 | 成年人三级视频| 九九九久久久精品| 无码人妻精品一区二区三区夜夜嗨| 欧美精品在线观看播放| 免费a在线看| 亚洲一区中文字幕| 韩日成人在线| 在线免费观看a级片| 黑人狂躁日本妞一区二区三区| 天天综合网天天综合| 欧美亚洲一区在线| 国产乱码精品一区二区亚洲 | 国产成a人亚洲精| 日本熟妇乱子伦xxxx| 日韩电影中文字幕av| 少妇一区视频| 一区二区三区四区免费视频| 国产最新精品精品你懂的| 玖玖爱这里只有精品| 精品久久人人做人人爽| 国产盗摄——sm在线视频| 欧美 日韩 国产在线| 久久99国产精品久久99果冻传媒| 91香蕉一区二区三区在线观看| 日韩午夜精品视频| 理论不卡电影大全神| 日韩亚洲视频在线| 国产精品中文字幕欧美| 日本中文字幕免费| 尤物tv国产一区| 欧美电影院免费观看| 男人用嘴添女人下身免费视频| 国产视频一区二区在线观看| www.色亚洲| 日韩免费黄色av| 在线精品国产| 泷泽萝拉在线播放| 制服丝袜一区二区三区| 擼擼色在线看观看免费| 欧美精品一区二区三区在线看午夜| 蜜桃av一区二区三区| 精品一区免费观看| 在线观看欧美成人| 都市激情亚洲| 亚洲欧美国产日韩综合| 午夜精品国产更新| 日本在线视频站| 久久精品国产一区二区三区日韩 | 日本高清成人vr专区|