精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

解決大型多模態模型的幻覺問題,新方法AITuning助力AI更可靠 精華

發布于 2024-9-2 02:01
瀏覽
0收藏

引言:多模態對話幻覺的挑戰

在人工智能領域,開發能夠通過視覺和語言等多種渠道與人類互動的通用助手是一個重要問題。受到大型語言模型(LLMs)如ChatGPT的顯著成功的啟發,研究社區對開發能夠支持視覺-語言指令的多模態助手,即大型多模態模型(LMMs),表現出了越來越濃厚的興趣。這些模型在各種多模態任務中展現出了強大的零樣本泛化能力,例如分類、檢測、視覺問答(VQA)和圖像描述。

然而,盡管LMMs取得了巨大的成功,一些研究揭示了LMMs容易產生幻覺的傾向。大多數研究集中在對象幻覺上,即LMMs經常與給定圖像內容不一致地回答問題。但是,用戶系統對話對幻覺的影響卻鮮有關注。令人驚訝的是,我們發現,由于先前的用戶系統對話,這種幻覺可能會顯著加劇。例如,在ScienceQA數據集的一個測試示例中,先前的對話內容(“環保”)與當前問題相沖突,可能會分散LMMs的注意力,導致錯誤的回答(“木材”)。這個問題,我們稱之為對話幻覺,在實踐中非常關鍵,因為用戶通常通過多輪聊天與系統互動,用戶可能在早期聊天中無意中攻擊LMMs,然后在后續聊天中得到不真實的回答。

在本文中,我們首先提出了一個評估基準EvalDial,用以精確衡量LMMs的對話幻覺。我們的基準是在流行的多模態基準數據集上構建的,用于VQA和圖像描述任務。具體來說,對于每個數據集中的每個測試示例,我們創建相應的幻覺對話,這些對話可以添加到原始測試問題之前。為了模仿用戶在給定圖像的視覺上下文中與助手互動的實際行為,我們進一步引入了對抗性問題生成器(AQG),它通過利用額外的LMM與黑盒對抗性攻擊方法,自動生成與圖像相關但具有對抗性的對話。

為了緩解對話幻覺,我們進行了輸入令牌注意力分析,并發現幻覺主要是由于對先前對話的預測偏見,而不是視覺內容。然后,我們提出了對抗性指令調整(AIT),旨在通過在增強的視覺指令數據集上對LMMs進行魯棒性微調來減少預測偏見。在EvalDial的六個多模態數據集上進行的廣泛實驗表明,AIT成功減少了對話幻覺,同時保持甚至有時提高了VQA和圖像描述任務的性能。

論文標題:Mitigating Dialogue Hallucination for Large Multi-modal Models via Adversarial Instruction Tuning

論文鏈接:??https://arxiv.org/pdf/2403.10492.pdf??

多模態模型的進展與幻覺問題

1. 多模態模型的成功案例

多模態模型(Large Multi-modal Models,簡稱LMMs)是結合了視覺基礎模型和大型語言模型(Large Language Models,簡稱LLMs),如ChatGPT,以支持視覺-語言指令的人工智能系統。這些模型在多種多模態任務中展現出強大的零樣本泛化能力,例如分類、檢測、視覺問題回答(Visual Question Answering,簡稱VQA)和圖像描述(Captioning)。例如,LLaVA、MiniGPT-4和InstructBLIP等模型在這些任務上取得了顯著的成績。

2. 多模態模型面臨的幻覺挑戰

盡管多模態模型在多個領域取得了成功,但近期研究揭示了這些模型容易產生與輸入圖像和文本指令不一致的幻覺輸出描述,這種現象被稱為“幻覺”(hallucinations)。特別是在用戶系統對話中,這種幻覺問題可能會被前置對話所加劇。例如,前置對話中的某些內容(如“環保”)與當前問題相沖突,可能會分散LMMs的注意力,導致錯誤的回答(如“木頭”)。這個問題在實際應用中非常關鍵,因為用戶通常通過多輪對話與系統交互,這可能導致用戶在早期對話中無意中攻擊LMMs,并在后續對話中得到不可靠的回答。

對話幻覺的定義與影響

1. 對話幻覺的概念

對話幻覺是指在沒有任何對話的情況下生成的答案是可靠的,但在一些前置對話后變得不可靠的現象。這種幻覺可能包括各種類型的生成內容,如VQA任務中的錯誤答案、Captioning任務中的不準確描述,以及Object-finding任務中的非存在內容的響應。

2. 對話幻覺對用戶體驗的影響

對話幻覺對用戶體驗產生負面影響,因為它可能導致用戶得到與圖像或指令內容不一致的回答。在多輪對話中,用戶可能會因為早期對話中的內容而在后續對話中得到錯誤的信息。這不僅會影響用戶對系統的信任,還可能在實際應用中造成混淆和誤解。因此,對話幻覺的存在對于構建可靠、可信的多模態交互系統來說是一個重要的挑戰。

EvalDial:評估對話幻覺的新基準

1. EvalDial基準的構建

EvalDial是一個用于評估大型多模態模型(LMMs)對話幻覺的評估基準。它建立在流行的多模態基準數據集之上,這些數據集用于視覺問答(VQA)和圖像描述(Captioning)任務。EvalDial為每個測試樣例創建了三種類型的對話:通用對話、隨機對話和對抗性對話,這些對話被添加到原始測試問題之前。通用對話包含可以對任何圖像提出的通用問題及其對應的答案;隨機對話包含與給定圖像完全無關的隨機問題及其答案;對抗性對話包含與圖像相關但可能導致幻覺的問題。EvalDial的構建考慮了真實用戶與助手的交互行為,并引入了對抗性問題生成器(AQG),它利用額外的LMM和黑盒對抗性攻擊技術自動生成與圖像相關但具有對抗性的對話。

2. 生成對抗性對話的方法

對抗性問題生成器(AQG)旨在生成與圖像相關且聽起來自然的對抗性對話。AQG包含兩個常見的對抗性攻擊組件:威脅模型和對抗性目標。威脅模型限定了對抗性對話的類型,以確保對話與圖像相關且聽起來自然。為此,AQG利用額外的LMM生成與圖像相關且聽起來自然的對話,并通過更新對抗性提示令牌來實現。在優化過程中,只有上下文提示被擾動,通過在上下文令牌嵌入中注入隨機噪聲。對抗性目標使用NLP任務中用于對抗性攻擊的任何損失函數。AQG的整體優化過程詳細描述了如何找到具有更高目標損失的最佳對抗性對話。

解決大型多模態模型的幻覺問題,新方法AITuning助力AI更可靠-AI.x社區圖片

解決大型多模態模型的幻覺問題,新方法AITuning助力AI更可靠-AI.x社區圖片

對話幻覺的原因分析

1. 輸入令牌注意力分析

輸入令牌注意力分析是一種流行的方法,用于研究輸入特征對模型預測的貢獻。在這項工作中,引入了一種新的基于注意力的度量,即對話令牌注意力比率(DTAR),它通過計算前置對話對輸出答案預測的貢獻來幫助分析指令遵循LMM中的對話幻覺。

2. 對話令牌注意力比率(DTAR)的應用

DTAR定義為對話令牌的所有絕對注意力分數之和與所有輸入令牌的之和的比率。DTAR分析顯示,LLaVA模型在幻覺樣例中的DTAR得分高于非幻覺樣例,這意味著LLaVA在預測幻覺案例時更多地關注前置對話而非圖像特征。因此,需要一種新方法來抑制這種對幻覺對話的預測偏差。

對抗性指令調整(AIT)方法介紹

1. 幻覺對話的生成與注入

對抗性指令調整(Adversarial Instruction Tuning, AIT)方法旨在減少大型多模態模型(Large Multi-modal Models, LMMs)在處理視覺-語言指令時的幻覺現象。AIT方法通過在視覺指令數據集中生成并注入幻覺對話來進行魯棒性微調。這些幻覺對話包括通用對話、隨機對話和對抗性對話,它們被預先添加到原始測試問題或指令中。例如,通用對話可能是關于圖像中主導顏色的問題及其答案,而對抗性對話則是與圖像相關但可能導致原始測試問題產生幻覺的問題。

2. 掩蔽指令調整的技術細節

在AIT方法中,對于每個訓練樣本,會隨機選擇一定數量的對話輪次來注入幻覺對話。注入后,進行掩蔽指令調整,即在計算交叉熵損失時屏蔽幻覺對話的答案令牌,使得模型不會被訓練來生成幻覺對話中的答案。這樣,模型可以在存在先前幻覺對話的情況下,更魯棒地生成對后續問題的正確答案。

實驗驗證:AIT方法的有效性

*1. AIT在不同數據集上的表現

在多個多模態數據集上的實驗結果顯示,AIT方法能夠成功降低對話幻覺現象,同時在視覺問答(VQA)和圖像描述(Captioning)任務中保持或有時甚至提高性能。例如,在OKVQA、GQA和IconQA數據集上,AIT在VQA任務中的表現與其他基線模型相比,準確率下降幅度較小。在Captioning任務中,使用NoCaps、Flickr-30K和WHOOPS數據集,AIT的性能也顯示出相對穩定或有所提高。

2. AIT對抗多輪對話幻覺的能力

在多輪對話幻覺的情況下,AIT表現出更強的魯棒性。在GQA數據集上的實驗中,隨著預先添加的對話輪次增加,基線模型LLaVA的性能持續下降,而AIT能夠在通用和隨機類型的對話中保持性能,在對抗性案例中顯示出較小的性能下降。這表明AIT能夠有效對抗通過早期對話輪次無意中攻擊LMMs的用戶行為,減少后續對話中的不忠實答案。

解決大型多模態模型的幻覺問題,新方法AITuning助力AI更可靠-AI.x社區圖片

解決大型多模態模型的幻覺問題,新方法AITuning助力AI更可靠-AI.x社區圖片

討論與可視化

1. AIT方法的影響因素分析

Adversarial Instruction Tuning (AIT) 方法是為了減少大型多模態模型 (LMMs) 中的對話幻覺而提出的。對話幻覺是指模型在沒有前置對話時能夠生成忠實于源內容的答案,但在添加了前置對話后卻產生了不忠實的答案。通過對輸入令牌的注意力分析,研究發現對話幻覺主要是由于模型對前置對話的預測偏見,而不是視覺內容。為了緩解這一問題,AIT通過在增強的視覺指令數據集上對LMMs進行魯棒性微調,成功降低了對話幻覺,同時保持或有時甚至提高了視覺問答(VQA)和圖像描述(Captioning)任務的性能。

2. AIT方法的可視化案例

在實驗中,使用了一個名為EvalDial的評估基準來精確衡量LMMs的對話幻覺。EvalDial基于流行的多模態基準數據集構建,為每個測試示例創建了相應的幻覺對話。通過Adversarial Question Generator (AQG) 自動生成與圖像相關但具有對抗性的對話,這些對話在視覺上下文中模擬了用戶與助手的實際交互行為。在EvalDial上,對于VQA任務,最先進的LMMs的零樣本泛化性能下降了高達14.8個百分點,對于Captioning任務下降了48.4個百分點。

解決大型多模態模型的幻覺問題,新方法AITuning助力AI更可靠-AI.x社區圖片

結論與未來展望

1. 論文的主要發現

本研究發現,現有的遵循指令的LMMs容易受到前置用戶-系統對話的幻覺影響。為了精確驗證這種對話幻覺,構建了EvalDial評估基準,并提出了一種新穎的對抗性對話生成器AQG。此外,為了減輕這種幻覺,通過輸入令牌注意力分析深入理解了幻覺發生的原因,并提出了AIT,這是一種魯棒的指令調整方法,它在存在幻覺對話的情況下保持甚至提高了LMMs在VQA和圖像描述性能。

2. 對未來多模態模型研究的啟示

本研究的發現和提出的AIT方法為未來在多模態模型中處理對話幻覺和提高模型魯棒性提供了新的視角。通過對話令牌注意力比率(DTAR)的分析,研究揭示了模型在預測時過度依賴前置對話的傾向。AIT方法通過在存在幻覺對話的情況下對模型進行魯棒性訓練,減少了這種偏見。未來的研究可以在此基礎上進一步探索如何提高模型對抗性攻擊的魯棒性,以及如何在不犧牲性能的情況下處理更復雜的對話場景。 

本文轉載自 ??AI論文解讀??,作者: 圖南


收藏
回復
舉報
回復
相關推薦
一区二区三区视频免费观看| 国产黄色在线免费观看| 亚洲精品少妇| 伊人久久精品视频| 亚洲天堂网站在线| av男人的天堂在线观看| 国产日韩精品一区| 99热最新在线| 蜜臀99久久精品久久久久小说| 天天插综合网| 日韩风俗一区 二区| 亚洲不卡视频在线| free性m.freesex欧美| 欧美激情一二三区| 国产一区二区视频在线免费观看| 日本中文字幕在线观看视频| 黄色av日韩| 视频在线观看一区二区| 国产性生活毛片| 成人黄色91| 色天使色偷偷av一区二区| 中文字幕の友人北条麻妃| 超碰国产在线| av电影天堂一区二区在线观看| 成人国产精品久久久| 欧美日韩一二三四区| 欧美日韩一区二区三区四区在线观看| 亚洲人成网站999久久久综合| 自拍视频第一页| 国产精品成人国产| 色综合色狠狠天天综合色| 热久久最新网址| 日本电影在线观看网站| 久久久国产午夜精品| 国产精选一区二区| 成人黄色在线观看视频| 国产真实乱对白精彩久久| 国产国语videosex另类| 亚洲黄色小说图片| 99精品久久| 久久免费少妇高潮久久精品99| 51精品免费网站| 福利一区二区免费视频| 久久精品99国产国产精| 91精品国产91| 欧美一级免费看| 视色,视色影院,视色影库,视色网| 色就是色亚洲色图| 国产v综合v亚洲欧| 成人久久久久久| 中文字幕欧美人妻精品一区蜜臀| 亚洲一区二区三区四区五区午夜| 国产精品影视天天线| 国内成人精品视频| 久久免费视频精品| 激情综合视频| 午夜精品理论片| 国产精品xxxx喷水欧美| 亚洲精品男同| 欧美最猛性xxxxx免费| 国产99久久久| 玖玖在线精品| 国产精品欧美日韩一区二区| 中文字幕在线观看精品| 久久精品国产免费看久久精品| 国产免费亚洲高清| 99久久久国产精品无码免费| 国产成人精品一区二区三区网站观看| 7777精品伊久久久大香线蕉语言| av资源免费看| av中文字幕一区| 蜜桃网站成人| 91青青在线视频| 专区另类欧美日韩| 国产在线视频在线| 欧美男男激情videos| 日韩欧美国产成人| 日韩欧美国产片| 亚洲网一区二区三区| 亚洲精品在线一区二区| 波多野结衣办公室33分钟| japanese国产精品| 伊人久久精品视频| 精品99在线观看| 国产欧美午夜| 国产精品永久免费在线| 亚洲av无码国产综合专区| 99久久精品一区二区| 午夜精品一区二区在线观看的| 精品美女在线观看视频在线观看| 亚洲综合激情另类小说区| 国产主播在线看| 国产激情久久| 日韩av在线影院| 亚洲不卡的av| 亚洲久色影视| 成人欧美在线观看| 青青操视频在线| ...av二区三区久久精品| 国产二级片在线观看| 亚洲精品自拍| 亚洲欧美日韩一区在线| 日韩高清dvd碟片| 视频一区在线播放| 国产成人成网站在线播放青青| 国产一级在线观看| 亚洲一区免费视频| 在线观看的毛片| 国产精品网站在线看| 日韩在线观看网站| 99久久精品国产亚洲| 国产一区二区在线看| 欧美三日本三级少妇三99| 色呦呦呦在线观看| 欧美三片在线视频观看| 波多野结衣先锋影音| 一个色综合网| 国产精品igao视频| 亚洲欧洲精品视频| 亚洲国产乱码最新视频 | 51国产成人精品午夜福中文下载| 久久精品色图| 亚洲国产综合色| 日韩av片免费观看| 欧美自拍偷拍| 日本精品一区二区三区在线播放视频| 亚洲av无码乱码国产精品| 国产精品美女久久久久久2018 | 日韩电影网1区2区| 精品在线不卡| 97超碰在线免费| 日韩欧美一区二区久久婷婷| 性生交大片免费全黄| 免费看日韩精品| 日本一区二区三区视频免费看| bbw在线视频| 精品粉嫩aⅴ一区二区三区四区| 免费成人深夜夜行网站| 久久99国产乱子伦精品免费| 日韩av一区二区三区在线观看 | 欧美视频专区一二在线观看| 人妻换人妻a片爽麻豆| 欧美/亚洲一区| 91久久久一线二线三线品牌| 二区三区在线观看| 制服丝袜中文字幕亚洲| 黄色录像一级片| 国产一区二区三区国产| 国产精品8888| 一区二区三区高清在线观看| 久久久久久久999精品视频| www久久久com| 亚洲国产精品一区二区www在线 | 欧美国产精品va在线观看| 精品国产99久久久久久宅男i| 亚洲色图在线看| 欧美性猛交乱大交| 激情欧美一区| 蜜桃网站成人| 黄色欧美视频| 另类图片亚洲另类| 亚洲国产精品久久人人爱潘金莲 | 内射国产内射夫妻免费频道| 欧美91在线| 日本高清不卡在线| 番号在线播放| 91精品国产免费| 久久久久久久久精| 91最新地址在线播放| 激情婷婷综合网| 久久亚洲国产| 99在线首页视频| 中文字幕乱码在线播放| 日韩在线视频导航| 亚洲经典一区二区三区| 欧美小视频在线| 911国产在线| 岛国av在线一区| 久久精品一区二| 一区二区三区在线电影| 久久免费99精品久久久久久| av在线不卡精品| 欧美国产一区二区三区| 欧洲亚洲在线| 91精品国产综合久久国产大片| 日韩精品无码一区二区| 中文欧美字幕免费| av在线天堂网| 日韩精品成人一区二区在线| 欧美与动交zoz0z| 欧美变态网站| 91精品国产综合久久香蕉| 91九色在线看| 中文字幕在线精品| 污视频网站免费观看| 欧美日韩精品欧美日韩精品| 国产无遮挡免费视频| 国产无一区二区| 91亚洲一线产区二线产区| 日韩黄色免费电影| 中国丰满熟妇xxxx性| 欧美色爱综合| 国产一区二区不卡视频| 久久亚洲人体| 欧洲成人在线视频| 欧美videos另类精品| 少妇av一区二区三区| 无码国产精品96久久久久| 538在线一区二区精品国产| 手机看片久久久| 亚洲影院久久精品| 亚洲女人毛茸茸高潮| 91麻豆福利精品推荐| 久久久久中文字幕亚洲精品 | 欧美激情偷拍自拍| 久久精品日产第一区二区三区| 香蕉成人app| 成人a免费视频| jizz亚洲女人高潮大叫| 2019亚洲男人天堂| www欧美xxxx| 欧美精品一区二区免费| 精品美女在线观看视频在线观看 | 日韩三区在线观看| 亚洲综合精品视频| 91福利资源站| 婷婷激情五月网| 五月婷婷欧美视频| 久久久久久久久久91| 亚洲欧美一区二区三区国产精品| www久久久久久久| 久久久久亚洲蜜桃| 波多野结衣办公室33分钟| 99re视频这里只有精品| 毛茸茸free性熟hd| 成人免费高清在线| 成年人看片网站| 国产成人亚洲精品青草天美| 亚欧美一区二区三区| 国产综合久久久久影院| 国产不卡的av| 国产精品77777| 日本少妇xxx| 丁香婷婷综合网| 国产大学生视频| av不卡免费在线观看| 亚洲天堂资源在线| 91免费观看在线| 日本激情小视频| 中文字幕第一页久久| 欧美色图17p| 亚洲视频图片小说| 久久久久99精品成人片试看| 玉足女爽爽91| 国产成人在线播放视频| 色综合一区二区| 日本妇乱大交xxxxx| 欧美放荡的少妇| 丰满人妻一区二区三区免费视频| 欧美mv日韩mv| 日本韩国精品一区二区| 国产亚洲精品久久久优势| 99se视频在线观看| 欧美成人小视频| 激情国产在线| 国产精品视频一区国模私拍 | 天海翼在线视频| 亚洲国产日日夜夜| 国产精品777777| 欧美日高清视频| 亚洲av无码国产精品永久一区 | 91xxx在线观看| 久久久91精品| av最新在线| 国产精品青青在线观看爽香蕉| 中文字幕日本一区| 国产精品乱子乱xxxx| 伊人成综合网伊人222| 亚洲欧洲一区二区| 欧美午夜a级限制福利片| 国产成人亚洲精品无码h在线| 久久成人18免费观看| 色就是色欧美| 91精品国产乱码久久久久久| 欧美这里只有精品| 久久久久免费| 韩国三级丰满少妇高潮| 91丝袜呻吟高潮美腿白嫩在线观看| 日本成人午夜影院| 一区二区三区中文字幕电影 | 欧美日韩在线免费播放| 日韩不卡在线观看日韩不卡视频| 日韩成人av免费| 99久久精品久久久久久清纯| 国产传媒视频在线 | 中文字幕二区三区| 欧美精品一区二区蜜臀亚洲| 国产午夜在线观看| 欧美激情极品视频| 黄色精品视频网站| 久久精品五月婷婷| 欧美精品激情| 高潮一区二区三区| 91丝袜呻吟高潮美腿白嫩在线观看| 黄色一级大片在线免费观看| 91激情五月电影| 人妻一区二区三区免费| 久久久97精品| 91精品韩国| 久久久com| 欧美激情在线| 日韩欧美亚洲另类| 欧美—级在线免费片| 日韩精品一区二区av| 日韩午夜三级在线| 91xxx在线观看| 国产成人精品av在线| 啪啪激情综合网| 久久亚洲国产成人精品无码区| 韩国精品一区二区| 国产精品久久久视频| 色婷婷av久久久久久久| 香蕉视频国产在线| 韩国三级日本三级少妇99| 另类视频一区二区三区| 亚洲一区二区三区色| 日本中文字幕一区二区视频| 色无极影院亚洲| 欧美丝袜美女中出在线| 天天av天天翘| 韩日精品中文字幕| 欧美日韩看看2015永久免费| 久久国产精品网| 粉嫩13p一区二区三区| 欧美日韩在线视频免费播放| 91精品一区二区三区在线观看| 夜级特黄日本大片_在线| 国产精品久久久久久久久久三级 | 日韩在线观看一区二区三区| 在线观看精品视频| 精品在线播放午夜| 免费看特级毛片| 欧美精品免费视频| 黄色免费网站在线| 亚洲xxxxx电影| 亚洲欧美综合国产精品一区| 黄色一级片免费播放| 亚洲靠逼com| 亚洲av永久纯肉无码精品动漫| 精品中文字幕在线| caoporn成人| 日韩精品xxxx| 国产亚洲成av人在线观看导航| 国产主播第一页| 中文字幕亚洲国产| 精品视频成人| 每日在线观看av| 91蜜桃传媒精品久久久一区二区| 国产中文字幕视频| 在线播放国产一区中文字幕剧情欧美 | 韩国女主播一区二区三区| 国产av麻豆mag剧集| 久久午夜老司机| 一卡二卡在线视频| 欧美日韩成人在线视频| 欧美男人操女人视频| 亚洲 欧美 日韩系列| 17c精品麻豆一区二区免费| 精品久久久中文字幕人妻| 97超级碰碰碰久久久| 精品国产成人| 亚洲一二三av| 午夜欧美在线一二页| 国产香蕉视频在线看| 成人免费高清完整版在线观看| 黄色成人在线网址| 日本aaa视频| 91精品啪在线观看国产60岁| 黑人精品视频| 亚洲国产婷婷香蕉久久久久久99| 国产寡妇亲子伦一区二区| 国产污污视频在线观看| 少妇高潮久久77777| 精品按摩偷拍| 天天干天天玩天天操| 精品日韩视频在线观看| 瑟瑟视频在线| 国产中文一区二区| 麻豆视频一区二区| 日本少妇裸体做爰| 丝袜亚洲欧美日韩综合| 欧美wwwwww| 欧美精品色视频| 色婷婷亚洲一区二区三区| a视频在线播放| 亚洲aⅴ天堂av在线电影软件| 丰满白嫩尤物一区二区| 一级视频在线播放| 久久久久久久久久久久久久久久久久av| 国产成人调教视频在线观看|