精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

專抓AI“看圖說謊”,谷歌哥大用三類陷阱觸發幻覺,打造可隨技術發展動態演進的評估框架

人工智能 新聞
來自哥倫比亞大學和Google DeepMind的研究團隊提出了一種創新的視覺問答數據集構建方案。

幻覺(Hallucination),即生成事實錯誤或不一致的信息,已成為視覺-語言模型 (VLMs)可靠性面臨的核心挑戰。隨著VLMs在自動駕駛、醫療診斷等關鍵領域的廣泛應用,幻覺問題因其潛在的重大后果而備受關注。

然而,當前針對幻覺問題的研究面臨多重制約:圖像數據集的有限性、缺乏針對多樣化幻覺觸發因素的綜合評估體系,以及在復雜視覺問答任務中進行開放式評估的固有困難。

為突破這些限制,來自哥倫比亞大學和Google DeepMind的研究團隊提出了一種創新的視覺問答數據集構建方案。

圖片

該方案通過整合真實圖像與合成生成圖像,利用基于提示的圖像生成技術,克服了傳統數據集(如MS-COCO和Flickr)在圖像多樣性和特殊性方面的局限。這一名為HaloQuest的數據集采用”機器-人工”協同的數據生成流程,重點收集了三類針對當前VLM模型固有弱點的挑戰性樣本,旨在系統性地觸發典型幻覺場景:

a. 基于錯誤前提的誘導性問題;b. 缺乏充分上下文支持的模糊性問題;c. 其他具有高度復雜性的疑難問題;

此外,HaloQuest創新性地引入了基于大語言模型(LLM)的自動評估系統(AutoEval),實現了開放式、動態化的評估機制,并探索了合成圖像在VLM評估中的革命性應用價值。傳統評估方法通常局限于多項選擇題或有限詞匯的封閉式回答,這種評估方式不僅限制了模型展現復雜推理和細微表達能力,也難以準確評估模型在現實場景中的實際表現。

特別是在處理生成式幻覺預測時,現有方法無法全面衡量模型生成連貫性、細節豐富度及上下文一致性等方面的能力。HaloQuest提出的AutoEval系統通過支持對模型響應的細粒度、開放式評估,建立了一個可隨技術發展動態演進的評估框架,為VLMs的可靠性評估提供了新的范式。

HaloQuest 介紹

圖2展示了HaloQuest數據集的構建流程,該流程通過整合真實圖像與合成圖像,確保了數據集的豐富性和多樣性。真實圖像選自Open Images數據集的隨機樣本,而合成圖像則來源于Midjourney和Stable Diffusion在線畫廊。為確保圖像質量,篩選過程優先考慮高瀏覽量和正面評價的圖像,并結合精心設計的主題詞列表進行搜索查詢。

圖片

在人類標注階段,圖像需滿足兩個標準:既需具備趣味性或獨特性,又需易于理解。例如,展示罕見場景、包含非常規物體組合(如圖2所示的“穿著報紙的狗”),或具有視覺沖擊力的圖像被視為“有趣”。同時,這些圖像即使違背現實物理規律,也需保持視覺連貫性和清晰度,確保人類能夠理解其內容。

這一兩重標準的設計,旨在平衡生成具有挑戰性的場景與確保模型響應的可解釋性,從而能夠準確歸因于模型在推理或理解上的特定缺陷。

圖像篩選完成后,人類標注者與大語言模型協作,圍繞圖像設計問題和答案,重點關注創造性、細微推理能力以及模型潛在偏見的檢測。HaloQuest包含三類旨在誘發幻覺的問題:

a. 錯誤前提問題(False Premise Questions):這些問題包含與圖像內容直接矛盾的陳述或假設,用于測試模型是否能夠優先考慮視覺證據而非誤導性語言線索。b. 視覺挑戰性問題(Visually Challenging Questions):這些問題要求模型深入理解圖像細節,例如物體計數、空間關系判斷或被遮擋區域的推理,用于評估模型的復雜視覺分析能力。c. 信息不足問題(Insufficient Context Questions):這些問題無法僅憑圖像內容得出明確答案,旨在探測模型是否會依賴固有偏見或無根據的推測,而非承認信息的局限性。

在問題創建過程中,人類標注者為每張圖像設計兩個問題及其答案。首先,他們需提出一個關于圖像中某個視覺元素的問題,但該問題無法僅通過圖像內容回答。其次,標注者需提出一個關于圖像中微妙細節的問題,該問題需有明確且客觀的答案,避免主觀偏見的干擾。

為提高效率,HaloQuest還利用LLMs(如IdealGPT框架,結合GPT-4和BLIP2)自動生成圖像描述。這些描述被拆分為多個原子陳述(例如:“這是一只金毛獵犬的特寫”,“狗的背上披著報紙”)。人類標注者評估每個陳述的真實性(是/否),隨后LLMs基于這些評估結果生成對應的問答對。

為進一步提升數據質量,HaloQuest采用篩選機制:首先,高性能VQA模型對初始問題池進行預回答;隨后,經驗豐富的人類標注者審查問題及模型回答,確保問題的挑戰性和答案的清晰性。過于簡單的問題會被修改或丟棄,模棱兩可的答案會被標記,以確保每個問題都具有足夠的難度和明確的解答。

通過這一嚴謹的流程,HaloQuest構建了一個高質量、高挑戰性的數據集,為VLM的評估提供了更可靠的基準。下圖展示了HaloQuest的部分數據樣本,并與其他數據集進行了對比,凸顯了其在多樣性和復雜性方面的優勢。

圖片圖片

自動評估

為了大規模支持自由格式和開放式視覺-語言模型(VLM)幻覺評估,HaloQuest 開發了一種基于大語言模型(LLM)的自動評估方法。盡管原則上任何LLM只需基礎提示即可執行此類評估,但HaloQuest提出了一種更為高效和精準的評估框架。

具體而言,HaloQuest引入了Langfun結構,該方法通過結構化提示設計,幫助Gemini模型準確提取模型響應與參考答案的核心內容,并判斷二者之間的一致性。圖7展示了用于實現自動評估的Gemini提示詞及其結構,而圖8則提供了Auto-Eval評估的具體示例。

圖片圖片

如圖所示,Gemini模型需要根據輸入的問題、模型回答和參考答案,填充PredictionEvaluation類的相關屬性。通過Langfun結構,HaloQuest不僅解決了VLM幻覺評估中的技術挑戰,還為未來更廣泛的AI模型評估提供了創新思路和實踐經驗。

實驗與分析

研究發現,現有視覺-語言模型(VLMs)在 HaloQuest數據集上的表現不盡如人意,幻覺率較高。這一結果揭示了模型在理解和推理能力上的顯著不足,同時也凸顯了開發更穩健的幻覺緩解方法的迫切需求。

圖片圖片圖片圖片關鍵發現:

a. 模型規模與幻覺率的關系

研究發現,更大的模型規模并不一定能夠降低幻覺率。出乎意料的是,較小的 BEiT-3 模型在多個任務上表現優于更大的模型。這一發現表明,單純依賴模型擴展并不能有效解決幻覺問題,數據驅動的幻覺緩解策略可能更具潛力。

b. Auto-Eval 的可靠性

Auto-Eval 與人工評估結果具有較高的相關性。這一結果表明,在人工評估不可行或成本過高的情況下,Auto-Eval可以作為一種可靠的替代方案,為大規模模型評估提供支持。

c. 微調的有效性

在 HaloQuest 上進行微調顯著降低了VLMs的幻覺率,同時并未影響模型在其他基準測試上的表現。這證明了HaloQuest在提升模型安全性方面的潛力,且不會削弱其整體有效性。

d. 跨數據集的泛化能力

表6展示了各模型在POPE幻覺基準測試上的表現。結果顯示,經過HaloQuest訓練的模型在新數據集上的表現也有所提升,進一步驗證了HaloQuest能夠幫助模型在新環境中避免幻覺。

合成圖像與真實圖像的對比

研究還按照真實圖像和合成圖像分別評估了模型的表現。盡管大多數模型在真實圖像上的幻覺率更高,但合成圖像上的幻覺率仍然顯著。值得注意的是,合成圖像在數據集構建中具有獨特優勢

  • 低成本與可擴展性:合成圖像提供了一種經濟高效的解決方案,有助于快速擴展數據集規模。
  • 降低幻覺率:實驗結果表明,訓練數據加入合成圖像有助于降低模型的幻覺率(見表5和表7)。
  • 技術進步的潛力:盡管目前合成圖像的難度略低于真實圖像,但隨著圖像生成技術的進步,這一差距有望縮小。
  • 實際應用的重要性:隨著圖像生成技術的廣泛應用,確保模型在合成圖像上具備抗幻覺能力將變得愈發重要。

圖片

幻覺成因與模型表現

研究進一步分析了模型在 HaloQuest 三類問題上的表現:

  • 錯誤前提問題(False Premise Questions):開源模型在處理此類問題時表現較差,但GPT-4展現出一定優勢。
  • 信息不足問題(Insufficient Context Questions):模型普遍表現不佳,表明其在處理模糊信息時容易依賴偏見或無根據的推測。
  • 視覺挑戰性問題(Visually Challenging Questions):模型表現略有提升,但GPT-4在此類任務上的表現不如其他模型。

圖片

這些發現為未來研究提供了新的方向,包括:

  • 數據集優化:通過改進數據集構建方法,進一步提升模型的抗幻覺能力。
  • 受控圖像生成:利用更先進的圖像生成技術,創建更具挑戰性的合成圖像。
  • 標注偏差緩解:減少數據標注過程中的偏差,提高數據集的多樣性和公平性。
  • 針對性優化:針對不同模型的特定弱點,開發定制化的幻覺緩解策略。

結論

HaloQuest是一個創新的視覺問答基準數據集,通過整合真實世界圖像和合成圖像,結合受控的圖像生成技術和針對特定幻覺類型設計的問題,為分析VLMs的幻覺觸發因素提供了更精準的工具。實驗結果表明,當前最先進的模型在HaloQuest上的表現普遍不佳,暴露了其能力與實際應用需求之間的顯著差距。

在HaloQuest上進行微調的VLMs顯著降低了幻覺率,同時保持了其在常規推理任務上的性能,這證明了該數據集在提升模型安全性和可靠性方面的潛力。此外,研究提出了一種基于大語言模型(LLM)的Auto-Eval評估機制,能夠對VLMs的回答進行開放式、細粒度的評估。與傳統方法相比,Auto-Eval克服了限制模型表達能力或難以評估復雜幻覺的局限性,實現了評估效率和準確性的顯著優化。

HaloQuest不僅為VLMs的幻覺問題研究提供了新的基準,還通過其創新的數據集構建方法和評估機制,為未來多模態AI的發展指明了方向。隨著圖像生成技術和評估方法的不斷進步,HaloQuest有望在推動更安全、更可靠的視覺-語言模型研究中發揮重要作用。

責任編輯:張燕妮 來源: 量子位
相關推薦

2022-02-25 08:42:10

微隔離零信任網絡安全

2021-01-18 10:52:55

谷歌AI人工智能

2024-11-04 10:20:00

模型數據

2011-04-12 09:46:46

光纖

2010-07-30 16:06:41

2019-08-01 13:34:44

容器趨勢Kubernetes

2013-05-06 14:04:29

PON通信技術無源光網絡

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-05-26 01:45:00

LLMAI信任

2020-03-05 18:32:52

NFV網絡5G

2018-03-21 06:47:02

移動通信5G互聯網

2009-11-18 15:58:05

PHP技術

2022-04-18 17:06:17

人工智能AI

2013-12-31 09:34:02

2010-08-25 09:07:03

2010-01-22 17:24:36

三層交換技術

2009-04-30 15:22:25

JDBCODBCAPI

2009-12-24 16:21:33

WiMax技術發展

2024-01-11 15:27:53

人工智能數字孿生量子計算

2009-10-26 12:56:11

寬帶無線接入技術
點贊
收藏

51CTO技術棧公眾號

欧美精品少妇| 男人午夜免费视频| 欧美大片91| 一区二区三区毛片| 精品欧美一区二区精品久久| www欧美在线| 日韩欧美午夜| 精品国产乱码久久久久久图片 | 热久久天天拍国产| 欧美区视频在线观看| 永久免费看av| 日本一区视频| 久久精品国产网站| 欧美高清不卡在线| 一区二区精品免费| 亚洲高清999| 欧美性猛交xxxxx免费看| 日韩中文字幕一区| 亚洲国产www| 每日更新成人在线视频| 久久久国产成人精品| 国产黑丝一区二区| 欧美黄色a视频| 亚洲国产视频在线| 图片区小说区区亚洲五月| 国产福利第一页| 丝袜诱惑亚洲看片 | 黄色在线看片| 中文在线一区二区| 国产精品伊人日日| 一级黄色片在线播放| 国产视频欧美| 九九热视频这里只有精品| 全黄一级裸体片| 狂野欧美xxxx韩国少妇| 色噜噜狠狠成人中文综合| 毛片在线视频观看| 在线免费观看黄| 99久久免费精品| 亚洲综合中文字幕68页| 中文字幕欧美在线观看| 国产精品三上| 久久久久久久久网站| 国产精品免费人成网站酒店| 奇米亚洲欧美| 日韩精品视频在线免费观看| 波多野结衣中文字幕在线播放| 成人久久网站| 欧美性猛交xxxxx免费看| 国产自产在线视频| 日本小视频在线免费观看| 国产精品久久久久久久久动漫| 欧美日韩亚洲在线| 亚洲人妻一区二区| 成人手机电影网| 91嫩草免费看| 国产精品无码专区av免费播放| 日韩在线卡一卡二| 国产va免费精品高清在线| 日韩av黄色片| 99视频一区| 97国产成人精品视频| 欧美成欧美va| 韩国一区二区三区在线观看| 免费不卡在线观看av| 国产高潮国产高潮久久久91 | 91视频成人免费| 快射av在线播放一区| 亚洲欧洲精品一区二区三区| 亚洲国产一区二区三区在线播 | 日韩视频在线免费| 国产高清视频免费在线观看| 婷婷综合久久| 欧美猛少妇色xxxxx| 国产精品九九九九九九| 国产精品www.| 久久久久久久成人| 伦av综合一区| 免费成人在线观看视频| 成人国产精品久久久| 97在线播放免费观看| 国产乱人伦精品一区二区在线观看| 川上优av一区二区线观看| jizz国产视频| 成人晚上爱看视频| 欧美日韩电影一区二区三区| 精品无人乱码| 亚洲欧洲精品天堂一级 | 麻豆视频在线免费观看| 亚洲精品欧美综合四区| 国产免费一区二区视频| 日韩影院在线| 欧美中文字幕一区二区三区亚洲| www.这里只有精品| 日韩欧美久久| 国产婷婷色综合av蜜臀av | 国产特级黄色片| 国产成人精品亚洲777人妖| 国产精品二区三区四区| 免费在线黄色影片| 综合亚洲深深色噜噜狠狠网站| 中文字幕不卡每日更新1区2区| 人妖欧美1区| 色婷婷综合在线| 亚洲第一色av| 久久99国产精品久久99大师| 亚洲日韩中文字幕| 久草网站在线观看| 久久综合影视| aa日韩免费精品视频一| 国产日本在线| 亚洲一区免费观看| 免费一级特黄录像| 久久97久久97精品免视看秋霞| 在线观看日韩视频| 日韩精品一区二区三| 美女网站在线免费欧美精品| 国产美女精品在线观看| 免费av网站在线观看| 精品福利在线视频| 一级片黄色免费| 欧美军人男男激情gay| 欧美大荫蒂xxx| 亚洲精品国产精品乱码视色| 成人免费视频视频| 正在播放精油久久| 午夜欧美巨大性欧美巨大| 日韩欧美视频一区| 亚洲欧美综合7777色婷婷| 亚洲制服少妇| 91传媒视频在线观看| 91视频在线观看| 色香蕉成人二区免费| 亚洲av永久无码精品| 欧美99在线视频观看| 国产精品久久在线观看| 欧美色视频免费| 亚洲综合一二区| 777一区二区| 欧美日韩在线播放视频| **欧美日韩vr在线| 亚洲精品久久久狠狠狠爱 | 国产精品自拍首页| 成人无遮挡免费网站视频在线观看| 日韩欧美国产网站| 女同性恋一区二区三区| 欧美日韩久久| 成人一区二区电影| 久草中文在线| 欧美日韩mp4| 国产精品美女高潮无套| 亚洲综合国产激情另类一区| 国产在线播放一区二区| 精精国产xxxx视频在线中文版| 欧美一级日韩不卡播放免费| 国产不卡在线观看视频| 美女视频一区二区| 亚洲欧美日本国产有色| 成人午夜在线| 深夜精品寂寞黄网站在线观看| 精品无码一区二区三区的天堂| 久久综合狠狠综合久久激情| 男人靠女人免费视频网站| 日本一区福利在线| 欧美在线视频一二三| 肉丝一区二区| 欧美视频二区36p| 人人妻人人藻人人爽欧美一区| 久久免费高清| 午夜精品福利一区二区| 久久久久伊人| 欧美大码xxxx| 蜜臀av在线观看| 午夜国产精品一区| 黄瓜视频污在线观看| 石原莉奈在线亚洲三区| 亚洲欧洲另类精品久久综合| 亚洲国产精选| 欧美黄色性视频| 日韩欧美亚洲系列| 欧美无人高清视频在线观看| 成人黄色短视频| 国产精品888| 国产午夜福利在线播放| 国内精品久久久久久久久电影网| 国产精品美乳在线观看| а√资源新版在线天堂| 精品福利一区二区三区免费视频| 欧美一级视频免费观看| 国产日韩欧美高清| 超碰91在线播放| 亚洲激情自拍| 日韩理论片在线观看| 国产视频网站一区二区三区| 7777kkkk成人观看| 免费在线看a| 亚洲国产91精品在线观看| 久久精品视频2| 中文字幕字幕中文在线中不卡视频| 成人做爰69片免费| 久久在线精品| 红桃一区二区三区| 国产一区二区三区探花| 成人亚洲激情网| 不卡一二三区| 欧美成人全部免费| 头脑特工队2在线播放| 欧美日韩不卡一区二区| 久久久久久久极品| 最新欧美精品一区二区三区| 内射中出日韩无国产剧情| 精品在线播放午夜| 黑森林福利视频导航| 欧美黄色大片网站| 亚洲一区二三| 丝袜美腿综合| 国产精品播放| 国产在线不卡一区二区三区| 5278欧美一区二区三区| 18av在线视频| 日韩在线精品一区| 男人av在线| 亚洲国产日韩精品在线| a级片免费观看| 91福利在线免费观看| 国产一卡二卡在线| 亚洲黄色免费网站| 中文字幕在线观看免费高清| 99麻豆久久久国产精品免费 | 制服丝袜激情欧洲亚洲| 一级片免费在线播放| 亚洲制服丝袜在线| 精品国产精品国产精品| 欧美国产日产图区| av黄色免费网站| 99视频国产精品| 国产精品偷伦视频免费观看了| 久久激情五月激情| 少妇激情一区二区三区| 久久不射中文字幕| 狠狠爱免费视频| 亚洲另类视频| 人体内射精一区二区三区| 午夜欧美精品| 日本精品免费视频| 国产高清欧美| 久久久久亚洲av无码专区喷水| 人人狠狠综合久久亚洲婷| 任我爽在线视频精品一| 亚洲人成精品久久久| 欧美国产综合视频| 久久不见久久见国语| 久久精品国产一区二区三区日韩 | 91成人看片| 在线观看一区二区三区三州| 国产亚洲精品美女久久久久久久久久| 精品欧美一区二区在线观看视频 | 五月天婷婷激情网| 亚洲а∨天堂久久精品喷水| 精品毛片在线观看| 日韩免费视频线观看| www.日韩高清| 精品国产sm最大网站免费看| 亚洲免费不卡视频| 日韩大陆毛片av| 四虎成人免费在线| 一区二区三区国产视频| 欧美性videos| 不卡av电影院| 久久www人成免费看片中文| 久久理论片午夜琪琪电影网| 国产ktv在线视频| 欧美一级电影免费在线观看| 丝袜美腿一区| 国产美女主播一区| 久久久久久久久成人| 国产精品综合久久久久久| 麻豆国产欧美一区二区三区r| 久久久久久亚洲精品不卡4k岛国| 国产免费播放一区二区| 亚洲精品乱码视频| 欧美一区综合| 各处沟厕大尺度偷拍女厕嘘嘘| 久热精品视频| 天美一区二区三区| 99精品国产91久久久久久| 精品人妻互换一区二区三区| 国产日韩三级在线| 特一级黄色录像| 五月婷婷另类国产| 成人免费视频国产免费| 91精品欧美一区二区三区综合在 | 奇米一区二区三区| 日本特黄在线观看| 97久久精品人人做人人爽50路| 人人人妻人人澡人人爽欧美一区| 亚洲欧洲无码一区二区三区| 日韩和一区二区| 欧美人与禽zozo性伦| 日本人妻熟妇久久久久久| 一区二区三区国产在线观看| 手机av免费在线| 国产精品白嫩初高中害羞小美女 | 国产精品日韩精品| 97超碰成人| 午夜久久资源| 在线播放不卡| 国产福利在线免费| 99久久精品国产观看| 亚洲欧洲综合网| 五月激情综合色| 夜夜嗨aⅴ一区二区三区| 日韩第一页在线| 视频在线观看入口黄最新永久免费国产 | 国产精品久久久影院| 国产精品外国| 野花视频免费在线观看| 国产欧美精品一区二区色综合朱莉| 免费毛片在线播放免费| 欧美性色aⅴ视频一区日韩精品| 亚洲成人一级片| www.亚洲一区| 性欧美1819sex性高清| 成人看片在线| 91精品久久久久久久蜜月| 黄色高清无遮挡| 91麻豆蜜桃一区二区三区| 日韩女优一区二区| 欧美日韩高清一区二区不卡| 亚洲日本在线播放| 欧美激情免费在线| 国产午夜久久av| 亚洲欧美日韩不卡一区二区三区| 久久人人超碰| 欧美肉大捧一进一出免费视频| 亚洲欧美日韩系列| 97成人免费视频| 最近2019中文字幕一页二页| 小视频免费在线观看| 国产免费一区| 一区福利视频| 国产亚洲精品成人a| 亚洲蜜臀av乱码久久精品| 一区二区精品视频在线观看| 中文欧美日本在线资源| 粉嫩一区二区| 欧美成熟毛茸茸复古| 日韩一区二区久久| 99精品一区二区三区无码吞精| 一区二区三区四区av| 国产三级按摩推拿按摩| 久久精品中文字幕| 97久久中文字幕| 欧美日韩在线免费观看视频| 美女在线视频一区| 5566中文字幕| 欧美一级高清大全免费观看| av中文字幕在线播放| 亚洲最大av网| 激情成人综合| 黄色污在线观看| 狠狠爱在线视频一区| 女人天堂在线| 国产精品久久久久久亚洲调教 | 蜜臀av午夜精品久久| 制服.丝袜.亚洲.另类.中文| 国产在线观看a| 97人人澡人人爽| 一区免费视频| 欧美精品欧美极品欧美激情| 欧美色xxxx| 777电影在线观看| 91欧美精品午夜性色福利在线| 中文字幕一区二区三区久久网站 | 中文字幕久精品免| 国产精品911| 黄色片视频网站| 国产亚洲精品高潮| а天堂中文最新一区二区三区| 国产大尺度在线观看| 丁香桃色午夜亚洲一区二区三区| 国产在线拍揄自揄拍| 日韩成人在线视频| 中韩乱幕日产无线码一区| 日韩人妻精品一区二区三区| 成人h动漫精品一区二| 国产一级免费视频| 久久精品国产亚洲7777| 99久久香蕉| 粗暴91大变态调教| 亚洲美女在线一区| 欧美孕妇性xxxⅹ精品hd| 国产日韩精品入口| 在线精品观看| 国产又粗又硬视频| 日韩精品在线一区二区| 成人性生活视频| 99精品一级欧美片免费播放| 波多野结衣精品在线| 自拍偷拍福利视频|