精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態LLM視覺推理能力堪憂,浙大領銜用GPT-4合成數據構建多模態基準

人工智能
LLM的數學推理能力缺陷得到了很多研究的關注,但最近浙大、中科院等機構的學者們提出,先進模型在視覺推理方面同樣不足。為此他們提出了一種多模態的視覺推理基準,并設計了一種新穎的數據合成方法。

無論是語言模型還是視覺模型,似乎都很難完成更抽象層次上的理解和推理任務。

語言模型已經可以寫詩寫小說了,但是依舊算不對9.11和9.9比大小的問題。

同樣的問題也出現在視覺模型中,它們能完美理解自然景色或人物照片,卻無法處理各種圖表任務,甚至看表讀時間都是難題。

如果要將AI系統用在更多專業領域,這些能力缺陷就顯得極為突出。

最近,浙江大學、中科院軟件研究所、上海科技大學等機構就聯合提出了一種新的多模態基準,專門衡量模型對抽象圖像的理解能力和視覺推理能力。

圖片圖片

論文地址:https://arxiv.org/pdf/2407.07053

數據集共包含11,193個帶有相關問題的抽象圖像,涵蓋了儀表板、路線圖、圖表、表格、流程圖、關系圖、視覺謎題和2D平面圖等8大類別,此外還有額外的62,476條數據用于微調模型。

經過測試,人類在該基準上可以達到至少82.1%的準確率,但Claude 3.5 Sonnet和GPT-4o等頂流模型的成績卻遠遠落后于人類,分別只有64.7%和59.9%。

圖片圖片

目前全部數據已經上傳至HuggingFace倉庫。

圖片圖片

倉庫地址:https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct

此外,作者也將數據構建數據所用的代碼上傳到了GitHub。

圖片圖片

代碼地址:https://github.com/zwq2018/Multi-modal-Self-instruct

構建數據集

作為新提出的基準測試,重頭戲自然是數據集的構建過程。

作者在論文中指出,想要采集到合適的抽象圖像-文本對,既需要大量人力,也十分耗費時間。

那么使用合成數據呢?

同樣也不容易,因為我們需要的是多模態數據,但LLM無法直接生成圖像,DALL-E、Stable Diffusion等圖像生成模型又無法同步生成文本。

一個直覺的解決方案是將二者結合在一起,直接生成<圖像,問題,答案>形式的數據。

但文生圖模型實際上很難對圖像細節做到細微精準的控制,尤其是生成僅由幾何形狀組成的抽象圖像,更何況其中大部分還需要包含數字和文字。

鑒于以上問題,作者提出了一種以代碼為中心的「自我指導」(self-instruct)策略進行圖像和相關文本的同步合成,整個過程只有語言模型——GPT-4-Turbo的參與,沒有用到圖像生成模型。(圖2)

圖片圖片

首先指導LLM,針對某個日常情景,提出一種視覺創意。這個過程中,作者給LLM提供了一些in-context示例,使生成結果盡可能涵蓋全部8個類別。

然后模型根據自己提出的創意,生成所需的數據和代碼以繪制圖像。

比如對于餅狀圖,LLM就需要先「捏造」數據,設計出每個類型對應的百分比數值。在代碼生成中,作者激勵模型使用Matplotlib或ECharts等代碼庫,顯著降低了代碼復雜度。

執行代碼并渲染好圖像后,LLM會繼續進行「自我指導」,根據視覺內容,加上之前所用的視覺創意、數據和代碼作為prompt,生成多個高質量的<問題,答案>文本對。

除了為每個問題生成答案,作者還提示LLM生成能解釋答案的「原理」(rationale),以便用于訓練模型,起到類似于CoT的作用。

整個構建過程的流水線如下圖所示:

圖片圖片

這種「以代碼為中心」的方式不僅更容易保證圖像的細節、質量和多樣性,也讓LLM更容易生成相關文本。

數據合成過程所用的模型是GPT-4-Turbo,但合成后還經過Llava-1.5的初篩,以保證圖像的美觀程度、布局合理性以及文本可讀性等。

最終構建的測試集共包含3.658張圖像和11,193條指令,涵蓋了儀表板、路線圖、圖表、表格、流程圖、關系圖、視覺謎題和2D平面圖等8個類別。

圖片圖片

數據集進行了10%的隨機抽樣,并讓人類驗證答案的正確性,發現數據集的質量有一定的保證。

為了能進一步評估合成數據的質量,作者還為圖表、表格和路線圖這三個任務構建了額外的訓練集,共包含62,476條指令(圖1)。

圖片圖片

基準測試

論文共對12個模型進行了測試,詳細結果如表A1所示,其中人類所得分數來自于兩個本科生分數的平均。

圖片

其中得分最高的是Claude 3.5 Sonnet,平均準確率為64.74%;GPT-4o緊隨其后,準確率為59.99%,都與人類平均水平82.1%相去甚遠。

作者發現,在圖表、關系圖、2D平面圖中,模型經常在抽象概念或空間關系上出錯。

8個類別的抽象圖像中,模型表現最差的當屬「路線圖」類。Claude 3.5 Sonnet平均準確率為59.24%,其余模型均為未超過40%。

在「路線圖」和「視覺謎題」兩類圖像任務中,開源和閉源模型的差距尤為明顯。

模型微調

除了構建基準,論文發現,用這些合成數據訓練模型可以顯著提高其視覺推理能力。

相比之前的Vanilla Llava-1.5-7B,用62K條數據經過4小時LoRA微調后的模型,在3類圖像任務上都有非常顯著的提升。尤其是「路線圖」類別,準確率飆升67.4%,超過了GPT-4V和Claude-3-Sonnet(表2)。

雖然模型在微調后出現性能提升屬于正常現象,但這種微調效率可以側面證明合成數據的潛力,尤其是在質量、有效性和多樣性方面。

除了在原基準上有所進步,微調后的模型在ChatQA、MathVista這樣弱相關任務上也有不同程度的分數提升(表4)。

這意味著,在合成數據上的訓練可以提升模型的通用視覺推理能力,從而泛化到其他任務,而非僅僅是擬合訓練場景。

圖片圖片

結論與限制

論文最重要的貢獻在于指出了當前多模態LLM在視覺推理方面的次優表現,并構建了合成數據組成的基準測試集,表明合成數據訓練是一個有前景的解決方案。

與此同時,作者指出了該研究存在的三方面限制:

- 數據合成過程嚴重依賴LLM的代碼合成和推理能力,因此論文只使用了GPT-4等閉源模型。隨著Llama 3等開源模型逐漸提升性能,未來可以利用開源模型合成數據以減少成本

- 本項工作主要用代碼合成8類的抽象圖像,例如表格和地圖,未來可以繼續擴展到用代碼控制機器人仿真器,生成特定的房屋布局和結構

- 我們認為視覺編碼器是當前LLM的瓶頸,尤其是對于抽象圖表而言,因此未來提升編碼器圖像分辨率可以增強LLM的細粒度認知能力

參考資料:

https://the-decoder.com/study-reveals-major-weaknesses-in-ais-ability-to-understand-diagrams-and-abstract-visuals/

https://arxiv.org/abs/2407.07053

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-05-21 08:47:00

2025-01-08 08:21:16

2023-05-08 10:14:07

模型AI

2024-05-20 08:20:00

OpenAI模型

2024-12-18 18:57:58

2024-01-11 16:24:12

人工智能RAG

2023-03-10 13:30:01

微軟人工智能

2023-06-02 13:39:00

GPT-3開源GPU

2023-11-07 18:08:03

GPT-4模型

2025-05-06 08:40:00

2024-11-13 09:39:13

2023-09-19 13:48:31

AI數據

2023-03-10 13:03:09

人工智能模型

2024-01-02 09:16:31

GPT-4推理

2025-05-28 11:55:28

模型AI評估

2024-06-28 18:13:05

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2025-03-23 22:05:22

2024-10-21 13:20:00

視頻數據集

2025-02-27 10:08:19

點贊
收藏

51CTO技術棧公眾號

一区二区日本伦理| 久久天天躁狠狠躁夜夜躁| 内射国产内射夫妻免费频道| 你懂的好爽在线观看| 秋霞电影一区二区| 超碰97人人做人人爱少妇| 艳妇乳肉豪妇荡乳xxx| 婷婷激情一区| 樱桃国产成人精品视频| 久久99精品国产一区二区三区| 日本丰满少妇做爰爽爽| 午夜欧美视频| 久久久久97| 日本韩国一区二区| 中文字幕av久久| 国产夫妻在线播放| 国产精品久久天天影视| 欧美一二三在线| 少妇人妻在线视频| 欧美日韩在线观看不卡| 黄色视屏网站在线免费观看| 国产乱子伦视频一区二区三区| 5566成人精品视频免费| 欧美第一页在线观看| 一区二区三区四区视频在线| 在线免费av片| 国产精品啊啊啊| 午夜精品亚洲| 日韩三级在线免费观看| 97成人在线观看视频| aa在线视频| 久久久久88色偷偷免费| 国产精品免费一区二区三区在线观看| 国产亚洲精品久久777777| 麻豆av在线免费看| gogo大胆日本视频一区| 国产精品亚洲综合天堂夜夜| 欧美一区二区三区成人片在线| 色综合蜜月久久综合网| 欧美成人猛片aaaaaaa| 热门国产精品亚洲第一区在线| 成年人黄色在线观看| 懂色av一区二区三区四区| 日本亚洲最大的色成网站www| 欧美精品video| 国产精品视频一区二区在线观看| 欧美日一区二区| 日韩亚洲国产欧美| 亚洲一区二区av电影| 奇米影视首页 狠狠色丁香婷婷久久综合 | 天天综合天天综合色| 日日噜噜夜夜狠狠久久丁香五月| 成年人在线视频免费观看| 91污在线观看| 蜜桃999成人看片在线观看| 少妇av在线播放| 成人免费高清在线| 国产欧美一区二区三区另类精品 | 精品无人区一区二区三区竹菊| 国产黄色小视频在线观看| 国产一区三区三区| 成人国产精品一区| 国产精品久久久久久久久毛片 | 国产av精国产传媒| 国产又黄又大久久| 亚洲一区中文字幕| va视频在线观看| 国产+成+人+亚洲欧洲自线| av一区二区三区免费| 亚洲乱码国产乱码精品精软件| 国产999精品久久| 国产乱码一区| 全部免费毛片在线播放网站| 久久这里只有精品首页| 日本一区二区在线视频观看| 国内精品在线视频| 国产精品全国免费观看高清 | 亚洲免费观看在线| 精品亚洲自拍| 亚洲免费伊人电影在线观看av| 亚洲自拍偷拍图| 91偷拍一区二区三区精品| xxxxxxxxx欧美| 久草视频免费在线播放| 国产精品尤物| 成人日韩在线电影| 亚洲精品福利网站| 99视频一区二区三区| 欧美日韩国产高清视频| 欧美精品日韩少妇| 亚洲一二三四在线| 欧美日韩大尺度| 国产精品白丝久久av网站| 日韩美女一区二区三区| 亚洲色图14p| 欧美激情777| 高清一区二区三区四区五区| 西西44rtwww国产精品| 美国av一区二区| 91久色国产| 免费福利在线观看| 亚洲美女免费视频| 欧美精品99久久| 国产精品va视频| 亚洲欧洲第一视频| 亚洲熟女www一区二区三区| 日韩一级网站| 国产一区二区视频在线观看| 人妻一区二区三区免费| 亚洲国产精品成人综合色在线婷婷| 黄黄视频在线观看| 婷婷激情一区| 亚洲成人久久一区| 欧美色蜜桃97| 日韩一区二区三区在线播放| 久草资源在线视频| 日韩av电影免费观看高清完整版| 亚洲自拍偷拍在线| 国产区在线视频| 亚洲一区二区三区四区在线| 亚洲三级视频网站| 国产伦精品一区二区三区在线播放| 国产一区二区三区日韩欧美| 激情四射综合网| 麻豆精品在线观看| 久久伦理网站| 丁香花在线高清完整版视频| 欧美日韩一区二区三区免费看| 黄色免费视频网站| 你懂的国产精品| 国产精品亚洲一区二区三区| 美女欧美视频在线观看免费 | 国产日韩专区| www.一区二区三区| 激情成人四房播| 欧美色综合网站| aaaaa级少妇高潮大片免费看| 欧美日韩 国产精品| 91精品国产综合久久香蕉最新版| 你懂得网站在线| 欧美日韩精品在线播放| 大桥未久恸哭の女教师| 欧美另类视频| 亚洲精品日韩av| 国产美女av在线| 欧美老人xxxx18| 久久精品一区二区三区四区五区| 美女免费视频一区二区| 日韩亚洲视频在线| 92国产精品| 亚洲视频一区二区| 国产黄网在线观看| 久久久久久久久99精品| 成人av一级片| 蜜桃一区二区三区| 国产成人精品av| 国产高清在线观看| 欧美色涩在线第一页| www.涩涩爱| 久久国产福利国产秒拍| 中文字幕一区综合| 96sao精品免费视频观看| www.日韩av.com| av在线资源观看| 一区二区三区蜜桃网| 佐佐木明希电影| 亚洲激情av| 久久精品女人的天堂av| 午夜影院在线播放| 亚洲欧美日韩在线高清直播| 国产一区二区视频免费| 欧美激情中文字幕一区二区| www.超碰97.com| 亚洲欧洲日韩| 国产精品永久入口久久久| 色戒汤唯在线| 中文字幕亚洲在线| 精品国产九九九| 午夜精品福利久久久| 免费黄色片网站| 国产在线不卡视频| 欧美精品久久久久久久自慰| 国产日产精品_国产精品毛片| 国产九九精品视频| 成年网站在线视频网站| 亚洲欧美视频在线| 97超碰人人模人人人爽人人爱| 亚洲精品福利视频网站| 亚洲av无码一区二区三区网址| 久久三级福利| 日韩精品手机在线观看| 日韩成人一级| 91久久精品国产91久久| av电影免费在线看| 色噜噜狠狠狠综合曰曰曰88av | 中文字幕资源网在线观看免费| 一区二区三区国产在线观看| 精品国产无码一区二区三区| 黑人巨大精品欧美一区二区三区| 2014亚洲天堂| 久久免费电影网| 欧美激情第四页| 视频一区二区三区入口| 日韩精品一区二区免费| 成人a'v在线播放| 国产亚洲精品久久飘花| 欧美黄页免费| 91精品国产91久久久久| 美女国产在线| 亚洲欧美激情一区| 高h放荡受浪受bl| 欧美日本一区二区在线观看| 天天操天天摸天天干| 亚洲三级在线看| 一本加勒比北条麻妃| 国产成人免费视频一区| 亚洲天堂av线| 成人免费av| 日韩精品资源二区在线| av网站中文字幕| 亚洲精品福利视频网站| 最新中文字幕av| 91丨porny丨户外露出| 日本女人黄色片| 秋霞成人午夜伦在线观看| 日韩中文字幕三区| 国内在线观看一区二区三区| 中国成人在线视频| 视频精品在线观看| 精品国产乱码久久久久久蜜柚 | 国产精品一区二区三区成人| 色黄视频在线观看| 97高清免费视频| 欧美1—12sexvideos| 欧美成人免费观看| 老司机精品视频在线观看6| 在线播放国产精品| 国产中文字幕在线观看| 日韩高清人体午夜| 人妻偷人精品一区二区三区| 精品三级在线观看| 99精品在线视频观看| 欧美精品在线观看一区二区| 中文字幕 亚洲视频| 欧美性受xxxx| 影音先锋国产在线| 91国偷自产一区二区开放时间| 欧美特黄aaaaaa| 欧美午夜激情小视频| 国产一级片毛片| 精品久久久久久亚洲精品| 久久草视频在线| 岛国av一区二区在线在线观看| 狠狠躁夜夜躁人人爽天天高潮| 性久久久久久久久久久久| 精品成人久久久| 欧美香蕉大胸在线视频观看| 黄色片中文字幕| 91久久奴性调教| 最近中文字幕在线观看| 欧美日韩一区二区电影| 国产精品久久久久久久免费看| 91精品国产一区二区三区蜜臀 | 国产精品2024| 国产无套精品一区二区三区| 成人亚洲一区二区一| 熟妇人妻久久中文字幕| 91免费国产视频网站| 亚洲精品午夜视频| 国产精品视频免费看| 欧美精品久久久久久久久46p| 亚洲精品日产精品乱码不卡| 日本在线观看视频网站| 日韩欧美一区二区三区久久| 欧美三级网站在线观看| 欧美精品在线视频| 狠狠躁夜夜躁av无码中文幕| 亚洲毛片在线免费观看| 欧美猛烈性xbxbxbxb| 久久久这里只有精品视频| japanese23hdxxxx日韩| 成人精品视频99在线观看免费| 在线播放一区二区精品视频| 免费日韩电影在线观看| 欧美aaaa视频| 少妇高潮毛片色欲ava片| 奇米影视一区二区三区| 91超薄肉色丝袜交足高跟凉鞋| 久久久久久麻豆| 波多野结衣不卡视频| 大桥未久av一区二区三区| 91午夜交换视频| 日韩大片免费观看视频播放| 91在线高清| 亚州欧美日韩中文视频| 涩涩涩久久久成人精品| 国产亚洲一区在线播放| 久久免费大视频| 日韩欧美一区二| 国产精品一区二区男女羞羞无遮挡| 国产亚洲无码精品| 亚洲乱码精品一二三四区日韩在线| 久久午夜免费视频| 欧美一区欧美二区| 国产资源在线观看| 久久久久久久一| 玖玖精品在线| 欧美日韩在线不卡一区| 亚洲综合色网| 欧美精品久久久久久久久25p| 成人看片黄a免费看在线| 成年人二级毛片| 在线观看日产精品| 四虎永久在线观看| 久热在线中文字幕色999舞| 欧美大电影免费观看| 成人91免费视频| 91精品国产91久久久久久密臀| 六月丁香婷婷激情| 盗摄精品av一区二区三区| 国精产品视频一二二区| 一本色道**综合亚洲精品蜜桃冫| 亚洲精品国产片| 久久久国产成人精品| 婷婷综合六月| 久久久人人爽| 99在线|亚洲一区二区| 亚洲成人福利视频| 日韩一区中文字幕| 在线视频 91| 亚洲丝袜一区在线| 天堂在线中文网官网| 国产精品自拍首页| 欧美日韩午夜| 午夜视频在线免费看| 亚洲色图在线播放| 一区二区不卡视频在线观看| 色偷偷偷综合中文字幕;dd| 成人免费毛片嘿嘿连载视频…| 欧美日韩喷水| 日日夜夜精品免费视频| www在线观看免费视频| 欧美日韩午夜激情| 三级av在线| 青草青草久热精品视频在线网站 | 男的操女的网站| 欧美美女黄视频| 男人资源在线播放| 国产在线视频不卡| 五月激情综合| 日本黄色www| 亚洲午夜一二三区视频| 欧美自拍偷拍第一页| 午夜精品一区二区三区视频免费看 | 久久精品a一级国产免视看成人 | 麻豆精品视频在线观看免费| 国产精品国产三级国产专业不| 色八戒一区二区三区| eeuss影院www在线播放| 国产精品久久网| 久久精品国产大片免费观看| 伊人五月天婷婷| 一区二区在线观看视频| 国产91免费看| 欧洲亚洲在线视频| 日本一区二区三区视频| 小明看看成人免费视频| 亚洲精品自拍动漫在线| 精品人妻少妇AV无码专区| 91精品国产九九九久久久亚洲| 色愁久久久久久| 中文av一区二区三区| 一区二区三区在线免费观看 | 亚洲色图25p| 香蕉久久一区| 成人性免费视频| 久久久国产精品不卡| 中文字幕在线2018| 久久国产精品久久久| 精品亚洲免a| 亚洲激情在线观看视频| 一区二区在线观看不卡| 免费看黄色一级视频| 国产91在线播放九色快色| 欧美xxxx中国| 亚洲无人区码一码二码三码| 日韩欧美有码在线| 日本精品在线| 国产精品久久久久久久久久久久冷 | 亚洲不卡视频在线观看| 日韩性生活视频| 成人直播在线观看| 亚洲少妇第一页| 亚洲资源在线观看| 国产黄色免费在线观看| 国产成人免费电影| 日韩—二三区免费观看av| 久久久久久久久久一区二区三区| 亚洲丝袜av一区| 豆花视频一区二区|