精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

豆包大模型團隊發布全新Detail Image Caption評估基準,提升VLM Caption評測可靠性

人工智能 新聞
中科院、北大和字節豆包大模型團隊發布了 DetailCaps-4870 數據集,并提出了一種有效的評估指標 CAPTURE,取得了開源評估指標中最高的專家評價一致性,并低成本實現了與 GPT-Eval 可比的效果。

當前的視覺語言模型(VLM)主要通過 QA 問答形式進行性能評測,而缺乏對模型基礎理解能力的評測,例如 detail image caption 性能的可靠評測手段。

針對這一問題,中科院、北大和字節豆包大模型團隊發布了 DetailCaps-4870 數據集,并提出了一種有效的評估指標 CAPTURE,取得了開源評估指標中最高的專家評價一致性,并低成本實現了與 GPT-Eval 可比的效果。

圖片

  • 論文:https://arxiv.org/abs/2405.19092
  • 數據集:https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
  • 代碼:https://github.com/foundation-multimodal-models/CAPTURE

簡介

當前的 LVLM(large vision-language model)評測存在以下問題:

  • 現有的 LVLM 評測方案主要采用 VQA 形式,很大程度受到指令遵循(instruction following)能力的影響,且 QA prompt 的設計容易引入人類的偏見(bias)。
  • Image caption 任務可以有效評估模型理解能力,但現有的 caption benchmark 多使用短 caption 作為 ground truth,這在 lvlm 時代完全過時。
  • 同時,現有的 image caption 評測指標與人類、GPT 等專家評價結果的一致性較差,常用的 bleu、rouge 等指標抽取 n-gram 進行匹配,對關鍵信息的準確性不夠敏感。而 GPT-Eval 雖然和專家評價較為一致,但是會帶來高昂的評測成本。

針對這些問題,該研究提出了新的 Detail image caption benchmark 和 evaluation metric,以在較低的成本下實現了對 LVLM 圖像理解能力的準確評估。

在所提出的評測數據集 & 指標的指導下,該研究還探索了發掘 LVLM 自身能力進行 detail image caption 的數據構造方法,有效提升了 detail caption 數據質量。

圖片

圖一:左側為 CAPTURE metric 實例展示,右側為 detail caption construction 方法展示

數據集

相比類似大小的評測數據集,該研究提出的 Detail image caption benchmark 文本長度更長,無重復的 2-gram 數量明顯更多,包含更豐富的視覺信息:

圖片

表一:DetailCaps benchmark 統計信息

評估指標

該研究所提出的 CAPTURE (CAPtion evaluation by exTracting and coUpling coRE information) 指標通過 4 步進行 caption 質量評估。如下圖所示,首先使用 Factual praser [1] 抽取 detail caption 中的 object, attribute, relation 元素,緊接著過濾掉沒有實際意義的 objects。之后,通過三階段匹配(精確匹配、近義詞匹配、embedding 匹配)分別計算 obj、attr、rel 元素的匹配得分(F1 分數),加權作為最終結果。

圖片

圖二:CAPTURE metric 詳細計算步驟

Detail caption 數據合成

在 DetailCaps benchmark 和 CAPTURE metric 的指導下,該研究提出了一種基于 divide-and-conquer 思想發掘 LVLM 潛力進行數據合成的方法,有效提升了 detail caption 數據質量。該方案首先使用 LVLM 進行全圖 caption 生成,之后使用分割模型(SAM [2])和聚類等過濾方法找到圖中的關鍵位置并將其裁剪出來進行局部 caption 生成。文章使用一種 word-level 的過濾方法來減少 caption 中的幻覺,該方法首先解析(parse)出描述圖中視覺元素的詞和短語,再通過目標檢測模型(Owlv2 [3])過濾掉得分低的元素。最后,將過濾后的全圖 caption、局部 caption 送入 LLM(LLaMA2 [4])融合為最終的圖像描述。

實驗

CAPTURE 指標

(1)CAPTURE vs 其他 caption 指標

該研究在 DetailCaps-100(人工標注 reference caption,人工評估模型生成 caption 得分)和 DetailCaps-4870(GPT 標注 reference caption,GPT-4 評估模型生成 caption 得分)上,對 LLaVA-1.5 [5]、CogVLM [6] 和 ShareCaptioner [7] 三個模型生成的 caption 進行了專家打分,并計算各個評估指標與專家評價的一致性:

圖片

表二:CAPTURE 與其他 detail image caption 評估指標的專家評價一致性對比

各 caption 評估指標和專家評價的一致性通過 pearson correlation(線性相關性)、 R^2(絕對值大小)、 Kendall's tau(排序偏序對一致性)和 (Per-) Sample (Kendall's) tau(每個樣本單獨計算取平均)指標進行衡量。

結果顯示,CAPTURE 在各種指標上都取得了最優的專家評價一致性。在這些指標中,Sample tau 與實際 detail image caption 評估的計算方式最為接近,CAPTURE 也是唯一在這個指標上取得與 GPT4-Eval 接近的方法,在評估的準確率、成本上取得了良好的平衡。

(2)消融分析

研究者還對 CAPTURE 中的各個模塊進行了消融分析,并驗證其有效性:

圖片

表三:CAPTURE 各模塊的消融分析

實驗結果顯示,Stop words 有效提升了 Sample tau,說明了該模塊的有效性。但是 stop words filtering 會對不同樣例的 detail caption 造成不同的影響,從而導致 pcc、kendall tau 微降。Soft matching 也提升了 sample tau,同時在 1-R2 分數上有明顯增益作用,將 CAPTURE 預測分數和專家打分的絕對分值對齊。在加權計算最終得分時,obj:attr:rel 比例取 default 的 5:5:2 最好,提升或降低各元素的比重都會造成性能下降。

(3)開源 LVLM 的 detail caption 性能

圖片

表四:開源 LVLM 的 detail caption 性能對比

總體來看,InternVL-1.5 是當前表現最好的開源 LVLM。從 LLaVA、MiniGemini 結果可以看出,LLM 參數量的提升對模型 detail caption 能力有一致的提升作用。同時,分辨率較高、使用高質量 detail caption 進行訓練的模型,性能會更好。

Detail caption 數據構造

基于 detail caption 評估數據集和評測指標,研究者驗證了所提出的 detail caption 數據合成方案的有效性。

(1)Detail caption 合成方法在不同 LVLM 上的有效性

如下表所示,該研究提出的 detail caption 合成方法在 LLaVA-1.5-7B、LLaVA-1.5-13B、LLaVA-NEXT-7B 和 Mini-Gemini-7B-HD 上取得了一致的 detail caption 質量提升:

圖片

表五:不同 LVLM 使用該研究提出的 detail caption 合成方法效果

(2)通過 Self-loop 進一步提升 detail caption 性能

研究者還嘗試通過數據打標 -> 模型訓練 -> 重新打標的訓練流程進行 Self-loop 來進一步提升 LVLM detail caption 性能,在四輪 loop 中都取得了正面效果。同時,對比開源方案 [8] 與本文所提出的 word-level 幻覺過濾方案,證明了其設計的有效性:

圖片

表六:Detail caption 合成方案的 self-looping 效果和消融分析

(3)LVLM 自身打標的 detail caption 可提升其整體性能

該研究使用 LLaVA-1.5 按照給出的 detail caption 構造方案對 sharegpt4v-100k 數據進行了重新打標,并將打標數據用于 LLaVA-1.5 的 SFT 訓練,在多個 benchmark 上取得了一致的性能提升:

圖片

表七:合成 detail caption 數據在 LLaVA-1.5-7B 模型訓練中的作用

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-01 20:25:28

2025-03-05 08:40:00

2025-07-17 09:21:11

2025-09-23 09:06:00

AILLM系統

2010-12-28 19:50:21

可靠性產品可靠性

2025-02-28 08:00:00

大語言模型DeepSeek機器學習

2014-11-18 15:00:19

OS XYosemite

2009-07-24 12:35:17

刀片惠普數據中心

2023-07-21 08:00:00

API數字世界

2010-08-26 10:48:51

CSScaption-sid

2024-05-24 13:36:49

2011-04-18 14:05:15

可靠性系統測試嵌入式系統

2024-03-13 13:09:14

性能智能座艙軟件

2025-06-20 09:03:00

2025-04-10 14:30:12

2010-12-28 20:16:24

2011-05-25 19:31:07

Stratus信息化

2024-11-02 10:28:03

2025-10-15 14:02:29

AI模型自動駕駛

2025-01-13 07:00:00

點贊
收藏

51CTO技術棧公眾號

日韩精品91亚洲二区在线观看| 好久没做在线观看| 久久青青草原| 日本三级2019| 免费看成人哺乳视频网站| 精品1区2区3区| 天天想你在线观看完整版电影免费| 亚洲大尺度网站| 久久精品二区三区| 久久夜色精品国产欧美乱| 亚洲av永久无码精品| 五月天国产一区| 91视频免费在线看| 天堂资源在线亚洲| 欧美日本一区二区三区四区| 国产视频在线观看网站| 人成在线免费视频| 国产精品资源在线| 日本一区二区在线免费播放| 国产黄色小视频网站| 久久久精品国产**网站| 欧美日韩电影一区| 日韩五码在线观看| 日本中文字幕在线2020| av电影在线观看不卡| 国产噜噜噜噜噜久久久久久久久| 久热精品在线观看| 色综合蜜月久久综合网| 日韩黄色在线免费观看| 超碰中文字幕在线观看| 欧美成人app| 亚洲v精品v日韩v欧美v专区| 中文字幕色一区二区| 偷拍自拍在线| 成人在线综合网| 成人两性免费视频| 日韩国产成人在线| 日韩亚洲精品在线| 欧美日本精品在线| 911国产在线| 国产精品日韩精品中文字幕| 精品福利一区二区三区| 久久人人爽人人片| 日本一区二区中文字幕| 色婷婷久久久亚洲一区二区三区| 丰满的少妇愉情hd高清果冻传媒 | 性欧美长视频| 欧美日韩aaaa| 欧美成人精品欧美一级| 色综合天天综合网中文字幕| 国产一区二区三区视频| 少妇真人直播免费视频| 老司机aⅴ在线精品导航| 日韩欧美久久久| 国产欧美激情视频| 欧美特黄色片| 欧美日韩国产在线播放网站| 牛夜精品久久久久久久| 欧美va在线观看| 欧美性极品xxxx做受| 欧美 日韩 激情| 成人免费图片免费观看| 亚洲国产乱码最新视频| 国产自产在线视频| 乱插在线www| 亚洲妇熟xx妇色黄| 成人黄色av片| 亚洲精华液一区二区三区| 午夜私人影院久久久久| 18禁免费观看网站| 亚洲妇女成熟| 91久久国产最好的精华液| 欧美精品色婷婷五月综合| 中文字幕在线中文字幕在线中三区| 婷婷久久综合九色综合绿巨人| 欧美乱大交xxxxx潮喷l头像| 精精国产xxxx视频在线野外| 欧美性极品少妇精品网站| 日韩av一二三四| 99亚洲伊人久久精品影院| 欧美在线一二三| 国产免费中文字幕| 伊人久久影院| 亚洲精品白浆高清久久久久久| www.免费av| 精品国产91| 久久天堂电影网| 国产一级做a爱免费视频| 国产精品女主播一区二区三区| 国产成人精品久久| 夜夜嗨aⅴ一区二区三区| 国产一区二区在线影院| 国产经典一区二区三区| 青青青草原在线| 国产精品国产三级国产aⅴ无密码| www.午夜色| 大菠萝精品导航| 在线免费观看日本欧美| 亚洲911精品成人18网站| 精品国产导航| 最近2019中文字幕mv免费看| 久草资源在线视频| 久久久精品网| 亚洲精品日韩激情在线电影| 三级黄视频在线观看| 国产精品盗摄一区二区三区| 日b视频免费观看| 日韩在线免费| 精品国免费一区二区三区| 性欧美13一14内谢| 国语自产精品视频在线看8查询8| 秋霞av国产精品一区| 国产视频手机在线观看| 26uuu欧美日本| 欧洲金发美女大战黑人| 成人动漫一区| 日韩欧美国产综合| 在线观看国产精品一区| 欧美三级小说| 国产精品一区二区3区| 日韩一级片免费看| 亚洲欧洲性图库| 黑森林福利视频导航| 日韩成人在线观看视频| 在线性视频日韩欧美| 中文字幕一区二区三区精品 | 日韩在线观看一区| 国内精品模特av私拍在线观看| 亚洲视频在线观看一区二区| 99久久精品免费精品国产| 在线观看成人一级片| 日韩性xxx| 亚洲国产成人精品一区二区| 免费在线黄色网| 男女视频一区二区| 免费看成人午夜电影| 日韩电影免费观看| 欧美一区二区三区喷汁尤物| 国产精品久久免费观看| 日韩一区二区免费看| 亚洲最大激情中文字幕| 日本福利专区在线观看| 一本色道综合亚洲| 久久久久亚洲AV成人无码国产| 欧美在线资源| 国产日韩欧美在线播放| 成人精品一区二区三区免费| 日韩欧中文字幕| 波多野结衣影院| 国内精品99| dy888夜精品国产专区| av免费在线观看网站| 欧美精品乱码久久久久久 | 欧美亚洲大陆| 亚洲**2019国产| 神马午夜在线观看| 亚州成人在线电影| 五十路六十路七十路熟婆 | 久久久不卡影院| 国产3p露脸普通话对白| 成人h动漫免费观看网站| 欧美二区在线播放| 亚洲欧美激情国产综合久久久| 一区二区三区.www| 69亚洲乱人伦| 亚洲伊人观看| 欧美午夜精品久久久久久蜜| 日本免费一区二区三区四区| 国产一区二区三区在线看| www.五月婷婷.com| 国产精品久久影院| 日韩欧美中文视频| 国模吧视频一区| 久久天堂国产精品| 台湾成人免费视频| 日韩视频欧美视频| 亚洲精品18p| 五月天中文字幕一区二区| 宇都宫紫苑在线播放| 国产一区二区三区四区老人| 精品不卡在线| 国产综合色区在线观看| 日韩在线观看免费| www.av在线.com| 精品美女永久免费视频| 久久午夜福利电影| 精品在线播放免费| 丰满的少妇愉情hd高清果冻传媒 | 亚洲国产日韩精品在线| 亚洲成人第一网站| 亚洲欧洲无码一区二区三区| 国产在线观看免费播放| 午夜亚洲精品| 在线观看日韩片| 久久亚州av| 国产欧美一区二区| 97超碰免费在线| 国产一区二区精品丝袜| 国产高清第一页| 欧美日韩一区二区免费视频| 精品一区二区三区蜜桃在线| 国产成人av电影| 亚洲色欲综合一区二区三区| 99国产**精品****| 鲁丝一区鲁丝二区鲁丝三区| 亚洲国产综合在线观看| 97在线视频免费播放| 欧美18hd| 亚洲视频在线视频| 亚洲第一页视频| 欧美四级电影在线观看| 国产主播在线播放| 中文字幕亚洲区| 魔女鞋交玉足榨精调教| 国产成a人亚洲精品| 欧美午夜性生活| 精品成人免费| 91手机视频在线| 先锋影音国产精品| 亚洲最大av网站| 欧美日韩女优| 欧美一级淫片aaaaaaa视频| bt在线麻豆视频| 中文字幕日韩免费视频| 日韩精品一二| 精品av久久707| av观看在线免费| 欧美视频一区二| 黑人精品无码一区二区三区AV| 一区二区三区四区不卡在线 | 亚洲人成网站精品片在线观看| 国产真实乱人偷精品人妻| 不卡一卡二卡三乱码免费网站| 激情图片中文字幕| 免费人成黄页网站在线一区二区| 国产免费一区二区三区视频| 国户精品久久久久久久久久久不卡| 亚洲欧美国产精品桃花| 视频精品在线观看| 久久精品国产综合精品| eeuss鲁片一区二区三区| 91麻豆国产精品| 欧美韩国日本| 国产欧美日韩专区发布| 日本在线中文字幕一区二区三区| 欧美一区二区大胆人体摄影专业网站| 91九色porn在线资源| 久久久免费精品视频| 欧美亚洲天堂| 欧美高清性猛交| 男男gaygays亚洲| 欧美精品成人在线| av影片在线| 97精品在线观看| 人狥杂交一区欧美二区| 欧美一区二三区| 偷拍精品精品一区二区三区| 日本免费久久高清视频| 午夜无码国产理论在线| 国产精品第二页| 日韩av黄色| 999日本视频| 精品亚洲免a| 免费观看成人高| 国产成人av| 一区二区在线观看网站| 一区二区免费不卡在线| 欧美黄网在线观看| 黄色成人91| 国产精品后入内射日本在线观看| 午夜在线精品| 午夜国产一区二区三区| 激情综合色播激情啊| 深夜福利网站在线观看| 成人午夜精品在线| av在线网站观看| 中文字幕国产一区二区| 中国一级片在线观看| 亚洲一区二区三区四区五区黄| 国产在线视频你懂的| 一本久久a久久免费精品不卡| 一区二区小视频| 欧美一区二区三区播放老司机| 午夜精品久久久久久久99| 亚洲电影免费观看| 国产福利第一视频在线播放| 久久综合电影一区| 国产一二在线播放| 国产精品日韩在线观看| 一区二区在线免费播放| 欧美精品一区二区三区久久| 欧美成人精品一区二区三区在线看| 黄色成人在线免费观看| 久久精品综合| 欧美69精品久久久久久不卡| 91日韩在线专区| 老熟妇高潮一区二区三区| 精品久久在线播放| 一个人看的www日本高清视频| 亚洲成人免费在线视频| 97在线观看免费观看高清| 久久久久久久亚洲精品| 日韩久久一区二区三区| wwwxx欧美| av亚洲免费| 国产在线播放观看| 久久精品国产99国产| 午夜视频在线观看国产| 亚洲欧洲综合另类在线| 国产精品免费精品一区| 日韩欧美中文一区| 最新97超碰在线| 97碰在线观看| 韩国一区二区三区视频| 色视频一区二区三区| 亚洲精品黄色| 国产欧美一区二| 久久丝袜美腿综合| 国产成人啪精品午夜在线观看| 欧美日本一道本在线视频| 在线观看xxx| 欧美黑人xxxx| 日本午夜精品久久久久| 日日骚一区二区网站| 一区二区三区四区五区精品视频| 日韩精品视频网址| 国产高清在线| 日韩欧美一二区| 亚洲xxxxxx| 国产精品成人免费电影| 欧美91在线| 拔插拔插海外华人免费| 国产精品一区二区三区四区 | 亚洲桃色在线一区| 免费在线不卡av| 亚洲欧美综合图区| 手机在线理论片| 精品一区二区三区自拍图片区| 国产精品vip| 中文字幕 欧美 日韩| 亚洲欧美日韩一区二区三区在线观看 | 中文字幕国产传媒| 久久精品人人爽人人爽| 国产成人免费看| 欧美精品一区二| av在线播放资源| 国产一区二区三区av在线| 伊人久久大香线蕉综合热线| 国产伦理在线观看| 一区二区免费在线播放| 亚洲AV无码国产精品午夜字幕| 不卡av电影在线观看| www.久久99| 三级在线免费观看| 丁香五精品蜜臀久久久久99网站 | 青草国产精品| 奇米影视四色在线| 成人免费一区二区三区在线观看| 97在线公开视频| 久久最新资源网| 伊人久久亚洲| 69堂免费视频| 日本一区二区三区在线观看| 亚洲一区中文字幕在线| 久久久久99精品久久久久| 国产成人免费av一区二区午夜| 日韩不卡一二区| 懂色av一区二区夜夜嗨| 激情五月色婷婷| 亚洲欧洲偷拍精品| 成人在线观看免费播放| 亚洲第一综合网站| 成人做爰69片免费看网站| 欧美成人精品欧美一级乱黄| 亚洲午夜久久久影院| 24小时成人在线视频| 人人妻人人澡人人爽欧美一区双 | 91社区视频在线观看| 欧美精品三级日韩久久| 啦啦啦中文在线观看日本| 精品午夜一区二区| 美女在线视频一区| 九九视频免费观看| 日韩精品视频免费专区在线播放 | 国产福利在线播放麻豆| 国产精品成人观看视频免费| 鲁大师成人一区二区三区 | 大片网站久久| 97免费公开视频| 狠狠躁夜夜躁人人躁婷婷91| 无遮挡动作视频在线观看免费入口| 2022国产精品| 视频一区视频二区在线观看| 日本中文在线视频| 亚洲男人av在线| 国产一区二区三区视频在线| 亚洲自偷自拍熟女另类| 亚洲欧美日韩中文字幕一区二区三区 | 麻豆精品新av中文字幕| 国产主播在线播放|