精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態模型評測框架lmms-eval發布!全面覆蓋,低成本,零污染

人工智能 新聞
來自南洋理工大學 LMMs-Lab 的研究人員聯合開源了 LMMs-Eval,這是一個專為多模態大型模型設計的評估框架,為多模態模型(LMMs)的評測提供了一站式、高效的解決方案。

隨著大模型研究的深入,如何將其推廣到更多的模態上已經成為了學術界和產業界的熱點。最近發布的閉源大模型如 GPT-4o、Claude 3.5 等都已經具備了超強的圖像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等開源領域模型也展現出了越來越接近閉源的性能。

在這個「畝產八萬斤」,「10 天一個 SoTA」的時代,簡單易用、標準透明、可復現的多模態評估框架變得越來越重要,而這并非易事。

為解決以上問題,來自南洋理工大學 LMMs-Lab 的研究人員聯合開源了 LMMs-Eval,這是一個專為多模態大型模型設計的評估框架,為多模態模型(LMMs)的評測提供了一站式、高效的解決方案。

圖片

  • 代碼倉庫: https://github.com/EvolvingLMMs-Lab/lmms-eval
  • 官方主頁: https://lmms-lab.github.io/
  • 論文地址: https://arxiv.org/abs/2407.12772
  • 榜單地址:https://huggingface.co/spaces/lmms-lab/LiveBench

自 2024 年 3 月發布以來, LMMs-Eval 框架已經收到了來自開源社區、公司和高校等多方的協作貢獻?,F已在 Github 上獲得 1.1K Stars,超過 30+ contributors,總計包含 80 多個數據集和 10 多個模型,并且還在持續增加中。

圖片

標準化測評框架

為了提供一個標準化的測評平臺,LMMs-Eval 包含了以下特性:

  1. 統一接口:  LMMs-Eval 在文本測評框架 lm-evaluation-harness 的基礎上進行了改進和擴展,通過定義模型、數據集和評估指標的統一接口,方便了使用者自行添加新的多模態模型和數據集。
  2. 一鍵式啟動:LMMs-Eval 在 HuggingFace 上托管了 80 多個(且數量不斷增加)數據集,這些數據集精心從原始來源轉換而來,包括所有變體、版本和分割。用戶無需進行任何準備,只需一條命令,多個數據集和模型將被自動下載并測試,等待幾分鐘時間即可獲得結果。
  3. 透明可復現:LMMs-Eval 內置了統一的 logging 工具,模型回答的每一題以及正確與否都會被記錄下來, 保證了可復現性和透明性。同時也方便比較不同模型的優勢與缺陷。

LMMs-Eval 的愿景是未來的多模態模型不再需要自行編寫數據處理、推理以及提交代碼。在當今多模態測試集高度集中的環境下,這種做法既不現實,測得的分數也難以與其他模型直接對比。通過接入 LMMs-Eval,模型訓練者可以將更多精力集中在模型本身的改進和優化上,而不是在評測和對齊結果上耗費時間。

評測的「不可能三角」

LMMs-Eval 的最終目標是找到一種 1. 覆蓋廣 2. 成本低 3. 零數據泄露 的方法來評估 LMMs。然而,即使有了 LMMs-Eval,作者團隊發現想同時做到這三點困難重重,甚至是不可能的。

如下圖所示,當他們將評估數據集擴展到 50 多個時,執行這些數據集的全面評估變得非常耗時。此外,這些基準在訓練期間也容易受到污染的影響。為此, LMMs-Eval 提出了 LMMs-Eval-Lite 來兼顧廣覆蓋和低成本。他們也設計了 LiveBench 來做到低成本和零數據泄露。

圖片

LMMs-Eval-Lite: 廣覆蓋輕量級評估

圖片

在評測大模型時,往往龐大的參數量和測試任務會使得評測任務的時間和成本急劇上升,因此大家往往會選擇使用較小的數據集或是使用特定的數據集進行評測。然而,有限的評測往往會使得對于模型能力的理解有所缺失,為了同時兼顧評測的多樣性和評測的成本,LMMs-Eval 推出了 LMMs-Eval-Lite

圖片

LMMs-Eval-Lite 旨在構建一個簡化的基準測試集,以在模型開發過程中提供有用且快速的信號,從而避免現在測試的臃腫問題。如果我們能夠找到現有測試集的一個子集,在這上面的模型之間的絕對分數和相對排名與全集保持相似,那么我們可以認為修剪這些數據集是安全的。

為了找到數據集中的數據顯著點,LMMs-Eval 首先使用 CLIP 和 BGE 模型將多模態評測數據集轉換為向量嵌入的形式并使用 k-greedy 聚類的方法找到了數據顯著點。在測試中,這些規模較小的數據集仍然展現出與全集相似的評測能力。

圖片

隨后 LMMs-Eval 使用了相同的方法制作了涵蓋更多數據集的 Lite 版本,這些數據集旨在幫助人們節省開發中的評測成本,以便快速判斷模型性能

圖片

LiveBench: LMMs 動態測試

傳統基準側重于使用固定問題和答案的靜態評估。隨著多模態研究的進展,開源模型在分數比較往往優于商用模型,如 GPT-4V,但在實際用戶體驗中卻有所不及。動態的、用戶導向的 Chatbot Arenas 和 WildVision 在模型評估中越來越受歡迎,但是它們需要收集成千上萬的用戶偏好,評估成本極高。

LiveBench 的核心思想是在一個不斷更新的數據集上評估模型的性能,以實現零污染且保持低成本。作者團隊從網絡上收集評估數據,并構建了一條 pipeline,自動從新聞和社區論壇等網站收集最新的全球信息。為了確保信息的及時性和真實性,作者團隊從包括 CNN、BBC、日本朝日新聞和中國新華社等 60 多個新聞媒體,以及 Reddit 等論壇中選擇來源。具體步驟如下:

  1. 捕捉主頁截圖并去除廣告和非新聞元素。
  2. 使用當前最強大的多模態模型(如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro)設計問題和答案集。由另一模型審查和修訂
  3. 問題,確保準確性和相關性。
  4. 人工審查最終的問答集,每月收集約 500 個問題,保留 100-300 個作為最終的 \livebench 問題集。
  5. 采用 LLaVA-Wilder 和 Vibe-Eval 的評分標準 -- 評分模型根據提供的標準答案評分,得分范圍為 [1, 10]。默認評分模型為 GPT-4o,還包括 Claude-3-Opus 和 Gemini 1.5 Pro 作為備選。最終的報告結果將基于得分轉換為 0 到 100 的準確率指標。

圖片

未來也可以在我們動態更新的榜單里查看多模態模型在每個月動態更新的最新評測數據,以及在榜單上的最新評測的結果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-04 16:50:07

工具AI模型

2025-01-08 08:21:16

2009-02-27 10:16:16

微軟Windows Ser低成本

2024-05-06 08:44:25

FrugalGPT大型語言模型LLM

2024-01-11 09:37:58

模型AI

2023-05-19 13:01:10

ChatGPT模型

2022-12-09 14:07:11

框架開源

2023-12-07 12:38:09

架構低成本開發

2025-03-13 09:47:29

2023-12-25 09:07:50

AI人工智能Ferret

2023-05-15 12:14:02

ChatGPT語音模型

2021-07-20 11:54:14

物聯網零售節能IoT

2025-06-03 08:22:00

模型評估視頻

2024-10-14 14:10:00

大模型AI開源

2025-02-12 10:12:00

視頻模型AI

2025-07-10 08:57:59

2025-04-07 00:00:00

多模態大模型

2024-12-18 18:57:58

點贊
收藏

51CTO技術棧公眾號

日韩中文字幕电影| 国产又大又硬又粗| 黄片毛片在线看| 国产视频亚洲| 日韩中文字幕国产精品| 亚洲国产综合av| 另类专区亚洲| 亚洲精品国产精华液| 蜜桃传媒视频第一区入口在线看| 中文字幕a级片| 在线观看一区| 久久精品福利视频| a级在线观看视频| 国产欧美日韩电影| 日韩欧美有码在线| 日本一区二区三区四区五区六区| 三区在线视频| 国产高清不卡二三区| 韩国精品久久久999| 久久精品一区二区三区四区五区 | 亚洲影视一区| 精品亚洲精品福利线在观看| 熟妇女人妻丰满少妇中文字幕| 亚洲天堂导航| 午夜欧美一区二区三区在线播放| 中文字幕一区综合| 久久经典视频| 99久久久久久| av成人午夜| 国产情侣一区二区| 免费久久99精品国产| 日本午夜人人精品| 精品肉丝脚一区二区三区| 999精品一区| 中文欧美日本在线资源| 国产男女猛烈无遮挡a片漫画 | 欧美福利一区二区三区| 不卡av中文字幕| 精品一区二区在线看| 国产精品99一区| 免费的毛片视频| 国产日本精品| 91精品国产免费久久久久久| 久久精品视频日本| 91tv官网精品成人亚洲| 精品国产一区av| 日韩福利在线视频| 欧美先锋资源| 一区二区三区久久精品| 无码h肉动漫在线观看| 亚洲桃色综合影院| 亚洲欧美三级伦理| 日韩乱码人妻无码中文字幕久久| 亚洲福利天堂| 亚洲人成77777在线观看网| 黄色免费看视频| 久久a爱视频| 亚洲精品电影久久久| 三级男人添奶爽爽爽视频| 国产欧美三级电影| 日韩电视剧免费观看网站| 日本五十肥熟交尾| 色婷婷久久久| 亚洲天堂2020| 国产免费嫩草影院| 中文字幕一区二区三区欧美日韩| 久久成人免费视频| 九九免费精品视频| 亚洲精品九九| 青青草成人在线| 探花国产精品一区二区| 久久99深爱久久99精品| 91成人在线看| 亚洲 另类 春色 国产| 国产亚洲人成网站| 异国色恋浪漫潭| 91超碰在线免费| 色综合天天综合网天天狠天天| 中文字幕第21页| 懂色av色香蕉一区二区蜜桃| 欧美成人艳星乳罩| av在线网站观看| 91久久电影| 国外成人免费在线播放| 久久久久久久久久一级| 国产一区二区三区综合| 国产一区二区三区奇米久涩 | 久久久久久久免费视频了| 天天好比中文综合网| 影音先锋在线播放| 欧美日韩一区二区精品| 99re6在线观看| 人体久久天天| 精品国产自在精品国产浪潮| 久久久久久久国产精品毛片| 日日摸夜夜添夜夜添亚洲女人| 91久久国产婷婷一区二区| 人妻无码中文字幕| 欧美高清在线一区| 久久av综合网| 日韩成人综合网| 日韩成人免费视频| 国产精品免费人成网站酒店 | 一区二区免费在线播放| 欧美一级片中文字幕| 免费观看亚洲天堂| 亚洲亚裔videos黑人hd| 精品少妇久久久| 久久精品久久99精品久久| 精品国产一二| 超碰人人在线| 欧美性一二三区| 国产精品久久久免费观看| 五月婷婷亚洲| 国产精品免费视频久久久| 人妻妺妺窝人体色www聚色窝| 国产精品色婷婷久久58| 国产偷人视频免费| 91精品久久久久久综合五月天| 视频在线观看一区二区| 国产一级免费视频| 不卡的看片网站| 桥本有菜av在线| 粉嫩91精品久久久久久久99蜜桃| 亚洲国产精彩中文乱码av| 欧美特级一级片| 毛片av中文字幕一区二区| 欧美精品久久| 日韩伦理在线| 亚洲精品在线三区| 欧美人妻精品一区二区三区| 麻豆成人在线观看| 天天综合狠狠精品| 亚洲天堂一区二区| 亚洲精选中文字幕| 日本视频www| 成人一区二区三区视频在线观看| 成年人三级视频| 亚洲综合视频| 久久久999精品视频| 中文字幕丰满人伦在线| 日本一区二区视频在线| 乱子伦视频在线看| 国产精品免费不| 国产成人综合久久| 国产三级在线免费观看| 91久久精品一区二区三区| 最新中文字幕视频| 美女黄网久久| 日本一区二区久久精品| 欧美最新精品| 在线播放精品一区二区三区 | 日韩精品一区二区三区蜜臀 | 在线成人激情| 5566中文字幕一区二区| 草莓福利社区在线| 欧美成人bangbros| 日产精品久久久久久久| 99久久精品国产导航| 1024av视频| 久久97视频| 国产美女精彩久久| 黄色成年人视频在线观看| 欧美一区二区三区在线电影| 久久99久久98精品免观看软件 | 欧美日韩一区二区三区在线观看免 | 久久不见久久见国语| 国产精品观看在线亚洲人成网| av资源网在线观看| 在线不卡中文字幕播放| 久久久国产精品人人片| 9人人澡人人爽人人精品| 国产麻花豆剧传媒精品mv在线| 日韩精品欧美激情一区二区| 亚洲一区二区三区视频播放| xxx性欧美| 亚洲一区av在线播放| 国产精品爽爽久久| 亚洲动漫第一页| 一级黄色录像毛片| 国内精品自线一区二区三区视频| 国产91沈先生在线播放| 尤物tv在线精品| 成人av资源在线播放| 爱情岛亚洲播放路线| 中文在线资源观看视频网站免费不卡| 国产人妻精品一区二区三区| 99久久精品国产一区二区成人| 成人v精品蜜桃久久一区| 欧美激情国产精品日韩| 99国产精品一区二区| 国产精品一区二区三区四区五区 | 国产精品国产福利国产秒拍| 18在线观看的| 亚洲欧洲自拍偷拍| 国产视频一区二区三| 欧美日韩美女在线观看| 多男操一女视频| 99精品视频在线播放观看| 成年人三级黄色片| 国产日韩一区二区三区在线播放 | 亚洲日韩视频| 一区二区三区日韩视频| 亚洲女娇小黑人粗硬| 亚洲一区二区三区在线免费观看| 亚洲小少妇裸体bbw| 九九热视频这里只有精品| 国产黄在线播放| 亚洲成人久久电影| 99热这里只有精| 在线观看一区不卡| 99精品视频99| 一区二区三区四区不卡在线| 日本一卡二卡在线播放| 91色porny| 免费不卡的av| 国产激情91久久精品导航| av污在线观看| 天堂va蜜桃一区二区三区漫画版| 和岳每晚弄的高潮嗷嗷叫视频| 欧美gayvideo| 视频一区二区三区免费观看| 精品自拍偷拍| 成人av中文| 精品一区二区三区四区五区| 国产精品旅馆在线| 成人av三级| 欧美有码在线视频| 麻豆mv在线看| 久久久久久亚洲精品不卡| h网站久久久| 久久av在线看| 国产一二区在线| 精品国产一区二区三区久久狼黑人| 麻豆导航在线观看| 亚洲精品一二区| 香蕉视频911| 亚洲精品成人久久| 天天干,天天操,天天射| 精品国产一区二区三区忘忧草| 国产av无码专区亚洲av| 日韩一区二区不卡| 精品黑人一区二区三区在线观看| 欧美军同video69gay| 国产精品久久久久久69| 欧美高清dvd| 国产区精品在线| 欧美va亚洲va在线观看蝴蝶网| a天堂视频在线| 日韩免费观看高清完整版| www.五月婷| 精品国产乱码久久久久久夜甘婷婷 | 欧美另类视频在线观看| 亚洲免费观看高清完整| 永久看片925tv| 亚洲成人1区2区| av中文在线播放| 91精品福利在线| 国产一区二区女内射| 日韩欧美一级二级三级| 黄色一级大片在线免费看国产一| 亚洲成人中文字幕| 你懂的在线免费观看| 伊人男人综合视频网| 麻豆视频免费在线观看| 久久99国产精品自在自在app| 1区2区在线| 热草久综合在线| 四虎精品永久免费| 国产传媒一区| 亚洲另类av| 裸体裸乳免费看| 中文精品在线| 男女视频在线看| 成人综合在线观看| 丰满少妇高潮一区二区| 亚洲欧洲成人精品av97| 久久免费视频6| 在线免费观看不卡av| 国产特级aaaaaa大片| 日韩精品视频免费专区在线播放 | 欧美成人精品xxx| 国模精品视频| 国产美女搞久久| 六月丁香久久丫| 亚洲精品久久区二区三区蜜桃臀 | 午夜精品福利在线观看| 国产精品高清乱码在线观看| 51国产成人精品午夜福中文下载| 亚瑟一区二区三区四区| 在线观看一区二区三区三州| 日韩五码在线| 日韩av.com| 91原创在线视频| 五月天av网站| 日本丶国产丶欧美色综合| 国产成人三级在线播放| 亚洲人成人99网站| 国产经典三级在线| 国产欧美中文字幕| 亚洲专区视频| 欧美激情亚洲天堂| 美腿丝袜亚洲一区| 日本japanese极品少妇| 一区二区三区中文免费| 久草热在线观看| 亚洲国产精品一区二区久| 91最新在线| 91精品国产沙发| 澳门成人av| 精品少妇人妻av一区二区| 天堂va蜜桃一区二区三区漫画版| 亚洲无人区码一码二码三码| 最新国产の精品合集bt伙计| 精品人妻无码一区二区性色| 亚洲爱爱爱爱爱| 91在线中文| 91久久精品国产91久久性色| 欧美日韩在线播放视频| 免费在线激情视频| 成人激情小说乱人伦| 精品97人妻无码中文永久在线| 欧美久久婷婷综合色| 成人免费黄色网页| 日韩免费在线观看视频| 欧美一区二区三区红桃小说| 女人帮男人橹视频播放| 精彩视频一区二区三区| 亚洲女人毛茸茸高潮| 色噜噜狠狠色综合中国| 欧美孕妇孕交| 欧美中在线观看| 日本亚洲不卡| 久草热视频在线观看| 波波电影院一区二区三区| 久久久久亚洲av成人片| 欧美大胆人体bbbb| 深夜国产在线播放| 99视频在线| 韩国av一区| 人妻激情偷乱频一区二区三区| 亚洲一区二区在线免费看| 超碰在线人人干| 欧美激情一级二级| 北条麻妃一区二区三区在线观看| 女人床在线观看| 国产91精品入口| 欧美日韩综合在线观看| 亚洲精品永久免费精品| 欧洲一级精品| 亚洲欧美日韩在线综合| 久久超碰97人人做人人爱| 神马久久精品综合| 日韩欧美在线综合网| 好吊日av在线| 国产综合欧美在线看| 久久激情婷婷| 大胸美女被爆操| 9191精品国产综合久久久久久| 成人国产免费电影| 成人在线观看网址| 日韩午夜电影| 欧美黄色激情视频| 91精品国产色综合久久不卡蜜臀| 手机av在线播放| 国产一区二区自拍| 三级欧美韩日大片在线看| 国产在线免费av| 日韩欧美卡一卡二| 中文字幕这里只有精品| 亚洲图片小说在线| 国产伦精品一区二区三区视频青涩| 久久久久久久久久99| 日韩高清中文字幕| 亚洲人体在线| 免费毛片网站在线观看| 国产亚洲欧美日韩俺去了| 一级黄色片免费看| 国产69精品久久久久9999| 国产一区二区三区站长工具| 亚洲天堂网2018| 亚洲国产精品嫩草影院| 国产1区2区3区在线| 91久色国产| 日本不卡高清视频| 久久久久久久久久久久久久久久久| 日韩精品在线电影| 96视频在线观看欧美| 亚洲中文字幕无码专区| 国产精品的网站| 水莓100在线视频| 成人有码在线视频| 久久国产精品久久w女人spa| www色aa色aawww| 亚洲男人的天堂网站| 日韩精品视频在线看| 久久精品视频91| 亚洲影院免费观看| av在线免费观看网| 久久精品久久精品国产大片|