精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek、OpenAI、Kimi視覺推理到底哪家強?港中文MMLab推出推理基準MME-COT

人工智能 新聞
這是一個全面且專門用于評估LMMs中視覺推理能力的Benchmark,包括了數學、科學、OCR、邏輯、時空和通用場景。

OpenAI o1和DeepSeek-R1靠鏈式思維(Chain-of-Thought, CoT)展示了超強的推理能力,但這一能力能多大程度地幫助視覺推理,又應該如何細粒度地評估視覺推理呢?

為此,來自港中文MMLab的研究者們提出了MME-CoT。

這是一個全面且專門用于評估LMMs中視覺推理能力的Benchmark,包括了數學、科學、OCR、邏輯、時空和通用場景。

MME-CoT與之前的LMM的Benchmark最大的區別在于,提出了一個嚴格且多方面的評估框架,細粒度地研究視覺CoT的不同方面,評估其推理的質量、魯棒性和效率。

各種最新推出的LMM,包括Kimi k1.5, GPT-4o, QVQ等等都在MME-CoT上進行了測試。同時,研究者們還把圖片轉成caption之后測試了最近爆火的DeepSeek-R1以及o3-mini。

基于實驗結果,文章中得到了很有價值的結論:

  • CoT質量:Kimi k1.5 > DeepSeek-R1 >> o3-mini
  • CoT魯棒性:o3-mini > Kimi k1.5 > DeepSeek-R1
  • CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1

值得一提的是,DeepSeek-R1的文本推理能力非常出眾。僅僅使用圖片的caption就可以在precision上超過真實看到圖片的GPT-4o。最后的CoT質量也與GPT-4o僅有1.9%之差。

其次,反思能力的引入顯著提升了CoT質量,所有具備反思能力的LMM都實現了較高的CoT質量表現。例如QVQ達到了62.0%的F1分數,大幅超過Qwen2-VL-72B 6.8%。而Kimi k1.5更是超越GPT-4o達到最佳質量。

在魯棒性方面,團隊發現大多數早期模型在感知任務中都受到CoT的負面影響,表現出有害的過度思考行為,其中最顯著的案例是InternVL2.5-8B,在感知任務中應用CoT后性能下降了6.8%,這嚴重制約了將CoT推理作為默認操作的可行性。

最后,關于CoT效率,團隊觀察到輸出長CoT的模型普遍存在步驟的相關性不足的問題。模型容易被圖像內容分散注意力,過度關注圖像而忽視了對題目的解答,尤其是在處理通用場景、時空和OCR任務時。實驗結果顯示,約30%到40%的反思步驟未能有效協助問題解答,這暴露出當前模型反思能力的重要缺陷。

測評指標設計與數據組成

目前絕大多數的LMM的Benchmark都只評估最終答案的正確性,忽視了LMM整個的CoT的推理過程。為了能全面地了解視覺CoT的各個屬性,研究者們提出了三個不同的評估方向,每個方向致力于回答一個關鍵的問題:

1、CoT的質量:每個CoT步驟是否有用且準確,不存在幻覺?

只評估回答的結果忽略了模型通過錯誤的邏輯或隨機猜測得出正確答案的情況。這往往造成了模型推理能力被夸大的假象。為了深入研究推理過程,研究者們引入了兩個可解釋的指標來評估CoT的質量:

  • 召回率 (Recall):評估模型的回答有多少能與正確解題的必要步驟匹配。這個指標是用來量化推理的步驟是否能對于得到正確答案有幫助,以及推理鏈是否完整。匹配的過程由GPT-4o完成。
  • 精確率 (Precision):評估模型回答的每一步的準確程度來考查模型的幻覺以及邏輯的準確性。為了評估這一指標,研究者們首先使用GPT-4o將模型的回復切分成不同類型的步驟:背景知識、圖片描述以及邏輯推理。然后繼續對圖片描述以及邏輯推理步驟判定每步是否正確。

2、CoT的魯棒性:CoT是否干擾感知任務,它在多大程度上增強了推理任務?

現有研究主要關注CoT對推理任務帶來的性能改進,卻往往忽視了CoT是否會無意中破壞模型對于僅需要感知的任務的能力。隨著o1以及R1的爆火,CoT逐漸已成為模型的默認的推理策略。然而,模型無法提前預知用戶提出的問題類型,也不確定使用CoT來回答是否比直接給出答案會有更高的準確率。因此,在目前的時間點上,CoT在不同類型任務下的魯棒性變得格外重要。為了衡量魯棒性,MME-CoT包括了兩個任務類別:感知任務和推理任務,以及兩種不同的Prompt形式:要求模型直接回答(answer directly)以及CoT回答(think step by step)。

  • 穩定性 (Stability):檢查CoT是否對模型在感知任務上的表現產生負面影響
  • 有效性 (Efficacy):檢查CoT是否真的幫助模型提高在復雜推理任務上的表現

3、CoT的效率:使用CoT的推理效率是怎么樣的?

最近的o1類模型通過采用超長的CoT和反思步驟而取得了非常好的效果。這提出了一個關鍵的權衡問題:這種方法是否在準確性和計算成本之間取得了最佳平衡?為了研究這一點,研究者們首次對LMMs中CoT的效率進行研究,使用了兩個關鍵指標評估效率:

  • 相關比例 (Relevance Rate):評估模型回答中與解決問題有關的比例。
  • 反思質量 (Reflection Quality):分析每個反思步驟是否更正了推理中的錯誤或者從新的角度驗證了目前結論的正確性。

4、MME-CoT測試集

與純文本推理問題不同,額外的視覺輸入顯著豐富了視覺推理問題的范圍。有了圖像輸入,模型需要根據當前的推理進度頻繁查看圖像以獲取相關信息。描述感興趣的圖像區域成為了思維鏈(CoT)過程中的關鍵部分。因此,除了需要嚴格邏輯的復雜問題外,通用場景中的許多問題也構成了具有挑戰性的推理問題。

考慮到這一點,MME-CoT測試集構建起了一個覆蓋專業領域與常識場景的全景視覺推理評估體系,共包括6大領域以及17個子類。為了保持對推理過程的關注,研究者們排除了需要復雜領域特定定理或專業知識的問題。

MME-CoT中分為感知任務以及推理任務,現有的Benchmark往往混淆這兩類任務,使得這兩類經常出現在相同類別中。為了解決這個問題,研究者們首先使用GPT-4o以及Qwen2-VL來進行預判,通過對比直接作答與CoT作答的表現差異,初步劃分這兩種不同類型的任務。接著,專業的標注團隊逐題審核,確保分類的準確性。

為了便于CoT的評估,標注團隊為所有推理問題都給出了必要的推理步驟的Ground Truth標注。對于多解的問題,標注者被要求給出了每種可能的解法。最后,MME-CoT得到了1130道精選的問題以及3865個關鍵步驟標注。

實驗分析與結論

研究者們在MME-CoT Benchmark上測評了13個現有的LMM以及2個最先進的具有超強推理能力的LLM:DeepSeek-R1以及o3-mini。對于LLM,研究者們將圖片轉化為詳細的caption之后再輸入到模型。

實驗結果如下:

基于測評,還得到了如下的發現與結論:

1. 長CoT不一定涵蓋關鍵步驟

盡管長思維鏈模型具有更高的精確率,但每個步驟的信息量并不能得到保證。團隊觀察到GPT-4o、QVQ和Virgo之間的召回率的趨勢和它們最終能否正確解答推理任務的表現(即在使用CoT的prompt時,模型在推理任務的最終答案準確率,對應表格中的CoT Reasoning列)不一致。具體來說,雖然Virgo和QVQ在僅評估最終答案的正確性上都優于GPT-4o,但它們在召回率上落后。這表明長CoT模型有時會在跳過中間步驟的情況下得出正確答案,這與CoT本身奉行的Think step by step的原則相矛盾,值得進一步研究。

2. 更多參數使模型更好地掌握推理能力

團隊發現參數量更大的模型往往獲得更高的有效性(Efficacy)分數。這種模式在LLaVA-OV、InternVL2.5-MPO和Qwen2-VL中都很明顯。例如,雖然Qwen2-VL-7B在將CoT應用于推理任務時顯示出4.8%的性能下降,但其更大的對應模型Qwen2-VL-72B展示出2.4%的改進。這種差異表明,在相同的訓練范式下,具有更多參數的模型能夠更好地掌握推理能力。這一發現也某種程度上驗證了R1論文中的關鍵發現:同等訓練setting下,更大參數量的模型往往能更好地學習到推理的能力。

3. 模型的反思的錯誤涵蓋多種類型

四種主要錯誤類型是:

  • 無效反思:模型得出錯誤結論,在反思時,繼續做出錯誤的調整。這是最常見的錯誤類型,也是最頻繁出現的。
  • 不完整:模型提出新的分析方法但未執行它們,僅停留在初始想法階段。模型的反思只是在空想。
  • 重復:模型重述先前的內容或方法,沒有引入新的見解。
  • 干擾:模型最初達到正確結論,但反思卻引入了錯誤。

理解和消除反思中的這些錯誤對于提高LMM的推理效率以及可靠性是至關重要的。

展望未來,MME-CoT不僅為評估LMM的推理能力提供了系統化的基準,更為該領域的研究指明了關鍵發展方向。通過揭示現有模型在推理質量、魯棒性和計算效率等方面的不足,這項工作為后續研究奠定了重要基礎。這些發現將推動LMM實現更強大以及可靠的視覺推理能力。

論文:https://arxiv.org/pdf/2502.09621
主頁:https://mmecot.github.io
代碼:https://github.com/CaraJ7/MME-CoT
數據集:https://huggingface.co/datasets/CaraJ/MME-CoT

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-26 04:00:00

2024-01-29 07:15:00

模型數據

2016-11-21 17:27:04

Android 推送

2025-11-19 08:51:13

2021-12-01 10:05:12

模型人工智能計算

2025-05-19 08:37:00

2025-01-15 13:01:07

2025-04-11 09:10:00

模型開源AI

2025-03-28 11:06:10

視覺推理模型阿里通義千問AI

2025-03-31 08:28:24

大型語言模型LLMDeepSeek

2023-01-05 09:33:37

視覺模型訓練

2024-11-12 13:40:00

2025-05-13 13:54:41

R1MMLabAI

2025-07-17 09:21:11

2025-08-29 09:09:00

AI模型數據

2025-11-04 09:00:00

2025-08-13 10:21:50

2025-04-14 00:10:00

人工智能AIAI 模型

2025-04-30 09:19:32

點贊
收藏

51CTO技術棧公眾號

国产欧美日韩精品丝袜高跟鞋| 欧美精品一区二区三区一线天视频| 天堂精品视频| 国产美女无遮挡永久免费| 欧美一区高清| 日韩电影在线观看中文字幕| 熟妇人妻无乱码中文字幕真矢织江| porn视频在线观看| 国产sm精品调教视频网站| 4k岛国日韩精品**专区| 网爆门在线观看| 成人av影音| 欧美三级日韩三级| 成人免费在线视频播放| 国产日韩精品在线看| 国产麻豆精品在线| 国产经典一区二区| 麻豆疯狂做受xxxx高潮视频| 九热爱视频精品视频| 日韩一区二区三区三四区视频在线观看| 少妇人妻在线视频| 看黄网站在线观看| 久久久亚洲国产美女国产盗摄| 91精品国产综合久久香蕉922| 日韩和一区二区| 天天做天天爱天天综合网| 日韩电影中文 亚洲精品乱码| 中文 日韩 欧美| 日本综合久久| 精品久久久国产| 欧美美女黄色网| 午夜在线视频| 国产亚洲精品福利| 精品人伦一区二区三区| 国产成人精品免费看视频| 日韩电影在线免费看| 97视频在线观看视频免费视频 | 欧美成熟视频| 爽爽爽爽爽爽爽成人免费观看| 国产激情视频网站| 在线一区二区三区视频| 在线成人av影院| 一道本视频在线观看| av剧情在线观看| 亚洲一级片在线观看| 成人短视频在线看| 欧美性videos| 国产精品福利影院| 日韩av电影免费在线| 亚洲aⅴ在线观看| www.成人在线| 精品欧美日韩在线| 色播色播色播色播色播在线| www.亚洲在线| 国产综合第一页| 亚洲 美腿 欧美 偷拍| 岛国一区二区在线观看| 99中文视频在线| 性色av蜜臀av| 国产成人99久久亚洲综合精品| 亚洲一区二区日本| 超碰在线观看av| 福利91精品一区二区三区| 国产精品免费区二区三区观看 | 日本一道在线观看| 91麻豆免费在线视频| 一区二区久久久久| 国产a级片网站| 擼擼色在线看观看免费| 欧美性极品xxxx娇小| 日韩欧美xxxx| 青青在线精品| 日韩欧美中文字幕精品| 在线xxxxx| 同性恋视频一区| 自拍偷拍亚洲一区| 国产精品三区在线观看| 亚洲福利一区| 日本成熟性欧美| 中文字幕资源网| 国产老肥熟一区二区三区| 国产高清一区二区三区| 日韩成人黄色| 中文字幕一区二区三区在线不卡| 黄色网址在线免费看| 欧美韩日亚洲| 色一情一伦一子一伦一区| 五月天婷婷激情视频| www.久久热| 亚洲成人免费网站| 日韩视频在线观看免费视频| 亚州av乱码久久精品蜜桃| 欧美激情亚洲国产| 中文字幕在线日本| 国产高清在线观看免费不卡| 欧美13一14另类| av片哪里在线观看| 色婷婷av一区| 中文字幕在线国产| 日韩精品诱惑一区?区三区| 欧美另类第一页| 波多野结衣一区二区三区四区| 国产一区二区三区免费| 六月婷婷久久| 先锋成人av| 欧美色图12p| 久久无码人妻精品一区二区三区| 欧美自拍偷拍| 91精品国产91久久久久久| 一女二男一黄一片| 久久久三级国产网站| 无码人妻精品一区二区蜜桃百度| 欧美成人精品一区二区男人小说| 91精品一区二区三区在线观看| 又大又长粗又爽又黄少妇视频| 国产精品一在线观看| 欧美激情精品久久久久久大尺度 | 欧美午夜理伦三级在线观看| 91丝袜超薄交口足| 精品久久视频| 97超碰国产精品女人人人爽| 91影院在线播放| 久久女同互慰一区二区三区| 欧美一二三不卡| 国产伊人久久| 亚洲天堂免费在线| 国产一级aa大片毛片| 精品影视av免费| 日韩精品成人一区二区在线观看| 白白色在线观看| 日韩一区二区三区免费看 | 欧美+亚洲+精品+三区| 国产精品视频成人| 黄色片免费在线| 精品美女久久久久久免费| 免费高清视频在线观看| 欧美丰满日韩| 国产欧美一区二区白浆黑人| 男操女在线观看| 欧美丝袜一区二区三区| 国产又黄又粗又猛又爽的视频| 你懂的视频一区二区| 国产欧美精品一区二区三区-老狼| 青青草在线视频免费观看| 五月激情综合婷婷| 欧类av怡春院| 亚洲狼人精品一区二区三区| 高清不卡日本v二区在线| 午夜小视频福利在线观看| 欧美精品丝袜中出| 99热在线观看精品| 久久成人综合网| 正在播放一区| 欧美日韩黄色| 欧美大秀在线观看| 人妻va精品va欧美va| 亚洲电影一级黄| 日b视频在线观看| 一本久道久久综合狠狠爱| 国产女人水真多18毛片18精品| 黄色美女视频在线观看| 亚洲福利在线看| 天天综合网久久综合网| 久久―日本道色综合久久| 免费在线观看毛片网站| 俺要去色综合狠狠| 成人午夜小视频| 国产桃色电影在线播放| 亚洲第一区第一页| 国产一级18片视频| 国产人成一区二区三区影院| 污色网站在线观看| 欧美在线网站| 久久久久久久久一区二区| 日韩制服一区| 精品中文字幕视频| 午夜成人鲁丝片午夜精品| 色国产综合视频| 久久日免费视频| 国产精品一区二区在线播放| 日韩一级性生活片| 国产一区二区在线| 成人黄色av网站| 久草免费在线视频| 色爱av美腿丝袜综合粉嫩av| www.国产麻豆| 色视频成人在线观看免| 欧美三级 欧美一级| 91亚洲男人天堂| 污污动漫在线观看| 国产精品jizz在线观看美国| 蜜桃视频日韩| 国内不卡的一区二区三区中文字幕| 久久久免费av| 3d成人动漫在线| 亚洲福利视频网| 91在线精品入口| 欧美日韩黄色大片| 麻豆明星ai换脸视频| 99精品国产99久久久久久白柏| 五月天激情视频在线观看| 亚洲国产一成人久久精品| 国产精品区一区二区三在线播放| 亚洲mmav| 91精品国产沙发| av网站网址在线观看| 亚洲午夜精品久久久久久性色 | 俺去亚洲欧洲欧美日韩| 日中文字幕在线| 欧美精品日韩一区| 国产免费av一区| 亚洲一区二区精品视频| 战狼4完整免费观看在线播放版| 成人av在线一区二区三区| 欧美大片久久久| 美女精品网站| 日韩 欧美 视频| 91超碰国产精品| 色一情一乱一伦一区二区三区丨| 欧美大胆视频| 91久久精品视频| 97久久网站| 清纯唯美日韩制服另类| 91www在线| 欧美成人午夜视频| 巨大荫蒂视频欧美大片| 中文字幕精品—区二区| 男生女生差差差的视频在线观看| 精品国产一区二区三区四区四 | 欧美成人aaaaⅴ片在线看| 亚洲人成小说网站色在线 | 亚洲精品免费一区亚洲精品免费精品一区 | 国产精品视频免费观看www| 国产直播在线| 久久久久久999| 日本电影在线观看| 久热爱精品视频线路一| 香蕉视频网站在线观看| 在线视频欧美性高潮| 美女欧美视频在线观看免费 | 免费福利在线观看| 亚洲国产精品高清久久久| 亚洲精品视频专区| 日韩精品在线网站| 国产高清免费av| 日韩欧美一级精品久久| 国产视频在线免费观看| 91精品国产乱| 国产a级免费视频| 欧美一区二区三区啪啪| 国产特级aaaaaa大片| 欧美一区二区三区免费观看视频| 国产美女明星三级做爰| 欧美二区在线观看| 中文字幕欧美在线观看| 欧美人狂配大交3d怪物一区| 国产又粗又大又爽视频| 欧美精品视频www在线观看| 国产特级黄色片| 欧美r级电影在线观看| 欧美性受xxxx狂喷水| 精品五月天久久| 成人在线播放视频| 日韩性生活视频| 天堂亚洲精品| 欧美一级大片视频| 日韩高清不卡| 成人免费看吃奶视频网站| 亚洲一区av| 国产精品久久久久久久天堂第1集| 福利片一区二区| 久久亚洲一区二区| 91视频综合| youjizz.com在线观看| 国产视频久久| 久久撸在线视频| 成人网在线播放| 亚洲一区二区在线免费| 久久精品人人做人人爽人人| 91香蕉视频污在线观看| 亚洲免费三区一区二区| 日韩网红少妇无码视频香港| 色综合中文字幕国产| 国产精品久久久午夜夜伦鲁鲁| 精品免费日韩av| 黄色大片在线免费观看| 在线精品国产成人综合| 中文字幕伦理免费在线视频 | 精品国产鲁一鲁****| 狠狠色综合一区二区| 区一区二视频| 欧美视频免费看欧美视频| 奇米色一区二区| 催眠调教后宫乱淫校园| 中文字幕欧美国产| 日韩xxx高潮hd| 7777女厕盗摄久久久| 日本私人网站在线观看| 欧美猛交ⅹxxx乱大交视频| 亚洲www免费| 99视频免费观看蜜桃视频| 久久99国产精品视频| 欧美一级爱爱视频| 免费在线看一区| 中文文字幕文字幕高清| 1000精品久久久久久久久| 伊人手机在线视频| 欧美xxxx在线观看| 求av网址在线观看| 国产极品精品在线观看| 国产精品毛片久久久| 一本一道久久a久久精品综合| 国产日韩欧美| 日本黄色大片在线观看| 中文字幕亚洲精品在线观看| 青草视频在线观看免费| 精品日韩在线一区| 国产一二区在线| 国产男人精品视频| 欧美禁忌电影| heyzo国产| 波多野结衣精品在线| 午夜写真片福利电影网| 欧美日韩一区国产| 黄色小视频在线免费观看| 午夜精品久久久久久久男人的天堂| 999色成人| 一卡二卡3卡四卡高清精品视频| 久久激情一区| 中文字幕在线免费看线人| 午夜精品久久久久久久久久| www.久久成人| 欧美精品情趣视频| 秋霞影院一区| 男女爱爱视频网站| 国产真实乱对白精彩久久| 激情高潮到大叫狂喷水| 欧美亚洲动漫精品| 成人影院免费观看| 国产精品美女www爽爽爽视频| 国产成人一区二区三区影院| 欧美一级在线看| 久久在线观看免费| 台湾佬中文在线| 国产午夜精品全部视频在线播放| 日韩pacopacomama| 天天人人精品| 久久精品国产在热久久| 亚洲一区电影在线观看| 69堂精品视频| 欧美大胆的人体xxxx| 国产一区二区三区无遮挡| 亚洲精品色图| 大黑人交xxx极品hd| 91国产成人在线| 91精彩在线视频| 91久久久精品| 欧美1级日本1级| 漂亮人妻被黑人久久精品| 精品免费在线视频| 成年女人的天堂在线| 91精品国产综合久久香蕉最新版 | 18禁一区二区三区| 亚洲午夜精品久久久久久久久| 亚洲精品国产精品国| 97成人精品区在线播放| 欧美色蜜桃97| 少妇愉情理伦片bd| 精品国产乱码久久久久久天美 | 国产日韩亚洲欧美| 综合一区在线| 黄色污在线观看| 欧美又粗又大又爽| 午夜伦理大片视频在线观看| 精品国产免费久久久久久尖叫| 久久一区国产| 卡通动漫亚洲综合| 亚洲精品久久久久久久久| 欧美xxx视频| 日本一二三区视频在线| av中文字幕一区| 一区二区视频网站| 欧美激情在线观看视频| 国产精品最新| 亚洲国产精品狼友在线观看| 一本色道久久综合狠狠躁的推荐| 欧美r级在线| 免费成人深夜夜行视频| 激情综合五月婷婷| 国产一区二区99| 久久精品视频一| 亚洲人成网站77777在线观看| 中文字幕永久有效| 精品久久久久久久久久久| 国产在线一区二区视频| 欧美福利精品| 丁香六月综合激情| 一二区在线观看| 欧美一级视频免费在线观看| 香蕉久久网站|