精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿

發布于 2025-3-3 09:54
瀏覽
0收藏

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

論文:https://arxiv.org/pdf/2502.09621
主頁:https://mmecot.github.io
代碼:https://github.com/CaraJ7/MME-CoT
數據集:https://huggingface.co/datasets/CaraJ/MME-CoT

亮點直擊

  • 精心策劃了 MME-CoT 基準,涵蓋了六種多模態推理場景的綜合范圍。數據收集和標注過程經過嚴格的人為驗證,旨在為社區提供高質量的多模態推理評估數據集。
  • 識別了現有基準中的關鍵問題,并引入了專門針對多模態 CoT 推理的全面評估套件,該套件仔細檢查了推理的質量、魯棒性和效率。
  • 對具有推理能力的最先進的多模態模型進行了廣泛的實驗和分析。總結了我們的觀察和見解,希望能激發未來在推理性能方面的進步。

背景

大語言模型(LLMs)中鏈式思維(Chain-of-Thought, CoT)的出現展示了超強的推理能力,這一點在最近的OpenAI o1和DeepSeek-R1中都得到了充分體現。然而,這一能力能多大程度地幫助視覺推理,并且我們又應該如何細粒度地評估視覺推理呢?


為此,來自港中文MMLab的研究者們提出了MME-CoT。這是一個全面且專門用于評估LMMs中視覺推理能力的Benchmark,包括了數學、科學、OCR、邏輯、時空和通用場景。MME-CoT與之前的LMM的Benchmark最大的區別在于,提出了一個嚴格且多方面的評估框架,細粒度地研究視覺CoT的不同方面,評估其推理的質量、魯棒性和效率。

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

各種最新推出的LMM,包括Kimi k1.5, GPT-4o, QVQ等等都在MME-CoT上進行了測試。同時,研究者們還把圖片轉成caption之后測試了最近爆火的DeepSeek-R1以及o3-mini。

根據實驗結果,文章中得到了如下有價值的結論:

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

  1. CoT質量:Kimi k1.5 > DeepSeek-R1 >> o3-mini CoT魯棒性:o3-mini > Kimi k1.5 > DeepSeek-R1 CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1 值得一提的是,DeepSeek-R1的文本推理能力非常出眾。僅僅使用圖片的caption就可以在precision上超過真實看到圖片的GPT-4o。最后的CoT質量也與GPT-4o僅有1.9%之差。
  2. 其次,反思能力的引入顯著提升了CoT質量,所有具備反思能力的LMM都實現了較高的CoT質量表現。例如QVQ達到了62.0%的F1分數,大幅超過Qwen2-VL-72B 6.8%。而Kimi k1.5更是超越GPT-4o達到最佳質量。
  3. 在魯棒性方面,我們發現大多數早期模型在感知任務中都受到CoT的負面影響,表現出有害的過度思考行為,其中最顯著的案例是InternVL2.5-8B,在感知任務中應用CoT后性能下降了6.8%,這嚴重制約了將CoT推理作為默認操作的可行性。
  4. 最后,關于CoT效率,我們觀察到輸出長CoT的模型普遍存在步驟的相關性不足的問題。模型容易被圖像內容分散注意力,過度關注圖像而忽視了對題目的解答,尤其是在處理通用場景、時空和OCR任務時。實驗結果顯示,約30%到40%的反思步驟未能有效協助問題解答,這暴露出當前模型反思能力的重要缺陷。

測評指標設計與數據組成

目前絕大多數的LMM的Benchmark都只評估最終答案的正確性,忽視了LMM整個的CoT的推理過程。為了能全面地了解視覺CoT的各個屬性,研究者們提出了三個不同的評估方向,每個方向致力于回答一個關鍵的問題:

CoT的質量:每個CoT步驟是否有用且準確,不存在幻覺?

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

只評估回答的結果忽略了模型通過錯誤的邏輯或隨機猜測得出正確答案的情況。這往往造成了模型推理能力被夸大的假象。為了深入研究推理過程,研究者們引入了兩個可解釋的指標來評估CoT的質量:

  • 召回率 (Recall):評估模型的回答有多少能與正確解題的必要步驟匹配。這個指標是用來量化推理的步驟是否能對于得到正確答案有幫助,以及推理鏈是否完整。匹配的過程由GPT-4o完成。
  • 精確率 (Precision):評估模型回答的每一步的準確程度來考查模型的幻覺以及邏輯的準確性。為了評估這一指標,研究者們首先使用GPT-4o將模型的回復切分成不同類型的步驟:背景知識、圖片描述以及邏輯推理。然后繼續對圖片描述以及邏輯推理步驟判定每步是否正確。

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

CoT的魯棒性:CoT是否干擾感知任務,它在多大程度上增強了推理任務?

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

現有研究主要關注CoT對推理任務帶來的性能改進,卻往往忽視了CoT是否會無意中破壞模型對于僅需要感知的任務的能力。隨著o1以及R1的爆火,CoT逐漸已成為模型的默認的推理策略。然而,模型無法提前預知用戶提出的問題類型,也不確定使用CoT來回答是否比直接給出答案會有更高的準確率。因此,在目前的時間點上,CoT在不同類型任務下的魯棒性變得格外重要。為了衡量魯棒性,MME-CoT包括了兩個任務類別:感知任務和推理任務,以及兩種不同的Prompt形式:要求模型直接回答(answer directly)以及CoT回答(think step by step)。

  • 穩定性 (Stability):檢查CoT是否對模型在感知任務上的表現產生負面影響
  • 有效性 (Efficacy):檢查CoT是否真的幫助模型提高在復雜推理任務上的表現

CoT的效率:使用CoT的推理效率是怎么樣的?

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

最近的o1類模型通過采用超長的CoT和反思步驟而取得了非常好的效果。這提出了一個關鍵的權衡問題:這種方法是否在準確性和計算成本之間取得了最佳平衡?為了研究這一點,研究者們首次對LMMs中CoT的效率進行研究,使用了兩個關鍵指標評估效率:

  • 相關比例 (Relevance Rate):評估模型回答中與解決問題有關的比例。
  • 反思質量 (Reflection Quality):分析每個反思步驟是否更正了推理中的錯誤或者從新的角度驗證了目前結論的正確性。

MME-CoT測試集

與純文本推理問題不同,額外的視覺輸入顯著豐富了視覺推理問題的范圍。有了圖像輸入,模型需要根據當前的推理進度頻繁查看圖像以獲取相關信息。描述感興趣的圖像區域成為了思維鏈(CoT)過程中的關鍵部分。因此,除了需要嚴格邏輯的復雜問題外,通用場景中的許多問題也構成了具有挑戰性的推理問題。


考慮到這一點,MME-CoT測試集構建起了一個覆蓋專業領域與常識場景的全景視覺推理評估體系,共包括6大領域以及17個子類。為了保持對推理過程的關注,研究者們排除了需要復雜領域特定定理或專業知識的問題。


MME-CoT中分為感知任務以及推理任務,現有的Benchmark往往混淆這兩類任務,使得這兩類經常出現在相同類別中。為了解決這個問題,研究者們首先使用GPT-4o以及Qwen2-VL來進行預判,通過對比直接作答與CoT作答的表現差異,初步劃分這兩種不同類型的任務。接著,專業的標注團隊逐題審核,確保分類的準確性。


為了便于CoT的評估,標注團隊為所有推理問題都給出了必要的推理步驟的Ground  Truth標注。對于多解的問題,標注者被要求給出了每種可能的解法。最后,MME-CoT得到了1130道精選的問題以及3865個關鍵步驟標注。

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

實驗分析與結論

研究者們在MME-CoT Benchmark上測評了13個現有的LMM以及2個最先進的具有超強推理能力的LLM:DeepSeek-R1以及o3-mini。對于LLM,研究者們將圖片轉化為詳細的caption之后再輸入到模型。

實驗結果如下:

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

基于測評,還得到了如下的發現與結論:

  • 長CoT不一定涵蓋關鍵步驟

盡管長思維鏈模型具有更高的精確率,但每個步驟的信息量并不能得到保證。我們觀察到GPT-4o、QVQ和Virgo之間的召回率的趨勢和它們最終能否正確解答推理任務的表現(即在使用CoT的prompt時,模型在推理任務的最終答案準確率,對應表格中的CoT Reasoning列)不一致。具體來說,雖然Virgo和QVQ在僅評估最終答案的正確性上都優于GPT-4o,但它們在召回率上落后。這表明長CoT模型有時會在跳過中間步驟的情況下得出正確答案,這與CoT本身奉行的Think step by step的原則相矛盾,值得進一步研究。

  • 更多參數使模型更好地掌握推理能力

我們發現參數量更大的模型往往獲得更高的有效性(Efficacy)分數。這種模式在LLaVA-OV、InternVL2.5-MPO和Qwen2-VL中都很明顯。例如,雖然Qwen2-VL-7B在將CoT應用于推理任務時顯示出4.8%的性能下降,但其更大的對應模型Qwen2-VL-72B展示出2.4%的改進。這種差異表明,在相同的訓練范式下,具有更多參數的模型能夠更好地掌握推理能力。

  • 模型的反思的錯誤涵蓋多種類型

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

四種主要錯誤類型是:

  • 無效反思:模型得出錯誤結論,在反思時,繼續做出錯誤的調整。這是最常見的錯誤類型,也是最頻繁出現的。
  • 不完整:模型提出新的分析方法但未執行它們,僅停留在初始想法階段。模型的反思只是在空想。
  • 重復:模型重述先前的內容或方法,沒有引入新的見解。
  • 干擾:模型最初達到正確結論,但反思卻引入了錯誤。

顛覆認知!多模態模型思維鏈評估白皮書:反思機制成勝負手,感知任務竟被CoT拖后腿-AI.x社區

理解和消除反思中的這些錯誤對于提高LMM的推理效率以及可靠性是至關重要的。


展望未來,MME-CoT不僅為評估LMM的推理能力提供了系統化的基準,更為該領域的研究指明了關鍵發展方向。通過揭示現有模型在推理質量、魯棒性和計算效率等方面的不足,這項工作為后續研究奠定了重要基礎。這些發現將推動LMM實現更強大以及可靠的視覺推理能力。


本文轉自AI生成未來 ,作者:AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/4GeRmjJ3JvwCs--xlCYdFg??


收藏
回復
舉報
回復
相關推薦
九九久久久久99精品| 欧美老年两性高潮| 欧美一区二区影视| 国产深喉视频一区二区| 狠久久av成人天堂| 国产一区二区美女视频| 中文字幕第10页| 日韩影片中文字幕| 亚洲激情中文1区| 欧美黄色直播| 亚洲av永久无码国产精品久久| 亚洲一区一卡| 欧美精品日韩三级| 中文字幕av久久爽一区| 97视频一区| 欧美日韩一级黄| 僵尸世界大战2 在线播放| 日本三级视频在线播放| 99在线精品观看| 91久久国产精品| 欧美性猛交xxxx乱大交hd | 在线观看成人一级片| 日本人妻丰满熟妇久久久久久| 九九**精品视频免费播放| 欧美在线视频免费观看| 久久久久成人网站| 99精品全国免费观看视频软件| 亚洲毛茸茸少妇高潮呻吟| 人妻av一区二区三区| 中文字幕日本一区| 欧美性受xxxx| 免费看a级黄色片| 免费v片在线观看| 艳妇臀荡乳欲伦亚洲一区| 中文字幕在线中文字幕日亚韩一区| 污污视频在线观看网站| 国产99一区视频免费| 91欧美日韩一区| 亚洲视频中文字幕在线观看| 久久中文欧美| 欧美又大又粗又长| 日产电影一区二区三区| 狠狠入ady亚洲精品| 久久6免费高清热精品| 国产精品 欧美激情| 午夜精品久久久久久久四虎美女版| 亚洲视频网站在线观看| 亚洲一区二区三区蜜桃| 视频一区中文| 亚洲一级一级97网| 九九九视频在线观看| 黑丝美女一区二区| 国产一区二区三区高清在线观看| 黄色aaa视频| 精品一二三区| 中文字幕免费精品一区高清| 久久亚洲无码视频| 欧美色图国产精品| 中文字幕亚洲一区二区三区五十路 | 亚洲欧洲在线免费| 精品人妻一区二区三区蜜桃视频| 曰本一区二区三区视频| 国产亚洲美女久久| 九九热久久免费视频| 天天射天天综合网| 欧美裸体男粗大视频在线观看| 久久99久久久| 亚洲毛片在线| 国产精品第一区| 中文字幕在线2018| 国产乱子伦视频一区二区三区| 97av影视网在线观看| 色婷婷中文字幕| 国产日韩在线不卡| 欧洲美女和动交zoz0z| 亚洲区欧洲区| 色域天天综合网| 手机免费av片| 红杏成人性视频免费看| 亚洲欧洲中文天堂| 国产67194| 亚洲自拍另类| 91久久久久久久久| 色一情一乱一乱一区91av| 久久精品视频在线免费观看| 一个色的综合| 日本不卡免费高清视频在线| 欧美色老头old∨ideo| 极品白嫩少妇无套内谢| 久久最新网址| 欧美日韩国产91| 一级片免费在线播放| 国产一区在线不卡| 免费看成人午夜电影| 国产精品久久麻豆| 懂色av一区二区三区| 婷婷中文字幕在线观看| 久本草在线中文字幕亚洲| 一夜七次郎国产精品亚洲| 欧美黄色免费观看| 久久综合激情| 国产精品久久久久久久久久久久午夜片| 青青青手机在线视频观看| 中文字幕一区二区三区色视频| 日韩成人手机在线| 欧美a一级片| 精品在线观看国产| 福利所第一导航| 蜜臀av一区二区在线观看| 国产精品二区三区| 黄色免费在线观看| 在线观看视频一区二区欧美日韩| 香蕉久久久久久av成人| 欧美mv日韩| 国产v综合v亚洲欧美久久| 韩国av免费在线| 亚洲视频一二三区| 狠狠躁狠狠躁视频专区| 亚洲动漫在线观看| 久久久欧美一区二区| a级片免费视频| 国产精品久久久久久一区二区三区 | 欧美日韩一区二区在线观看视频 | 国产精品毛片久久久久久| 日韩中文字幕三区| 国产精品男女| 欧美激情网友自拍| 国产日韩欧美视频在线观看| 国产精品美女久久久久久久久| 国产主播在线看| 国产精品香蕉| 久久久久久97| 国模私拍视频在线| 亚洲一区二区av电影| 4438x全国最大成人| 亚洲乱码精品| 96pao国产成视频永久免费| 日本黄色片在线观看| 欧美天天综合网| 91麻豆制片厂| 久久99这里只有精品| 亚洲日本精品| 亚洲福利影视| 久久国产精品电影| 日韩不卡视频在线| 久久青草国产手机看片福利盒子| 欧美三级一级片| 要久久爱电视剧全集完整观看| 97视频免费在线看| 日本大臀精品| 欧美最新大片在线看| 女人黄色一级片| 精品在线免费观看| 奇米777四色影视在线看| 亚洲日本va| 午夜精品久久久久久久99热| 天天爽夜夜爽夜夜爽| 一本大道久久a久久精二百| 波多野结衣一本| 免费看欧美美女黄的网站| 一区二区三区欧美在线| 国产精品亚洲四区在线观看| 欧美激情videoshd| 亚洲欧美综合一区二区| 色综合色综合色综合色综合色综合 | 欧美日本三级| 97国产精品人人爽人人做| 色就是色亚洲色图| 欧美视频你懂的| 欧美成人三级在线观看| 成年人网站91| 免费看黄色一级大片| 亚洲欧美综合久久久| 成人欧美一区二区三区黑人免费| 日韩脚交footjobhd| 中文字幕欧美精品在线| va婷婷在线免费观看| 欧美日韩国产影院| 欧日韩不卡视频| 高清免费成人av| 免费在线观看毛片网站| 91精品国产自产拍在线观看蜜| 97神马电影| 欧美日韩五码| 欧美大片网站在线观看| 国产在线视频福利| 日韩一二三四区| 国产一级片毛片| 亚洲欧洲日韩女同| 一女三黑人理论片在线| 久久国内精品自在自线400部| 国产成人在线小视频| 精品高清久久| 国产经典一区二区三区 | 国产一区二区三区久久| 亚洲欧美日韩国产成人综合一二三区| 亚洲不卡视频| 国产精品爽黄69| 理论不卡电影大全神| 久久久av电影| 国模吧精品人体gogo| 精品欧美一区二区三区精品久久| 无码人妻av一区二区三区波多野| 亚洲伦在线观看| 能直接看的av| 91视频com| 日本xxxx免费| 紧缚捆绑精品一区二区| www.日日操| 在线亚洲观看| 777久久精品一区二区三区无码| 国产尤物久久久| 国产高清精品一区二区三区| 国产不卡精品| 国产精品久久视频| 成年美女黄网站色大片不卡| 欧美激情免费看| 福利视频在线| 自拍偷拍免费精品| 久蕉在线视频| 日韩精品中文字幕久久臀| 韩国av免费在线| 日韩免费视频一区二区| 亚洲熟女乱色一区二区三区久久久| 精品成人av一区| 精品人妻在线播放| 一区二区三区四区视频精品免费| 久久成人小视频| 中文av字幕一区| 调教驯服丰满美艳麻麻在线视频| av资源网一区| 国产精品福利导航| 91香蕉视频在线| 亚洲精品女人久久久| 成人污视频在线观看| 日本人妻一区二区三区| 国产酒店精品激情| 日本成人在线免费观看| 国产一区二区中文字幕| 久久综合在线观看| 韩国欧美国产一区| 欧美专区第二页| 国产麻豆精品视频| 无码人妻一区二区三区在线视频| 国产一区视频导航| 欧美xxxx日本和非洲| 国产a视频精品免费观看| 国产精品久久久久野外| 懂色av一区二区三区蜜臀 | 国产精品qvod| 精品中文字幕人| 久久成人av| 亚洲一区二区三区精品在线观看| 日韩极品一区| 神马午夜伦理影院| 国产一区视频在线观看免费| 精品国偷自产一区二区三区| 亚洲成人在线| 日本一区二区黄色| 欧美aaaaa成人免费观看视频| 亚洲欧洲日本精品| 国产精品亚洲人在线观看| 不卡的一区二区| 99精品一区二区| 国产精品久久久久无码av色戒| 欧美国产日本韩| 91杏吧porn蝌蚪| 婷婷成人综合网| 国产99久久久久久免费看| 欧美日韩国产美| 成人免费视频国产| 亚洲欧美一区二区激情| 亚洲成a人v欧美综合天堂麻豆| 欧美xxxx18国产| 亚洲最大网站| 成人欧美一区二区三区在线湿哒哒| 日日夜夜精品视频| 青青草国产精品| 一区二区不卡| 黑人糟蹋人妻hd中文字幕| 久久99国产精品尤物| 香蕉久久久久久av成人| 日本一区二区免费在线 | 伊人久久成人| 午夜dv内射一区二区| 国产激情精品久久久第一区二区| 国产精品无码网站| 亚洲私人影院在线观看| 天堂中文在线网| 欧美一区二区三区在线观看视频 | 日韩中文字幕视频网| 欧美日韩精品中文字幕一区二区| 亚洲国产精品91| 免费观看成人网| 丁香六月综合激情| 精品伦精品一区二区三区视频密桃| 一区二区三区在线观看网站| 久久久久久亚洲av无码专区| 欧美一级免费大片| yw193.com尤物在线| 欧美激情在线一区| 日韩深夜福利网站| 免费国产一区二区| 欧美视频成人| 国产精欧美一区二区三区白种人| 91丨porny丨蝌蚪视频| 国产精品九九九九九九| 在线免费观看日韩欧美| 污视频在线免费观看| 欧美寡妇偷汉性猛交| 少妇高潮一区二区三区99| 欧美日韩国产精品一卡| 136国产福利精品导航网址| 欧洲在线免费视频| 国产精品久久午夜| 亚洲av无码不卡| 亚洲奶大毛多的老太婆| 波多野结衣在线观看| 亚洲free性xxxx护士hd| 99精品视频在线| 91热这里只有精品| 久久久亚洲高清| 精品免费囯产一区二区三区| 亚洲精品一区二区三区香蕉 | 日本高清不卡在线| 欧美a大片欧美片| 男的插女的下面视频| 国产风韵犹存在线视精品| 久久久久久视频| 欧美日韩精品欧美日韩精品| 成年人在线视频免费观看| 欧美在线www| 婷婷亚洲精品| 人妻少妇被粗大爽9797pw| 91麻豆精品一区二区三区| 五月天婷婷网站| 亚洲激情第一页| 女海盗2成人h版中文字幕| 精品日韩美女| 国产视频一区欧美| 亚洲av无码一区二区二三区| 欧美日韩激情美女| 日韩亚洲视频在线观看| 日韩av免费在线看| 国产综合久久久| 亚洲老女人av| 18涩涩午夜精品.www| 99国产精品久久久久99打野战| 久久成人综合视频| 伊色综合久久之综合久久| 精品丰满人妻无套内射| 99麻豆久久久国产精品免费优播| 日韩乱码一区二区| 亚洲美女av网站| 日本成人福利| 三级网在线观看| 岛国一区二区三区| 在线观看亚洲天堂| 国产亚洲精品美女久久久| 亚洲人成网站在线在线观看| 伊人再见免费在线观看高清版| 国产成人精品综合在线观看 | 久久偷看各类wc女厕嘘嘘偷窃 | 蜜桃视频在线免费| 国产精品爽爽爽爽爽爽在线观看| 99精品综合| 国产精九九网站漫画| 日韩欧中文字幕| 尤物网在线观看| 99久久99久久| 久久福利毛片| 2017亚洲天堂| 精品福利一二区| 色8久久影院午夜场| 亚洲第一页在线视频| 成人97人人超碰人人99| 久草视频在线免费| 欧美理论电影在线播放| 秋霞影院一区二区三区| 婷婷六月天在线| 亚洲一区二区视频在线观看| 免费国产在线观看| 91传媒视频免费| 乱人伦精品视频在线观看| 久久国产波多野结衣| 日韩h在线观看| 亚洲成人高清| 亚洲色成人一区二区三区小说| 国产精品久久久99| 天堂在线中文字幕| 成人福利网站在线观看| 午夜在线精品偷拍| 疯狂试爱三2浴室激情视频| 亚洲摸下面视频| 一本色道69色精品综合久久| 我要看一级黄色大片| 亚洲不卡一区二区三区| 免费a级在线播放| 久久久综合香蕉尹人综合网| 高清在线成人网|