精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

想糾正LMM犯錯?沒用!NUS華人團隊:最強o1反饋修正率不到50%

人工智能
LMM在人類反饋下表現(xiàn)如何?新加坡國立大學(xué)華人團隊提出InterFeedback框架,結(jié)果顯示,最先進(jìn)的LMM通過人類反饋糾正結(jié)果的比例不到50%!

大規(guī)模多模態(tài)模型(Large Multimodal Models,LMM)在人類反饋下的表現(xiàn)如何?

這一問題對于利用LMM開發(fā)通用AI助手至關(guān)重要,現(xiàn)有的基準(zhǔn)測試并未針對LMM與人類的交互智能進(jìn)行測試。

來自新加坡國立大學(xué)的華人團隊提出了InterFeedback,一個可應(yīng)用任何LMM和數(shù)據(jù)集的交互式框架。

圖片

論文鏈接:https://arxiv.org/abs/2502.15027

在此基礎(chǔ)上,團隊引入了InterFeedback-Bench,用兩個具有代表性的數(shù)據(jù)集(MMMU-Pro和MathVerse)來評估交互智能,并對10種不同的LMM進(jìn)行測試。

InterFeedback-Bench旨在全面評估LMM:

1)交互式解決問題的能力;

2)解釋反饋以提升自身的能力。

評估結(jié)果表明,最先進(jìn)的LMM通過人類反饋糾正結(jié)果的比例不到50%!

交互式過程可提升大多數(shù)LMM解決難題的性能,現(xiàn)有LMM在解釋和整合反饋方面表現(xiàn)欠佳。進(jìn)行額外迭代不一定能得出正確的解決方案,高質(zhì)量反饋至關(guān)重要。

人類在解決問題時,具有很強的適應(yīng)性,能夠從反饋中不斷學(xué)習(xí)完善。同樣,先進(jìn)的LMM也應(yīng)該能從反饋中學(xué)習(xí),提高解決問題的能力。

圖片

評估LMM交互智能的關(guān)鍵挑戰(zhàn)在于自動模型測試,不同模型對相同查詢的響應(yīng)不同,需要人類在每個對話輪次中提供定制化反饋。

InterFeedback框架設(shè)計原理

研究人員提出了InterFeedback,這是一個基于交互式問題解決的框架,通過GPT-4o等模型模擬人類反饋,讓LMM在動態(tài)的交互環(huán)境中進(jìn)行測試和學(xué)習(xí)。

InterFeedback-Bench將帶有反饋的交互式問題解決過程,變成了一種數(shù)學(xué)模型,叫部分可觀測馬爾可夫決策過程(POMDP)。

通過狀態(tài)空間、觀測值、動作空間、轉(zhuǎn)移函數(shù)和獎勵函數(shù)等要素,精確地描述模型在交互過程中的行為和決策。

在實際應(yīng)用中,當(dāng)給定自然語言問題和輸入圖像時,模型基于當(dāng)前狀態(tài)獲取觀測值,生成自然語言回復(fù)。獎勵函數(shù)通過精確匹配的方式判斷任務(wù)的正確性,為模型提供反饋信號。

數(shù)據(jù)集構(gòu)建

InterFeedback-Bench采用了兩個有挑戰(zhàn)性的數(shù)據(jù)集:MathVerse和MMMU-Pro。

MathVerse是一個視覺數(shù)學(xué)問題數(shù)據(jù)集,其中包含了各種需要結(jié)合圖像和數(shù)學(xué)知識才能解決的問題。

MMMU-Pro則是綜合性的多模態(tài)基準(zhǔn)測試,涵蓋了多個領(lǐng)域的專家級問題,包括科學(xué)、技術(shù)、工程和數(shù)學(xué)等。

圖片

通過巧妙地利用LMM(例如GPT-4o)來模擬人機交互,構(gòu)建出具有針對性的測試數(shù)據(jù)集。

具體而言,通過選擇反饋提供模型M_p答對,而反饋接收模型M_r答錯的交集,確保反饋的相關(guān)性和可靠性。

InterFeedback框架

InterFeedback框架有兩個角色:反饋接收者M(jìn)_r和反饋提供者M(jìn)_p。

M_r是準(zhǔn)備接受基準(zhǔn)測試的LMM,如Qwen2-VL,M_p是當(dāng)前最優(yōu)的LMM,如GPT-4o,用于在每個時間步代替人類提供反饋。

圖片

當(dāng)M_r模型生成輸出后,M_p會根據(jù)映射策略提供反饋,模型則根據(jù)反饋進(jìn)行改進(jìn),如此循環(huán),直到得到正確答案或達(dá)到預(yù)設(shè)的迭代次數(shù)。

在這個過程中,M_r根據(jù)當(dāng)前的狀態(tài)和觀測信息,生成相應(yīng)的動作。M_p則根據(jù)模型的回答,提供反饋信息,幫助模型改進(jìn)自己的回答。

基于InterFeedback框架,團隊構(gòu)建了InterFeedback-Bench基準(zhǔn)測試。這個基準(zhǔn)測試旨在全面評估LMM交互式問題解決和反饋學(xué)習(xí)的能力。

人類評估基準(zhǔn)測試

除了自動基準(zhǔn)測試,研究團隊還收集了InterFeedback-Human數(shù)據(jù)集,用于人工評估閉源模型。

與自動基準(zhǔn)測試不同,InterFeedback-Human數(shù)據(jù)集的評估過程更注重人類的參與和反饋。用戶根據(jù)模型的回答,提供詳細(xì)的反饋信息,包括問題的分析、正確的思路和答案等。

通過這種方式,可以更深入地了解模型在實際人機交互中的表現(xiàn),以及它們理解和處理人類反饋的能力。

實驗結(jié)果與分析

研究人員設(shè)計了一系列實驗,在MathVerse和MMMU-Pro兩個具有代表性的數(shù)據(jù)集上,對多個開源LMM進(jìn)行了全面評估。

用準(zhǔn)確率和糾錯率來評估結(jié)果,糾錯率定義為所有錯誤樣本中被糾正答案的樣本所占的百分比。N表示樣本總數(shù),N_e表示錯誤樣本的數(shù)量,N_c表示已被糾正的樣本數(shù)量。

準(zhǔn)確率和糾錯率可以用以下公式表示:

圖片

交互過程能提高性能

實驗結(jié)果表明,交互式過程對大多數(shù)LMM的性能提升有顯著的促進(jìn)作用。

InterFeedback框架能使大多數(shù)模型從GPT-4o和Claude-3.5-Sonnet等提供的反饋中受益。

例如,即使是性能較弱的Fuyu-8B模型,通過GPT-4o的反饋也能糾正24.1%的錯誤樣本。這表明交互過程可以有效提高大多數(shù)LMM解決問題的能力。

圖片

圖片

難以通過反饋提升性能

盡管有先進(jìn)模型提供的反饋,但大多數(shù)LMM仍難以糾正所有錯誤樣本。

以Qwen2-VL-7B和Molmo為例,Qwen2-VL-7B在MathVerse數(shù)據(jù)集上使用GPT-4o的反饋時,糾錯率為66.8%,但在MMMU-Pro數(shù)據(jù)集上僅為50.4%。

Molmo-7B在MathVerse和MMMU-Pro數(shù)據(jù)集上的糾錯率分別為55.1%和51.7%,其余模型的糾錯率普遍低于50%。

即使有LMM提供的反饋,當(dāng)前的模型在通過反饋提升自身性能方面仍存在較大困難。

準(zhǔn)確率可能無法反映模型能力

實驗發(fā)現(xiàn),準(zhǔn)確率可能無法真實、全面地反映模型的實際能力。

圖片

例如,InternVL2-8B的準(zhǔn)確率較高(38.1%),但其糾錯率僅為49.6%。而準(zhǔn)確率較低(22.5%)的Qwen2-VL-7B在使用GPT-4o的反饋時,卻達(dá)到了最高的糾錯率66.8%。

在MMMU-Pro數(shù)據(jù)集上也有類似情況,LLaVA-OneVision-7B的準(zhǔn)確率排名第二(47.1%),但其糾錯率僅為 31.7%,低于幾個準(zhǔn)確率較低的模型。

這表明僅通過準(zhǔn)確率評估模型,可能無法全面體現(xiàn)其真實能力。

反饋質(zhì)量至關(guān)重要

令人驚訝的是,所有模型都能從簡單的二元(0/1)反饋中受益。

同時,研究發(fā)現(xiàn)反饋質(zhì)量至關(guān)重要,低質(zhì)量反饋對性能的損害比簡單的二元反饋更大。

在MathVerse數(shù)據(jù)集上,對于一些模型,使用次優(yōu)模型(Gemini-1.5-Flash)提供的簡單二元反饋,其效果優(yōu)于LMM生成的詳細(xì)反饋。

人工基準(zhǔn)測試的分析

在對OpenAI-o1、GPT-4o、Gemini-2.0和Claude-3.5-Sonnet等閉源模型的人工評估中,Claude-3.5的平均準(zhǔn)確率最高,達(dá)到了48.3%。

圖片

從糾正率結(jié)果分析來看,不同模型從人類反饋中獲益的輪次和程度存在明顯差異。

GPT-4o在第一輪反饋中能夠糾正41.9%的錯誤樣本,顯示出其對人類反饋的快速響應(yīng)和學(xué)習(xí)能力。

Claude-3.5則在第二輪反饋中展現(xiàn)出強大的糾正性能,成功糾正了30.6%的錯誤樣本。在第三輪,由于提供了真實答案,所有LMM都能夠給出選擇正確答案的推理步驟。

圖片

此外,不同任務(wù)類別中被糾正樣本的分布也有所不同。

視覺邏輯任務(wù)大多在前兩輪就能夠得到有效解決,而純文本數(shù)學(xué)任務(wù)和MMMU-Pro任務(wù)在前兩輪的糾正相對較少。

相比之下,純文本編碼任務(wù)和MathVerse任務(wù)在前兩輪也出現(xiàn)了一定比例的糾正,說明模型在這些領(lǐng)域具有一定的學(xué)習(xí)和改進(jìn)能力。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-01-08 13:08:55

2023-04-24 16:25:47

3D開發(fā)

2024-09-23 09:20:00

2024-10-18 13:01:24

2024-09-13 09:26:17

2024-11-07 15:40:00

2025-04-18 09:13:00

2024-09-24 11:01:03

2025-01-20 09:28:00

AI工具模型

2024-12-12 11:29:51

2024-10-08 08:35:00

模型訓(xùn)練

2024-10-14 13:40:00

2024-09-13 10:14:36

2024-09-29 13:40:00

2024-10-05 12:00:00

2024-10-05 15:30:00

LLM模型推理

2024-09-18 10:37:00

強化學(xué)習(xí)AI模型

2024-09-14 12:51:04

2024-10-06 13:40:00

AI模型

2024-10-05 00:00:00

點贊
收藏

51CTO技術(shù)棧公眾號

九九综合久久| 美女的胸无遮挡在线观看| 高清电影一区| 久久久久高清精品| 成人国产精品日本在线| 九九热精彩视频| 日韩精选在线| 欧美日韩日日骚| 免费人成自慰网站| 在线视频1卡二卡三卡| 久久久久免费av| 亚洲精品国产综合区久久久久久久| 99草草国产熟女视频在线| 快射视频在线观看| 91一区二区在线| 成人激情电影一区二区| 日本va欧美va国产激情| 亚洲影视一区| 亚洲视频综合网| www国产精品内射老熟女| 成人影视在线播放| 成人精品电影在线观看| 国产日韩欧美在线视频观看| 国产又色又爽又黄的| 欧美激情偷拍自拍| 亚洲欧美日韩一区在线| 亚洲午夜无码av毛片久久| 欧美私人网站| 国产午夜精品久久久久久免费视| 91九色极品视频| 制服丝袜在线一区| 国产日韩视频| 欧美日韩成人免费| 欧美另类69xxxx| 亚洲老女人视频免费| 日韩欧美一区在线| 午夜啪啪小视频| 新片速递亚洲合集欧美合集| 亚洲成av人片www| www亚洲国产| 精品久久国产视频| 美女免费视频一区| 国产精品99久久久久久人| 粉嫩aⅴ一区二区三区| 欧美精品18| 久久99国产精品自在自在app| 国产精品无码无卡无需播放器| 亚洲专区视频| 亚洲精品视频二区| 国产黑丝在线观看| 久久电影在线| 日韩成人在线视频网站| 香蕉视频免费网站| 97se亚洲| 亚洲高清免费观看高清完整版| 日韩精品xxx| 97久久超碰| 亚洲成人亚洲激情| 欧美一区二区免费在线观看| a看欧美黄色女同性恋| 精品日韩在线观看| 日本不卡视频一区| 理论片一区二区在线| 亚洲国产成人精品久久久国产成人一区 | 久久精品视频91| 欧洲av不卡| 欧美日韩在线精品一区二区三区激情综合| 久久综合九色综合欧美98| 精品国产乱码久久久久久久软件 | 手机免费av片| 国产精品视频一区二区三区综合| 欧美日韩激情一区二区| 亚洲第一色av| 高清日韩中文字幕| 国产丝袜一区二区三区| 人妻一区二区视频| 97精品中文字幕| 久久人人爽人人爽爽久久| 青青草原在线免费观看| 极品日韩av| 日本一区二区三区四区视频| 天堂av免费在线观看| 免费在线一区观看| 99国产高清| 色视频精品视频在线观看| 国产亚洲欧美一级| 三年中文高清在线观看第6集| 在线欧美三级| 欧美视频在线免费看| 国产视频1区2区3区| 精品国产第一国产综合精品| 欧美香蕉大胸在线视频观看| 丁香婷婷激情网| 电影91久久久| 国产偷国产偷亚洲清高网站 | 亚洲欧美激情视频在线观看一区二区三区| 成人9ⅰ免费影视网站| 全部免费毛片在线播放一个| 久久久久久久综合色一本| 热这里只有精品| 日韩大片免费观看| 欧美日韩二区三区| bl动漫在线观看| 97国产精品| 777午夜精品福利在线观看| 91高清免费观看| 欧美岛国激情| 午夜精品久久久久久久99黑人| 久久久久亚洲视频| 成人精品小蝌蚪| 一本久道久久综合狠狠爱亚洲精品| 色婷婷在线播放| 欧美性受xxxx| 中文字幕日韩三级片| 亚洲一本二本| 国产精品久久久久久av| 可以免费观看的毛片| 国产精品久久久久久久久快鸭| 色综合久久久久无码专区| 999精品嫩草久久久久久99| 亚洲男人的天堂在线播放| 久久免费精彩视频| 另类小说欧美激情| 日本一区二区在线视频观看| 91jq激情在线观看| 欧美一二区视频| 99久久99久久精品免费看小说.| 国产精品美女久久久| caoporen国产精品| 国产视频在线播放| 欧美日韩一区二区三区高清| 精品成人av一区二区三区| 亚洲欧美一级二级三级| 国产综合久久久久久| 国产永久免费高清在线观看 | 97国产精品久久久| 久久精品国产久精国产| 欧美极品日韩| 色戒汤唯在线观看| 亚洲成人黄色在线观看| 久久久精品一区二区涩爱| 精品无人码麻豆乱码1区2区| 亚洲国产激情一区二区三区| 久久人体大尺度| 亚洲精品中文字幕有码专区| 亚洲男人的天堂在线视频| 成人av免费在线| 国产a级片网站| 日韩电影免费观| 亚洲精品久久7777777| 久久一级黄色片| 国产91精品精华液一区二区三区 | 超碰97国产精品人人cao| 日韩欧美电影一二三| 国产精品白嫩白嫩大学美女| 国产专区综合网| 欧美一级特黄aaaaaa在线看片| 久久爱www.| 欧美激情亚洲精品| 国产精品视频一区在线观看| av激情综合网| 欧美精品一区免费| 蜜桃一区二区| 国产精品日日摸夜夜添夜夜av| 国产农村妇女毛片精品| 亚洲欧美视频一区| 黄色片视频在线免费观看| 色婷婷久久久| 国产精品扒开腿做爽爽爽的视频| av在线女优影院| 欧美日韩国产成人在线免费| 午夜成人亚洲理伦片在线观看| 久久国产视频网| 日本aa在线观看| 欧美男男freegayvideosroom| 欧美在线观看视频| 电影在线高清| 欧美一二三在线| 日韩精品视频免费播放| 国产自产高清不卡| 国产一级不卡视频| 欧美精品中文| 国产日韩av在线| 色婷婷在线播放| 亚洲视频一区二区| 99国产精品99| 欧美视频免费在线| 永久免费看片直接| 成人av在线播放网址| 国产福利一区视频| 欧美99在线视频观看| 免费成人深夜夜行视频| 88xx成人网| 欧美二区在线播放| 国产三级在线| 欧美一区二区视频在线观看2022 | 久久av网址| 亚洲a成v人在线观看| 欧美办公室脚交xxxx| x99av成人免费| 婷婷综合激情网| 亚洲国产一区二区在线播放| 欧美成人国产精品一区二区| 国产成人在线视频网址| 日韩欧美xxxx| 激情综合激情| 手机在线视频你懂的| 亚洲国产网址| 亚洲一区制服诱惑| 久久99久久99精品免观看软件| 欧美大片免费观看在线观看网站推荐| 国自产拍在线网站网址视频| 日韩欧美久久久| 日韩乱码一区二区三区| 婷婷开心久久网| 最近日本中文字幕| 国产一区二区导航在线播放| 国产黄色特级片| 激情亚洲网站| 中文字幕在线中文| 成人羞羞视频播放网站| 国产精品爽爽爽| 偷拍自拍在线看| 欧美激情精品久久久久久| 在线免费看黄| 中文在线不卡视频| 国产精品无码在线播放| 91官网在线观看| 免费视频久久久| 欧美日韩精品二区| 久久免费视频6| 亚洲女女做受ⅹxx高潮| 91麻豆精品久久毛片一级| 国产人伦精品一区二区| 色婷婷一区二区三区av免费看| 亚洲一区中文| 欧美极品欧美精品欧美| 激情国产一区| 欧日韩免费视频| 亚洲天堂男人| 欧美精品二区三区四区免费看视频| 亚洲精品黑牛一区二区三区| 91系列在线播放| 日日夜夜综合| 成人性生交大片免费观看嘿嘿视频| 日本国产欧美| 国产精品视频免费观看www| 亚洲www啪成人一区二区| 日韩av手机在线看| 台湾佬中文娱乐久久久| 日本亚洲精品在线观看| 精品欧美一区二区三区在线观看| 国产mv免费观看入口亚洲| 卡通欧美亚洲| 国产精品视频不卡| 亚洲成人a级片| 96国产粉嫩美女| 中文字幕一区二区三区四区久久| 国产精品视频免费观看| 国偷自产av一区二区三区| 精品伦精品一区二区三区视频| 天海翼亚洲一区二区三区| 青青成人在线| 天天超碰亚洲| 精品成在人线av无码免费看| 国产日韩一区| 色片在线免费观看| 国产一区二区不卡| 午夜免费福利影院| 国产三级一区二区| 精品国产国产综合精品| 一区二区三区中文字幕电影| 久久一级黄色片| 日韩欧美国产成人| 91久久精品无码一区二区| 日韩午夜精品视频| 无码国精品一区二区免费蜜桃| 亚洲欧美精品中文字幕在线| 日本在线观看www| 欧美激情网站在线观看| 免费看av不卡| 91色视频在线观看| 麻豆精品av| 一本色道久久综合亚洲二区三区| 欧美大片一区| 欧洲熟妇精品视频| 国产另类ts人妖一区二区| 中文在线一区二区三区| 国产精品青草久久| 久久久久久久久久久久久久免费看| 欧美日韩亚洲天堂| 国产三级在线观看视频| 亚洲男人天堂网| 国产在线观看免费麻豆| 欧美在线国产精品| 成人黄色91| 欧美动漫一区二区| 中文字幕一区二区三区久久网站| 亚洲熟女乱色一区二区三区| 精品夜夜嗨av一区二区三区| 丰满大乳奶做爰ⅹxx视频| 亚洲欧美一区二区视频| 一级免费在线观看| 91精品欧美久久久久久动漫 | 久久精品免费电影| 天堂中文最新版在线中文| 91久久精品www人人做人人爽| 精品国产一区二区三区香蕉沈先生| 国产精品久久亚洲7777| 欧美日韩水蜜桃| 浮妇高潮喷白浆视频| 国产乱码精品一区二区三| 超碰人人干人人| 欧美视频免费在线| 日韩一级免费毛片| 美日韩精品视频免费看| 8av国产精品爽爽ⅴa在线观看| 国产精品久久久久久久久男| 成人香蕉社区| 永久免费网站视频在线观看| 免播放器亚洲一区| 中文幕无线码中文字蜜桃| 亚洲国产欧美在线| 在线观看精品国产| 日韩一区二区三区免费看| 在线a人片免费观看视频| 欧美与欧洲交xxxx免费观看| 林ゆな中文字幕一区二区| 日韩精品在线视频免费观看| 国产大陆a不卡| 免费三级在线观看| 777a∨成人精品桃花网| 国产福利免费在线观看| 热久久免费国产视频| 偷窥自拍亚洲色图精选| 青青草精品视频在线| 国产成人免费视频精品含羞草妖精| 娇小11一12╳yⅹ╳毛片| 欧美日韩中文另类| 成人免费黄色网页| 国产精品ⅴa在线观看h| 精品免费av| 91精品无人成人www| 国产亚洲一区二区在线观看| 日批视频免费在线观看| 亚洲欧美日韩图片| 日韩欧美一区二区三区免费观看| 蜜桃视频成人| 日韩国产成人精品| 色婷婷国产精品免| 欧美精品在线一区二区三区| 欧美激情二区| 91精品中国老女人| 欧美99在线视频观看| 国产国语老龄妇女a片| 亚洲成人免费影院| 亚洲日本在线播放| 日韩美女视频中文字幕| 欧美日韩一区二区综合| 国产无遮挡猛进猛出免费软件| 国产精品久久久久久久久果冻传媒| 91麻豆成人精品国产| 欧美激情2020午夜免费观看| 国产成人精品福利| 欧美亚洲一二三区| 国产婷婷色一区二区三区在线| 综合久久中文字幕| 久久天天躁狠狠躁夜夜av| 日本欧美日韩| 少妇免费毛片久久久久久久久| 久久精品国产99国产精品| 中文字幕在线2021| 日韩成人小视频| 国产成人精品一区二区三区在线| 一区二区视频在线免费| 国产91露脸合集magnet| 天码人妻一区二区三区在线看 | 国产激情在线免费观看| 欧美日韩一区三区| 性直播体位视频在线观看| 久久久久久一区| 久久av老司机精品网站导航| 国产一级免费av| 亚洲人a成www在线影院| 成人在线分类| 午夜肉伦伦影院| 国产精品不卡一区| 好吊视频一二三区| 国产精品福利片| 国产综合亚洲精品一区二| 国产又粗又猛又爽又黄av| 欧美一级爆毛片| 免费欧美电影| 国产1区2区3区中文字幕| 久久综合九色综合欧美98| h片在线免费看| 日本午夜在线亚洲.国产| 欧美午夜不卡| www色com| 日韩经典中文字幕在线观看|