精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM又曝致命缺陷:根本不會看時鐘!博士驚呆,準確率不及50%

人工智能 新聞
AI能寫論文、畫圖、考高分,但連「看表讀時間」「今天是星期幾」都錯得離譜?最新研究揭示了背后驚人的認知缺陷,提醒我們:AI很強大,但精確推理還離不開人類。

有些任務對人類來說輕而易舉,但AI頻頻出錯。

比如,單詞「strawberry」中有幾個字母「r」一度難倒一眾頂尖LLM。

最新的研究揭示:看鐘表或日歷,對AI來說也很難。

圖片

圖1:在測試實例中,6款大模型均無法正確讀取指針式時鐘,僅2款能理解日歷

來自英國愛丁堡大學等機構的研究者,揭示了這個令人深思的AI現象。

他們模擬了時鐘和年歷,系統考察了多模態語言大模型(MLLM)解讀時間與日期的能力。

結果令人失望:

AI系統讀取時鐘的準確率僅為38.7%,判斷日歷日期的準確率則只有26.3%。

在ICLR 2025的LLM推理與規劃研討會(ICLR 2025 Workshop on  Reasoning and Planning for LLMs)上,他們展示了這些LLM出人意料的缺陷。

圖片

論文鏈接:https://arxiv.org/abs/2502.05092

為了探究MLLMs處理時間任務的能力,他們我們構建了精確定制的測試集,包含兩個子集:ClockQA和CalendarQA。

ClockQA涵蓋了六類模擬時鐘圖像(含羅馬數字、缺失秒針及不同表盤顏色等變體)及其對應的時間問題;

CalendarQA包含了十年的年歷圖像,問題設置從簡單到復雜:

元旦是星期幾?  

3月15日是星期幾?  

當年的第153天是哪天?

圖片

圖2:DateTimeReasoning任務概覽及其兩個主要子集:ClockQA和CalendarQA

雖然數據集規模較小,但它的設計能有效探測時間推理、視覺解析和日期/時間推斷的核心維度。

初步發現表明:盡管某些模型在時鐘讀時或日歷問答中展現潛力,但根本問題依然存在。

其中,在時鐘讀時中,Gemini-2.0的時分針誤差較低;在日歷問答中,o1模型的準確率最高。

詳細結果

表1總結了各模型在兩個任務中的表現。

ClockQA任務中,Gemini-2.0取得了最高的精確匹配(Exact Match, EM)分數(22.58%)和最小的小時/分鐘誤差,顯示出其在理解時鐘方面相較其他模型更具優勢。

然而,整體的EM分數仍然偏低,說明多模態大語言模型(MLLMs)在讀表任務上依舊存在明顯困難。

相比之下,GPT-o1CalendarQA任務中表現突出,準確率達到80%,展現出其在日期運算和邏輯推理方面的強大能力。其他模型則明顯落后,表明日期計算和結構化布局解析仍然是AI面臨的難點。

整體而言,除了GPT-o1在CalendarQA中的高表現外,其余模型在ClockQA和CalendarQA兩個任務中的總體表現都不理想

表1:各模型在時鐘任務(左)和日歷任務(右)中的表現。↑表示數值越高越好;↓表示數值越低越好

鐘表讀時任務仍容易出錯。

在ClockQA子集中,模型的表現明顯不如日歷類問題(見表1)。

圖4a和圖3a顯示,即使是在標準表盤下,模型的表現仍較差,有些模型甚至傾向于給出某個「默認」時間。

使用羅馬數字或風格化的指針會進一步增加錯誤率。

而去掉秒針后,并沒有簡化模型的推理過程,說明模型在識別指針和理解角度方面存在根本性的問題。

日歷推理分析稍好。

與之相比,部分模型在日歷類任務和某些題型上表現更佳。

GPT-o1在CalendarQA子集中表現尤為突出,總體準確率高達80%(見表1和圖3b)。

圖3:ClockQA與CalendarQA的錯誤分析

圖3(a)中的點表示模型預測的時間(縱軸)與真實時間(橫軸)之間的關系。黑色虛線(y=x)代表理想情況下模型預測完全正確的情況。

圖3(b)展示了各模型按年份的準確率表現。空白柱表示該模型在對應年份的準確率為0%。

像GPT-o1和Claude-3.5等閉源模型,在處理常見節假日的問題上優于開源模型。

這可能是因為訓練數據中包含了這些節日的記憶模式(見圖4b)。

然而,對于一些不太知名或需要復雜計算的問題(例如「第153天」),模型的準確率大幅下降,這說明偏移類推理能力難以遷移。

在這類問題上的表現,小型或開源模型(如MiniCPM、Qwen2-VL-7B和Llama3.2-Vision)幾乎是隨機的,這一點尤為明顯。

圖4:基于問題類型與類別的ClockQA及CalendarQA分析

研究還揭示了另一個問題:當AI在訓練時接觸到的數據有限,特別是面對像閏年或復雜日歷計算這樣的少見現象時,它的表現就會明顯下滑。

盡管大語言模型(LLM)在訓練中接觸過大量關于「閏年」概念的解釋,但這并不意味著它們能夠完成涉及視覺判斷的相關任務所需的推理。

這項研究強調了兩個方面的改進需求:

一是需要在訓練數據中加入更多有針對性的示例;

二是需要重新思考AI如何處理邏輯推理與空間感知相結合的任務,尤其是那些它們平時接觸不多的任務。

盡信AI,不如無AI

AI系統正確讀取時鐘的準確率僅為38.7%,判斷日歷日期的準確率則只有26.3%。

早期的系統通過標注樣本進行訓練,但讀取時鐘需要的是另一種能力——空間推理。

這可能是AI這次表現不佳的原因,論文作者、愛丁堡大學研究人員Rohit Saxena解釋道:

模型必須識別指針重疊、測量角度,還要適應各種不同的表盤設計,比如羅馬數字或藝術化的刻度。

AI要認出「這是個鐘表」相對容易,但真正讀出時間就難多了。

日期判斷同樣令人頭疼。

當被問到日期推理問題時,AI的錯誤率也很高。比如, 「今年的第153天是星期幾?」這類問題。

這個缺陷也令人意外,因為算術本應是計算機的基本能力之一。

但正如Saxena所解釋的那樣,AI處理算術的方式和傳統計算機不同:

算術對傳統計算機來說很簡單,但對大語言模型就不是這樣了。AI并不是運行數學算法,而是根據訓練數據中學到的模式來預測答案。

所以它有時可以答對算術問題,但推理過程既不一致也不基于規則,而我們的研究正是揭示了這個差距。

這項研究是近年來不斷增長的一個研究方向的一部分,聚焦于AI的「理解」方式與人類理解方式之間的差異。

AI模型是通過識別熟悉的模式來得出答案的,當訓練數據中有足夠的示例時,它們表現優秀,但在需要泛化或進行抽象推理時就會失敗。

最重要的是,研究再次提醒我們,過度依賴AI的輸出可能帶來風險。

Saxena表示:「AI的確很強大,但當任務既涉及感知又需要精確推理時,我們仍然需要進行嚴格測試、設置備用邏輯,很多情況下還必須有人類介入。」

另一名作者、愛丁堡大學博士生Aryo Pradipta Gema,則表示如今的AI研究往往強調復雜的推理任務,但具有諷刺意味的是,很多系統在應對更簡單的日常任務時仍顯吃力。

我們的研究發現表明,現在已經到了必須解決這些基礎能力缺陷的時候了。否則,AI在那些對時間敏感的現實應用中,可能始終難以真正落地。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-11-18 09:30:00

2025-07-21 09:05:00

模型AI芯片

2023-11-20 21:56:04

AI推理

2021-05-23 09:51:29

代碼開發Facebook

2024-04-15 11:48:09

2023-10-28 13:36:48

模型ChatGPT

2024-10-21 14:16:36

2023-12-01 10:20:00

谷歌技術

2023-11-24 17:01:30

模型推理

2025-07-03 09:49:43

2024-06-06 10:08:32

2018-11-14 10:01:30

谷歌開源機器學習

2023-03-03 18:31:23

網絡承運商路由

2019-01-29 10:27:27

量子計算機芯片超算

2020-10-18 12:27:35

人工智能人臉識別技術

2016-11-10 20:50:20

微軟開源

2023-11-01 13:47:12

模型研究

2011-05-23 09:21:42

2020-10-09 08:31:00

AI

2023-10-26 08:40:15

模型隱私推理
點贊
收藏

51CTO技術棧公眾號

日本欧美加勒比视频| 操喷在线视频| 久久精品国产亚洲一区二区三区| 精品国产欧美一区二区五十路| 在线观看一区二区三区视频| 小视频免费在线观看| 中文久久乱码一区二区| 91九色在线观看| 成人免费区一区二区三区| 热久久天天拍国产| 精品国产91洋老外米糕| 国产精品一区二区羞羞答答| 成人bbav| 一区二区三区四区在线播放| 日韩久久在线| 天天爽夜夜爽夜夜爽| 日韩av午夜在线观看| 久久久久免费视频| 黄色性视频网站| 动漫性做爰视频| 国产精品2023| 欧美一区二区国产| 亚洲精品中文字幕无码蜜桃| 日本无删减在线| 国产精品久久久久婷婷| 久久www免费人成精品| 国产情侣一区二区| 日本欧美一区二区| 国产91在线播放九色快色| 久久精品免费在线| 综合久久婷婷| 日韩在线小视频| 国产真人做爰视频免费| 午夜精品影视国产一区在线麻豆| 色综合色综合色综合色综合| 国产福利资源在线| 日本不卡一区二区| 91精品国产乱码久久久久久蜜臀 | 懂色av色香蕉一区二区蜜桃| 色综合久久久久久久| 日本在线xxx| 欧美1—12sexvideos| 成人免费一区二区三区视频| 日韩精品欧美在线| 国产三区四区在线观看| 久久综合久久综合久久| 精品日本一区二区三区| 欧美特黄一级视频| 9色porny自拍视频一区二区| 国产高清一区视频| 亚洲美女性生活| 国产成人高清在线| 亚洲自拍av在线| 国产特级黄色片| 国产精品一区三区| 草莓视频一区| 色wwwwww| 久久精品一区四区| 日韩免费av电影| 97视频精彩视频在线观看| 国产欧美一区二区精品久导航| 欧洲精品一区色| 粉嫩av在线播放| 亚洲国产精品99久久久久久久久 | 欧美日韩中文一区| 中文字幕线观看| 久久国产精品免费一区二区三区| 91精品国产综合久久精品 | 成人香蕉社区| 亚洲激情在线观看| 久久av无码精品人妻系列试探| 欧美一区三区| 操91在线视频| 国产污视频在线观看| 亚洲一区欧美二区| 国产精品色视频| 国产日韩欧美一区二区东京热| 国产成人免费在线观看| 精品国产一区二区三区麻豆免费观看完整版 | 亚洲美女福利视频| 久久久噜噜噜久久中文字幕色伊伊| 日韩电影免费观看高清完整| 日本在线免费中文字幕| 一区二区三区四区在线播放 | 9999精品| 精品99久久久久久| 中文字幕免费高清| 欧美成人69av| 456国产精品| 国产又粗又猛又黄又爽无遮挡| 国产成人亚洲综合a∨婷婷| 粉嫩av免费一区二区三区| 人操人视频在线观看| 综合在线观看色| 久久久亚洲精品无码| 国产精品久久久久久吹潮| 日韩精品在线一区| 亚洲国产日韩一区无码精品久久久| 婷婷综合五月| 91高清免费在线观看| 国产绿帽刺激高潮对白| 99久久精品免费看| 国产成人一二三区| 在线成人视屏| 亚洲精品久久久一区二区三区 | 欧美一区二区三区四区在线观看| 日本黄色片在线播放| 亚洲欧洲中文字幕| 国产999精品| 亚洲精品久久久狠狠狠爱| 国产欧美日本一区二区三区| 97干在线视频| 在线成人免费| 国产香蕉一区二区三区在线视频| 欧美人妻精品一区二区三区| 日韩极品在线观看| 精品一区二区三区日本| 成人短视频在线| 欧美日韩一区二区三区高清| 欧美亚一区二区三区| 欧美日韩视频| 91黄色精品| 网友自拍视频在线| 在线观看中文字幕不卡| 亚洲av无码一区二区三区观看| 中出一区二区| 国产日韩欧美电影在线观看| 国产爆初菊在线观看免费视频网站| 亚洲狠狠爱一区二区三区| 精品国产午夜福利在线观看| 欧美在线电影| 国产精品久久久久久久美男| 久久久久久青草| 精品国产31久久久久久| 久久久久亚洲av成人网人人软件| 91综合在线| 国产噜噜噜噜久久久久久久久| 撸视在线观看免费视频| 色综合色综合色综合色综合色综合 | 99综合电影在线视频| 福利在线一区二区| av日韩在线播放| 欧美激情一区二区三区在线视频观看 | 免费一级片在线观看| 国产一区二区导航在线播放| 在线看视频不卡| 视频欧美精品| 久久久国产一区| av天堂一区二区三区| 亚洲欧美一区二区久久| 中文字幕av一区二区三区人妻少妇| 亚洲乱码电影| 91在线播放视频| 蜜臀av国内免费精品久久久夜夜| 欧美va日韩va| 亚洲一区欧美在线| 久久久三级国产网站| 久久久精品麻豆| 久久免费精品视频在这里| 成人精品视频99在线观看免费| av在线免费网站| 欧美大片国产精品| 日韩av在线播| 久久色在线观看| jizz大全欧美jizzcom| 亚洲h色精品| 国产精品美女xx| 亚洲私拍视频| 在线播放亚洲激情| 国产高清免费av| 午夜精品久久久久影视| japanese中文字幕| 精品在线观看免费| 国产www免费| 九九久久婷婷| 成人免费看黄网站| 嗯~啊~轻一点视频日本在线观看| 亚洲男人天堂九九视频| 中文字幕乱码人妻无码久久| 亚洲精品高清在线观看| 泷泽萝拉在线播放| 韩国毛片一区二区三区| 国内性生活视频| 国产精品99久久精品| 国产精品亚洲一区| 成人黄色视屏网站| 久久久久久国产| www免费网站在线观看| 精品国产伦一区二区三区观看方式 | 永久免费网站在线| 亚洲欧美999| 国产福利免费视频| 在线视频观看一区| 精品在线视频免费观看| 国产女人水真多18毛片18精品视频| 能看毛片的网站| 奇米影视一区二区三区| 久久久国内精品| 日韩精品水蜜桃| 国产在线观看一区| 久久免费福利| 国产精品99久久久久久久久久久久| 影音先锋男人在线资源| 亚洲一区999| 色一情一乱一区二区三区| 欧美日韩成人在线一区| 一级成人黄色片| 亚洲国产成人精品视频| 黑人狂躁日本娇小| 中文字幕精品一区二区三区精品| 老司机免费视频| 国产麻豆午夜三级精品| 手机看片福利盒子久久| 日韩午夜免费| 香港三级日本三级a视频| 第一sis亚洲原创| 美乳视频一区二区| 超碰成人在线观看| 114国产精品久久免费观看| 日韩经典一区| 青青草精品毛片| 国产夫妻在线播放| 欧美极品欧美精品欧美视频| 久久久久久久久免费视频| 中国人与牲禽动交精品| 欧洲免费在线视频| 日韩精品极品在线观看播放免费视频| 亚洲av综合色区无码一二三区 | 国产成人啪精品视频免费网| sm捆绑调教国产免费网站在线观看 | www.97视频| 亚洲欧洲99久久| 日韩一级片在线免费观看| 国产女人水真多18毛片18精品视频| 在线精品一区二区三区| 成人av免费在线观看| 一区二区三区四区影院| 成人一区二区三区| 亚洲女则毛耸耸bbw| 成人在线综合网站| 亚洲美女高潮久久久| 国产成人精品免费看| 国产av一区二区三区传媒| 国产精品18久久久久久久网站| 日本精品一区在线| 国产又黄又大久久| 色婷婷狠狠18禁久久| 成人的网站免费观看| 国产中文字幕一区二区| 91网页版在线| 99久久精品免费视频| 日本一区二区三区免费乱视频| 国产不卡在线观看视频| 国产精品国产成人国产三级 | 亚洲va欧美va国产综合剧情 | 精品少妇一区二区三区在线播放| 午夜精品久久久久久久91蜜桃| 日韩三级视频中文字幕| 蜜桃av中文字幕| 国产视频久久久| 国产一级在线| 久久精品亚洲精品| 牛牛电影国产一区二区| 欧美亚洲国产日本| 日韩成人亚洲| 99re视频在线| 欧美日韩看看2015永久免费| 日本不卡高清视频一区| 91日韩视频| 免费在线黄网站| 久久深夜福利| 最新免费av网址| 99视频超级精品| 国产黄色录像视频| 一区二区三区欧美在线观看| av黄色在线看| 在线成人高清不卡| 天天综合网在线| 中文字幕成人在线| av中文字幕电影在线看| 国产精品久久久999| 日韩精品视频中文字幕| 免费在线观看一区二区| 99久久综合| 少妇高潮喷水在线观看| 九色|91porny| 在线观看国产网站| 亚洲天天做日日做天天谢日日欢 | 欧美又粗又大又长| 日韩欧美中文免费| 国产ts变态重口人妖hd| 亚洲精品在线视频| 国产传媒在线播放| 国产成人高清激情视频在线观看 | 日本不卡一区二区三区视频| 女人色偷偷aa久久天堂| 中文字幕欧美人妻精品一区| 国产黄色精品网站| 18精品爽国产三级网站| 午夜久久电影网| 精品国精品国产自在久不卡| 亚洲性猛交xxxxwww| 欧美xxxx免费虐| 国产在线视频91| 蜜桃a∨噜噜一区二区三区| 国产小视频免费| 久久精品av麻豆的观看方式| 中文字幕免费视频| 午夜在线电影亚洲一区| 精品国产av鲁一鲁一区 | 女教师淫辱の教室蜜臀av软件| 亚洲国产精品麻豆| www视频在线| 久久人人爽人人爽爽久久| 电影久久久久久| 久久偷看各类wc女厕嘘嘘偷窃 | 开心激情综合网| 久久视频中文字幕| 日韩午夜视频在线| 日韩国产精品一区二区| 久久精品国语| 亚洲色图14p| 五月天亚洲精品| 丰满人妻av一区二区三区| 不卡av在线播放| 亚洲伊人伊成久久人综合网| 一区二区在线观看网站| 日日夜夜精品视频天天综合网| 菠萝菠萝蜜网站| 香蕉影视欧美成人| 成人毛片视频免费看| 欧美日本中文字幕| 秋霞影院一区| 欧美交换配乱吟粗大25p| 国产精品一区二区在线观看网站 | 成人在线免费观看视视频| 欧美三级三级| 亚洲人辣妹窥探嘘嘘| 国产欧美精品一区二区三区四区| 免费在线不卡av| 这里精品视频免费| 欧美日韩免费电影| 中文视频一区视频二区视频三区| 看国产成人h片视频| 免费黄色激情视频| 欧美精品乱码久久久久久| 国产成人在线视频免费观看| 亚洲一区亚洲二区| 国内综合精品午夜久久资源| www.四虎在线| 都市激情亚洲色图| 九色蝌蚪在线| 国产精品久久久久久久美男| 1024精品久久久久久久久| 日韩不卡的av| 性做久久久久久久久| 日漫免费在线观看网站| 国产精品91久久| 天天综合网网欲色| 中文字幕一二三区| 亚洲一区二区不卡免费| 青青草超碰在线| 国产精品自拍偷拍| 中文无码久久精品| 波多野结衣视频播放| 在线亚洲高清视频| 国产视频中文字幕在线观看| 国产伦理一区二区三区| 久久九九免费| 污污的视频在线免费观看| 欧美变态tickle挠乳网站| 成人美女大片| 最新欧美日韩亚洲| 成人性色生活片| 国产一级片av| 精品少妇v888av| 蜜桃一区二区三区| 尤物网站在线看| 午夜电影久久久| 欧美性猛交xxx乱大交3蜜桃| 国产精品久久久久久免费观看 | 加勒比精品视频| 欧美少妇性性性| 电影k8一区二区三区久久| 欧美少妇一区| 大陆成人av片| 欧美另类高清videos的特点| 欧美人与性动交a欧美精品| 国产日产一区| 久久久男人的天堂| 欧美日韩一卡二卡| 91老司机福利在线| 一区二区三区精品国产| 白白色亚洲国产精品| 国产精品久久综合青草亚洲AV| 91av在线不卡| 中文在线日韩| 91社区视频在线观看| 亚洲福利影片在线| 国产亚洲久久|