精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn),能力涌現(xiàn)怕不是檢索題庫

人工智能 新聞
斯坦福大學(xué)最新研究表明,在他們最新提出的Putnam-AXIOM測試集上,僅僅是更換一下原題目的變量名稱、變量取值范圍,模型的準(zhǔn)確率就直線下降。

只是換一下數(shù)學(xué)題的變量名稱,大模型就可能集體降智??

斯坦福大學(xué)最新研究表明,在他們最新提出的Putnam-AXIOM測試集上,僅僅是更換一下原題目的變量名稱、變量取值范圍,模型的準(zhǔn)確率就直線下降。

也就是說,大模型的數(shù)學(xué)推理能力并不是真正掌握了解題邏輯,很可能只是檢索已存儲(chǔ)的題目……

圖片

即使是表現(xiàn)最好的o1-preview,它的成績也從50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也幾乎是全軍覆沒。

圖片

要知道,模型推理能力的穩(wěn)健性可是非常重要的指標(biāo),能代表他們是否真正掌握了解決方法:

圖片

有網(wǎng)友銳評(píng)到:o1的o不會(huì)是overfitting的o吧?(doge)

圖片

還有熱心網(wǎng)友做了解釋,他認(rèn)為模型的搜索空間會(huì)隨著深度指數(shù)級(jí)增長,搜索時(shí)間越長,搜索的難度也會(huì)更高。

圖片
圖片

全新無污染的數(shù)學(xué)測試基準(zhǔn)

LLM在復(fù)雜數(shù)學(xué)問題上的推理能力逐漸成為模型發(fā)展的關(guān)鍵挑戰(zhàn),然而現(xiàn)有的評(píng)估基準(zhǔn),如MMLU、MMMU、GSM8K和MATH等卻面臨著很多問題。

一方面,數(shù)據(jù)污染可能導(dǎo)致模型在評(píng)估中表現(xiàn)虛高,因?yàn)槟P涂赡茉谟?xùn)練過程中接觸到了評(píng)估基準(zhǔn)中的問題。

另一方面,最先進(jìn)的模型在許多現(xiàn)有基準(zhǔn)上已經(jīng)達(dá)到或超過人類水平,這使得這些基準(zhǔn)失去了應(yīng)有的評(píng)估價(jià)值。

對(duì)此,斯坦福研究團(tuán)隊(duì)提出了Putnam-AXIOM基準(zhǔn),專用于評(píng)估模型在解決復(fù)雜數(shù)學(xué)問題上的能力。

圖片

該基準(zhǔn)的原始數(shù)據(jù)集涵蓋了1985-2023年William Lowell Putnam數(shù)學(xué)競賽的236個(gè)問題。

隨便舉個(gè)例題大家感受一下:

圖片

這些題目涵蓋了11個(gè)不同數(shù)學(xué)領(lǐng)域的問題,團(tuán)隊(duì)也進(jìn)行了篩選,確保能產(chǎn)生便于自動(dòng)化評(píng)估的\boxed{}答案。

同時(shí),他們還借鑒MATH數(shù)據(jù)集的方法進(jìn)行模型評(píng)估,并設(shè)計(jì)了一個(gè)等價(jià)函數(shù),可以解決字符串不一致問題、和復(fù)雜的數(shù)學(xué)等價(jià)同質(zhì)化問題。

除此之外,為防止模型在訓(xùn)練過程中遇到Putnam原問題而出現(xiàn)評(píng)估偏差,團(tuán)隊(duì)還引入了功能變異構(gòu)建變異數(shù)據(jù)集。

變異分為變量變化(僅改變量名)和常數(shù)變化(修改數(shù)值屬性)兩類,能生成無限多相同難度的新問題,而且這些問題在互聯(lián)網(wǎng)上沒有現(xiàn)成的答案。

具體的變化形式就像這樣:

圖片

在實(shí)驗(yàn)中,研究人員將1985-2023年的競賽中的236個(gè)問題整理成標(biāo)準(zhǔn)化格式,使用LM Harness評(píng)估框架對(duì)多個(gè)開源模型的SOTA LLMs進(jìn)行評(píng)估。

樣本包括236個(gè)原始問題和52個(gè)變異問題,參與測試的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多種模型。

題目一變,模型集體懵

實(shí)驗(yàn)結(jié)果有些令人意外,模型們的表現(xiàn)都不太樂觀。

首先來看看模型們?cè)谠紨?shù)據(jù)集上的表現(xiàn)。

多數(shù)模型的準(zhǔn)確率都低于10%,曾獲AI數(shù)學(xué)奧林匹克競賽冠軍的NuminaMath僅為4.66%,可見Putnam-AXIOM數(shù)據(jù)集難度真的很高。

圖片

而在變異數(shù)據(jù)集上,模型們的準(zhǔn)確率則顯著下降。

比如在原始數(shù)據(jù)集上表現(xiàn)最好的o1-preview,準(zhǔn)確率為50%,而在變異數(shù)據(jù)集中則降到了33.96%。

也就是說,o1-preview模型在原始問題上表現(xiàn)可能虛高,之前的得分主要是依賴記憶而非真正的推理能力。

排名第二的Claude在原始數(shù)據(jù)集上的準(zhǔn)確率為26.40%,而在變異數(shù)據(jù)集上的準(zhǔn)確率降至18.86%,其他模型的分?jǐn)?shù)也基本都下降了。

圖片

團(tuán)隊(duì)還進(jìn)一步對(duì)OpenAI o1-preview和GPT-4o的答案進(jìn)行了分析。

結(jié)果發(fā)現(xiàn)它們的錯(cuò)誤都比較嚴(yán)重,在邏輯推理和數(shù)學(xué)嚴(yán)謹(jǐn)性方面存在著明顯的缺陷。

下面一起康康幾個(gè)例子。

比如o1-preview在解答問題時(shí)就沒能提供充分的證明,它聲稱m的最大可能值是n,理由是m的上界是2n,但它沒有說明為什么m的值介于n和2n之間不可行。

圖片

而GPT-4o則存在邏輯跳躍和不連貫的推理,比如在下面這道題中,它從邏輯上直接跳轉(zhuǎn)到面積最小的幾何形狀是矩形這一觀點(diǎn),但并沒有證明這一說法的合理性,而是將其默認(rèn)為事實(shí)。

圖片

DeepSeek的模型也在關(guān)鍵步驟思維發(fā)生了跳躍,導(dǎo)致最終結(jié)果失誤。

圖片

看來,提升大模型的數(shù)學(xué)能力還是任重道遠(yuǎn)呀!

不過斯坦福大學(xué)這篇文章中的Putnam-AXIOM基準(zhǔn)的確緩解了現(xiàn)有基準(zhǔn)飽和的問題。

它不僅為評(píng)估模型的數(shù)學(xué)推理能力提供了一個(gè)非常有挑戰(zhàn)性的新方法,還實(shí)現(xiàn)了完全自動(dòng)化評(píng)估、并提供了豐富多樣的變體數(shù)據(jù)集。

團(tuán)隊(duì)也表示,雖然目前變體數(shù)據(jù)集生成過程復(fù)雜耗時(shí),但未來如果能優(yōu)化變體生成方法,將更有助于加速關(guān)于人工推理的研究。

圖片

論文:https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf
代碼:https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-20 13:08:25

2023-12-08 13:22:00

數(shù)據(jù)模型

2023-05-04 12:32:28

模型研究

2024-11-07 15:40:00

2025-01-20 09:28:00

AI工具模型

2024-09-19 17:44:04

2025-01-08 13:08:55

2024-12-31 09:55:23

2024-09-13 09:26:17

2023-06-25 13:28:21

2024-09-24 11:01:03

2024-09-18 09:17:00

OpenAI模型開源

2022-07-14 15:08:23

AI模型

2025-01-13 12:30:58

2024-10-05 00:00:00

2025-07-07 08:38:00

模型推理AI

2024-04-24 09:47:36

2013-01-31 09:45:14

斯坦福超級(jí)電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

黄色av一区二区| 欧美丰满美乳xxⅹ高潮www| 丰满的护士2在线观看高清| av综合在线播放| 国产精品美女主播在线观看纯欲| 老司机成人免费视频| 菁菁伊人国产精品| 在线观看亚洲精品视频| 日韩视频在线视频| 在线播放麻豆| 91在线观看视频| 91免费视频网站| 麻豆精品久久久久久久99蜜桃| 无需播放器亚洲| 日韩av综合网| 一区二区三区人妻| 成人在线观看免费播放| 精品国产精品自拍| 亚洲天堂第一区| 浮生影视网在线观看免费| 丰满少妇久久久久久久| 国产在线视频2019最新视频| 精品国产乱码一区二区| 香蕉国产精品| 中文字幕久热精品视频在线| 网站免费在线观看| 永久免费精品视频| 在线不卡免费欧美| 毛葺葺老太做受视频| 天堂8中文在线最新版在线| 亚洲最新视频在线播放| 宅男av一区二区三区| 你懂的在线播放| 99久久久久久99| 97操在线视频| www.国产麻豆| 韩国精品免费视频| 91精品久久久久久久| 亚洲精品国产无码| 久久久久久穴| 日韩美女在线观看| 无码人妻精品一区二区三区9厂 | 国产精品一区二区三区四| 综合一区av| 欧美成人一二三| 午夜剧场免费在线观看| 久久国产影院| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 亚洲一区二区三区四区五区黄| 亚洲一一在线| av网站大全在线观看| 国产视频视频一区| 日本在线观看一区二区| 邻家有女韩剧在线观看国语| 久久麻豆一区二区| 日韩电影天堂视频一区二区| 蜜芽tv福利在线视频| 久久久综合激的五月天| 免费国产一区二区| 高清av在线| 中文字幕中文乱码欧美一区二区| 亚洲午夜精品国产| 伊人影院在线视频| 午夜精品久久久久影视| 黄色免费观看视频网站| 色婷婷综合久久久中字幕精品久久| 日韩欧美在线网址| 免费看污污网站| 四虎精品在线观看| 日韩欧美国产综合| 亚洲色图14p| 欧美极品在线观看| 日韩在线观看免费全| 中文字幕av免费在线观看| 影院欧美亚洲| 国产精品白嫩初高中害羞小美女 | 亚洲精品网站在线播放gif| 成人影视免费观看| 成人看的视频| 欧美日韩国产91| www.国产一区二区| 经典三级在线一区| 国产精品一级久久久| 久久手机免费观看| 一区二区三区在线观看视频| 凹凸国产熟女精品视频| 国产69精品久久| 精品国产乱码久久| 久久久久久国产免费a片| 亚洲网色网站| 2024亚洲男人天堂| 国产免费不卡av| 久久久久免费观看| 日韩亚洲欧美一区二区| 一级毛片久久久| 日韩欧美黄色影院| 国产精品20p| 激情婷婷久久| 91精品国产综合久久男男| 图片区 小说区 区 亚洲五月| 亚洲国产精品成人综合色在线婷婷 | 国产精品毛片a∨一区二区三区|国| 精品黑人一区二区三区国语馆| 久久综合狠狠综合| 免费看日b视频| 欧美色片在线观看| 日韩精品免费在线观看| 中文字幕av播放| 久久婷婷丁香| 国产私拍一区| 婷婷丁香在线| 欧美日韩精品一区视频| 少妇久久久久久久久久| 日韩视频不卡| www日韩av| 毛片在线看片| 欧美中文字幕不卡| 亚洲欧美色图视频| 在线播放不卡| 2019国产精品视频| 日韩子在线观看| 色综合久久久久久久久| 欧洲一级黄色片| 韩国精品一区二区三区| 亚洲综合成人婷婷小说| 免费在线观看av片| 欧美日韩精品一区二区三区蜜桃 | 91久久精品日日躁夜夜躁欧美| ass极品水嫩小美女ass| 99久久99久久精品国产片果冰| 日韩av黄色在线观看| 欧美一区二区三区黄片| 亚洲高清免费视频| 91传媒理伦片在线观看| 国产精品草草| 国产精品一区免费观看| 日本精品600av| 日韩午夜小视频| 国产精品白嫩白嫩大学美女| 激情成人综合网| 少妇熟女一区二区| av在线精品| 久久国产天堂福利天堂| av av片在线看| 亚洲自拍偷拍欧美| 少妇熟女视频一区二区三区| 欧美天天视频| 国产精品免费视频一区二区 | 免费人成黄页在线观看忧物| 色婷婷av一区| 粉嫩精品久久99综合一区| 首页综合国产亚洲丝袜| 色一情一乱一伦一区二区三区| 巨胸喷奶水www久久久免费动漫| 在线观看日韩av| 一区二区三区亚洲视频| 亚洲欧美色图小说| 久久出品必属精品| 欧美激情自拍| 国产一级二级三级精品| 都市激情综合| 中文字幕亚洲无线码在线一区| 亚洲一区精品在线观看| 亚洲精品国产高清久久伦理二区| 岛国精品一区二区三区| 亚洲在线视频| 一本一道久久a久久精品综合| 国产精品久久久久久久久久辛辛 | 头脑特工队2在线播放| 午夜精品久久久久久久久久| 一区二区三区免费在线观看视频| 视频在线在亚洲| 亚洲乱码一区二区三区| 亚洲国产视频二区| 91高潮在线观看| av片在线看| 337p日本欧洲亚洲大胆精品| 91黑人精品一区二区三区| ●精品国产综合乱码久久久久| 99国产精品免费视频| 国产偷自视频区视频一区二区| 天天人人精品| 成人搞黄视频| 国产精品视频地址| 久操av在线| 一区二区成人av| 丰满人妻妇伦又伦精品国产 | 性一交一乱一精一晶| 精品成人久久av| 992在线观看| 97久久超碰国产精品| 国产精品嫩草影院8vv8| 亚洲国产三级| 影音先锋男人的网站| 网曝91综合精品门事件在线| 91精品在线一区| 亚洲国产福利| 欧美日韩福利在线观看| 97超碰人人在线| 亚洲成人黄色网| 亚洲一卡二卡在线| 色综合中文综合网| 免费一级片视频| 亚洲欧美在线视频观看| 精品黑人一区二区三区观看时间| 国产在线不卡一卡二卡三卡四卡| 精品国产免费av| 欧美三级视频| 熟女熟妇伦久久影院毛片一区二区| 欧美自拍一区| 国产精品12| 99久久久成人国产精品| 国产精品美女在线| 亚洲校园激情春色| 97在线观看视频国产| 亚洲小说区图片| 久久影院资源网| 8888四色奇米在线观看| 亚洲精品天天看| 午夜视频在线免费播放| 亚洲精品一区二区三区福利| 国产成年妇视频| 91精品国产乱码久久蜜臀| 中国黄色一级视频| 色94色欧美sute亚洲13| 天天操天天摸天天干| 亚洲一区二区欧美| 久久精品99国产精| 亚洲精品午夜久久久| 中文字幕无码日韩专区免费 | 亚洲精品国产一区| 怕怕欧美视频免费大全| 美日韩精品免费| 欧美中文一区| 久久久com| 欧美三级午夜理伦三级在线观看| yellow视频在线观看一区二区| 麻豆精品在线| 91精品国产一区二区三区动漫 | 欧美在线视频一区二区三区| 亚州av一区| 久久国产精品免费一区| 日韩av午夜| 麻豆av一区| 日韩av黄色在线| 欧美在线视频一区二区三区| 精品黄色一级片| 少妇免费毛片久久久久久久久| 国产欧美高清视频在线| 日韩福利一区二区三区| 色综合天天爱| 久久免费一级片| 雨宫琴音一区二区在线| 美女av免费在线观看| 久久av最新网址| 狠狠躁狠狠躁视频专区| 精品一区二区三区久久| 欧美体内she精高潮| 成人中文字幕在线| 免费中文字幕av| 国产日产亚洲精品系列| 福利视频第一页| 亚洲小说欧美激情另类| 中文字幕视频网站| 欧美日韩中文精品| 国产欧美一级片| 亚洲黄色成人网| www日韩tube| 美女扒开尿口让男人操亚洲视频网站| 亚洲资源一区| 欧美在线一区二区三区四| 福利一区和二区| 91黄在线观看| 欧美人与牛zoz0性行为| 国产精品美女在线播放| 亚洲电影成人| 亚洲不卡视频在线| 国产风韵犹存在线视精品| 国产一级二级视频| 国产精品三级在线观看| 欧美精品色哟哟| 一本久久a久久精品亚洲| 一级黄色大毛片| 亚洲精品wwww| 免费黄色在线| 欧美中文在线观看国产| 国产精品一区二区三区www| 久久综合婷婷综合| 在线中文字幕第一区| 乱子伦视频在线看| 国产成人综合在线| 国产精品免费无码| 亚洲国产精品人人做人人爽| 国产免费一级视频| 精品久久国产97色综合| 91网在线播放| 97激碰免费视频| 婷婷久久综合九色综合99蜜桃| 国产精品一区二区你懂得| 日韩成人精品一区| aa在线免费观看| 国产精品一级二级三级| 欧美 日韩 国产 成人 在线观看| 一区二区三区不卡在线观看| 亚洲午夜无码久久久久| 亚洲精品白浆高清久久久久久| chinese偷拍一区二区三区| 69av在线视频| 亚洲天堂av资源在线观看| 中国成人在线视频| 日韩精品一卡二卡三卡四卡无卡| 亚洲成a人无码| 亚洲免费av高清| 国产一区二区女内射| 亚洲欧美另类自拍| a国产在线视频| 91手机在线观看| 99久久影视| 亚洲欧美日韩三级| 国产清纯白嫩初高生在线观看91 | 欧美人与性动交α欧美精品图片| 国产精品永久免费视频| 最新亚洲精品| 国内自拍在线观看| av电影在线观看一区| 激情综合网五月婷婷| 日韩亚洲欧美综合| 免费黄色在线| 成人网在线免费看| 91九色精品| 天堂中文av在线| 成人欧美一区二区三区在线播放| 草莓视频18免费观看| 亚洲女人天堂视频| 日韩福利一区| 欧美中日韩免费视频| 久久亚洲不卡| 久久婷婷五月综合| 欧美午夜精品一区二区三区 | 美女少妇精品视频| 日韩五码电影| 在线观看视频黄色| 国产美女主播视频一区| 外国一级黄色片| 日韩精品专区在线影院观看| 最新黄网在线观看| 高清视频一区二区三区| 亚洲激情二区| 黄色国产在线观看| 欧美亚洲综合在线| 3d成人动漫在线| 99re在线国产| 亚洲三级视频| 中文字幕在线看高清电影| 在线国产亚洲欧美| 国产精品一区二区三区视频网站| 91免费国产网站| 亚洲激情偷拍| www.久久国产| 欧美日韩一区久久| 国产美女福利在线| 国内精品一区二区| 日韩av不卡在线观看| 日韩激情综合网| 亚洲第一中文字幕| 婷婷午夜社区一区| 中文字幕在线亚洲精品| 国产91富婆露脸刺激对白| 懂色av.com| 中文字幕一区日韩电影| 亚洲国产中文在线| 黑鬼大战白妞高潮喷白浆| 国产精品美女久久福利网站| 国内精品国产成人国产三级| 91国产在线精品| 日韩在线欧美| 99精品一区二区三区无码吞精| 日韩欧美一区二区三区| 免费av网站在线观看| 国产一区免费在线| 久久精品99国产精品| 国产精品30p| 在线视频欧美性高潮| 在线播放一区二区精品视频| 日韩精品免费播放| 亚洲另类在线视频| 国产日本在线观看| 国产精品一区在线观看| 久久国产麻豆精品| 国产精品99精品| www.xxxx欧美| 欧美挤奶吃奶水xxxxx| 天堂视频免费看| 欧美日韩美女在线| h片在线免费| 欧美一进一出视频| 成人av电影在线| 91久久久久久久久久久久| 91av在线播放| 欧美精品黄色|