精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI七個月突破數學家“圍剿”反超人類!14位數學家深挖原始推理token:不靠死記硬背靠直覺

人工智能 新聞
FrontierMath官方Epoch AI邀請14位數學家,深入分析了o3-mini-high在應對這些數學難題時產生的29條原始推理記錄。

從只能答對2%的題目,到在超難數學題集中刷下22%得分,甚至超過人類團隊平均水平,大模型需要多長時間?

現在,令數學家們都驚訝的結果已經塵埃落定:

7個月

圖片

發生在大名鼎鼎的“專為為難大模型而生的”FrontierMath基準測試上的這一幕,在激起熱議同時,也引發了新的思考:

大模型們是怎么做到的?

FrontierMath:包含300個數學問題,難度范圍覆蓋本科高年級到菲爾茲獎得主都說難的水平。

最新進展是,FrontierMath官方Epoch AI邀請14位數學家,深入分析了o3-mini-high在應對這些數學難題時產生的29條原始推理記錄

他們發現:

  • o3-mini-high絕非靠死記硬背解題,相反,它表現出了極強的知識儲備;
  • o3-mini-high的推理更多依靠直覺,而非精確的證明。

同時,他們也挖掘出了大模型當前的局限性,比如,缺乏創造力和理解深度。

官方是這樣總結的:

o3-mini-high可以被概括為:一款博學但以直覺為基礎的推理機,但缺乏職業數學家的創造力和形式感,并且往往絮絮叨叨啰啰嗦嗦。

基于直覺的歸納推理機

具體來說,在29條推理記錄中,有13次o3-mini-high得到了正確的結論,剩下的16條則導向了失敗的結果。

先來看o3-mini-high是如何成功的。

數學家們發現,一個關鍵因素是o3-mini-high極其博學

它正確地擴展了問題的數學背景,其中涉及到非常高級的概念。

問題涉及的一般知識,以及對問題的理解,對o3-mini-high而言不構成解題的瓶頸。

這并不是說o3-mini-high靠的是死記硬背

相反,數學家們發現,即使題目故意掩蓋了解決問題所需的技巧,o3-mini-high依然能夠很好地利用正確的定理來獲取進展——

在大概三分之二的問題上,o3-mini-high在相關數學文獻調用方面,都取得了至少3分(滿分5分)的成績。

圖片

另外一個有意思的發現是,相比于精確的推導,o3-mini-high看上去更依賴直覺,“具有數學家一樣的好奇心”。

一位數學家指出:

該模型的思維方式顯得有點非正式。一開始的思路表述通常比較粗糙,語言不夠嚴謹,并且存在一些不符合數學論文要求的corner case。

也就是說,o3-mini-high往往不會像數學家們一樣,對數學問題進行形式化的、嚴謹的論證,而是跳過一大串步驟直接猜測最終答案。

舉個例子,在一道題中,數學家們發現o3-mini-high通過非正式推理得出了一個正確猜想,但它并沒有去證明這個猜想,還直接把這個猜想拿來解決問題了。

雖然最終答案正確,但在數學家們看來,這是在“作弊”。

圖片

為何如此?官方認為原因并不是簡簡單單的“模型偷懶”:有數學家指出,必要時模型并不害怕計算和編寫代碼,盡管它總體上還是“基于直覺”。

一種可能性是,預訓練階段,在“形式推理”方面,模型被投喂的訓練數據并不充足。

模型局限性

寫完解直接給答案,讓人有點聯想到那個男人——

圖片

咳咳,不過事實上,缺乏形式精確性也正是導致o3-mini-high在許多情況下解題失敗的原因。

比如,有時候o3-mini-high大體上思路是正確的,卻因為未能建立最后的關鍵聯系而推理失敗。

在一道分割理論問題中,它距離答案只有一步之遙。出題者指出:

要是它能把從n=0到[已編輯]的輸出求和,答案就會是正確的。

而在更多情況下,o3-mini-high的想法距離正確解題方案相差甚遠。

圖片

更重要的是,數學家們認為,o3-mini-high最大的局限性在于缺乏創造力和理解深度

該模型像一個博覽群書的研究生,能夠列舉許多研究成果和研究者。這乍一看令人印象深刻,但行家很快就會發現,這位研究生并沒有深度消化吸收這些材料,所做的只是復述。

該模型的行為模式類似于:擅長識別相關材料,但無法以新穎的方式擴展或應用這些知識。

還有參與研究的數學家指出:

o3-mini-high只嘗試應用了少數幾個它最喜歡的想法。

一旦這些想法用盡,它就得不到任何真正的進展了。

甚至:

對于AI來說,解決8年級奧數問題(需要新思路),可能比計算大有限域上某條超橢圓曲線上的點數更困難。

圖片

另外,幻覺也是個問題。

分析結果顯示,約75%推理記錄中包含模型幻覺:

o3-mini-high經常會記錯數學術語和公式,在調用庫和聯網搜索等工具時,也會出現胡編亂造的現象。

所以,o3-mini-high究竟能不能像人類數學家一樣進行推理呢?

來看數學家們的評分:

圖片

1分表示完全不像人類,5分表示與人類數學家難以區分。

總的來說,還是得具體情況具體分析。官方認為,o3-mini-high擁有多樣化的能力。一方面,它似乎能夠像人類一樣推理問題,表現出好奇心,并探索解決問題的不同思路。

另一方面,它又表現出缺乏創造性和正式性,還傾向于“想太多”,顯得啰里啰嗦,還偶爾出現自我懷疑的現象——不斷重復已經完成的句子、重復進行一些數學運算……

“超越世界上大多數數學研究生”

o3-mini-high這樣的模型為什么沒有辦法更有效地利用豐富的數學知識,這個問題仍然有待進一步的研究。

但無論如何,7個月,從2%到22%,已經足夠令數學家們驚嘆。

事實上,從2024年9月FrontierMath項目啟動,到2025年5月,官方組織8支人類“數學天團”和大模型同場競技,FrontierMath本身的難度也在持續進化。

從1-3級——涵蓋本科生、研究生和研究級別的挑戰,到現在已經進入第4級別:加入對數學家來說也具有挑戰性的問題。

在5月中旬,Epoch AI還舉辦了線下會議,邀請30位知名數學家設計自己能夠解決、但會讓AI犯難的問題。

而大模型們的表現有些讓數學家們目瞪口呆。

比如,弗吉尼亞大學數學家小野健提出了一個“博士級別”的數論問題。僅僅10分鐘,o4-mini就給出了一個正確又有趣的解決方案。

小野健表示:

我不想加劇恐慌。但在某些方面,大語言模型的表現已經超越了世界上大多數最優秀的研究生。

數學家們開始思考,人工智能能否攻克“第五層”問題,即最優秀的數學家也尚未解決的問題——

“如果人工智能達到這個水平,數學家的角色將發生巨大的變化。”

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-20 15:40:00

AI數學

2022-05-16 15:23:46

人工智能工具科學計算

2024-11-04 14:20:00

AI訓練

2025-05-28 10:30:41

AI陶哲軒模型

2024-08-26 09:15:00

數學黑洞

2011-06-20 09:15:20

面向對象算法數學

2024-02-26 08:30:00

2012-10-22 10:36:29

數學家輪盤程序

2015-04-02 16:20:05

2019-11-14 21:32:51

計算機數據科學數據

2023-07-03 16:01:51

AI數學

2022-10-20 09:33:09

AI算法

2024-07-29 14:39:39

2021-08-09 10:24:21

技術分類數學

2019-01-14 11:10:43

機器學習人工智能計算機

2025-02-24 09:25:00

2013-05-29 10:44:11

2009-06-08 09:59:24

谷歌俄羅斯方塊版權

2021-02-04 15:19:22

AI 數據人工智能

2009-01-16 09:57:48

點贊
收藏

51CTO技術棧公眾號

youjizz在线播放| 波多结衣在线观看| 国产精品视频在线观看免费| 亚洲国产日韩欧美在线| 欧美一级片在线看| 神马午夜伦理影院| 亚洲精品一区二区口爆| 亚洲欧美日韩综合国产aⅴ| 亚洲人成电影网站色xx| 无码少妇一区二区三区芒果| 巨大荫蒂视频欧美大片| 成人毛片老司机大片| 欧美综合国产精品久久丁香| 久久久精品少妇| 国产一区在线电影| 欧美这里有精品| 日本免费成人网| 高清毛片在线看| 成人免费毛片片v| 国产精品在线看| 久久精品免费av| 色呦哟—国产精品| 日韩av网站大全| 99精品视频国产| 中文字幕乱码中文乱码51精品| 成人免费小视频| 欧美福利一区二区三区| 国产精品亚洲lv粉色| 久久av一区| 久久久久国产精品免费网站| 日韩毛片无码永久免费看| 亚洲国产欧美国产第一区| 日本韩国欧美三级| 亚洲人成无码网站久久99热国产 | 日韩欧美成人激情| 国产熟女高潮视频| 51漫画成人app入口| 中文字幕色av一区二区三区| 欧美裸体网站| 涩涩视频免费看| 国产传媒久久文化传媒| 国产欧美最新羞羞视频在线观看| 中文字幕视频网站| 伊人成人在线视频| 欧美精品亚州精品| 91 在线视频| 色综合天天爱| 在线视频欧美性高潮| 素人fc2av清纯18岁| 大奶在线精品| 精品国产区一区| 久草福利在线观看| 韩国三级成人在线| 在线播放欧美女士性生活| 污版视频在线观看| 精品国模一区二区三区| 色综合色综合色综合| av免费播放网址| 交100部在线观看| 五月天一区二区三区| 大西瓜av在线| 国模雨婷捆绑高清在线| 亚洲一区二区三区美女| 激情六月天婷婷| 欧美黑人猛交| 亚洲第一精品在线| 霍思燕三级露全乳照| 999av小视频在线| 亚洲成精国产精品女| 三上悠亚久久精品| 亚洲天堂免费电影| 色女孩综合影院| 成人性生生活性生交12| 成人综合网站| 91精品在线观看入口| 一个人看的视频www| av日韩精品| 精品丝袜一区二区三区| 午夜时刻免费入口| 欧美3p在线观看| 萌白酱国产一区二区| 精品视频久久久久| 亚洲在线成人| 国产日韩精品在线观看| www国产一区| 91亚洲大成网污www| 日韩欧美亚洲日产国产| 麻豆视频在线播放| 亚洲高清免费观看高清完整版在线观看| 野外做受又硬又粗又大视频√| 岛国av免费在线观看| 色婷婷亚洲精品| 五月天开心婷婷| 国产 日韩 欧美 综合 一区| 亚洲欧美三级伦理| 亚洲一二三四五六区| 黄色成人在线网址| 欧美最近摘花xxxx摘花| 国产精品高潮呻吟AV无码| 成人午夜av电影| 日韩欧美三级一区二区| 污视频免费在线观看| 日韩欧美在线一区| 三级黄色片免费观看| 久久99精品国产自在现线| 亚洲欧美国产高清va在线播| 极品美妇后花庭翘臀娇吟小说| 99riav1国产精品视频| 国产精品久久视频| 黄色小视频免费观看| 国产精品乱码一区二区三区软件| 大陆av在线播放| 香蕉久久一区| 亚洲老板91色精品久久| 国产色无码精品视频国产| 国产欧美在线| 亚洲在线第一页| 九色网友自拍视频手机在线| 一区二区三区欧美| 鲁一鲁一鲁一鲁一av| 日韩一级电影| 欧美日本中文字幕| 中文字幕在线播放av| 99视频在线观看一区三区| 中文字幕一区综合| 欧美大片免费观看网址| 亚洲电影中文字幕| 黄色录像二级片| 日本不卡中文字幕| 久久精品国产综合精品| 在线中文字幕视频观看| 欧美日韩国产a| 国产黄片一区二区三区| 日韩一区二区免费看| 99久热re在线精品视频| 伦xxxx在线| 欧美视频你懂的| 亚洲天堂视频一区| 在线视频日韩| 精品麻豆av| av在线理伦电影| 欧美成人性福生活免费看| 日本成人精品视频| 欧美aaaaaa午夜精品| 欧美日韩亚洲在线| 碰碰在线视频| 日韩精品在线免费观看| 日韩乱码在线观看| 成人av综合一区| 亚洲理论电影在线观看| 成人高潮视频| 久久久最新网址| 日本精品久久久久| 亚洲成人1区2区| 性欧美丰满熟妇xxxx性久久久| 国产综合视频| 国产欧美一区二区三区不卡高清| 蜜桃传媒在线观看免费进入 | 色一情一乱一区二区三区| 亚洲综合清纯丝袜自拍| 中文字幕在线观看91| 国内精品久久久久久久97牛牛 | 国产天堂在线播放| 精品在线99| 国产精品爱久久久久久久| 丁香婷婷在线观看| 欧美日韩一区二区三区在线看| a天堂中文字幕| 日韩综合一区二区| 亚洲精品美女久久7777777| 久久夜夜久久| 欧美日韩第一视频| 人妻91麻豆一区二区三区| 精品久久久久国产| 精品无码国产污污污免费网站| 日本aⅴ免费视频一区二区三区| 亚洲一区二区三区欧美| 免费精品一区二区三区在线观看| 欧美激情日韩图片| 天堂a中文在线| 色琪琪一区二区三区亚洲区| 亚洲一级片在线播放| 国内不卡的二区三区中文字幕| 潘金莲一级淫片aaaaa免费看| 成人自拍在线| 人体精品一二三区| 欧美三级理伦电影| 精品福利在线导航| 青娱乐在线免费视频| 中文字幕一区二区三区精华液 | av动漫在线观看| 成人羞羞网站入口免费| 91精品黄色| 伊人久久国产| 久久久91精品| 天堂资源中文在线| 在线观看av一区| 欧美三级在线免费观看| 久久视频一区二区| 精品国产乱码久久久久久1区二区| 国产综合精品| 在线精品亚洲一区二区| 久9re热视频这里只有精品| 国产精品久久久亚洲| av影视在线| 视频在线一区二区| 凸凹人妻人人澡人人添| 欧美日本一区二区三区| 看片网址国产福利av中文字幕| 国产精品高潮呻吟| 中文乱码人妻一区二区三区视频| 久久精品99国产精品| 久久久久久久中文| 久久久9色精品国产一区二区三区| 国产一区二区三区免费不卡| 四虎精品在线观看| 国产成人+综合亚洲+天堂| 日韩精品卡一| 日韩一区二区三区国产| 欧美日韩影视| 欧美精品一区二区三区一线天视频 | 欧美性受xxxx黒人xyx性爽| 久久久久久亚洲精品杨幂换脸| dy888午夜| 成人免费在线播放| 久久天天狠狠| 日韩免费高清视频网站| 国产欧美一区二区| jizz内谢中国亚洲jizz| 久久久久久久成人| 黄色大片在线播放| 中文字幕亚洲欧美日韩2019| 日av在线播放| 亚洲电影免费观看高清| 国产黄色一区二区| 欧美日韩在线三区| 国产亚洲欧美在线精品| 午夜欧美一区二区三区在线播放 | 五月天亚洲精品| 久久国产免费观看| 亚洲精品成人悠悠色影视| 久久一级免费视频| 国产欧美中文在线| 一本加勒比北条麻妃| 91免费在线播放| 无码av免费精品一区二区三区| 国产麻豆精品视频| 日韩av片免费观看| 精品一二三四在线| 亚洲欧美日韩一级| 免费一级欧美片在线观看| 日韩av播放器| 免费视频久久| 欧美成人免费高清视频| 亚洲欧美日韩国产| 久草在在线视频| 日韩黄色在线观看| 久久久精品麻豆| 日韩黄色小视频| 可以看污的网站| 国产在线播放一区二区三区| 日本美女视频一区| 国产一区美女在线| 精产国品一区二区三区| 国产精品小仙女| 一二三区视频在线观看| 成人一区二区三区中文字幕| 成人在线电影网站| 91亚洲国产成人精品一区二区三| wwwwww日本| 1区2区3区国产精品| 色欲人妻综合网| 亚洲在线视频免费观看| 在线免费观看毛片| 欧美日韩国产综合视频在线观看中文| 久久黄色精品视频| 色婷婷狠狠综合| 一区二区国产欧美| 日韩一二三四区| 全国男人的天堂网| 夜夜嗨av一区二区三区四区| 午夜视频在线| 久久久久久久久久婷婷| 亚洲精品中文字幕| 国产精品旅馆在线| 深夜福利一区| 久久精品magnetxturnbtih| 精品少妇av| 伊人再见免费在线观看高清版| 99精品福利视频| 一级黄色特级片| 成人一区二区三区| 亚洲一二三四视频| 亚洲一区二区欧美日韩| 69视频免费在线观看| 欧美精品欧美精品系列| 欧美一级淫片免费视频魅影视频| 亚洲人成电影网站色…| 黄黄的网站在线观看| 91精品国产99| 91麻豆精品国产综合久久久| 国产一区自拍视频| 久久综合国产| 北条麻妃69av| 国产一区福利在线| aaaaaav| 亚洲美女偷拍久久| 欧美h在线观看| 日韩视频免费观看高清完整版在线观看| 天天色棕合合合合合合合| 精品国产一区二区三区久久狼5月| h片在线观看视频免费| 91精品国产自产在线老师啪| 欧美日韩看看2015永久免费| 一道本在线观看视频| 久久精品一区二区国产| 三大队在线观看| 国产精品伦理一区二区| 国产91精品看黄网站在线观看| 日韩欧美色综合| 欧美三级电影一区二区三区| 97成人精品区在线播放| 日韩精品一区二区三区中文| 五月天亚洲综合小说网| 亚洲制服av| 国产69视频在线观看| 亚洲九九爱视频| 亚洲一级在线播放| 亚洲女成人图区| a天堂资源在线| 国产日韩欧美亚洲一区| 91成人免费| www.日本一区| 国产农村妇女精品| 九九精品免费视频| 亚洲国产高清高潮精品美女| 91精品久久久| 亚洲综合中文字幕68页| 日韩啪啪电影网| 不卡av免费在线| 国产亚洲美州欧州综合国| 国产成人免费观看视频 | 亚洲国产精品久久人人爱蜜臀| 国产精品国产三级国产普通话对白| 亚洲天堂网站在线观看视频| 日韩电影毛片| 蜜桃传媒视频麻豆一区 | 亚洲精品中文字幕成人片| 色偷偷噜噜噜亚洲男人的天堂| 成人国产网站| 日韩欧美国产二区| 日韩不卡在线观看日韩不卡视频| 美女久久久久久久久久| 欧美午夜丰满在线18影院| 人妻中文字幕一区| 久久久噜噜噜久久中文字免| 9l视频自拍九色9l视频成人| 久久久久久久9| 成人免费视频视频在线观看免费| 精品无码人妻一区二区三区品| 精品久久人人做人人爽| 欧美大片黄色| 精品视频一区二区| 欧美亚洲三区| 国产精品免费无码| 欧美视频一区在线观看| 在线观看免费网站黄| 91精品久久久久久久久| 欧美一区精品| 久久精品无码专区| 精品动漫一区二区三区| 国产在线观看免费网站| 国产精品亚洲综合天堂夜夜| 天天做天天爱天天综合网| 欧美性猛交乱大交| 精品日韩中文字幕| 久色视频在线| 国产自产女人91一区在线观看| 欧美成人首页| 强迫凌虐淫辱の牝奴在线观看| 日韩欧美精品中文字幕| 91se在线| 99在线观看视频网站| 午夜在线精品偷拍| 中文字幕黄色网址| 日韩视频免费观看高清完整版 | 国产精品第二页| 99久久亚洲精品| 9.1在线观看免费| 色噜噜狠狠成人中文综合| 免费黄网在线观看| 国产美女99p| 麻豆久久久久久久| 久久免费视频99| 亚洲最大在线视频| 国产欧美视频在线| 熟女性饥渴一区二区三区| 成人欧美一区二区三区| 人妻妺妺窝人体色www聚色窝| 国产精品久久久久久久av大片|