精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

陶哲軒聯手60多位數學家出題,世界頂尖模型通過率僅2%!專家級數學基準,讓AI再苦戰數年

人工智能
Epoch AI推出數學基準FrontierMath,目前前沿模型測試成功率均低于2%!OpenAI研究科學家Noam Brown說道:「我喜歡看到新評估的前沿模型通過率如此之低。這種感覺就像一覺醒來,外面是一片嶄新的雪地,完全沒有人跡。」或許,FrontierMath測試成功率突破的那一天,會是AI發展過程中一個全新的里程碑。

數學為評估復雜推理提供了一個獨特而合適的測試平臺。它需要一定的創造力和精確的邏輯鏈條——通常涉及復雜的證明,這些證明必須縝密地籌劃和執行。同時,數學還允許對結果進行客觀驗證。

在鋪天蓋地的宣傳中,LLM看起來已經攻破了數學大關。但果真如此嗎?

不久前,來自蘋果的研究院團隊證明,就算是在數學這些基礎科學方面最先進的o1模型,其卓越的表現也是來源于對特定數據集針對性的持續優化。

所以為了更好的檢驗模型對于數學問題的理解與解決能力,我們需要一個更加全面而行之有效的數學測試基準。

近日,Epoch AI聯合六十余位全世界的數學家,其中包括教授、IMO命題人、菲爾茲獎獲得者,共同推出了全新的數學基準FrontierMath。其包括數百個原創的、格外具有挑戰性的數學問題,旨在評估AI系統中的高級推理能力。

研究團隊基于這個測試基準評估了六個前沿的模型,它們的成功率竟然都低于2%!

圖片圖片

論文地址:https://arxiv.org/abs/2411.04872

論文特意致謝了陶哲軒為FrontierMath基準貢獻了一些問題論文特意致謝了陶哲軒為FrontierMath基準貢獻了一些問題

具體來說,這些數學問題從奧賽難度到當今的數學前沿,包含了目前數學研究的所有主要分支——從數論和實數分析中的計算密集型問題到代數幾何和群論中的抽象問題,而它們也通常需要數小時或數天的時間才能被專業數學家解決。

FrontierMath涉及的數學領域FrontierMath涉及的數學領域

這一測試集的發布一下炸出了不少AI大佬。

OpenAI研究員Clive ChanOpenAI研究員Clive Chan

德撲之父,OpenAI研究科學家Noam Brown德撲之父,OpenAI研究科學家Noam Brown

Anthropic聯創Jack ClarkAnthropic聯創Jack Clark

知名AI大牛Andrej Karpathy還發了一篇長帖「Moravec悖論在大語言模型評估中的體現」:

圖片圖片

我對這個新的前沿數學基準測試感到驚訝,因為大語言模型在其中僅能解決2%的問題。引入這個基準測試的原因是大語言模型在現有數學基準測試中表現得越來越出色。有趣的問題在于,盡管從許多評估來看,大語言模型在數學和編程等領域已經逐漸接近頂級專家的水平,但你還是不會選擇它們來完成對人類本身來講最容易的工作。它們可以解決復雜的封閉問題,只要你在提示詞中恰當地呈現問題描述,但它們在自主且連貫地解決長問題序列方面卻很艱難,而這對人類來說是非常容易的。

這就是Moravec悖論的隱性體現,他在30多年前觀察到,人類認為簡單或困難的事情,對于計算機來說可能卻恰恰相反。例如,人類對計算機下棋感到非常驚訝,但下棋對計算機來說卻很簡單,因為這是一個封閉的、確定性的系統,具有離散的動作空間、完全可觀測性等等。反過來,人類可以系鞋帶或折疊襯衫,并不覺得這有什么了不起,但這實際上是一個極其復雜的傳感運動任務,對硬件和軟件的最先進技術也還是一個挑戰。這就像OpenAI前段時間發布的魔方項目,大多數人關注的是解魔方本身(這很簡單),卻不是讓機器人用手去扭合一面魔方這種其實極其困難的任務。

所以我非常喜歡這個FrontierMath基準測試,我們應該多做一些這樣的測試。但我也認為這是一個有趣的挑戰,我們如何為所有那些「簡單」但實際上很難的事情創建評估。非常長的上下文窗口、連貫性、自主性、常識、有效的多模態輸入輸出……我們如何構建好的「簡單工作」評估?這些是你期望團隊中任何入門級實習生都能完成的事情。

除了AI大佬們在紛紛討論,網友們也炸了鍋——

網友「Chubby」表達了自己的興奮與期待!

圖片圖片

同時,Epoch AI也采訪了菲爾茲獎得主陶哲軒(2006年)、蒂莫西·高爾斯(1998年)、理查德·博赫茲(1998年)以及國際數學奧賽教練陳誼廷。

他們一致認為,FrontierMath的研究問題極具挑戰性,需要深厚的領域專長。

圖片圖片

圖片圖片

圖片圖片

成功率低于2%

FrontierMath支持模型在評估中擁有充足的思考時間以及實驗和迭代能力。并且還可以在Python 環境中交互式地編寫和執行代碼來測試假設、驗證中間結果,并根據即時反饋改進方法。

FrontierMath的模型評估流程框架FrontierMath的模型評估流程框架

研究團隊基于這個測試基準評估了六個前沿的模型,包括Claude 3.5 Sonnet、o1-preview和Gemini 1.5 Pro。

即便在延長思考時間(10000個token)、提供Python訪問權限以及允許運行實驗的條件下,它們的成功率仍然低于2%!

圖片圖片

這與GSM-8K和MATH等其他流行的數學基準形成鮮明對比,在這些僅包含高中到本科數學難度的基準測試中,頂級模型現在的準確率都已經超過 90%。

當然,這在一定程度上是由于數據污染——訓練數據中無意或有意地包含了測試數據的內容,或包含了與測試數據非常相似的數據。

這種現象會導致模型在測試時表現優異,但并非因為它真正學會了新知識或推理能力,而是因為它在訓練中「見過」測試題或其相似題。

以至于模型的測試分數表現虛高,無法真實反映其在新數據上的表現能力。

圖片圖片

也就是說,原來的這些基準測試達到高分已經不值得吹噓了,大模型又有了新的數學大關需要攻破!

FrontierMath:評估AI高級數學推理

對于這個新的數學大關,FrontierMath有三個關鍵設計原則:

1. 所有問題都是全新且未公開的,防止數據污染。

2. 模型的解答支持自動驗證,從而實現高效評估。無論是精確的整數,還是如矩陣或符號表達式(在SymPy中),一個驗證腳本可以通過將模型確認提交的答案與已知解決方案來精確匹配以對提交的答案進行檢查驗證。

3. 問題具有「防猜測」特性,問題的答案是大數值或復雜的數學對象,若沒有數學推理,模型猜對的幾率低于1%。

這些設計原則,每一條都非常具有針對性,彌補了現有基準測試的不足。

值得欣喜的是,模型在這個測試中幾乎沒辦法「作弊」了,這將有效杜絕一些「名不副實」的現象。

圖片圖片

具體案例

由于FrontierMath中的問題是具有封閉形式答案(例如整數)的,所以它們可以讓模型去自動進行驗證與評估。

例如下圖中的構造一個符合條件的19次多項式問題,問題給定的答案是非常大數值的整數,所以幾乎不可能通過預測和精巧的模式匹配來解決這個問題。

圖片圖片

模型必須有涉及數論、群論、代數幾何這些方面的專業數學邏輯能力才可以得到正確的答案。

涉及到阿廷原始根猜想則更為復雜,模型需要求解計算的甚至是圖片

圖片圖片

而數百道題目皆為如此,所以FrontierMath足以作為一個標桿性的數學基準,去檢驗AI模型是否具備了真正的復雜邏輯推理能力。

參考資料:

https://x.com/EpochAIResearch/status/1854996368814936250

https://x.com/karpathy/status/1855659091877937385

https://epochai.org/frontiermath/the-benchmark

https://epochai.org/frontiermath/benchmark-problems


責任編輯:武曉燕 來源: 新智元
相關推薦

2024-02-26 08:30:00

2024-11-12 09:14:52

2025-10-28 15:37:11

AI模型數學

2024-06-17 08:45:00

2024-04-08 11:31:57

AI數據

2024-04-09 09:44:21

數學模型

2024-07-29 08:49:00

AI數學

2023-12-06 13:44:00

模型訓練

2025-08-11 09:27:00

2024-03-11 13:07:25

2025-06-03 08:15:00

2024-10-14 14:31:36

2024-07-08 13:08:04

2023-12-16 09:42:12

2025-10-08 09:49:06

2023-06-30 13:42:44

2025-05-22 09:08:40

2023-10-10 13:51:46

GPT-4GitHubAI

2025-08-05 14:54:39

AI模型陶哲軒

2025-11-06 08:59:00

點贊
收藏

51CTO技術棧公眾號

国产欧美精品一区二区三区四区| jizz久久精品永久免费| 国产精品毛片大码女人| 亚洲一区二区免费在线| 国产一卡二卡在线| 精品国产精品| 精品国产一区二区三区四区四 | 精品99在线视频| 可以直接在线观看的av| 久久91精品久久久久久秒播| 久久久久成人网| www在线观看免费视频| 久久免费福利| 在线观看一区日韩| 日韩精品综合在线| 亚洲搞黄视频| 久久久综合九色合综国产精品| 97avcom| 国产黄色录像片| 开心激情综合| 欧美一区午夜精品| 国产理论在线播放| 精品丝袜在线| 亚洲主播在线观看| 中文字幕中文字幕99| 日本韩国一区| 成人一区二区三区视频| 成人写真视频福利网| 亚洲熟妇无码乱子av电影| 韩国欧美一区| 美女久久久久久久| 蜜桃av免费观看| 亚洲综合小说图片| 亚洲国产欧美久久| 亚洲国产综合av| 欧美性www| 欧美视频在线播放| av视屏在线播放| 蜜臀国产一区| 激情成人在线视频| www精品久久| 人交獸av完整版在线观看| 国产精品成人在线观看| 亚洲国产一区二区在线| 黄色大片在线看| www国产成人免费观看视频 深夜成人网| 欧美一级片一区| 青青草手机视频在线观看| 99精品全国免费观看视频软件| 日韩一二三区不卡| 日本中文字幕影院| 欧美三级电影网址| 欧美日韩一区二区电影| 少妇黄色一级片| 亚洲妇女成熟| 色婷婷av一区| 亚洲国产高清av| 国产一区二区色噜噜| 欧美视频完全免费看| 久久综合久久色| 日本成人福利| 欧美日韩免费一区二区三区| 午夜两性免费视频| 日韩美香港a一级毛片| 91精品欧美久久久久久动漫 | 91美女精品| 亚洲一区二区不卡免费| 美女扒开大腿让男人桶| 不卡专区在线| 日本韩国视频一区二区| 日韩精品你懂的| 国产精品99| 91精品国产一区二区三区香蕉| 亚洲熟妇国产熟妇肥婆| 1区2区3区在线| 狠狠色香婷婷久久亚洲精品| 热久久精品免费视频| 精品国产美女a久久9999| 欧美一区二区视频在线观看2022| 可以在线看的黄色网址| 国产精品99| 日韩一区二区视频| 国产精品久久久免费观看| 妖精一区二区三区精品视频| 中文日韩在线视频| 欧美日韩一级在线观看| 午夜在线精品| 国产日韩在线免费| 丰满熟女一区二区三区| 久久久久久久久久电影| 中文字幕av导航| 高清精品在线| 欧美色手机在线观看| 不卡的一区二区| 神马影视一区二区| 久久99精品视频一区97| 欧美精品一二三四区| 激情另类小说区图片区视频区| 国产精品第2页| 精品人妻久久久久一区二区三区| 日韩av一级片| 北条麻妃高清一区| 全色精品综合影院| 一区二区高清视频在线观看| 男女曰b免费视频| 国产精久久久| 亚洲色图第三页| 久久精品欧美一区二区| 日韩av中文字幕一区二区三区| 日韩av免费网站| 国产av无码专区亚洲av| 97se亚洲国产综合在线| dy888午夜| 国产亚洲欧美日韩精品一区二区三区| 欧美视频中文一区二区三区在线观看| www.xxx亚洲| 成人知道污网站| 久久偷看各类女兵18女厕嘘嘘| 又色又爽的视频| 亚洲视频大全| 成人情视频高清免费观看电影| 国产黄色高清视频| 国产欧美日韩综合| 国产极品在线视频| 亚洲天堂av资源在线观看| 中文字幕精品—区二区| 日本三级小视频| 成人综合婷婷国产精品久久蜜臀 | 美日韩精品免费视频| 国产精品suv一区| 99视频在线精品| 91大学生片黄在线观看| 欧美美女福利视频| 最新的欧美黄色| 在线观看亚洲黄色| 久久综合色婷婷| 国产视频九色蝌蚪| 国产香蕉精品| 97香蕉超级碰碰久久免费软件| 午夜精品久久久久久久久久久久久蜜桃 | 欧美成人欧美edvon| 亚洲欧洲综合网| 老司机午夜精品视频在线观看| 国产精品十八以下禁看| 青青草娱乐在线| 欧美性猛交xxxx黑人| 无码国产69精品久久久久网站 | 日韩视频精品| 国产网站在线| 日韩电影中文字幕一区| 日韩 欧美 综合| 97精品电影院| 精品视频无码一区二区三区| 偷拍视屏一区| 国产精品va在线| 9191在线观看| 在线成人午夜影院| 艳妇荡乳欲伦69影片| 狠狠狠色丁香婷婷综合激情| 国产美女视频免费| 中文一区二区三区四区| 欧美激情欧美激情| 天天爽夜夜爽夜夜爽| 日韩欧美在线国产| 亚洲色成人网站www永久四虎| 一精品久久久| 国产98在线|日韩| 黄色漫画在线免费看| 亚洲国产又黄又爽女人高潮的| 中文字幕在线观看免费高清| 日韩高清不卡一区二区三区| 亚洲欧美国产一区二区| 国产在线视频欧美一区| 久久久久久久久久久成人| 成人午夜福利视频| 欧美性猛交xxxxx水多| 91大神福利视频| 国产精品香蕉一区二区三区| 日本中文字幕网址| 北条麻妃国产九九九精品小说| 2019中文字幕在线| 免费一级在线观看| 欧美日韩一区二区在线观看 | 国产精品嫩模av在线| 国产精品视频色| 污污网站在线看| 亚洲免费高清视频| 又色又爽又黄无遮挡的免费视频| 久久久久国产精品人| 成年网站免费在线观看| 激情久久综合| 一区二区三区不卡在线| 成人h动漫精品一区二区器材| 不卡av电影院| 日韩美女一级视频| 欧美一卡二卡三卡四卡| 伊人手机在线视频| 亚洲欧美偷拍另类a∨色屁股| 男女污污的视频| 国内精品久久久久久久97牛牛| 91免费看片网站| 国产精品伦理| 久久免费精品视频| www在线播放| 亚洲精品成人免费| 国产美女永久免费| 91精品福利在线| 日本一级淫片免费放| 中文字幕日韩av资源站| 91av在线免费| 国产成人精品免费| 在线观看日本一区二区| 国产欧美日本| www.日本在线视频| 久久精品影视| 亚洲bbw性色大片| 杨幂一区二区三区免费看视频| 国产精品精品久久久| aaa大片在线观看| 中文字幕精品网| 黄色的视频在线免费观看| 亚洲加勒比久久88色综合| 国产视频在线免费观看| 欧美视频在线一区| 精品久久久久久久久久久久久久久久久久| 国产亚洲福利社区一区| 亚洲熟女一区二区| 国产成人av福利| 亚洲视频在线不卡| 久久99精品视频| 高清一区在线观看| 久久国产精品毛片| 国产精品免费入口| 99国产一区| 人妻少妇精品久久| 亚洲视频免费| 青青青青草视频| 亚洲午夜av| 日韩久久久久久久久久久久| 五月久久久综合一区二区小说| 国产成人精品一区二区三区福利| 岛国av免费在线观看| 欧美国产精品va在线观看| 菠萝菠萝蜜在线观看| 日韩专区在线观看| 久草免费在线观看| 日韩视频永久免费观看| 男人在线资源站| 最新国产精品亚洲| 操你啦在线视频| 欧美日韩福利电影| 爱啪视频在线观看视频免费| 91干在线观看| 欧美精品高清| 国产精品吹潮在线观看| 欧美亚洲综合视频| 亚洲a一级视频| 99亚洲乱人伦aⅴ精品| 精品久久久久久一区| 欧美精品中文| 日韩一区免费观看| 91tv精品福利国产在线观看| 国产在线拍揄自揄拍无码| 欧美黄色免费| 国产av天堂无码一区二区三区| 亚洲乱码免费伦视频| 91精品国产毛片武则天| 欧美精品黄色| 欧美牲交a欧美牲交| 久久亚洲电影| 国产三级生活片| 成人丝袜视频网| 中文字幕高清视频| 国产精品麻豆一区二区| 日本青青草视频| 欧美日韩午夜激情| 中文字幕在线观看高清| 日韩一级二级三级精品视频| 少妇喷水在线观看| 一区二区三区在线播放欧美| 超碰人人在线| 庆余年2免费日韩剧观看大牛| 丁香花高清在线观看完整版| 欧美在线一区二区三区四| 久久精品xxxxx| 国产精品一级久久久| 国精一区二区| 久久久久久av无码免费网站下载| 日韩激情在线| 日韩中文字幕在线免费| 日韩av一区二区在线影视| av在线网站免费观看| ww亚洲ww在线观看国产| 国产免费无码一区二区视频| 欧美午夜电影在线| 国产欧美熟妇另类久久久 | 国产精品人人爽人人爽| 国产91在线|亚洲| 精品少妇一区二区三区免费观| 91麻豆国产精品久久| 欧美特黄一级片| 色婷婷精品久久二区二区蜜臀av| 国产一级做a爱片久久毛片a| 欧美日韩一区三区四区| 日漫免费在线观看网站| 久久久精品欧美| 午夜精品久久久久久久久久蜜桃| 欧美专区福利在线| 亚洲精品观看| 色噜噜色狠狠狠狠狠综合色一| 欧美美女在线观看| 97超碰国产精品| 日本视频免费一区| 捆绑裸体绳奴bdsm亚洲| 亚洲人成亚洲人成在线观看图片 | 亚洲成人资源| 91精品国产三级| 国产精品三级av在线播放| 800av免费在线观看| 日韩一级免费一区| 老司机精品影院| 国产精品偷伦免费视频观看的| 激情欧美一区二区三区黑长吊| 成人精品福利视频| 欧洲乱码伦视频免费| 国产主播在线看| 99视频一区二区| 久久久久久久久久综合| 在线成人av网站| 欧洲不卡视频| 国产免费观看久久黄| 精品成人影院| 免费看a级黄色片| 国产天堂亚洲国产碰碰| 天干夜夜爽爽日日日日| 亚洲精品自拍偷拍| 天堂中文av在线资源库| 精品欧美一区二区精品久久| 在线观看日韩av电影| 少妇熟女视频一区二区三区 | 欧美一区二视频| 久久久久久国产精品免费无遮挡| 97国产精品人人爽人人做| 伊人精品综合| 欧美中文字幕在线观看视频 | 日本国产在线| 97av在线视频| 综合综合综合综合综合网| 成人免费毛片网| 久久久91精品国产一区二区三区| 国产日韩欧美在线观看视频| 3d成人h动漫网站入口| 97电影在线看视频| 成人国产精品久久久久久亚洲| 一本久久青青| 久久午夜夜伦鲁鲁一区二区| 91在线视频播放| 加勒比在线一区| 中文字幕亚洲字幕| 亚洲网站免费| 欧美极品少妇无套实战| www.欧美日韩国产在线| 最新中文字幕一区| 综合欧美国产视频二区| 99久热在线精品视频观看| 蜜桃视频一区二区在线观看| 成人精品一区二区三区四区 | 国产99视频精品免视看7| 国产免费久久| 天天干天天爽天天射| 亚洲黄网站在线观看| 亚洲欧美另类视频| 欧美在线观看日本一区| 日本欧美国产| 制服.丝袜.亚洲.中文.综合懂| 国产精品久久久久毛片软件| 国产色在线视频| 97超级碰碰碰久久久| 日韩精品一区二区三区免费观看| 国产精品无码一区二区在线| 久久久不卡影院| av手机免费看| 欧美一区二区.| 国产精品久久久久久久久妇女| 欧洲熟妇精品视频| 亚洲日本护士毛茸茸| 亚洲av成人无码网天堂| 国产精品网红福利| 亚洲每日在线| 欧美性生交大片| 日韩精品中文字幕视频在线| 欧美videos粗暴| 成人一对一视频| 亚洲欧美二区三区| 免费动漫网站在线观看| 99热在线国产| 人人精品人人爱| 日韩 欧美 综合| 欧美裸体男粗大视频在线观看| 激情视频亚洲|