精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench 精華

發(fā)布于 2025-11-18 12:09
瀏覽
0收藏

今天要聊一篇剛剛出爐的論文,它可能給近期"LLM數(shù)學能力已超越人類"的樂觀情緒澆了一盆冷水。美團LongCat團隊聯(lián)合多所頂尖高校推出的AMO-Bench。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

它用50道原創(chuàng)奧賽級難題,讓當前最強LLM集體"現(xiàn)出原形"。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

頂級推理模型在AMO-Bench以及現(xiàn)有競賽級數(shù)學基準測試上的表現(xiàn)

Github:https://github.com/meituan-longcat/AMO-Bench
Dataset:https://huggingface.co/datasets/meituan-longcat/AMO-Bench
Project Page:https://amo-bench.github.io/
Paper:https://arxiv.org/pdf/2510.26768

當AIME已經不夠難

近年來,LLM在數(shù)學推理上的進步確實驚人。GPT-4o、Claude、Gemini等模型在AIME(美國數(shù)學邀請賽)2024/2025上的準確率已經突破90%,甚至有傳言說這些競賽題可能已經"泄露"到訓練數(shù)據(jù)里。但問題是:當模型開始"刷榜",我們該如何真實評估它們的能力?

這篇論文直指當前基準測試的三大痛點:

  1. 性能飽和:AIME等競賽對頂級模型已失去區(qū)分度
  2. 數(shù)據(jù)污染風險:現(xiàn)有題目大多來自公開資源,難免被模型"偷看"過
  3. 評估效率低:奧賽級別的證明題需要專家人工批改,難以規(guī)?;?/li>

于是,LongCat團隊造了一個"狠活"——AMO-Bench,一個包含50道原創(chuàng)IMO級別難題的新基準。讓我們看看它有多狠。

AMO-Bench:不只是難,更是"全新的難"

構建流程:四重把關,確保含金量

論文中展示了完整的構建流水線,堪稱學術界的"質量防火墻":

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

AMO-Bench的構建與評分流程

第一階段:專家命題由來自頂尖高校和教育機構的奧賽金牌得主或資深命題人原創(chuàng)設計題目,每道題都附帶詳細的人工解答。

第二階段:質量審查至少3位專家盲審,確保題目無歧義、邏輯嚴密,且知識點嚴格控制在IMO范圍內。

第三階段:原創(chuàng)性審查

  • 用10-gram匹配比對現(xiàn)有數(shù)據(jù)集(如AIME24/25)
  • 全網(wǎng)搜索排查相似內容
  • 專家憑經驗判斷是否在過往競賽中見過類似題型

第四階段:難度審查這是最狠的一環(huán):每道題必須同時滿足兩個條件:

  1. 人類專家確認難度≥IMO標準
  2. 至少2個頂級模型(GPT、DeepSeek、Gemini系列)在3次測試中全部失敗

經過這套流程,最終入選的50道題堪稱"模型殺手"。

數(shù)據(jù)集解剖:到底難在哪?

題目分布:全面覆蓋奧賽核心領域

先來看題目類型分布:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                                       題目類別分布

基本覆蓋了高中奧賽五大板塊:

  • 函數(shù)與數(shù)列(13道):最愛考遞推和高階變換
  • 組合數(shù)學(12道):計數(shù)、圖論、極值問題
  • 代數(shù)方程與不等式(11道):高次方程、多元不等式
  • 數(shù)論(9道):同余、丟番圖方程
  • 幾何(5道):平面幾何的復雜構造

解答長度:比AIME復雜一個數(shù)量級

再看解答長度對比:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

解答長度分布對比

LongCat團隊用DeepSeek-V3.1的tokenizer統(tǒng)計發(fā)現(xiàn),AMO-Bench的人工解答平均token數(shù)遠超MATH500和AIME24。這意味著這些題目不僅需要更多步驟,更關鍵的是需要更深層次的策略性思考,而不是簡單的模式匹配。

評估方法:如何給模型的答案打分?

AMO-Bench的另一個亮點是兼顧自動化與準確性。題目被分為四類答案格式:

示例1:數(shù)值答案題目要求最小值,答案是一個具體整數(shù)。這類用parser自動解析。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

示例2:集合答案要求找出所有滿足條件的正整數(shù)n,答案形式如{1,2,3}。同樣可自動化。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

示例3:表達式答案需要給出數(shù)列通項公式,如。通過多組賦值驗證等價性。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

示例4:描述性答案需要分情況討論,如"n=3時最小值為12;n≥4時為"。這類用o4-mini(Low)模型打分,5次投票取多數(shù)。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

最終驗證顯示,評分準確率達到99.2%,兼顧了效率和可靠性。

實驗:頂級模型集體"翻車"

52.4%就是天花板?

測試了26個主流模型,結果觸目驚心:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                                 各模型AVG@32性能

關鍵發(fā)現(xiàn):

  • 無模型突破60%:即便是傳聞中"接近AGI"的GPT-5-Thinking(High),也僅能解對一半稍多
  • 開源逼近閉源:最好的開源模型(Qwen3-235B-A22B-Thinking-2507)僅落后GPT-5約5%

頭部模型的性能密鑰

再看性能與輸出長度的關系:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

性能 vs 平均輸出長度

  • 第一梯隊模型(>40%準確率)平均輸出超過35K tokens
  • GPT-5-Thinking (High)在AMO-Bench上消耗約37K tokens,是AIME25的5倍多

頭部推理模型憑借構建更長邏輯鏈的能力,實現(xiàn)了解題表現(xiàn)的躍升

三個關鍵洞察

洞察1:輸出長度是難度的"晴雨表"

這里揭示了更有趣的現(xiàn)象:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                  不同benchmark上準確率與輸出長度的關系

結論:benchmark越難,模型需要輸出的tokens越多。AMO-Bench的曲線明顯位于右上角,說明它成功逼出了模型的"極限思考模式"。

洞察2:測試時擴展(Test-time Scaling)依然有效

通過控制模型的"推理努力程度"(如GPT-5的low/medium/high模式),發(fā)現(xiàn):

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                         不同推理Effort設置下的性能

性能與輸出長度的對數(shù)呈近似線性關系!這意味著:

  • 只要給模型更多思考時間(更多tokens),性能就能持續(xù)提升
  • 這個規(guī)律在AMO-Bench上依然成立,說明還有很大提升空間
  • 不是模型能力到了天花板,而是"思考預算"還不夠

洞察3:頂級模型的"潛力股"特質

看pass@k曲線:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                               pass@k隨k增長的趨勢

實驗結論:當k=32時,頂級推理模型的pass@k超過70%!這說明:

  • 模型具備解題的潛在能力,只是不能每次都找到正確路徑
  • 這為后續(xù)RL優(yōu)化指明了方向:如何讓模型穩(wěn)定地找到正確路徑

最后:給LLM數(shù)學能力的"清醒劑"

美團LongCat團隊最后的話很實在:"盡管當前模型表現(xiàn)不佳,但LLM數(shù)學推理能力的提升空間依然巨大。"

AMO-Bench 用 IMO 級原創(chuàng)題甩開 AIME24/25,區(qū)分度拉滿、零數(shù)據(jù)泄露;未來,LongCat團隊持續(xù)擴題并打造更多高難推理賽道,讓 benchmark 永遠領先模型半步,助推行業(yè)數(shù)學推理再突破。

本文轉載自??PaperAgent??

已于2025-11-18 12:10:30修改
收藏
回復
舉報
回復
相關推薦
91嫩草国产在线观看| 国产视频久久网| 日本三级中文字幕在线观看| 朝桐光av在线一区二区三区| 中文不卡1区2区3区| 久久久久久久久久久久久久久99| 国产精品美女免费| 美女福利视频在线观看| 色综合久久中文| 777奇米四色成人影色区| 国产精品无码人妻一区二区在线 | 欧美一区二区视频观看视频| 99久久国产综合精品五月天喷水| 成年人视频在线观看免费| 国产高清不卡二三区| 国产成人97精品免费看片| 91 在线视频| 乱中年女人伦av一区二区| 欧美日韩一区在线| 777精品久无码人妻蜜桃| 日韩在线免费电影| www精品美女久久久tv| 亚洲自拍另类欧美丝袜| 久久久国产免费| 在线播放不卡| 色综合久久久888| 国产123在线| 国产精选在线| 成人欧美一区二区三区视频网页| 国产精品久久久| 国产真实乱人偷精品人妻| 亚洲国产视频二区| 欧美日韩国产电影| 久久九九国产视频| 九色porny丨首页入口在线| 亚洲色图.com| 夜夜爽99久久国产综合精品女不卡| 无码国精品一区二区免费蜜桃| 国产一区二区美女| 国产欧美精品一区二区三区介绍| 人妻 日韩精品 中文字幕| 亚洲特级毛片| 九色91av视频| 欧美人禽zoz0强交| 综合视频在线| 不卡av在线播放| 国产探花在线视频| 91久久夜色精品国产按摩| 亚洲视频综合网| 国产又粗又猛又爽视频| 一本久久青青| 亚洲欧美日韩一区在线| 中文字幕一二三四区| 五月国产精品| 亚洲欧美在线播放| 成人性生交大免费看| 中文精品一区二区| 国产亚洲激情在线| 亚洲精品国产精品国自| 日韩欧美在线中字| 色先锋资源久久综合5566| 99在线视频免费| 久久性感美女视频| 久久天天躁狠狠躁夜夜av| 在线看的片片片免费| 综合av在线| 久久久久久久网站| www.日本高清视频| 精品freesex老太交| 中文字幕欧美日韩在线| 人人干在线观看| 夜间精品视频| 久久免费观看视频| 国产精品一区二区三区四| 日韩精品成人一区二区在线| 国产精品视频资源| 国产99999| 日韩精品视频网站| 国产欧美精品一区二区三区介绍| 国产特级aaaaaa大片| 东方aⅴ免费观看久久av| 激情小说网站亚洲综合网| 亚洲区小说区图片区| 久久精品欧美一区二区三区不卡| 亚洲欧洲日本国产| 天堂a√中文在线| 国产麻豆精品久久一二三| 97超碰最新| 日本高清视频www| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲伊人久久大香线蕉av| 天堂v在线观看| 国产嫩草影院久久久久| 久久久成人精品一区二区三区| 丰满诱人av在线播放| 一本大道av一区二区在线播放| 久草福利视频在线| 日韩三级网址| 日韩麻豆第一页| 性色av无码久久一区二区三区| 国产一区二区三区久久久久久久久 | 日本在线观看免费| 婷婷成人综合网| 182午夜在线观看| 国产精东传媒成人av电影| 中文国产成人精品久久一| 国产香蕉在线视频| 偷偷www综合久久久久久久| 久久久久久久久久久网站| 亚洲精品国产无码| 成人午夜激情影院| 亚洲欧洲日夜超级视频| sm捆绑调教国产免费网站在线观看 | 亚洲人永久免费| 久久亚洲AV无码| 久久精品国产99久久6| 蜜桃传媒视频麻豆一区| 色yeye免费人成网站在线观看| 欧美在线一二三| 中文字幕永久免费| 国产精品久久久久久影院8一贰佰| 国产91精品黑色丝袜高跟鞋| 亚洲国产999| 亚洲视频狠狠干| 少妇一级淫免费放| av成人免费看| 亚洲精品美女久久久| 精品99久久久久成人网站免费| 青青草国产精品97视觉盛宴| 久久国产精品免费一区| 密臀av在线| 日韩一级高清毛片| 日本少妇高清视频| 久久99国产精品成人| 天天综合色天天综合色hd| 国产 日韩 亚洲 欧美| 久久99国产精品二区高清软件| 亚洲美女av网站| 国产成人亚洲欧洲在线| 成人亚洲精品久久久久软件| 日本免费成人网| 精品国产18久久久久久二百| 日韩一区二区三区四区| 手机看片国产日韩| 日韩二区在线观看| 粉嫩精品一区二区三区在线观看 | 97国产成人无码精品久久久| 久久精品国产久精国产爱| 欧美日韩精品免费在线观看视频| 69av成人| 亚洲精品视频网上网址在线观看| 自拍偷拍欧美亚洲| av影院午夜一区| 黄色动漫网站入口| 免费精品国产的网站免费观看| 久久精品99国产精品酒店日本| 伊人精品在线视频| 国产精品亲子伦对白| 久无码久无码av无码| 日韩精品亚洲专区在线观看| 欧美日本精品在线| 蜜臀久久99精品久久久| 亚洲大片在线观看| 最近中文字幕无免费| 先锋影音久久| 亚洲最大av网站| 伊人精品影院| 亚洲国产欧美一区二区丝袜黑人| 日韩av无码中文字幕| av中文一区二区三区| 国产网站免费在线观看| 免费电影一区二区三区| 国产精品无av码在线观看| 国产一二区在线观看| 欧美大胆一级视频| 一区二区三区视频免费看| 国产视频一区二区在线| 奇米视频7777| 好吊视频一区二区三区四区| 精品一区2区三区| 蜜桃视频成人m3u8| 久久夜色精品国产亚洲aⅴ| 国产91免费看| 欧美综合久久久| 欧美三级 欧美一级| 91麻豆免费观看| 亚洲制服中文字幕| 国产日韩欧美一区在线| 亚洲自拍的二区三区| 福利电影一区| 国产伦精品免费视频| www.综合网.com| 中文字幕精品网| 黑人精品一区二区三区| 欧美色精品在线视频| 久久一区二区三| 国产精品天干天干在线综合| 岛国精品一区二区三区| 青娱乐精品在线视频| 欧妇女乱妇女乱视频| 精品久久91| 国产精品初高中精品久久| 国产成人精品一区二三区在线观看 | 毛茸茸free性熟hd| 蜜桃一区二区三区在线观看| 亚洲人精品午夜射精日韩 | 国产精品人妻一区二区三区| 午夜影院在线观看欧美| 国产精品嫩草影视| 中文久久精品| 在线观看18视频网站| 精品久久不卡| 免费av一区二区三区| 日韩三级av高清片| 国产精品十八以下禁看| 中文不卡1区2区3区| 欧美大片在线免费观看| 精品国产黄色片| 欧美亚洲国产一区二区三区| 国产精品午夜影院| 久久无码av三级| 中文字幕乱码在线人视频| 免费成人av在线播放| 青青草原成人网| 在线视频观看日韩| 蜜桃av色综合| 超碰成人福利| 亚洲影影院av| 2019中文亚洲字幕| 国产精品日韩精品| 你懂得影院夜精品a| 992tv成人免费视频| av伦理在线| 欧美国产日产韩国视频| 高潮毛片在线观看| 久久综合88中文色鬼| 亚洲xxxxxx| 亚洲视频网站在线观看| 久久经典视频| 亚洲男人第一网站| 欧美少妇另类| 亚洲日本成人网| 男人的天堂在线免费视频| 亚洲摸下面视频| 免费在线高清av| 亚洲三级黄色在线观看| 国产www.大片在线| 7777女厕盗摄久久久| 在线免费看av片| 欧美欧美欧美欧美首页| 这里只有精品999| 欧美日韩精品专区| 一区二区的视频| 91精品国产色综合久久不卡电影| a级片免费视频| 精品国产亚洲在线| 中文字幕在线观看第二页| 欧美中文字幕不卡| 97国产精品久久久| 日韩精品一区二区三区中文不卡 | 久久这里只有精品18| 亚洲激情网站| 国产精品wwwww| 麻豆精品视频在线| 初高中福利视频网站| 99久久免费国产| av男人的天堂av| 中文字幕一区二区三区不卡| 欧美卡一卡二卡三| 午夜精品在线视频一区| 男人日女人网站| 欧美另类变人与禽xxxxx| 成人黄色在线观看视频| 日韩精品久久久久久福利| 成人精品一区| 蜜臀久久99精品久久久无需会员| 丁香高清在线观看完整电影视频| 97超碰色婷婷| 91精品国产66| av蓝导航精品导航| 国产精品嫩模av在线| 男插女免费视频| 亚洲男人影院| 肉色超薄丝袜脚交| 99天天综合性| jizz日本在线播放| 亚洲自拍偷拍九九九| 久久福利免费视频| 亚洲成在人线在线播放| 无码人妻av一区二区三区波多野| 欧美精品日韩精品| 天堂中文在线看| 久久亚洲电影天堂| av日韩电影| 91久久精品一区二区别| 九色精品国产蝌蚪| 欧美日韩午夜爽爽| 国产精品入口66mio| 国产精品嫩草影视| 国产色产综合色产在线视频| 精品爆乳一区二区三区无码av| 在线免费精品视频| 日本激情一区二区三区| 日韩中文字幕在线视频播放| 亚洲乱亚洲乱妇| 欧美性受xxxx白人性爽| 一区二区免费| 亚洲欧洲日本国产| 视频一区二区三区中文字幕| 911亚洲精选| 国产精品电影一区二区三区| 91精品国产乱码久久久张津瑜 | 超碰在线超碰在线| 国产色产综合产在线视频| 国产视频91在线| 欧美va亚洲va| 精品176二区| 国产精品高潮视频| 亚洲永久精品唐人导航网址| 国产日本在线播放| 国产精品综合一区二区三区| 欧美自拍偷拍网| 欧美性大战久久| 精品影院一区| 欧美亚洲日本网站| 久久草在线视频| 日本人体一区二区| 国产成人精品亚洲777人妖| 老司机成人免费视频| 欧美三区在线视频| 北条麻妃在线| 国产成人小视频在线观看| 亚洲va久久久噜噜噜久久| 日本国产在线播放| 99久久综合精品| 国产成人亚洲精品自产在线| 亚洲国产成人精品久久| 乱插在线www| 成人国产一区二区| 国内精品久久久久久久影视麻豆 | 1769国产精品视频| 青青青在线观看视频| 国产精品综合网| 激情小说中文字幕| 精品福利av导航| 精品极品在线| 欧美高清视频一区二区三区在线观看 | 色哟哟入口国产精品| 狠狠久久伊人中文字幕| 亚洲午夜精品久久| 久久99日本精品| 久久久精品视频免费观看| 精品少妇一区二区三区日产乱码| 色综合999| 久久免费看av| 日日夜夜一区二区| 貂蝉被到爽流白浆在线观看| 欧美丰满嫩嫩电影| 182tv在线播放| 国产精品乱码视频| 国内成人自拍| 九九热在线免费| 自拍av一区二区三区| 国产熟女精品视频| 久久久噜久噜久久综合| 西瓜成人精品人成网站| 欧美一级黄色影院| 最新日韩av在线| 日韩中文字幕免费观看| 日韩av电影手机在线观看| 成人精品电影| 日本一二三区在线| 午夜在线成人av| 在线激情网站| 懂色一区二区三区av片| 免费视频一区| h色网站在线观看| 日韩精品在线免费| 四虎国产精品免费久久| 久久精品xxx| 中文字幕av资源一区| 99久久亚洲精品日本无码| 91精品国产99| 99久久精品费精品国产| www国产视频| 欧美日韩在线播放一区| av老司机在线观看| 亚洲视频在线二区| 成人一区在线观看| 中文字幕xxxx| 久久久噜噜噜久久久| 日产午夜精品一线二线三线| jjzz黄色片| 欧美日韩亚洲综合| h片在线观看视频免费| 亚洲欧美久久234| 99九九99九九九视频精品| 91 中文字幕| 秋霞成人午夜鲁丝一区二区三区| 久久久9色精品国产一区二区三区|