精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!

發布于 2024-5-23 15:02
瀏覽
0收藏

隨著現代大語言模型(LLMs)如 OpenAI 的 ChatGPT 和 GPT-4 的出現,LLMs 展示了生成類人對話和解決復雜數學難題的非凡能力。從 Meta 在 4 月 18 日發布 Llama3-8B & 70B 開始,Qwen 開源的首個百 B 大模型 Qwen-1.5-110B,到深度求索的 MoE 模型 DeepSeek-V2,還有近幾日 OpenAI 放出的大招 GPT-4o,號稱更低的價格,更強的性能,大家都號稱自己的新模型數學能力頂呱呱,但事實真是這樣嗎?

如何透明化評測大模型的各項數學能力如今成了大家的難題,因為開源數據集往往評測角度較為局限,如常用的 GSM8k 專注日常計算,MATH 只專注于高中數學競賽。

再加上,負責大模型數學部分的產品經理往往對新訓練的模型有下面的小小期待:

  • ??想要全面知道從小學,初中到大學每個階段模型數學表現各怎么樣
  • ??中英文能力都要體現
  • ??要是每道題都有知識點標簽就好了
  • ??emmm,能不能再考下理論題,天天做應用題也不知道是不是模型基礎沒打好
  • ??測試出的結果要魯棒,真實反映模型能力
  • ??不想收集一大堆數據集,最好上面的內容能一次測試完(-v-)
  • .....

這要求都能滿足嗎?還真能!

在最新的 ACL2024 中,由上海人工智能實驗室聯合香港中文大學,北京航空航天大學和南京大學提出的 MathBench 打破了大模型數學評測不透明的現狀,且已經被 ACL2024 Findings 接收

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench 結構及特點

正如本文開頭所描述的,傳統評估 LLMs 數學能力的基準存在一些局限性,如單一視角的解決問題能力評估和缺乏全面的學段分級。MathBench 彌補了這些不足,提供了嚴格的數學能力評估新基準。

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench 整體結構示意

相比傳統的數學評測集,MathBench 有以下特點:

  1. 多維度的知識框架:MathBench 配有一個多層次知識體系,具有從基礎計算,小學到大學的 5 階段的豐富題目,每階段都配有相應的3層細粒度知識點,一次評測即能從廣度和深度兩個維度上掌握模型能力,不留遺憾。
  2. 理論與應用兼顧:“基礎不牢,地動山搖”。MathBench 分為MathBench-A(應用能力)MathBench-T(理論能力)兩個子集,不僅包含實際應用問題,還包含相關領域專家精心收集的基礎數學概念和推論題。
  3. 雙語支持:對于上述的所有知識層次,以及理論應用題,MathBench 都提供中英文題目,且中英題目根據語境學習現狀獨立收集,拒絕機翻,以保證評測結果的合理性。
  4. 魯棒評測:針對數學評測難以抽取答案的現狀,MathBench 中的大部分題目為經過專家標注的選擇題,保證了選項合理且有一定的干擾度,并且采用循環評測(CircularEval)作為基礎評測方式,模型需要多次答對打亂選項順序的同一題目才認為該題目被模型所掌握。
  5. 來源可靠:MathBench 中約 80% 題目為新收集的題目,來源大部分為專業考試,如高考、中考等,且經過專門校驗。

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench的5階段3層知識點結構

(小學與基礎運算因有相同知識點體系而合并)

各大模型在 MathBench 上的表現

下面就讓我們看一下在 MathBench 作為數學能力照妖鏡下各模型的表現吧:

總體結果,GPT-4o 優勢明顯,國產模型緊隨其后

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench理論與應用分級測評結果

(A代表應用題結果,T代表理論題目)

在應用題上:

  • GPT-4o領先較大,在高學段尤為明顯
    部分國產模型,如 Qwen-Max-0428 和 DeepSeek-V2-API 都已經有著超越 GPT4-0125-Preview 的表現,但離最新版的 GPT-4o 仍有不小差距。通過 MathBench 的多階段細分結果可以發現,差距在較高學段,如高中和大學的題目上尤為明顯。如 GPT-4o 在大學階段的應用題目上雖然只有 54.0的CircularEval 分數,但相對 Qwen-Max-0428 已經有著接近翻倍的表現。
  • 部分開源模型實力強勁
    如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有著超過 GPT3.5-Turbo-0125,接近 GPT4-0125-Preview 的表現。DeepSeek-Math-7B-RL 作為 7B 量級的開源數學模型表現亮眼,在應用題目上甚至超過了 Qwen-72B-Chat。

在理論題上:

  • GPT-4o 各學段全面領先,展現扎實的基本數學功
    作為基本數學理論能力的展現,MathBench-T 中不僅考察模型基本數學知識,還加入常用的推論,以及精心設計的干擾項來迷惑模型,所以模型難以通過簡單背誦來得到高分。GPT-4o 在此階段全面領先各 API 模型,拿下應用理論雙第一名??,證明了其不僅基礎扎實,且會熟練運用。
  • 理解理論并不代表能夠熟練應用
    如 Qwen-1.5-110B-Chat 雖與 GPT-4o 在理論階段有著相似的分數,但在應用階段兩者差距較大,可能因為在較高階段的數學知識上,運用要比理論需要更多的技巧,比如在高中和大學階段,兩者的應用分數差距越來越大,而理論上卻沒有相似的明顯差距。

模型整體分數趨勢

下面是應用階段的多個模型平均分數的整體趨勢。

可以發現,在基礎運算(Arithmetic)階段和小學數學(Primary)階段有著類似的難度,而從初中起,隨著學段的增加,模型的平均表現下降明顯:

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench 應用題在各學段上的平均模型結果,呈現自然梯度趨勢

中英文雙語言結果對比

下面是眾多大語言模型在 MathBench 上的中英雙語言結果對比,按語言平均分從從小到大排序。

其中某些模型有著較為明顯的語言 Gap,如 MammoTH-13B,MetaMath-Llemma-7B 以及 Llama-3-70B-Instruct 等模型明顯偏向于英文,而 GPT-4o 和 GPT-4-0125-Preview 在中英數學上有著相近的表現。

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

值得注意的是,為了 MathBench 的中英成績能代表該語言環境下的真實成績,在收集過程中并沒有將題目相互翻譯,所以在對比中僅供參考,因為題目不是中英文一一對應的關系。

已于2024-5-23 15:17:19修改
收藏
回復
舉報
回復
相關推薦
国产成人无码aa精品一区| 冲田杏梨av在线| 日韩永久免费视频| 国产视频一区免费看| 国产亚洲视频在线观看| 在线看免费毛片| 毛片在线导航| 国产欧美日韩在线| 亚洲一区二区三区乱码aⅴ| 日本一级黄色录像| 成人久久电影| 欧美精品一区视频| 欧美大尺度做爰床戏| 日本大片在线播放| 久久久久国产免费免费| 成人欧美一区二区三区黑人孕妇| www.av麻豆| 99热国内精品| 国产丝袜高跟一区| 午夜视频在线观| 一区二区电影免费观看| 亚洲男人天堂av| 日韩免费毛片| 亚洲成a人片77777精品| 人人狠狠综合久久亚洲| 欧美精品久久久久a| 亚洲色图日韩精品| 五月天亚洲一区| 日韩一级精品视频在线观看| 韩国中文字幕av| 黄色视屏在线免费观看| 1024国产精品| 日本一区二区三区视频在线观看| 亚洲欧美黄色片| 精品综合免费视频观看| 日本在线精品视频| 日韩欧美高清在线观看| 欧美黄色大片网站| 日韩中文字幕视频| 在线观看日本黄色| 私拍精品福利视频在线一区| 欧美成人精品福利| 中文字幕国产高清| 99久久精品一区二区成人| 欧美午夜久久久| 欧美不卡在线播放| 超免费在线视频| 亚洲一区二区三区激情| 欧美做受777cos| 国产激情小视频在线| 中文字幕一区二区三中文字幕| 日韩成人在线资源| 国产福利在线| 国产免费成人在线视频| 人禽交欧美网站免费| 日韩精品一二| 97久久精品人人爽人人爽蜜臀| 国产精品伊人日日| 人妻一区二区三区免费| 成人动漫精品一区二区| 国产综合第一页| 污污视频在线免费看| 92精品国产成人观看免费| 国产乱码精品一区二区三区卡| 高h调教冰块play男男双性文| 国产suv精品一区二区883| 亚洲曰本av电影| 亚洲av无码一区二区三区性色| 国产精品资源在线| 超碰97人人在线| 日本精品久久久久| 91免费观看视频| 日本免费高清不卡| 高清美女视频一区| 成人欧美一区二区三区小说| 中文字幕一区二区三区四区五区人| 日韩在线观看www| 18成人在线视频| 成人在线视频一区二区三区| 2021天堂中文幕一二区在线观| 亚洲成人免费视频| 日韩视频第二页| 国产亚洲人成a在线v网站 | 小黄鸭精品aⅴ导航网站入口| 色婷婷国产精品| 国产色视频在线播放| 日韩欧美另类中文字幕| 亚洲第一精品自拍| 美女被到爽高潮视频| 91青青国产在线观看精品| 久久综合88中文色鬼| 国产精品99无码一区二区| 男女精品网站| 91免费精品国偷自产在线| 国产91免费看| 中日韩av电影| 日本福利视频一区| 成人国产精品入口免费视频| 日韩欧美国产1| 国精产品一区一区三区免费视频| 成人婷婷网色偷偷亚洲男人的天堂| 久久伊人色综合| 国产女同在线观看| 久久精品国产成人一区二区三区| 国产精品国产一区二区| 成人激情电影在线看| 一区二区三区日韩在线观看| 99久久久无码国产精品6| 91国产精品| 日韩毛片中文字幕| caoporn91| 亚洲欧美久久久| 91中文在线视频| 高清在线观看av| 亚洲国产va精品久久久不卡综合| 一区二区成人网| 亚洲国产欧美在线观看| 中文字幕av一区二区| 国产真实夫妇交换视频| 久久成人av少妇免费| 久久久久久艹| 欧美人动性xxxxz0oz| 欧美日韩国产在线观看| av网站有哪些| 欧美色图首页| 国产美女直播视频一区| 天天在线女人的天堂视频| 夜夜嗨av一区二区三区中文字幕| 婷婷丁香激情网| 色婷婷av一区二区三区丝袜美腿| 欧美国产日韩xxxxx| 91 中文字幕| 国产欧美精品在线观看| 国模无码视频一区二区三区| 欧一区二区三区| 久久资源免费视频| 一区二区美女视频| 国产欧美日韩三区| 日韩一级片播放| 要久久电视剧全集免费| 午夜精品久久久久久久久久久久| 性中国古装videossex| 亚洲少妇30p| 婷婷免费在线观看| 欧美先锋资源| 国产精品日韩在线一区| 国产中文字幕在线看| 色婷婷激情综合| 亚洲永久精品ww.7491进入| 亚洲第一精品影视| 国产日韩一区二区| a国产在线视频| 亚洲国产女人aaa毛片在线| 国产无遮挡aaa片爽爽| 国产91精品一区二区麻豆网站 | 最新中文字幕视频| 亚洲一区黄色| 欧美日韩一区二区视频在线观看 | 91香蕉电影院| www.久久ai| 欧美成人乱码一区二区三区| 国产成人精品av久久| 成人网男人的天堂| 日本xxxxxxxxxx75| 久久久久97| 91av视频在线免费观看| 蝌蚪视频在线播放| 欧美日韩一级大片网址| 一区二区三区影视| 国产精品一二三| 日本在线xxx| 国产欧美日韩免费观看| 国产精品中文在线| 中文在线观看免费| 亚洲精品一区二区三区香蕉 | 在线观看免费视频你懂的| 欧美xxxxx牲另类人与| 黄色一级片免费看| 国产调教视频一区| 污污网站在线观看视频| 欧美成人日本| 欧美日韩日本网| 99精品女人在线观看免费视频| 欧美成人激情视频| 色噜噜在线播放| 在线视频你懂得一区二区三区| 久久久久亚洲AV成人无在 | 蜜桃精品成人影片| 日韩avvvv在线播放| 大桥未久一区二区| 欧美a级网站| 国产精品第一页在线| 超碰在线免费播放| 日韩麻豆第一页| 99久久精品无免国产免费| 午夜精品久久久久久久99水蜜桃| 免费一级做a爰片久久毛片潮| 紧缚捆绑精品一区二区| 免费在线a视频| 五月激情久久久| 国产在线精品一区| 四虎影视成人精品国库在线观看| 欧美黑人一区二区三区| 国产精品久久一区二区三区不卡| 日韩一区二区三区在线视频| 国产精品国产三级国产专区52| 中文成人av在线| 久久性爱视频网站| 久99久精品视频免费观看| 阿v天堂2017| 欧美在线精品一区| 亚洲精品9999| 丝袜连裤袜欧美激情日韩| 亚洲综合中文字幕68页| 91p九色成人| 欧美专区第一页| 伦理av在线| 另类图片亚洲另类| 国产高清免费在线播放| 日韩大陆欧美高清视频区| 国产人妖一区二区| 欧美自拍丝袜亚洲| 99热在线观看免费精品| 一区二区三区在线观看网站| 日本成人免费在线观看| 久久伊人中文字幕| 95视频在线观看| 国产尤物一区二区在线| 在线观看高清免费视频| 在线一区欧美| 欧美视频在线观看视频| 羞羞答答成人影院www| 午夜一区二区三区| 国内黄色精品| 欧美久久久久久久| 日韩理论电影中文字幕| 国产亚洲精品美女久久久m| 亚洲91网站| 亚洲综合第一页| 国产精品美女久久久久| 国产主播喷水一区二区| 天天综合网站| 日韩免费中文字幕| 欧洲av一区二区| 国产va免费精品高清在线| 手机在线观看av网站| 欧美激情a∨在线视频播放| 性欧美1819sex性高清大胸| 久久精品国产久精国产一老狼| 91高清在线| 最近2019中文免费高清视频观看www99| 日本午夜在线| 精品视频—区二区三区免费| 少妇激情av一区二区| 日韩精品视频在线| 男女av在线| 国产亚洲精品高潮| 1769在线观看| 精品国产自在精品国产浪潮| 国产美女在线观看| 久久99精品久久久久久噜噜| 手机av免费在线| 91精品国产91| 色香欲www7777综合网| 国产精品r级在线| 精品国产美女a久久9999| 成人网在线观看| 日韩精品久久久久久久软件91| 99视频在线| 欧美成人午夜77777| 极品日韩久久| sdde在线播放一区二区| 国产高清免费在线| 欧美亚洲不卡| 18禁免费无码无遮挡不卡网站| 视频一区二区国产| www.色就是色.com| 国产成人aaa| 国产交换配乱淫视频免费| 欧美国产精品中文字幕| 国产精品视频一区二区三| 亚洲已满18点击进入久久| 日韩 欧美 中文| 在线一区二区三区四区| 99热这里只有精品在线| 亚洲福利在线观看| 好男人免费精品视频| 久久久久999| 亚洲美女尤物影院| 成人欧美在线观看| 麻豆一区一区三区四区| 一级日韩一区在线观看| 好看的日韩av电影| 国产又大又黄又粗又爽| 国产成人无遮挡在线视频| 强伦人妻一区二区三区| 亚洲天堂av一区| 青青青国产在线 | 日韩a一区二区| 免费人成自慰网站| 麻豆成人av在线| 超碰97在线资源站| 亚洲欧美在线另类| 天堂网免费视频| 91精品国产综合久久久久久| 婷婷丁香花五月天| 色综合伊人色综合网站| 麻豆国产在线| 亚洲自拍欧美另类| 精品国产网站| 国内自拍在线观看| 高清日韩电视剧大全免费| 公肉吊粗大爽色翁浪妇视频| 亚洲国产精品一区二区久久恐怖片| 正在播放亚洲精品| 亚洲成av人片在线观看香蕉| 日韩精品成人av| 欧美中文字幕在线观看| 加勒比久久高清| 在线免费观看成人| 日本中文字幕一区二区视频| 97香蕉碰碰人妻国产欧美 | 国产精品久免费的黄网站| 日韩欧美123| 精品黄色免费中文电影在线播放| 奇米成人av国产一区二区三区| 午夜日韩影院| 青青草综合视频| 国产自产视频一区二区三区| 欧美人与禽zoz0善交| 欧美午夜片欧美片在线观看| 黄色一级大片在线免费看国产| 日韩亚洲欧美中文高清在线| 全球最大av网站久久| 欧美中日韩免费视频| 日韩视频一区| 成人区人妻精品一区二| 亚洲黄色免费电影| 国产毛片一区二区三区va在线| 中文在线不卡视频| 粉嫩91精品久久久久久久99蜜桃| 欧美一区1区三区3区公司| 国产精品一二| 国产伦精品一区二区三区妓女 | 136福利精品导航| 吴梦梦av在线| 精品一区二区三区久久| 国产3级在线观看| 欧美另类一区二区三区| 秋霞成人影院| 国产日韩欧美电影在线观看| 成人在线一区| 亚洲另类第一页| 亚洲婷婷综合久久一本伊一区| 中国一级片黄色一级片黄| 在线观看日韩av| 欧美日韩卡一| 中文字幕中文字幕在线中心一区| 久久草av在线| 动漫性做爰视频| 精品欧美一区二区久久| а√在线中文网新版地址在线| 黑人巨大精品欧美一区二区小视频| 亚洲免费激情| 99久久久无码国产精品性| 91豆麻精品91久久久久久| 国产福利片在线| 91亚洲精品久久久| 欧美欧美全黄| aa片在线观看视频在线播放| 色视频欧美一区二区三区| av在线资源网| 亚洲一区二区三区xxx视频| 亚洲视频中文| 国产又粗又猛又爽视频| 欧美日韩在线综合| av小次郎在线| 国产日韩久久| 美美哒免费高清在线观看视频一区二区| 山东少妇露脸刺激对白在线| 欧美高清激情brazzers| 韩国日本一区| 日本不卡二区| 国产精品亚洲专一区二区三区| 亚洲日本韩国在线| 日韩中文在线观看| 久久动漫网址| www.com黄色片| 亚洲成人自拍一区| 黄色在线免费观看大全| 成人信息集中地欧美| 一本色道精品久久一区二区三区 | 亚洲一区二区三区精品在线| 久青草国产在线| 97碰碰视频| 日韩成人免费电影| 国产五月天婷婷| 中文字幕在线国产精品| 九九热hot精品视频在线播放| 亚洲欧美自偷自拍另类|