GPT-4o數(shù)學(xué)能力跑分直掉50%，上海AI Lab開始給大模型重新出題了

作者：量子位 2024-12-19 09:00:00

人工智能新聞

為了真實(shí)檢驗(yàn)?zāi)Ｐ蛿?shù)學(xué)推理能力，上海人工智能實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)放大招了。

新模型在MATH上（以數(shù)學(xué)競(jìng)賽為主）動(dòng)輒跑分80%甚至90%以上，卻一用就廢。

這合理嗎？？

為了真實(shí)檢驗(yàn)?zāi)Ｐ蛿?shù)學(xué)推理能力，上海人工智能實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)放大招了。

推出新的復(fù)雜數(shù)學(xué)評(píng)測(cè)集LiveMathBench，以全新性能指標(biāo)G-Pass@16_??來連續(xù)評(píng)估模型的性能潛力和穩(wěn)定性。

好家伙！團(tuán)隊(duì)在模擬真實(shí)用戶使用采樣策略、重復(fù)多次評(píng)測(cè)大模型的數(shù)學(xué)推理能力時(shí)發(fā)現(xiàn)：

大部分的模型平均會(huì)有五成以上的性能下降，即使是最強(qiáng)推理模型o1-mini也會(huì)下降3成6，更有模型直接下降九成。

具體咋回事兒下面接著看。

全新評(píng)價(jià)指標(biāo): G-Pass@k

研究團(tuán)隊(duì)重新思考了大模型評(píng)測(cè)常用的技術(shù)指標(biāo)，如傳統(tǒng)經(jīng)常采用的Pass@k, Best-of-N, Majority Voting，這些指標(biāo)主要關(guān)注模型的性能潛力，缺少對(duì)模型的魯棒性的評(píng)測(cè)。

而真實(shí)場(chǎng)景中，為了提高回復(fù)的多樣性，模型往往使用采樣解碼的方式進(jìn)行推理，這也會(huì)帶來大量的隨機(jī)性。在復(fù)雜推理任務(wù)中，這種隨機(jī)性會(huì)嚴(yán)重影響模型的性能，而用戶更預(yù)期在真實(shí)問題中，模型能又穩(wěn)又好。

Pass@k指標(biāo)回顧

經(jīng)典的Pass@k指標(biāo)關(guān)注模型在多次生成中至少給出一次正確答案的概率。假設(shè)模型生成次數(shù)為??，正確答案數(shù)為??，c表示其中正確解的數(shù)量，那么Pass@k的計(jì)算方式如下：

兼顧性能潛力與穩(wěn)定性的評(píng)測(cè)指標(biāo)G-Pass@K

Pass@k體現(xiàn)了模型的性能潛力，卻不能體現(xiàn)模型的穩(wěn)定性，基于這一目的團(tuán)隊(duì)將Pass@k推廣為Generalized Pass@k（以下簡(jiǎn)稱G-Pass@k_??）。

通過引入閾值??，該工作關(guān)注模型在??次生成中至少給出 ? ?? · ?? ?次正確答案的概率。

一般來說，認(rèn)為模型的每次生成是i.i.d.（Independent and Identically Distributed）的，那么模型給出的正確答案數(shù)服從二項(xiàng)分布，這可以通過超幾何分布逼近二項(xiàng)分布。基于此，可以得出G-Pass@k_??的定義：

在??較小時(shí)，G-Pass@k_??衡量模型的性能潛力；??較大時(shí)，G-Pass@k_??衡量模型的穩(wěn)定性，或者說模型對(duì)于問題的掌握程度，因此研究者可以通過G-Pass@k_??連續(xù)地觀察模型的性能潛力與穩(wěn)定性。

進(jìn)?步地，研究團(tuán)隊(duì)還定義了mG-Pass@k用于對(duì)模型的性能進(jìn)行整體觀測(cè)。

具體來說，mG-Pass@k是 ??—G-Pass@k_??曲線下的面積，為了更好地模擬真實(shí)場(chǎng)景，團(tuán)隊(duì)重點(diǎn)考慮???[0.5，0.1 ]的情況，即：

G-Pass@K是Pass@K是泛化形式

當(dāng)? ?? · ?? ?=1時(shí)，Pass@K是G-Pass@k_??等價(jià)，這意味著Pass@K是G-Pass@k_??的特例，讀者可以參考論文附錄提供的證明。

研究團(tuán)隊(duì)給出了兩者關(guān)系的對(duì)比分析，如下圖所示：

圖中展示了不同的??和c下Pass@K和G-Pass@k_??的值，可以看出在??較小時(shí)，兩者反映的是模型的潛力，然而這種分?jǐn)?shù)可能是偏高的，在24/80的整體通過率下，Pass@K指標(biāo)的值可以接近80%。

但當(dāng)關(guān)注較高的??時(shí)，更能夠觀察到模型在實(shí)際生成時(shí)的真實(shí)性能。

LiveMathBench：避免數(shù)據(jù)污染的復(fù)雜數(shù)學(xué)評(píng)測(cè)集

研究團(tuán)隊(duì)構(gòu)建了一個(gè)新的benchmark LiveMathBench用于驗(yàn)證實(shí)驗(yàn)。

具體來說，他們收集了最近發(fā)布的中國(guó)數(shù)學(xué)奧林匹克，中國(guó)高考最新模擬題，美國(guó)數(shù)學(xué)競(jìng)賽和美國(guó)普特南數(shù)學(xué)競(jìng)賽中最新的題目，盡量減少數(shù)據(jù)污染的可能性。

整個(gè)LiveMathBench（202412版本）包括238道題目，每個(gè)題目提供中文/英文兩個(gè)版本的題目，覆蓋不同的難度。研究團(tuán)隊(duì)計(jì)劃后續(xù)持續(xù)更新LiveMathBench中的題目，來持續(xù)觀測(cè)LLM的真實(shí)數(shù)學(xué)水平。

另外，研究團(tuán)隊(duì)還在兩個(gè)公開Benchmark MATH500和AIME2024上進(jìn)行了實(shí)驗(yàn)。

對(duì)于MAH500，研究團(tuán)隊(duì)選擇了難度為L(zhǎng)5的題目，命名為MATH500-L5；對(duì)于AIME2024，研究團(tuán)隊(duì)使用了Part1和Part2兩個(gè)部分全部45道題目，命名為AIME2024-45。

實(shí)驗(yàn)

在實(shí)驗(yàn)設(shè)置方面，對(duì)于每道題目，進(jìn)行了16*3=48次生成并報(bào)告G-Pass@16_??分?jǐn)?shù)。研究團(tuán)隊(duì)在通用模型、數(shù)學(xué)模型和類o1模型三種不同類型的大模型中選擇了具有代表性的大模型進(jìn)行實(shí)驗(yàn)。

LiveMathBench性能對(duì)比如下：

根據(jù)實(shí)驗(yàn)結(jié)果，可以看到：

大部分閉源模型和開源模型在G-Pass@16_1.0指標(biāo)上也都不超過30分。
最強(qiáng)的o1-mini模型在G-Pass@16_1.0獲得了最高分42分，相對(duì)性能下降比例也是所有模型中最低的（36.9%），雖體現(xiàn)出相對(duì)較高的穩(wěn)定性，但仍然難以忽視。

Math-500-L5/AIME2024-45性能對(duì)比如下。

對(duì)于開源數(shù)據(jù)集：

在常用的高中競(jìng)賽級(jí)別題目MATH500-L5上，多數(shù)模型不管是貪婪解碼的表現(xiàn)還是穩(wěn)定性G-Pass@16_1.0的表現(xiàn)都相比LiveMathBench都有所提升，而AIME2024則相反，大多數(shù)模型的G-Pass@16_1.0分?jǐn)?shù)都只有個(gè)位數(shù)，甚至部分模型接近0分；
對(duì)于難度頗高的AIME2024，雖然o1-min和QwQ-32B-Preview在貪婪解碼下表現(xiàn)突出，但面對(duì)高難度題目下的穩(wěn)定性還是難以保證，如QwQ-32B-Preview甚至跌到了不到原來的1/5，而其在MATH500-L5中卻比較穩(wěn)定，達(dá)到了原分?jǐn)?shù)的3/5，這也說明了最新的高難度數(shù)學(xué)題目對(duì)模型的穩(wěn)定性帶來了更大的壓力。

最后，模型在不同難度題目上的能力分析如下 。

下表展示了關(guān)鍵模型在LiveMathBench兩個(gè)子集上的性能表現(xiàn)。

其中CCEE代表中國(guó)高考題目，主要涉及到基礎(chǔ)的高中數(shù)據(jù)知識(shí)；而WLPMC代表來自普特南（Putnam）競(jìng)賽的題目，普特南競(jìng)賽是久負(fù)盛名的美國(guó)大學(xué)生數(shù)學(xué)競(jìng)賽，其題目難度要高于高考題目。

由實(shí)驗(yàn)結(jié)果可以看出，先進(jìn)的推理模型，例如DeepSeek-V2.5, Qwen2.5-72B-Instruct, QwQ等在Pass@16指標(biāo)下在兩個(gè)子集上都有較好的性能，但大部分模型在WLPMC上的穩(wěn)定性下降更為嚴(yán)重。

因此可以有如下猜想，推理模型容易學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中的平凡解，導(dǎo)致Pass@k等指標(biāo)的上升，然而在困難的問題上，這種提升并不與模型真實(shí)推理性能提升相關(guān)。在強(qiáng)基座模型的訓(xùn)練中，更應(yīng)該關(guān)注推理穩(wěn)定性的表現(xiàn)，以提升其真實(shí)推理能力。

重要觀測(cè)

觀察一：閉源和開源模型均不能穩(wěn)定地進(jìn)行復(fù)雜推理

研究人員對(duì)當(dāng)前主流的約20個(gè)模型進(jìn)行了測(cè)試，發(fā)現(xiàn)盡管多數(shù)模型在貪婪解碼的準(zhǔn)確率Greedy Accuracy和Pass@16上表現(xiàn)相對(duì)較好，但當(dāng)使用G-Pass@K指標(biāo)進(jìn)?評(píng)估時(shí)，性能卻顯著下降。

當(dāng)??設(shè)置為1.0時(shí)，即要求模型在所有16次采樣中都提供正確答案， 幾乎所有模型的表現(xiàn)都急劇下降。

例如，在對(duì)LiveMathBench的測(cè)評(píng)中，Llama-3.1-8B-Instruct模型的準(zhǔn)確率從18.1%下降到0.8%（G-Pass@16_??=1.0），降幅高達(dá)95.7%。即使是較大的模型，如NuminaMath-72B-CoT，其準(zhǔn)確率也從34.45%下降到3.7%，減少了89.3%。

在大約20個(gè)測(cè)試模型中，平均性能下降了60%。即便是表現(xiàn)最為穩(wěn)定的OpenAI o1-mini，其準(zhǔn)確率也從66.5%下降到42.0%，降幅為36.9%。

即使將??放寬到0.5，即只要求一半的樣本正確即可通過，通用模型、數(shù)學(xué)推理模型和o1-like模型仍分別經(jīng)歷了14.0%、22.5%和4.8%的平均性能下降。

這表明，在復(fù)雜條件下，多數(shù)模型難以在多次采樣中保持一致的推理能力。

不過目前的評(píng)估指標(biāo)通常依賴單次貪婪解碼，可能無法充分反映這些模型在實(shí)際應(yīng)用中的魯棒性和穩(wěn)定性。

因此，研究團(tuán)隊(duì)指出，需要對(duì)模型的推理能力進(jìn)行更嚴(yán)格的評(píng)估，尤其是在那些需要在多次采樣中保持一致性和可靠性的重要應(yīng)用中。

觀察二：增大模型規(guī)模對(duì)推理能力的提升有限

研究人員觀察到，以同系列模型Qwen2.5-32B-Instruct與Qwen2.5-72B-Instruct為例，雖然它們的模型規(guī)模相差一倍以上，但無論指標(biāo)采用G-Pass@K還是Greedy Accuracy，無論評(píng)測(cè)數(shù)據(jù)集是最新的LiveMathBench還是現(xiàn)有開源數(shù)據(jù)集，兩者的表現(xiàn)均相似。

另外，在更大體量的模型Mistral-Large-Instruct-2411（123B）上，盡管模型規(guī)模繼續(xù)增大，但其性能和穩(wěn)定性相比 Qwen2.5-72B-Instruct 卻出現(xiàn)下滑。

這表明，對(duì)于需要深度理解和邏輯推理的任務(wù)，簡(jiǎn)單增大參數(shù)并不能顯著提升性能或穩(wěn)定性。

這可能是因?yàn)檫@些任務(wù)不僅需要模型具備記憶和模式識(shí)別能力，更需要強(qiáng)大的推理和上下文理解能力。

觀察三：模型的性能潛力和實(shí)際表現(xiàn)之間的巨大差距

研究團(tuán)隊(duì)在評(píng)估模型性能時(shí)發(fā)現(xiàn)，理論最大能力G-Pass@16_??→0、實(shí)際表現(xiàn)能力Greedy Accuracy和多次采樣下的穩(wěn)定能力G-Pass@16_??=1.0之間存在顯著差距。

盡管模型在理論上具備相當(dāng)高的潛在性能，但在實(shí)際應(yīng)用中未能充分展現(xiàn)這一水平，尤其是在輸出穩(wěn)定性方面。一些模型在單次貪婪解碼中表現(xiàn)出高準(zhǔn)確率，顯示出處理特定任務(wù)的潛力，但在保持一致高準(zhǔn)確率方面卻不穩(wěn)定，遠(yuǎn)未達(dá)到最佳性能。

這反映了現(xiàn)有模型在推理穩(wěn)定性和一致性上的不足，這在訓(xùn)練和評(píng)估中常被忽略。

模型在單次推理表現(xiàn)中易受輸入數(shù)據(jù)變化、初始化狀態(tài)或隨機(jī)采樣的影響，導(dǎo)致不同采樣解碼的結(jié)果不一致。

研究人員指出，在高可靠性和一致性要求的實(shí)際應(yīng)用中，如何在保持接近最佳性能的同時(shí)確保輸出的穩(wěn)定性，是一個(gè)亟待解決的問題。

總結(jié)

本研究深入分析了當(dāng)前大型模型的數(shù)學(xué)推理能力，提出了全新的性能指標(biāo)G-Pass@16_?? ，用于連續(xù)評(píng)估模型的性能潛力和穩(wěn)定性。

此外，還設(shè)計(jì)了避免數(shù)據(jù)污染的LiveMathBench數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果顯示，目前的大型模型在推理性能方面未達(dá)到預(yù)期，尤其在多次重復(fù)采樣時(shí)，性能出現(xiàn)顯著下降。研究團(tuán)隊(duì)期望學(xué)術(shù)界和工業(yè)界能夠在推理能力的魯棒性研究上持續(xù)探索與推進(jìn)。

論文鏈接：https://arxiv.org/abs/2412.13147
項(xiàng)目地址：https://github.com/open-compass/GPassK

責(zé)任編輯：張燕妮來源：量子位

模型數(shù)學(xué)訓(xùn)練