精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath

發布于 2024-4-3 08:11
瀏覽
0收藏

引言:大語言模型數學能力評估的重要性

數學能力的評估對于理解和發展大語言模型(LLMs)至關重要。數學問題不僅涉及對數字的理解和操作,還包括了抽象概念化、邏輯推理等核心能力的考察。因此,一個高質量的數學評估基準對于全面評估LLMs的能力具有重大意義。

傳統的數學問題數據集,如AddSub和MultiArith(下圖),提供了基礎的數學詞匯問題庫,但這些通常只能評估模型在特定數學問題上的準確性。隨著中文LLMs的迅速發展,相應的中文數學評估數據集也應運而生。然而,簡單的準確率評估并不能充分揭示模型掌握了哪些數學概念或技能。因此,迫切需要一個更全面的測試集,能夠細致地評估LLMs在不同難度級別的數學問題上的推理能力。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

▲FineMath能夠從三個方面評估LLMs的數學能力:理解抽象數學概念的準確性、推理的準確性以及整體的準確性。

為了解決這一問題,我們提出了FineMath,這是一個針對中文LLMs的細粒度數學評估基準數據集(參見上圖)。該數據集包含小學數學的核心概念,分為17類數學詞匯問題,用以深入分析LLMs的數學推理能力。所有數學詞匯問題均經手工標注,按解決難度(推理步驟數)分級。通過在FineMath上對多個LLMs進行實驗,我們發現中文LLMs在數學推理上還有進步空間。我們還深入分析了評估過程和方法,發現它們對模型結果和理解其數學推理能力有重大影響。FineMath數據集即將公開。

論文標題:
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models

論文鏈接:
???https://arxiv.org/pdf/2403.07747.pdf??

FineMath基準的構建與目標:細粒度評估中文LLMs的數學推理能力

1. 數據集概述與關鍵數學概念的覆蓋

FineMath基準旨在全面評估中文LLMs的數學推理能力。該基準涵蓋了小學數學中的主要關鍵數學概念,并進一步細分為17類數學應用題(Math Word Problems, MWPs),使得能夠深入分析LLMs的數學推理能力。這些關鍵概念和技能包括數字與運算、代數、幾何、測量、數據分析與概率、問題解決和推理等。

2. 17個數學問題類別的詳細介紹

FineMath包含17種類型的MWPs(見下表),這些類型基于中國教育部制定的數學課程標準以及美國國家數學教師委員會(NCTM)設定的原則和標準。這些類別包括百分比、小數、分數、因數與倍數、計數、比例和混合運算等。每種類型的MWPs都包含三個難度級別,以促進詳細的推理能力分析。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

3. 難度分級與推理步驟的標注

FineMath中的每個數學問題都根據解決問題所需的推理步驟數量手動注釋難度級別。問題被分為三個難度級別:一步推理的問題為一級難度,兩步推理的問題為二級難度,三步或更多步推理的問題為三級難度。這種分類不僅反映了問題的難度,還代表了推理過程。

數據收集與注釋過程

1. MWP分類與問題標準化

在數據收集過程中,我們將收集到的問題分類為17種類型,每種類型對應一個關鍵或基本概念。我們將多個查詢的問題標準化,確保每個問題只包含一個查詢,并重新表述模糊查詢,以便模型能夠生成唯一的答案。

2. 數學推理與答案標準化

我們手動進行MWPs的回答過程,并由人工雙重檢查真實答案。我們要求注釋者提供回答每個MWP的步驟,每個步驟應該是原子的、不可分割的。對于使用固定解決公式的計算,例如計算圓的面積,我們將其視為單步MWPs。

3. 多項選擇題的轉換

為了便于自動評估,我們還將原始的MWPs轉換為多項選擇題形式,手動提供額外的對比答案選項,類似于AQUA數據集。

FineMath數據統計與分析

1. 數據集的整體統計信息

FineMath數據集旨在評估中文LLMs的數學推理能力,涵蓋了小學數學中的主要概念,并進一步細分為17類數學應用題。這些類別的題目都經過手動注釋,根據解決問題所需的推理步驟數量來標注難度等級。數據集包含1584個問題,每個數學概念至少包含60個問題,每個難度等級至少包含20個問題。FineMath的數據統計顯示,所有問題被分為五個主要數學概念和兩種經典類型的數學應用題,確保了數據集的多樣性和全面性。

2. 數據集污染分析及其對模型性能的影響

FineMath數據集的一個關鍵考量是測試數據污染問題,即測試數據可能無意中被包含在模型的訓練數據中。這種污染可能導致模型性能的高估,從而誤導我們對模型泛化能力的理解。為了評估污染情況,研究人員采用了與GPT-3相同的方法來計算FineMath與Ape210K(一個公開的大規模中文數學應用題數據集)之間的n-gram重疊情況(下圖)。通過這種方法,研究人員發現某些問題類型的重疊率明顯高于其他類型,例如基礎幾何和比例問題。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

為了深入了解這些重疊示例對模型性能的影響,研究人員將測試示例分為兩個數據集:一個包含重疊示例的污染數據集和一個與Ape210k訓練集沒有重疊的干凈數據集。在對比GPT-4和MathGLM-10B在這兩個數據集上的表現時(下表),發現MathGLM-10B在污染數據集上的表現顯著優于干凈數據集。相比之下,GPT-4在兩個數據集上的表現相當。這表明MathGLM-10B可能對重疊示例過擬合,而污染確實可以提高模型的性能。因此,為了確保模型之間的公平比較,并從FineMath基準測試中得出準確的結論,建議過濾掉訓練集和FineMath基準測試之間的重疊示例。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

實驗設計與評估的LLMs

1. 評估的LLMs類別與特點

在FineMath上進行的實驗評估了多種LLMs,包括OpenAI開發的GPT-4和GPT-3.5-Turbo,以及專門為中文開發的LLMs和使用中文數學數據微調的LLMs。這些模型的參數范圍從數十億到數千億不等,訓練數據量從數十億到數萬億不等(下表),這些因素都對模型的問題解決和推理能力至關重要。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

2. 實驗中使用的提示(Prompts)

實驗在零樣本設置下進行,研究人員嘗試了多種提示來進行評估和分析。這些提示包括不提供任何額外信息,只輸入問題到模型中;不解釋原因,只提供問題答案;以及提供問題答案并解釋原因等(下表)。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

3. 主要結果與不同類別的表現分析

在17個數學應用題類別中,GPT-4在所有模型中表現最佳(下圖),其準確率在不同類別中的表現差異顯著(下表)。例如,在“混合運算”類別中,GPT-4的準確率最高,達到89%,而在“計數”類別中,準確率最低,為38%。GPT-4在概率和解析幾何類別中的表現超過其他所有模型,提高了超過25%。GPT-3.5-Turbo在不同的數學應用題類別中的表現與GPT-4相似,但在概率、基礎幾何和解析幾何上有超過20%的顯著差異。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

在數學推理步驟數量方面,LLMs的表現隨著推理步驟的增加而降低(下圖)。GPT-4在所有難度級別上保持了超過60%的準確率,對于只需要一個推理步驟的數學應用題,其準確率高達82%。而GPT-3.5-Turbo的準確率平均比GPT-4低10%。其他模型在不同的數學應用題類別和推理步驟數量上的表現也有所不同,顯示出模型在數學推理能力上的差異。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

分析:評估過程中的關鍵因素

1. 提示(Prompts)對模型準確性的影響

在評估過程中,提示(Prompts)的使用對模型產生的答案準確性有顯著影響。例如,GPT-4在不同提示下的整體準確率分別為73%,59%,和58%(下表),這表明即使是簡單的提示變化也可能導致模型性能的顯著差異。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

提示如“Answer:”可能會促使模型跳過推理過程,直接輸出答案,從而增加了生成錯誤答案的可能性。下表是示例。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

2. 生成式評估與選擇題評估方法的比較

在初步實驗中發現,一些新開發的LLMs不總是遵循指令,經常生成與答案無關的大量文本。因此,將數據轉換為選擇題形式,模型可以從中選擇正確的答案。通過比較(下表),我們發現生成式評估與選擇題評估方法在準確性上存在顯著差異,差距可能超過10%。值得注意的是,將任務結構化為選擇題形式似乎降低了高性能模型的準確性,同時提高了性能較差模型的準確性。選擇題選項本身可能作為一種提示,影響模型的性能。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

3. 模型響應長度與“信心”的關聯

對模型生成的響應長度進行統計分析時,發現兩個現象(下表)。首先,如GPT-4和GPT-3.5-Turbo這樣的模型傾向于生成緊密圍繞問題的響應,文本較短,這可能表明了高準確性模型的特點。其次,數學問題需要的推理步驟越多,模型生成的響應往往越長。我們推測,模型在回答問題時的“信心”影響了其響應的長度。在某些情況下,即使在指示模型只提供答案而不解釋的情況下,模型仍會為難度較大的問題生成邏輯推理。

今日arXiv最熱NLP大模型論文:天津大學發布大模型數學能力細粒度評價基準FineMath-AI.x社區

結論與展望

FineMath作為一個細粒度的基準測試集,為全面評估中文LLMs的數學能力提供了重要工具。通過對多個LLMs的評估,我們不僅關注模型的準確性,還深入分析了評估過程和方法,揭示了這些經常被忽視的因素對評估結果和我們對模型數學推理能力理解的顯著影響。

FineMath的貢獻在于它提供了一個綜合性的基準,覆蓋了中國小學數學的主要概念,并將數學問題分為17個類別,使得對LLMs的數學推理能力進行深入分析成為可能。此外,FineMath的污染分析使研究人員能夠檢查訓練數據是否影響評估結果,從而確保了評估的公平性和有效性。

未來的研究方向可以包括進一步提高評估方法的公平性和有效性,例如通過更復雜的提示和任務形式來測試模型的推理和理解能力。此外,可以探索如何減少訓練數據中的污染,以及如何提高模型在處理更復雜數學問題時的性能。隨著LLMs的不斷進步,FineMath及其后續版本有望成為評估和提升中文LLMs數學推理能力的重要工具。


本文轉載自夕小瑤科技說,作者:Tscom

原文鏈接:??https://mp.weixin.qq.com/s/f4ptXPMEBdmvjQKiYyWF8Q??

收藏
回復
舉報
回復
相關推薦
国产高清一区二区三区| 伊人成人开心激情综合网| 久久国产精品网| 天天干天天干天天干| 日韩精品国产欧美| 欧美第一页在线| 欧美日韩高清丝袜| 久久丁香四色| 在线视频欧美精品| 亚洲小视频在线播放| 欧美777四色影视在线| 久久99精品久久久久久| 91高清免费在线观看| 日本 欧美 国产| 欧美日韩一区二区三区不卡视频| 欧美亚洲精品一区| 国产精品久久中文字幕| 超碰在线无需免费| 久久精品在线观看| 99国产超薄肉色丝袜交足的后果| 日韩精选在线观看| 欧美午夜影院| 久久久91精品国产一区不卡| 亚洲一区二区三区蜜桃| 伊人久久大香线蕉av超碰| 欧美亚洲动漫制服丝袜| 日本午夜激情视频| 成人影院在线看| 日本一区二区高清| 久久久免费看| 天堂网av2014| 成人精品一区二区三区中文字幕| 亚洲va久久久噜噜噜| 伊人精品在线视频| 先锋亚洲精品| 456国产精品| 国产精品6666| 国户精品久久久久久久久久久不卡| 这里只有精品视频在线| 国产免费一区二区三区网站免费| 欧美a一欧美| 亚洲成人黄色在线| 亚洲图片欧美另类| 涩涩屋成人免费视频软件| 欧美精品久久一区二区三区| 我要看一级黄色大片| 朝桐光一区二区| av在线小说| 久久久水蜜桃av免费网站| 欧美极品欧美精品欧美视频| 国产黄色的视频| 91高清一区| 免费99精品国产自在在线| 女同久久另类69精品国产| 日韩欧美国产精品综合嫩v| 亚洲天堂网站在线观看视频| 久久国产精品无码一级毛片| 人人精品视频| 亚洲男人天天操| 瑟瑟视频在线观看| 综合伊思人在钱三区| 亚洲天堂男人的天堂| 俄罗斯毛片基地| 欧美xxxx中国| 不卡av电影在线观看| 欧美极品aaaaabbbbb| 在线播放日韩| 欧美亚洲国产视频| 五月婷婷激情五月| 蜜臀av一区二区在线免费观看| 国产精品影院在线观看| 99精品视频在线播放免费| 大陆成人av片| 欧美男人的天堂| 亚洲搞黄视频| 亚洲一区二三区| 欧美一级在线看| 岛国精品在线| 日韩欧美一卡二卡| 国产三级国产精品| 欧美国产一级| 久久青草精品视频免费观看| 人妻 日韩精品 中文字幕| 日本亚洲视频在线| 亚洲精品欧美极品| 五十路在线视频| 亚洲国产高清在线| www.国产亚洲| 欧美最新精品| 日韩欧美在线123| 丝袜美腿中文字幕| 国产精品久久观看| 66m—66摸成人免费视频| 中文字幕 自拍偷拍| 国产精品自拍网站| 伊人一区二区三区久久精品 | 国产美女网站在线观看| 欧美成人黑人| 日韩欧美一级片| 精品成人无码一区二区三区| 自拍偷拍欧美专区| 国产成人鲁鲁免费视频a| 99久久精品国产一区色| 91免费在线看| 欧美激情亚洲天堂| 精品国模一区二区三区| 精品国产一区二区三区四区四| 69精品无码成人久久久久久| 欧美视频在线观看| 国产精品一二三在线| 污污视频在线观看网站| 日韩一区在线看| 国产综合免费视频| 99国产精品免费网站| 精品精品国产国产自在线| 亚洲影院在线播放| 成人av在线一区二区三区| 综合视频免费看| 色尼玛亚洲综合影院| 亚洲国产精品成人av| 日韩成人短视频| 日韩精品视频网| 精品一区2区三区| 欧美videos另类精品| 欧美巨大另类极品videosbest | 日本一区二区三级电影在线观看| 国产91沈先生在线播放| 国产精品一区二区精品视频观看| 在线看福利67194| 黄色av网站免费| 久久久综合网站| 免费av手机在线观看| 亚洲三级av| 超在线视频97| 国产欧美久久久| 18欧美亚洲精品| 亚洲国产日韩欧美在线观看| 精品一区不卡| 国产精品久久久久久久久久ktv| 欧美在线一卡| 欧美特级www| 国产激情视频网站| 亚洲巨乳在线| 久久国产精品一区二区三区四区 | 日韩美女av在线免费观看| 国产综合视频在线| 亚洲一区二区精品视频| 男人的天堂免费| 国语对白精品一区二区| 91精品国产一区二区三区动漫 | 五月天欧美精品| 无码人妻一区二区三区在线| 国内精品久久久久久久影视麻豆| 99视频免费观看蜜桃视频| 污视频网站在线免费| 日韩欧美国产三级| 精品一区二区三区人妻| caoporen国产精品视频| 国产精品网站免费| 亚洲免费专区| 国产精品久久国产精品99gif| 成人高清免费在线播放| 欧美日韩久久一区| 夫妻性生活毛片| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 91丝袜超薄交口足| 欧美黄免费看| 国产麻豆日韩| av资源亚洲| 最近2019免费中文字幕视频三| 国产又爽又黄免费软件| 亚洲精品成人天堂一二三| 日本一级大毛片a一| 国产精品久久久久久久久久妞妞| 区一区二区三区中文字幕| www成人在线视频| 久久中文字幕视频| 少妇无码一区二区三区| 精品美女国产在线| 女人十八毛片嫩草av| 国产精品一区一区| 两根大肉大捧一进一出好爽视频| 精品一区二区三| 亚洲字幕在线观看| 少妇淫片在线影院| 深夜福利91大全| 国产91麻豆视频| 色香色香欲天天天影视综合网| 国产第一页精品| 福利电影一区二区| 粗暴91大变态调教| 欧美在线不卡| 色姑娘综合网| 88久久精品| 国产精品大片wwwwww| 天堂av在线电影| 国产亚洲欧美aaaa| 国产黄色av片| 欧美三级电影在线看| 国产在线免费视频| 国产精品久久久久久一区二区三区| 精品国产aⅴ一区二区三区东京热| 美女视频一区免费观看| 九一免费在线观看| 成人免费电影网址| 国产精品手机在线| 午夜精品久久久久久毛片| 91黄色8090| h网站久久久| 国产亚洲美女精品久久久| 全国男人的天堂网| 51精品久久久久久久蜜臀| jizz国产在线观看| 亚洲高清不卡在线观看| 强制高潮抽搐sm调教高h| 97se亚洲国产综合在线| 韩国三级hd中文字幕有哪些| 奇米一区二区三区| 男人操女人免费软件| 黄色在线一区| 免费成人深夜夜行网站视频| 国产日产一区| 欧美区高清在线| 啪啪国产精品| 国产一区二区三区高清视频| 欧美特黄不卡| 成人性生交大片免费观看嘿嘿视频 | 亚洲精品网站在线| 欧美日韩国产中文| 国产女主播喷水视频在线观看 | www.黄色av| 337p亚洲精品色噜噜噜| 亚洲天堂avav| 欧美午夜精品久久久久久超碰| av图片在线观看| 一本一本大道香蕉久在线精品| 日韩福利片在线观看| 亚洲一卡二卡三卡四卡| 九九在线观看视频| 亚洲精品乱码久久久久久日本蜜臀| 国产探花在线视频| 中文字幕亚洲精品在线观看| 91无套直看片红桃在线观看| 国产视频一区在线观看| 久久久久久久久久久久| 久久精品无码一区二区三区| 欧产日产国产精品98| 97久久精品人人做人人爽50路| 日韩www视频| 26uuu亚洲综合色| 波多野结衣一本| 国产视频一区二区在线观看| 亚洲精品午夜视频| 欧美国产精品中文字幕| 日韩av网站在线播放| 亚洲欧洲日产国产综合网| 日韩va亚洲va欧美va清高| 一区二区三区四区精品在线视频| 免费在线观看av网址| 亚洲午夜免费福利视频| 可以免费看的av毛片| 色综合天天综合网天天看片| 久久午夜鲁丝片| 欧美精品一级二级| 精品国产999久久久免费| 欧美tickling挠脚心丨vk| 网站黄在线观看| 亚洲午夜精品视频| 生活片a∨在线观看| 欧美成人免费在线视频| 国产在线天堂www网在线观看| 欧美在线激情视频| 国外成人福利视频| 99久久伊人精品影院| 免费日韩一区二区三区| 日韩久久久久久久久久久久久| 99re66热这里只有精品8| 97超碰在线视| 蜜桃视频一区| 福利片一区二区三区| 成人激情免费电影网址| 国产sm调教视频| 亚洲免费观看高清在线观看| 黄色片视频网站| 欧美三级蜜桃2在线观看| 丁香花免费高清完整在线播放| 亚洲天堂2020| 成年人网站在线| 日韩av电影免费观看高清| 粉嫩av国产一区二区三区| 久久精品人成| 亚洲精品一区二区在线看| 缅甸午夜性猛交xxxx| 日本aⅴ免费视频一区二区三区| 久久久久亚洲av无码网站| 久久久久久久电影| 欧美日韩亚洲国产另类| 91久久精品一区二区二区| 午夜久久久久久久久久| 国产亚洲精品一区二区| av在线加勒比| 国产日韩欧美成人| 五月天亚洲一区| 一级特黄妇女高潮| 日韩成人av影视| 中文字幕一区二区人妻电影丶| 国产精品国产三级国产a| 中日韩精品视频在线观看| 91精品综合久久久久久| 黄网在线观看| 午夜美女久久久久爽久久| 国产一区二区高清在线| 日韩av电影免费在线| 欧美区国产区| 成人在线观看黄| 99视频在线观看一区三区| 人妻少妇精品一区二区三区| 欧美日韩一区二区电影| 青青草免费在线视频| 欧美精品999| 国产精品国产亚洲精品| 日日噜噜噜噜夜夜爽亚洲精品| 国产日韩一区| 久久久久久婷婷| 亚洲在线免费播放| 99热这里只有精品99| 丝袜情趣国产精品| 久久亚洲精品爱爱| 欧美日韩大片一区二区三区 | 欧美在线影院在线视频| 国产精品xxx在线观看| 国产精品igao激情视频| 国产一区在线观看视频| 欧美一级特黄高清视频| 欧美丝袜自拍制服另类| 黄色av网站在线| 国产高清视频一区三区| 视频一区中文| 波多野结衣作品集| 国产亚洲一区二区三区在线观看| 欧美videossex极品| 国产网站欧美日韩免费精品在线观看| 91探花在线观看| 国产青春久久久国产毛片| 精品电影一区| 艳妇乳肉豪妇荡乳xxx| 亚洲高清视频在线| 午夜av免费在线观看| 69精品小视频| 精品在线观看入口| 黑鬼大战白妞高潮喷白浆| 国产香蕉久久精品综合网| 四虎影院在线免费播放| 在线看日韩欧美| 97精品资源在线观看| 在线观看三级网站| 国产91精品入口| 伊人国产在线观看| 日韩精品一区二区三区第95| sese综合| 亚洲免费不卡| 国产综合一区二区| 欧美又粗又大又长| 亚洲国产一区自拍| 日本成人三级电影| 亚洲在线欧美| 国产精品 日产精品 欧美精品| 久久久久亚洲av片无码下载蜜桃| 亚洲国产欧美日韩精品| 欧美电影免费观看| 一区二区三区久久网| 国产成人av资源| 五月天综合激情网| 中文字幕日韩专区| 日本一区二区三区视频在线看| 国产精品999视频| 国产精品三级电影| av中文字幕免费在线观看| 97免费视频在线| 不卡中文一二三区| 国产老头和老头xxxx×| 性做久久久久久免费观看欧美| 免费黄网站在线观看| 成人性生交xxxxx网站| 日韩视频中文| 国产视频123区| 亚洲精品一区二区精华| 91tv亚洲精品香蕉国产一区| av日韩在线看| 国产天堂亚洲国产碰碰| 国产视频在线观看免费| 青青青国产精品一区二区| 亚洲老妇激情| 国产黄色大片免费看| 精品久久久久久亚洲综合网| 亚洲第一会所001| 国产精品无码人妻一区二区在线 | 国产香蕉在线视频| 综合国产在线观看| 亚欧洲精品视频在线观看|