精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據

發布于 2024-5-6 08:56
瀏覽
0收藏

近年來,大型語言模型(LLM)在數學應用題和數學定理證明等任務中取得了長足的進步。數學推理需要嚴格的、形式化的多步推理過程,因此是 LLMs 推理能力進步的關鍵里程碑, 但仍然面臨著重要的挑戰。


以往的研究工作,如思維鏈(CoT),揭示了中間步驟引導的有效性。然而,人工地去標注這樣的中間步驟需要花費大量人力和時間成本,而自動合成的數據也容易在正確性人類易讀性上面出現問題。


本文中,來自香港城市大學、中山大學、華為諾亞方舟實驗室等機構的研究人員提出了一個統一的數學推理數據合成框架 MUSTARD,能夠生成大量的、正確的且人類可讀可理解的高質量數學推理數據。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


  • 論文題目:MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data
  • 論文鏈接:https://openreview.net/forum?id=8xliOUg9EW
  • 代碼鏈接:https://github.com/Eleanor-H/MUSTARD
  • 數據集鏈接:https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view
  • 作者主頁:https://eleanor-h.github.io/


利用形式化證明器的高質量數據合成框架


MUSTARD 框架由三階段組成:


第一階段,概念采集:首先定義并建立了一個數學概念庫,涵蓋小學、初中、高中和高等教育四個教育階段的概念,每個教育階段有 5 至 9 個數學領域,涵蓋代數和幾何等不同類型的數學問題。每個領域都包含細分的數學概念,如多項式運算或因式分解。隨后從數學概念庫當中抽取一個或多個數學概念作為種子,規定所生成的問題類別。


第二階段,數據生成:根據數學概念提示大型語言模型生成數學問題和多步的求解過程。具體來說,MUSTARD 利用大型語言模型生成自然語言和代碼的能力,提示大型語言模型完成三項任務:(T1)生成與給定概念相關的數學問題;(T2)用自然語言給出問題的求解;(T3)自動形式化,將自然語言求解轉化為 Lean 3 的形式化求解。


第三階段,形式化驗證:使用交互式的形式化定理證明器的驗證篩選出準確的求解過程。MUSTARD 將 Lean 3 的形式化求解輸送給 Lean 形式化驗證器后,如果定理證明器沒有返回錯誤信息,則相應的數據會被收集到有效集合中。否則,MUSTARD 會從定理證明器那里收集錯誤信息,并提示語言模型修改形式化求解。MUSTARD 會進行多輪驗證和自我糾正,直到獲得有效的形式化求解。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區

MUSTARD 框架由概念采集、數據生成、形式化驗證三階段組成。


數據質量的人工評價


為了探究 MUSTARD 生成數據的質量,研究團隊請掌握數學和 Lean 3 語言專業人士對數據進行了質量檢查。他們從生成的數據中隨機抽取 200 條,其中 100 條通過 Lean 定理證明器的驗證(有效組),100 條沒有通過驗證(無效組)。質量檢查涵蓋每條數據的四個部分(即自然語言問題描述、自然語言求解、形式化問題描述和形式化求解),包括了正確性和一致性的檢查。具體來說,高質量的數據應該有正確的自然語言問題描述 (D1) 和正確的問題求解 (D4)。形式化問題描述和求解應該與自然語言的問題描述和求解保持一致(D5、D6)。此外,數據應該符合指定的數學概念 (D2) 和問題類型 (D3)。表 3 展示了這六個檢查維度及要求。如果數據符合要求,則在維度中得 1 分,否則得 0 分。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


表 3 顯示了有效組和無效組在每個維度上的準確率和相應的 p 值。(D1)和(D4)的顯著差異性說明了 MUSTARD 生成的問題和答案的正確性。(D6)的顯著差異性表明了所生成的數據的自然語言描述和形式化描述的高度一致性。


數據對模型數學推理能力的有效性


為了評估 MUSTARDSAUCE 對提高數學推理能力的影響,研究團隊利用這些數據對較小規模的語言模型進行了微調,并在數學應用題(MWP)和自動定理證明(ATP)上對其進行了評估。本文對比了 MUSTARDSAUCE 數據集的以下組合數據的有效性:


  • MUSTARDSAUCE-valid:經過了 Lean 形式化證明器驗證的 5866 條數據;
  • MUSTARDSAUCE-invalid:未能通過 Lean 形式化證明器驗證的 5866 條數據;
  • MUSTARDSAUCE-random:隨機的 5866 條數據;
  • MUSTARDSAUCE-tt:MUSTARD 生成的所有 28316 條數據。


研究團隊采用 LoRA [1] 在每個組合數據上微調開源 GPT2-large [2]、Llama 2-7B 和 Llama 2-70B [3]。對于數學應用題任務,他們使用 GSM8K [4] 和 MATH [5][6] 數據集進行評估。在評估自動定理證明時,研究團隊使用了 Mathlib [8]和 miniF2F [7] 基準。此外,他們也在 MUSTARDSAUCE-test 上進行了評估。



總的來說,在 MUSTARDSAUCE 上對模型進行微調提高了模型的數學推理能力。在自動定理證明(下表 5)和數學應用題求解(下表 4),使用 MUSTARDSAUCE-valid 進行微調與使用 MUSTARDSAUCE-random 進行微調相比,平均相對性能提高了 18.15%(下表 5)和 11.01%(下表 4)。


對于自動定理證明,經過微調的 Llama 2-7B 平均性能提升 15.41%,經過微調的 GPT 2-large 平均性能提升 20.89%。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


對于數學應用題求解,經過微調的 Llama 2-7B 平均性能提升 8.18%,經過微調的 GPT 2-large 平均性能提升 15.41%。此外,經過 MUSTARDSAUCE-tt 微調的模型雖在微調數據量上有絕對優勢,但其性能不及經過 MUSTARDSAUCE-valid 微調的模型性能。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


Llama 2-70B 的更多結果。在微調更大的語言模型時,MUSTARDSAUCE 數據仍然有效。


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


MUSTARDSAUCE 數據集


本文開源了 MUSTARDSAUCE 數據集。其中每一個數據都包含了自然語言的問題描述和多步求解,以及對偶的形式化語言 Lean 3 的問題描述和多步求解。MUSTARDSAUCE 的數據包括了數學應用題和定理證明題,涵蓋了從小學到高等教育階段的難度分級。題目的推理步數隨著題目難度的增長而增長。最難的題目需要 30 步左右的求解步驟,約 20 個 Lean 3 tactics。


數據集下載:https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view


ICLR 2024 Spotlight | 無懼中間步驟,MUSTARD可生成高質量數學推理數據-AI.x社區


自動形式化 / 非形式化挑戰賽


研究團隊還基于 MUSTARDSAUCE 數據集的自然語言和 Lean 形式語言的對偶數據,開放了一個自動形式化(autoformalization)和一個自動非形式化(auto-informalization)的挑戰賽。此外,研究團隊還同步開放了自動定理生成和證明(automated theorem generation and proving)和代碼輔助的運籌優化問題自動求解(automated optimization problem-solving with code)等兩個挑戰賽賽道。比賽時間為 2024 年 4 月 3 日 – 5 月 27 日。優勝隊伍將有機會參加 7 月 26 日于奧地利維也納舉辦的 ICML 2024 AI for Math 研討會。


  • 賽道 1-1 (自動形式化):https://www.codabench.org/competitions/2436/
  • 賽道 1-2 (自動非形式化):https://www.codabench.org/competitions/2484/
  • 賽道 2 (自動定理生成和證明):https://www.codabench.org/competitions/2437/
  • 賽道 3 (代碼輔助的運籌優化問題自動求解):https://www.codabench.org/competitions/2438/


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/-mVe7ztpAmT71Gf8iDAYhA??

收藏
回復
舉報
回復
相關推薦
www.蜜桃av.com| 波多野结衣欲乱| 日韩av超清在线观看| 国产精品视频看| 欧美高清视频一区二区| 亚洲怡红院在线| 青草在线视频在线观看| 91在线云播放| 高清欧美性猛交xxxx| 欧美多人猛交狂配| 91亚洲无吗| 一区二区在线免费观看| 精品国产综合| 一区二区 亚洲| 亚洲美女网站| 久久亚洲影音av资源网 | 免费精品国产的网站免费观看| 一区二区三区丝袜| 人偷久久久久久久偷女厕| 国产成人无码专区| 欧美三级乱码| 色妞欧美日韩在线| 熟女少妇一区二区三区| av不卡一区| 欧美日韩国产一区| 特色特色大片在线| 亚洲经典一区二区三区| 欧美日韩精品| 日韩一级二级三级| 拔插拔插海外华人免费| 毛片av在线| 欧美国产综合一区二区| 91老司机在线| 中文字幕一区二区人妻| 久久精品99久久无色码中文字幕| 欧美日韩高清一区二区不卡| 极品美女扒开粉嫩小泬| 天堂av中文在线| 亚洲国产电影在线观看| 鲁鲁视频www一区二区| 亚洲女人18毛片水真多| 久久99蜜桃精品| 国产精品久久一区| 女人18毛片毛片毛片毛片区二 | 欧美性少妇18aaaa视频| 奇米777四色影视在线看| 欧洲精品久久一区二区| 国产激情精品久久久第一区二区 | 欧美污视频久久久| 四季av日韩精品一区| 日韩电影在线观看电影| 91精品国产91久久| 亚洲国产精品一区二区久久hs| 日韩精品一区二区三区中文 | 亚洲成人a**址| 黄色在线网站| 国产亚洲一区二区三区| 欧洲精品在线一区| 国产黄在线观看| 国产日本欧美一区二区| 国产98色在线|日韩| 姬川优奈aav一区二区| 白白操在线视频| 青春草免费在线视频| 亚洲综合在线五月| 福利视频免费在线观看| 99色在线观看| 色偷偷久久一区二区三区| 老汉色影院首页| 国产激情视频在线| 亚洲图片欧美一区| 欧美国产激情视频| 欧美美女日韩| 欧美日韩国产综合久久| 欧美人与性动交α欧美精品| 99精品国产一区二区三区2021 | 中文字幕免费高清网站| 免费成人av在线播放| 国产一区视频在线播放| 蜜臀99久久精品久久久久小说 | 婷婷成人综合| 亚洲社区在线观看| 强制高潮抽搐sm调教高h| 妖精视频一区二区三区 | 国产视频手机在线| 懂色一区二区三区免费观看| 欧美日韩国产经典色站一区二区三区| 亚洲男人天堂九九视频| 亚洲一区二区观看| 久久精品国产www456c0m| 欧美精品一区三区| 日韩欧美激情视频| 热久久一区二区| 91九色在线观看| 深夜福利在线观看直播| 国产精品青草综合久久久久99| 蜜桃视频在线观看成人| 69xxxx欧美| 亚洲国产日韩a在线播放性色| 中文字幕日韩精品一区二区| 亚洲综合伊人久久大杳蕉| 无吗不卡中文字幕| 亚洲精品久久久中文字幕| 中文字幕一区图| 国产一区二区三区毛片| 国产高清在线免费观看| 久久精品在线| 99视频在线| 亚洲s色大片| 黑人与娇小精品av专区| 午夜一级免费视频| 曰本一区二区三区视频| 九九热这里只有精品6| 老熟妇一区二区三区啪啪| 国产91综合网| 男人的天堂成人| 国产麻豆久久| 日韩的一区二区| 一区二区视频免费看| 日韩av中文字幕一区二区三区| 国产精品av网站| 神马一区二区三区| 亚洲免费高清视频在线| 亚洲黄色小视频在线观看| 麻豆精品av| 欧美国产亚洲视频| 国产又粗又长视频| 国产欧美精品一区aⅴ影院| 国产一区二区网| a级日韩大片| 欧美成人激情图片网| 亚洲视频在线免费播放| 国内精品伊人久久久久av一坑| 成人激情黄色网| 亚洲第一视频在线| 亚洲欧美激情插| 久久国产精品视频在线观看| 福利一区三区| 日韩一区二区在线视频| 中文字幕免费高清在线观看| 久久免费精品国产久精品久久久久 | 国产91av视频在线观看| 精品123区| 国产一区二区三区日韩欧美| 精品人妻一区二区三区潮喷在线| 精品一区二区久久久| 亚洲春色综合另类校园电影| 成人综合网站| 色狠狠av一区二区三区香蕉蜜桃| 久草国产在线视频| 国产伦理精品不卡| 日本黄网站色大片免费观看| 成人51免费| 久久人人爽人人爽人人片亚洲| 韩国av免费观看| 99精品视频在线观看免费| 久久亚洲中文字幕无码| 综合久草视频| 欧美成人午夜激情在线| www.热久久| 亚洲不卡一区二区三区| 99久久国产精| 久久综合九色| 国产精品视频免费一区二区三区| av电影在线播放高清免费观看| 亚洲综合免费观看高清完整版| 久久久久免费精品| 超碰成人久久| 91免费视频网站| 青草在线视频在线观看| 日韩电影第一页| 亚洲综合成人av| 中文字幕综合网| 少妇激情一区二区三区| 久久亚洲成人| 成人欧美一区二区三区在线观看| 日本www在线观看| 欧美一卡2卡3卡4卡| 精品无码av在线| 久久综合网色—综合色88| 在线观看av网页| 国产精品vip| 欧美理论一区二区| 99视频有精品高清视频| 久久久久国产精品www| 国产视频手机在线| 欧美日在线观看| 成人18视频免费69| va亚洲va日韩不卡在线观看| 日本新janpanese乱熟| 欧美jizzhd精品欧美巨大免费| 91精品视频播放| 51精品在线| 中国人与牲禽动交精品| 国产刺激高潮av| 欧美综合在线视频| 亚洲国产精品成人无久久精品| 国产成人午夜片在线观看高清观看| 一区二区三区观看| 日本韩国欧美超级黄在线观看| 欧美激情一区二区久久久| 国产最新视频在线观看| 在线免费观看成人短视频| 国产精品毛片一区二区| 丝袜美腿亚洲色图| 天天人人精品| 欧美亚洲色图校园春色| 成人综合国产精品| 伊人色综合一区二区三区影院视频 | 日韩av网站在线免费观看| 国产在线98福利播放视频| 国产伦久视频在线观看| 久久香蕉频线观| 亚洲老妇色熟女老太| 亚洲自拍与偷拍| 亚洲色图欧美色| 狠狠狠色丁香婷婷综合久久五月| 国产精品12p| 欧美日韩老妇| 麻豆久久久9性大片| 最新国产精品精品视频| 成人写真福利网| 成人a在线观看高清电影| 97久久国产精品| 男人天堂亚洲天堂| 久久视频免费在线播放| 免费观看黄一级视频| 8x8x8国产精品| 中文文字幕一区二区三三| 黑人巨大精品欧美一区二区| 福利一区二区三区四区| 亚洲精品成人天堂一二三| 成人18视频免费69| 国产精品久久久一本精品| 亚洲AV无码成人精品区明星换面 | 日韩av免费观影| 欧美猛男男办公室激情| 久久久久无码国产精品不卡| 91免费国产视频网站| 亚洲图片欧美另类| 青青草国产精品97视觉盛宴| 男人j进女人j| 亚洲欧美在线专区| 欧美一区二区三区四区夜夜大片| 欧美韩国日本| 国产精品入口免费视| 中文字幕日本一区二区| 国产精品高潮呻吟久久av无限| 色呦呦在线视频| 国产一区二区日韩| 成人网视频在线观看| 在线成人中文字幕| 视频免费一区| zzjj国产精品一区二区| 午夜免费福利在线观看| 亚洲精品美女久久久久| 丝袜+亚洲+另类+欧美+变态| 亚洲精品视频在线观看视频| 精品亚洲综合| 中文字幕亚洲欧美| 麻豆网站在线观看| 欧美国产欧美亚洲国产日韩mv天天看完整 | 成年网站在线视频网站| 色噜噜狠狠色综合网图区| 免费网站黄在线观看| 久热国产精品视频| 懂色av一区| 亲子乱一区二区三区电影| 欧美中文字幕精在线不卡| 国产精品美乳一区二区免费 | 午夜精品一区二区三区电影天堂| 最新日韩免费视频| 久久久久久久综合| 五月天婷婷丁香网| 国产午夜精品福利| 中文乱码字幕高清一区二区| 国产亚洲人成网站| 四虎地址8848| 亚洲二区在线视频| 波多野结衣日韩| 狠狠躁夜夜躁人人躁婷婷91 | 日韩综合在线| 午夜久久久久久久久久久| 亚洲国产三级| 日本中文字幕高清| 成人免费三级在线| 日本污视频网站| 亚洲一区二区三区美女| 欧洲猛交xxxx乱大交3| 欧美日韩国产综合新一区 | 亚洲午夜久久久久久久久电影院| 男人在线观看视频| 午夜精品福利一区二区三区av| 久久久久99精品成人片毛片| 亚洲特黄一级片| 日本三级一区二区| 91麻豆精品国产91久久久更新时间 | 在线播放蜜桃麻豆| 日本91av在线播放| 超碰超碰人人人人精品| 亚洲japanese制服美女| 竹菊久久久久久久| 成年人视频网站免费| 日本成人在线一区| 99久久人妻精品免费二区| 国产ts人妖一区二区| 国产探花在线看| 97aⅴ精品视频一二三区| 精品人妻伦九区久久aaa片| 狠狠躁夜夜躁久久躁别揉| 精品国产乱码久久久久久蜜臀网站| 91精品久久久久久久久99蜜臂| 99久久精品国产色欲| 亚洲人精选亚洲人成在线| 超碰在线97国产| 成人亚洲综合色就1024| 国产精品手机在线播放 | 性猛交xxxx乱大交孕妇印度| 国产午夜精品免费一区二区三区| av影片免费在线观看| 97在线视频一区| 一区二区三区四区高清视频 | 永久免费的av网站| 久久亚洲一区二区三区明星换脸| 女女互磨互喷水高潮les呻吟| 国产精品激情偷乱一区二区∴| 97在线观看免费高| 在线观看欧美黄色| 青青久草在线| 91极品视频在线| 久久九九热re6这里有精品| 欧美另类videosbestsex日本| 亚洲在线一区| 日本少妇毛茸茸| 亚洲成人综合在线| 丰满人妻一区二区| 久久久久国产精品一区| 日韩成人视屏| www.激情网| 成人午夜精品一区二区三区| 青青草偷拍视频| 日韩欧美在线一区二区三区| 久操视频在线免费播放| 91久久国产婷婷一区二区| 午夜先锋成人动漫在线| 九九九九免费视频| 国产最新精品免费| 中文字幕国产综合| 色综合欧美在线| 蝌蚪视频在线播放| 国产成人亚洲综合91精品| 日韩在线视频一区二区三区| 成人在线观看www| 国产乱码精品一区二区三| 中文字幕国产专区| 在线亚洲+欧美+日本专区| 成人动漫在线免费观看| 国产女人精品视频| 欧美二区不卡| 国产精品入口麻豆| 欧美性jizz18性欧美| 国产大片在线免费观看| 国产欧美日韩高清| 一区二区三区午夜视频| 波多野结衣电影免费观看| 午夜私人影院久久久久| 国产美女主播在线观看| 欧美人在线视频| 日韩动漫一区| 亚洲老女人av| 一区二区三区**美女毛片| 无码国产精品高潮久久99| 国产成人av在线| 欧美国产不卡| 91看片在线免费观看| 亚洲美腿欧美偷拍| 五月色婷婷综合| 国产精品视频区1| 欧美三级午夜理伦三级中文幕| 中文字幕资源在线观看| 亚洲国产裸拍裸体视频在线观看乱了 | 国产成人a人亚洲精品无码| 久久精品一区二区三区av| 亚洲综合精品视频| 日韩精品在线免费观看视频| 日韩另类视频| 国产又粗又大又爽的视频| 成人sese在线| 日本三级午夜理伦三级三| 日韩精品一区二区三区在线播放 | 日韩在线免费高清视频| 亚洲a∨精品一区二区三区导航| 免费成人av网站| 国产一区二区免费看| 久久一级免费视频| 欧美一区二区三区免费视频 | 深夜福利一区| 无码人妻丰满熟妇区毛片18| 亚洲欧美日韩国产另类专区 | 日本欧美电影在线观看|