精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MetaMath:新數(shù)學(xué)推理語言模型,訓(xùn)練大模型的逆向思維

人工智能 新聞
為了提升模型的正向和逆向推理能力,劍橋、港科大、華為的研究者基于兩個常用的數(shù)學(xué)數(shù)據(jù)集(GSM8K 和 MATH)提出了 MetaMathQA 數(shù)據(jù)集:一個覆蓋面廣、質(zhì)量高的數(shù)學(xué)推理數(shù)據(jù)集。MetaMathQA 由 395K 個大語言模型生成的正向逆向數(shù)學(xué)問答對組成。

復(fù)雜數(shù)學(xué)推理是評價大語言模型推理能力的重要指標(biāo),目前常用的數(shù)學(xué)推理數(shù)據(jù)集樣本量有限且問題多樣性不足,導(dǎo)致大語言模型存在 [逆轉(zhuǎn)詛咒] 的現(xiàn)象,即一個訓(xùn)練于「A 是 B」的語言模型無法推廣到「B 是 A」[1]。此現(xiàn)象在數(shù)學(xué)推理任務(wù)中的具體形式是:即給定一個數(shù)學(xué)問題,語言模型擅于用正向推理解答問題但缺乏逆向推理解決問題的能力。逆向推理在數(shù)學(xué)問題中十分常見,如下 2 個例子。

1. 經(jīng)典問題 - 雞兔同籠

  • 正向推理:籠子里有 23 只雞和 12 只兔,問籠子里有多少個頭和多少只腳?
  • 逆向推理:有若干只雞兔同在一個籠子里,從上面數(shù),有 35 個頭,從下面數(shù),有 94 只腳。問籠中各有多少只雞和兔?

2. GSM8K 問題

  • 正向推理: James buys 5 packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. How much did he pay?
  • 逆向推理: James buys x packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. How much did he pay? If we know the answer to the above question is 110, what is the value of unknown variable x?

為了提升模型的正向和逆向推理能力,劍橋、港科大、華為的研究者基于兩個常用的數(shù)學(xué)數(shù)據(jù)集(GSM8K 和 MATH)提出了 MetaMathQA 數(shù)據(jù)集:一個覆蓋面廣、質(zhì)量高的數(shù)學(xué)推理數(shù)據(jù)集。MetaMathQA 由 395K 個大語言模型生成的正向逆向數(shù)學(xué)問答對組成。他們在 MetaMathQA 數(shù)據(jù)集上基于 LLaMA-2 微調(diào)得到專注于數(shù)學(xué)推理 (正向和逆向) 的大語言模型 MetaMath,在數(shù)學(xué)推理數(shù)據(jù)集上達(dá)到了 SOTA。MetaMathQA 數(shù)據(jù)集和不同規(guī)模的 MetaMath 模型已開源供研究人員使用。

圖片

  • 項(xiàng)目地址:https://meta-math.github.io/
  • 論文地址:https://arxiv.org/abs/2309.12284
  • 數(shù)據(jù)地址:https://huggingface.co/datasets/meta-math/MetaMathQA
  • 模型地址:https://huggingface.co/meta-math
  • 代碼地址:https://github.com/meta-math/MetaMath

本文中構(gòu)造了一個逆向推理數(shù)據(jù)集 GSM8K-Backward。實(shí)驗(yàn)結(jié)果表明,目前的方法(e.g., SFT、RFT、WizardMath)在逆向推理問題中表現(xiàn)遠(yuǎn)差于正向推理。相較而言,MetaMath 模型在正向和反向推理上都取得了優(yōu)越的性能。

圖片

方法

圖片

MetaMathQA 包含四種數(shù)據(jù)增強(qiáng)的方法:

1. Answer Augmentation (答案增強(qiáng)):給定問題,通過大語言模型生成能得到正確結(jié)果的思維鏈作為數(shù)據(jù)增廣。

  • Question: James buys 5 packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. How much did he pay?
  • Answer: James buys 5 packs of beef that are 4 pounds each, so he buys a total of 5 * 4 = 20 pounds of beef. The price of beef is $5.50 per pound, so he pays 20 * $5.50 = $110. The answer is: 110.

2. Rephrasing Question (問題改寫增強(qiáng)):給定元問題,通過大語言模型重寫問題并生成得到正確結(jié)果的思維鏈作為數(shù)據(jù)增廣。

  • Question: What is the total amount that James paid when he purchased 5 packs of beef, each weighing 4 pounds, at a price of $5.50 per pound?
  • Answer: Each pack of beef weighs 4 pounds, so 5 packs weigh 4 * 5 = 20 pounds in total. The price per pound of beef is $5.50, so the total cost for 20 pounds is 20 * $5.50 = $110. Therefore, James paid a total of $110. The answer is: 110.

3. FOBAR Question (FOBAR 逆向問題增強(qiáng)):給定元問題,通過掩碼條件中的數(shù)字為 x,給定原有答案并反推 x 來產(chǎn)生逆向問題,并基于該逆向問題生成正確的思維鏈過程來進(jìn)行數(shù)據(jù)增廣(反推樣例:“If we know the answer to the above question is 110, what is the value of unknown variable x?”)。

  • Question: James buys x packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. How much did he pay? If we know the answer to the above question is 110, what is the value of unknown variable x?
  • Answer: James buys x packs of beef that are 4 pounds each, so he buys a total of 4x pounds of beef. The price of beef is $5.50 per pound, so the total cost of the beef is 5.50 * 4x = 22x. We are given that the total cost is $110, so we can write: 22x = 110. Dividing both sides by 22, we get: x = 5. The value of x is 5.

4. Self-Verification Question (Self-Verification 逆向問題增強(qiáng)):在 FOBAR 的基礎(chǔ)上,通過大語言模型改寫逆向問題部分為陳述的語句來進(jìn)行數(shù)據(jù)增廣(改寫樣例:“How much did he pay?” (with the answer 110) 被改寫成 “He paid 110”)。

  • Question: James buys x packs of beef that are 4 pounds each. The price of beef is $5.50 per pound. He paid 110. What is the value of unknown variable x?
  • Answer: To solve this problem, we need to determine the value of x, which represents the number of packs of beef that James bought. Each pack of beef weighs 4 pounds and costs $5.50 per pound. The total amount James paid is $110. We can set up the equation as follows: Number of packs of beef * Weight per pack * Price per pound = Total amount paid; x * 4 * $5.50 = $110; Let's simplify and solve for x: 4x * $5.50 = $110; 22x = $110; To isolate x, we divide both sides of the equation by 22: 22x / 22 = $110 / 22; x = $5; The value of x is 5.

實(shí)驗(yàn)結(jié)果

圖片

在兩個常見數(shù)學(xué)推理數(shù)據(jù)集(GSM8K 和 MATH)的實(shí)驗(yàn)結(jié)果表明,在不借助外部工具(e.g., code interpreter), MetaMath 在性能上顯著優(yōu)于已有開源 LLM 模型。其中,我們的 MetaMath-7B 模型在 GSM8K 上達(dá)到了 66.5% 的準(zhǔn)確率,在 MATH 上達(dá)到了 19.8% 的準(zhǔn)確率,超過了相同規(guī)模的最先進(jìn)模型分別 11.6% 和 9.1%。特別地,MetaMath-70B 在 GSM8K 上達(dá)到了 82.3% 的準(zhǔn)確率,超過 GPT-3.5-Turbo。

根據(jù) Superficial Alignment Hypothesis [2],大語言模型的能力源于預(yù)訓(xùn)練,而來自下游任務(wù)的數(shù)據(jù)則激活了預(yù)訓(xùn)練期間學(xué)習(xí)到的語言模型的固有能力。由此產(chǎn)生了兩個重要問題:(i)什么類型的數(shù)據(jù)可以最有效地激活潛在知識,以及(ii)為什么一個數(shù)據(jù)集在這種激活中比另一個數(shù)據(jù)集更好?

為什么 MetaMathQA 有用?提高了思維鏈數(shù)據(jù)的質(zhì)量 (Perplexity)

圖片

如上圖所示,研究者們計算了 LLaMA-2-7B 模型在僅答案數(shù)據(jù)、GSM8K CoT 以及 MetaMathQA 數(shù)據(jù)的各部分上的 perplexity。MetaMathQA 各部分的 perplexity 顯著低于其他兩個數(shù)據(jù)集,這突顯了它固有的易學(xué)性,可能更有助于引導(dǎo)出模型的潛在知識。

為什么 MetaMathQA 有用?增加了思維鏈數(shù)據(jù)的多樣性 (Diversity)

通過比較數(shù)據(jù)的多樣性增益和模型的準(zhǔn)確率增益,他們發(fā)現(xiàn) Rephrasing、FOBAR 和 SV 添加相同數(shù)量的增廣數(shù)據(jù)帶來了明顯的多樣性增益,顯著提升了模型準(zhǔn)確率。相比之下,簡單地使用答案增強(qiáng)會導(dǎo)致明顯的準(zhǔn)確率飽和。在準(zhǔn)確率飽和之后,增加 AnsAug 數(shù)據(jù)只會帶來有限的性能提升。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-10-10 01:25:00

大模型訓(xùn)練數(shù)據(jù)OpenAI

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-06-26 09:06:59

2024-04-11 11:35:03

大語言模型LLMs

2025-04-30 16:48:07

2025-03-06 09:46:00

AI模型代碼

2025-08-11 08:00:00

2025-06-09 09:32:35

2025-08-14 09:00:00

模型訓(xùn)練數(shù)據(jù)

2025-01-10 10:30:00

大模型統(tǒng)計評估

2023-06-24 19:59:40

2025-04-16 02:30:00

2023-05-05 13:29:04

模型推理

2024-09-09 08:31:15

2023-08-18 14:34:00

研究模型

2025-11-04 01:43:00

循環(huán)語言模型架構(gòu)

2023-05-15 15:38:59

AI模型

2025-02-08 17:00:11

2023-06-09 07:29:03

模型文本document

2025-07-08 03:11:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲色图100p| 色先锋久久av资源部| 日韩欧美国产一区在线观看| 精品国产免费人成电影在线观...| 国产极品视频在线观看| a√中文在线观看| 93在线视频精品免费观看| 国产suv精品一区二区三区| 国产亚洲激情视频在线| 成人免费观看cn| www.热久久| 在线观看日韩| 91麻豆精品国产| 一本一生久久a久久精品综合蜜| 亚洲图片在线视频| 啪啪国产精品| 偷拍一区二区三区| 高清av免费一区中文字幕| 国产67194| 国产亚洲高清一区| 亚洲婷婷国产精品电影人久久| 国产精品私拍pans大尺度在线| 国产精久久一区二区三区| 日韩欧美一中文字暮专区 | 日本黄大片一区二区三区| 免费国产在线观看| 美女视频一区免费观看| 亚洲欧美国产高清va在线播| 92看片淫黄大片一级| 青青草手机在线| 首页欧美精品中文字幕| 国产亚洲人成a一在线v站| 免费黄视频在线观看| caoporn-草棚在线视频最| 中文字幕一区日韩精品欧美| 91在线直播亚洲| 我家有个日本女人| 99精品国产高清一区二区麻豆| 亚洲综合精品久久| 国产成人av一区二区三区| 在线观看免费视频a| 亚洲成人最新网站| 精品国产乱码久久久久久夜甘婷婷| 免费毛片网站在线观看| 精品亚洲综合| 精品一区二区久久久| 亚洲午夜av久久乱码| 日韩少妇一区二区| 在线看的毛片| 国产精品萝li| 999热视频在线观看| 永久免费看片在线播放| 精品国产午夜| 日韩欧美色综合| 小早川怜子一区二区三区| 大黄网站在线观看| 久久久久久久久久电影| 国产精品久久视频| 欧美激情精品久久| 国产亚洲欧美日韩在线观看一区二区 | 欧美在线一区二区三区四区| 国产美女www| 91精品国产视频| xvideos亚洲人网站| 中文字幕人妻一区| 999国产精品亚洲77777| 一区二区三区欧美激情| 久久久久久草| 国产特黄一级片| 亚洲综合激情| 美日韩丰满少妇在线观看| 黄色录像a级片| 亚洲成人1区| 欧美性猛交xxxx富婆弯腰| 9999在线观看| 国产资源在线观看| 日本一区二区三区久久久久久久久不| 91手机在线视频| 性欧美videos另类hd| 不卡av在线免费观看| 国产日韩欧美在线看| 91在线看视频| 模特精品在线| 国产欧美亚洲精品| 精品人妻一区二区三区浪潮在线| 成人短视频下载| 欧美日韩一区二区视频在线 | 成全电影大全在线观看| 婷婷激情综合网| 熟女人妇 成熟妇女系列视频| 在线不卡日本v二区707| 中文一区二区在线观看| 精品欧美日韩在线| 国产视频网址在线| 91麻豆高清视频| 国产精品大全| 黄色的视频在线免费观看| 综合电影一区二区三区 | 在线中文字幕亚洲| 97精品国产91久久久久久| 顶级黑人搡bbw搡bbbb搡| 亚洲人成网77777色在线播放| 欧美成人精品高清在线播放| 91精品国产三级| 成人97精品毛片免费看| 日韩av在线不卡| 精品国产一区在线| jizzjizzjizz欧美| 中文字幕久热精品视频在线| 亚洲性猛交xxxx乱大交| 综合久久精品| 国产精品亚洲第一区| 天堂网av在线播放| 99久久精品99国产精品| 久久亚洲午夜电影| 日韩电影免费| 一区二区三区在线观看国产| 久草在在线视频| 一区二区三区无毛| 91精品国产综合久久久久久漫画| 奇米777在线| 欧美精品一区二区久久| 韩剧1988免费观看全集| 国产免费黄色大片| 亚洲国产精品成人久久综合一区| 激情五月宗合网| 国产一区二区在线观| 伊人久久大香线蕉av一区二区| 日本一区二区视频在线播放| 成人羞羞视频播放网站| www.日韩不卡电影av| 日本中文字幕第一页| 成人深夜视频在线观看| 国内外成人免费视频| 黄色视屏网站在线免费观看| 亚洲国产一区二区三区| 欧美视频第一区| 国产精品男女| 国产午夜精品一区二区三区 | 性久久久久久| 精品一区在线播放| 国产精选在线| 欧美性欧美巨大黑白大战| 中文字幕av不卡在线| 久草成人在线| 久久国产精彩视频| 97免费观看视频| 成人免费电影视频| 亚洲精品无码国产| 国产一区二区主播在线| 欧美一区二区三区日韩视频| 日韩综合第一页| 伊人精品成人久久综合软件| 国产成人久久久精品一区| 91久久国语露脸精品国产高跟| 成人一区二区视频| 91视频 - 88av| 免费日韩电影| 日韩一区国产二区欧美三区| www.色天使| 98精品久久久久久久| 91精品国产自产在线观看永久| 久久日韩视频| 精品久久久精品| 成年人网站免费看| 日本女人一区二区三区| 成人在线看片| 欧美亚洲日本精品| 亚洲男子天堂网| 中文字幕免费观看视频| 99久久婷婷国产综合精品| 一区二区av| 91精品在线免费视频| 久99久在线视频| 中文字幕免费观看视频| 最新欧美精品一区二区三区| 国产xxx在线观看| 日韩午夜黄色| 97视频中文字幕| 草草视频在线观看| 国产亚洲视频在线观看| a天堂在线观看视频| 国产欧美日韩在线| 又色又爽又黄视频| 欧美日韩色图| 91精品综合视频| 搞黄视频在线观看| 欧美一区二区三区视频在线| 日本五十路女优| 国产精品亚洲人在线观看| 手机成人在线| 亚洲www免费| 欧美成年人视频| 欧美日韩在线中文字幕| 91精品国产高清一区二区三区蜜臀 | 深夜福利在线看| 一区二区三区高清| 精品人妻一区二区三区日产乱码卜 | 日韩精品电影网| 亚洲天堂免费av| 偷拍亚洲欧洲综合| 顶臀精品视频www| 国产香蕉久久精品综合网| 日日橹狠狠爱欧美超碰| 给我免费播放日韩视频| 国产精品女主播| 9999热视频在线观看| 色偷偷av一区二区三区乱| 中文字幕精品无码亚| 亚洲午夜电影在线观看| 黑人狂躁日本娇小| 久久综合久久综合亚洲| 免费黄色日本网站| 羞羞色国产精品网站| 国产91对白在线播放| 亚洲乱码在线观看| 中文字幕一区二区三区在线播放| 精品人妻一区二区三区香蕉| 国产精品一区2区| 国产视频一区二区三区在线播放| 伊人蜜桃色噜噜激情综合| 国产对白在线播放| 日韩a一区二区| 成人在线免费观看视视频| 九七久久人人| 亚洲天堂av在线免费观看| 日本三级一区二区三区| 亚洲国产经典视频| 国产肉体xxxx裸体784大胆| 国产精品一区二区在线播放| 亚洲第一狼人区| 亚洲欧美网站在线观看| 色涩成人影视在线播放| 国产99亚洲| 久久精品国产一区二区三区日韩 | 精品日产卡一卡二卡麻豆| 中文字幕乱码人妻二区三区| 日韩欧美在线字幕| 精品成人av一区二区在线播放| 99精品热视频| 高清中文字幕mv的电影| 国产精品一级黄| 国产精品999.| 国产成人午夜高潮毛片| 美女av免费在线观看| 黄页网站一区| 欧美高清视频一区| 日韩在线你懂的| 国产亚洲精品自在久久| 国产美女撒尿一区二区| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 国产亚洲网站| 日韩精品久久久| 久久天堂久久| 日本久久亚洲电影| av软件在线观看| 久久精品视频网站| 欧美套图亚洲一区| 亚洲欧美日韩精品久久| 搞黄视频在线观看| 俺去啦;欧美日韩| caopon在线免费视频| 亚洲老司机av| 国产在线观看网站| 精品久久久av| 国产又色又爽又黄刺激在线视频| 久久久久久国产免费| 午夜激情在线观看| 精品调教chinesegay| 国产wwwxxx| 日韩精品一区二区三区四区视频| 欧美视频一二区| 欧美精品一二三四| www.欧美色| 欧美日韩中文字幕综合视频| 手机看片久久久| 欧美欧美欧美欧美| 亚洲国产精品18久久久久久| 日韩精品免费视频| 日本视频在线| 午夜精品久久久久久99热软件 | 一本到一区二区三区| 亚洲图片中文字幕| 精品国产露脸精彩对白| 国产在线一二三区| 美女av一区二区| 成人欧美magnet| 欧美激情小视频| 亚洲精品mv| 成人日韩在线电影| 卡一精品卡二卡三网站乱码| 99超碰麻豆| 精品一区二区三区中文字幕在线 | 日韩精品国产一区| 久久久av毛片精品| 九九视频免费在线观看| 一本到一区二区三区| 午夜老司机福利| 主播福利视频一区| 天堂中文av在线资源库| 91性高湖久久久久久久久_久久99| 另类春色校园亚洲| 在线视频一区观看| 久久在线免费| 日本日本19xxxⅹhd乱影响| 精品一区二区三区在线观看| 黄色国产在线观看| 一级女性全黄久久生活片免费| 中文字幕av第一页| 亚洲第一黄色网| 香蕉av一区二区三区| 日韩精品亚洲元码| av在线免费网站| 国产精品高潮在线| 欧洲亚洲精品| 久久久久网址| 亚洲网址在线| 国产精品久久久久久久99| 国产拍欧美日韩视频二区| 亚洲一区欧美在线| 欧美tk—视频vk| aaa大片在线观看| 国产欧美日韩高清| 精品国产aⅴ| 99色精品视频| 91在线视频免费91| 国产无遮挡又黄又爽又色| 色综合婷婷久久| 亚洲黄色精品视频| 欧美成年人视频网站| 懂色av色香蕉一区二区蜜桃| 亚洲毛片aa| 欧美日韩p片| 18禁男女爽爽爽午夜网站免费| 国产白丝网站精品污在线入口| 中国一级片在线观看| 亚洲一区二区三区中文字幕| 国产巨乳在线观看| 最近2019年日本中文免费字幕| 成人日韩在线| 亚洲自拍小视频免费观看| 91一区二区三区四区| 三级av免费观看| 国产毛片精品国产一区二区三区| 黄色国产在线播放| 欧美日韩在线播放一区| www.av网站| 欧美日本中文字幕| 中文字幕一区二区三区中文字幕| 欧美日韩成人一区二区三区| 国产亚洲精品v| 精品无码人妻一区| 91久久精品一区二区二区| 亚洲xxx在线| 久久久久国产精品免费| 老牛精品亚洲成av人片| 久久免费视频3| 国产亚洲午夜高清国产拍精品| 波多野结衣二区三区| 中文字幕欧美日韩| 精品午夜视频| 被灌满精子的波多野结衣| 99国产精品久久| 凹凸精品一区二区三区| 久久精品视频网站| 国产精品视屏| 日本黄网站免费| 成人av在线资源网| 国产尤物在线视频| 一本一道久久a久久精品逆3p| 亚洲电影二区| av在线com| 国产一区二区三区国产| 欧美18—19性高清hd4k| 欧美欧美欧美欧美| 电影k8一区二区三区久久| 欧美日本韩国国产| 狠狠久久亚洲欧美| 日韩免费黄色片| 中文字幕久精品免费视频| 久久综合偷偷噜噜噜色| 男女高潮又爽又黄又无遮挡| 亚洲国产精品精华液2区45| 99精品视频在线播放免费| 国产综合在线看| 免费一级欧美在线大片| 成年人网站免费视频| 国产色产综合色产在线视频| 国产乱淫a∨片免费视频| 性金发美女69hd大尺寸| 欧美一区二区三| 久久久久国产免费| 在线观看日韩精品| 国产h在线观看| 亚洲最大的网站| 久久一区中文字幕| 91视频免费在线看| 伊人伊成久久人综合网小说| 成人台湾亚洲精品一区二区| 999在线观看|