精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

?參數少近一半,性能逼近谷歌Minerva,又一個數學大模型開源了

人工智能 新聞
大模型家族來了一個專門解決數學問題的「新成員」——Llemma。

如今,在各種文本混合數據上訓練出來的語言模型會顯示出非常通用的語言理解和生成能力,可以作為基礎模型適應各種應用。開放式對話或指令跟蹤等應用要求在整個自然文本分布中實現均衡的性能,因此更傾向于通用模型。

不過如果想要在某一領域(如醫學、金融或科學)內最大限度地提高性能,那么特定領域的語言模型可能會以給定的計算成本提供更優越的能力,或以更低的計算成本提供給定的能力水平。

普林斯頓大學、 EleutherAI 等的研究者為解決數學問題訓練了一個特定領域的語言模型。他們認為:首先,解決數學問題需要與大量的專業先驗知識進行模式匹配,因此是進行領域適應性訓練的理想環境;其次,數學推理本身就是 AI 的核心任務;最后,能夠進行強數學推理的語言模型是許多研究課題的上游,如獎勵建模、推理強化學習和算法推理。

因此,他們提出一種方法,通過對 Proof-Pile-2 進行持續的預訓練,使語言模型適應數學。Proof-Pile-2 是數學相關文本和代碼的混合數據。將這一方法應用于 Code Llama,可以得到 LLEMMA:7B 和 34B 的基礎語言模型,其數學能力得到了大幅提高。

圖片

論文地址:https://arxiv.org/pdf/2310.10631.pdf

項目地址:https://github.com/EleutherAI/math-lm

LLEMMA 7B 的 4-shot Math 性能遠超谷歌 Minerva 8B,LLEMMA 34B 在參數少近一半的情況下性能逼近 Minerva 62B。

圖片

 具體來說,本文貢獻如下:

  • 1. 訓練并發布了 LLEMMA 模型:專門用于數學的 7B 和 34B 語言模型。LLEMMA 模型是在 MATH 上公開發布的基礎模型的最新水平。
  • 2. 發布了代數堆棧(AlgebraicStack),這是一個包含 11B 專門與數學相關的代碼 token 的數據集。
  • 3. 證明了 LLEMMA 能夠使用計算工具來解決數學問題,即 Python 解釋器和形式定理證明器。
  • 4. 與之前的數學語言模型(如 Minerva)不同,LLEMMA 模型是開放式的。研究者開放了訓練數據和代碼。這使得 LLEMMA 成為未來數學推理研究的一個平臺。

方法概覽

LLEMMA 是專門用于數學的 70B 和 34B 語言模型。它由 Proof-Pile-2 上繼續對代碼 Llama 進行預訓練得到的。


圖片

DATA: Proof-Pile-2 

研究者創建了 Proof-Pile-2,這是一個 55B token 的科學論文、包含數學的網絡數據和數學代碼的混合物。除了 Lean proofsteps 子集之外,Proof-Pile-2 的知識截止日期為 2023 年 4 月。

圖片

數值模擬、計算機代數系統和形式定理證明器等計算工具對數學家的重要性與日俱增。因此,研究者創建了代數堆棧(AlgebraicStack),這是一個包含 17 種語言源代碼的 11B token 數據集,涵蓋數值數學、符號數學和形式數學。該數據集由來自 Stack、GitHub 公共資源庫和形式證明步驟數據的過濾代碼組成。表9顯示了AlgebraicStack 中各語言的 token 數量。

圖片

AlgebraicStack 中各語言的 token 數。

研究者了使用 OpenWebMath,這是一個由高質量網頁組成的 15B  token 數據集,其中過濾了數學內容。OpenWebMath 根據數學相關關鍵詞和基于分類器的數學評分過濾 CommonCrawl 網頁,保留數學格式(如 LATEX、AsciiMath),并包含額外的質量過濾器(如 plexity、domain、length)和近似重復。

除此之外,研究者還使用了 RedPajama 的 ArXiv 子集,它是 LLaMA 訓練數據集的開放再現。ArXiv 子集包含 29B 個詞塊。訓練混合數據由少量一般領域數據組成,起到了正則化的作用。由于 LLaMA 2 的預訓練數據集尚未公開,研究者使用 Pile 作為替代訓練數據集。

模型和訓練

每個模型都是從 Code Llama 初始化而來,該模型又初始化自 Llama 2,使用僅解碼器(deconder only)的 transformer 結構,在 500B 的代碼 token 上訓練而成。研究者使用標準自回歸語言建模目標,在 Proof-Pile-2 上繼續訓練 Code Llama 模型。這里,LLEMMA 7B 模型有 200B token,LLEMMA 34B 模型有 50B token。

研究者使用 GPT-NeoX 庫在 256 個 A100 40GB GPU 上,以 bfloat16 混合精度來訓練以上兩個模型。他們為 LLEMMA-7B 使用了世界大小為 2 的張量并行,為 34B 使用了世界大小為 8 的張量并行,以及跨數據并行副本的 ZeRO Stage 1 分片優化器狀態。此外還使用 Flash Attention 2 來提高吞吐量并進一步降低內存需求。

LLEMMA 7B 經過了 42000 步的訓練,全局 batch 大小為 400 萬個 token,上下文長度為 4096 個 token。這相當于 23000 個 A100 時。學習率在 500 步后預熱到了 1?10^?4,然后在 48000 步后將余弦衰減到最大學習率的 1/30。

LLEMMA 34B 經過了 12000 步的訓練,全局 batch 大小同樣為 400 萬個 token,上下文長度為 4096。這相當于 47000 個 A100 時。學習率在 500 步后預熱到了 5?10^?5,然后衰減到峰值學習率的 1/30。

評估結果

在實驗部分,研究者旨在評估 LLEMMA 是否可以作為數學文本的基礎模型。他們利用少樣本評估來比較 LLEMMA 模型,并主要關注沒有在數學任務監督樣本上進行微調的 SOTA 模型。

研究者首先使用思維鏈推理和多數投票(majority voting)方法來評估 LLEMMA 求解數學題的能力,評估基準包括了 MATH 和 GSM8k。然后探索使用少樣本工具和定理證明。最后研究了內存和數據混合的影響。

使用思維鏈(CoT)求解數學題

這些任務包括為 LATEX 或自然語言表示的問題生成獨立的文本答案,而無需使用外部工具。研究者使用到的評估基準有 MATH、GSM8k、 OCWCourses、SAT 和 MMLU-STEM。

結果如下表 1 所示,LLEMMA 在 Proof-Pile-2 語料庫上的持續預訓練在 5 個數學基準上均提升了少樣本性能,其中 LLEMMA 34B 在 GSM8k 上比 Code Llama 提高了 20 個百分點,在 MATH 上比 Code Llama 提高了 13 個百分點。同時 LLEMMA 7B 優于專有的 Minerva 模型。

因此,研究者得到結論,在 Proof-Pile-2 上進行持續預訓練有助于提升預訓練模型求解數學題的能力。

圖片

使用工具求解數學題

這些任務包括使用計算工具來解題。研究者使用到的評估基準有 MATH+Python 和 GSM8k+Python。

結果如下表 3 所示,LLEMMA 在這兩項任務上均優于 Code Llama。同時使用工具后在 MATH 和 GSM8k 上的性能也優于沒有工具的情況。

圖片

形式數學

Proof-Pile-2 的 AlgebraicStack 數據集擁有 15 億 token 的形式數學數據,包括提取自 Lean 和 Isabelle 的形式化證明。雖然對形式數學的全面研究超出了本文的探討范圍,但研究者在以下兩個任務上評估了 LLEMMA 的少樣本性能。

圖片

非形式到形式證明任務,即在給定形式命題、非形式 LATEX 命題和非形式 LATEX 證明的情況下,生成一個形式證明;

形式到形式證明任務,即通過生成一系列證明步驟(或策略)來證明一個形式命題。

結果如下表 4 所示,LLEMMA 在 Proof-Pile-2 上的持續預訓練在兩個形式定理證明任務上提升了少樣本性能。

數據混合的影響

訓練語言模型時,一種常見的做法是根據混合權重對訓練數據的高質量子集進行上采樣。研究者在幾個精心挑選的混合權重上進行了短期訓練,以此選擇混合權重。接著選擇了在一組高質量 held-out 文本(這里使用了 MATH 訓練集)上能夠最小化困惑度的混合權重。

下表 5 顯示了使用 arXiv、web 和代碼等不同數據混合訓練后,模型的 MATH 訓練集困惑度。

圖片

更多技術細節和評估結果參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-11-17 23:05:18

數據模型

2024-02-27 18:42:45

人工智能

2021-12-29 18:18:59

開源MedusaShopify

2023-05-14 23:38:43

Glarity用戶視頻

2020-02-18 20:28:23

AI人工智能

2022-02-06 20:55:39

jsEsbuild項目

2011-08-16 17:36:50

SolarisIllumos

2012-11-19 10:44:02

移動設備社交網絡網絡接入

2012-04-12 09:53:02

2023-07-20 12:32:42

Linux桌面

2014-11-18 10:02:28

2010-07-12 09:28:59

Windows 764位

2014-10-11 09:15:36

2022-11-30 10:59:20

2009-04-22 15:16:30

2019-05-29 10:55:01

開源Linux發行版

2021-01-29 09:07:39

數據保護信息安全數據隱私

2020-01-20 14:40:39

工具代碼開發

2012-04-09 10:06:05

英國密碼工作密碼

2018-09-30 08:00:15

區塊鏈碳排放氣候
點贊
收藏

51CTO技術棧公眾號

超碰国产在线| 国产精品久久久久久99| 性欧美video另类hd尤物| 国产精品网站一区| 91久久精品美女| 免费视频一二三区| 亚洲欧洲美洲国产香蕉| 欧美在线不卡一区| 最新中文字幕久久| 日韩中文字幕免费观看| 久久久人人人| av亚洲产国偷v产偷v自拍| 97在线观看视频国产| 国产精品成人无码免费| 国产日韩欧美中文在线| 亚洲v中文字幕| 欧美在线一二三区| av官网在线观看| 中文一区在线| 精品国产区一区二区三区在线观看| 久久草.com| 国产成人精品一区二区色戒| 久久精品亚洲人成影院| 亚洲精品97久久| 在线观看岛国av| 91吃瓜在线观看| 国产精品久久久久久久久图文区 | 欧美一级特黄aaaaaa大片在线观看| 欧美三级在线| 尤物九九久久国产精品的特点| 午夜精品久久久久久久99热影院| 人人澡人人添人人爽一区二区| jiyouzz国产精品久久| 国产精品永久在线| 香蕉免费毛片视频| 一区二区三区午夜探花| 亚洲天堂av在线播放| 91成人在线观看喷潮蘑菇| 2019年精品视频自拍| 亚洲成人午夜电影| 老汉色影院首页| 大乳在线免费观看| 91在线国产观看| 不卡一卡2卡3卡4卡精品在| 波多野结衣一区二区在线| 在线欧美三区| 欧美丰满少妇xxxx| 希岛爱理中文字幕| 免费成人结看片| 亚洲精品v欧美精品v日韩精品| 一区二区免费av| 欧洲av不卡| 狠狠色狠狠色综合日日小说| 97免费视频观看| 国内外激情在线| 亚洲欧美综合另类在线卡通| 热舞福利精品大尺度视频| 熟妇人妻中文av无码| 东方aⅴ免费观看久久av| 91久久国产婷婷一区二区| 国产精品51麻豆cm传媒 | 无码 制服 丝袜 国产 另类| wwwav在线| 17c精品麻豆一区二区免费| 午夜精品一区二区三区在线观看 | 亚洲国产成人一区| 久久久无码人妻精品无码| 国产午夜精品一区在线观看| 欧美精品aⅴ在线视频| 国产精品嫩草影院8vv8| 亚洲狼人在线| 7777精品伊人久久久大香线蕉最新版| 欧美 日韩 国产在线观看| 不卡一本毛片| 精品日韩中文字幕| 欧美aⅴ在线观看| 免费欧美电影| 欧美日韩国产影片| 永久av免费在线观看| 清纯唯美激情亚洲| 日韩免费视频一区| 亚洲自拍偷拍精品| 一呦二呦三呦国产精品| 一区二区三区四区视频| 老司机精品免费视频| 性欧美69xoxoxoxo| 欧美精品国产精品日韩精品| 日本一区二区三区免费视频| 翔田千里一区二区| 国产日韩中文字幕在线| 国产成人精品毛片| 99久久久无码国产精品| 蜜桃传媒视频麻豆第一区免费观看 | 国产乱视频在线观看| 久久久久久久一区| 在线精品日韩| av网站免费在线观看| 亚洲一区二区三区自拍| 黑鬼大战白妞高潮喷白浆| 看片一区二区| 欧美r级电影在线观看| 麻豆国产精品一区| 93在线视频精品免费观看| 欧美大片在线免费观看| 欧美性猛交bbbbb精品| 美女视频黄频大全不卡视频在线播放 | 亚洲精品综合在线观看| 高清一区二区三区av| 亚洲国产精品久久久久秋霞蜜臀 | 不卡一区视频| 亚洲国产天堂网精品网站| 国产精品美女高潮无套| 欧美国产先锋| 国产脚交av在线一区二区| 国产日韩欧美一区二区东京热| 成人综合在线网站| 丝袜美腿玉足3d专区一区| 欧美人与禽猛交乱配| 欧美中文字幕亚洲一区二区va在线| 欧美午夜aaaaaa免费视频| 99re6热只有精品免费观看| 亚洲日韩中文字幕在线播放| 538精品在线观看| 久久深夜福利| 国产另类自拍| 成人免费网址| 欧美亚洲国产一区在线观看网站| 亚洲一区二区三区三州| 欧美裸体在线版观看完整版| 国内精品小视频在线观看| 中文字幕人成人乱码亚洲电影| 国产福利一区二区三区视频 | 久久久久久久网| www.男人天堂网| 亚洲aⅴ网站| 国产一区二区三区毛片| 久久久久久久久久久久久久av| 久久99这里只有精品| 欧美精品久久久| gogo久久| 精品欧美一区二区久久| 中文字幕手机在线观看| 久久成人精品无人区| 热舞福利精品大尺度视频| 欧美aa在线| 337p日本欧洲亚洲大胆精品| 日韩精品一区二区亚洲av性色| 亚洲综合国产激情另类一区| 国产一区免费视频| 青青青国内视频在线观看软件| 欧美色图12p| 波多野在线播放| 久久精品中文| 久久久久欧美| 日韩激情电影| 日韩av网站在线| 中文字幕在线观看免费视频| 成人午夜看片网址| 97视频在线免费| 国产福利一区二区精品秒拍| 久久久久久久久久久国产| 99热这里只有精品在线| 亚洲日本乱码在线观看| 中文字幕第22页| 中文字幕免费一区二区| 91在线视频导航| av大片在线| 欧美大片在线观看一区| 久久久久久福利| 成人免费毛片嘿嘿连载视频| 国产妇女馒头高清泬20p多| 久久99精品国产自在现线| 91精品国产高清久久久久久| 欧洲毛片在线| 欧美性xxxxxx少妇| 97精品在线播放| 国产精品一区三区| 日韩一级性生活片| 一区二区小说| 国产日韩精品一区二区| 五月花成人网| 日韩av网址在线| 中文字幕 日韩有码| 中文字幕一区二区5566日韩| 深夜做爰性大片蜜桃| 在线国产精品一区| 日本精品视频一区| 国产精品3区| 97视频在线观看视频免费视频 | 亚洲欧美偷拍另类a∨色屁股| 五月天激情播播| 亚洲午夜电影| 欧美成人dvd在线视频| 欧美成人xxxx| 久久久久久久久中文字幕| 偷拍25位美女撒尿视频在线观看| 欧美日韩亚洲精品内裤| a资源在线观看| 国产激情视频一区二区在线观看 | 国产综合视频在线| 日韩欧美亚洲范冰冰与中字| 青青草自拍偷拍| 丁香网亚洲国际| 成人在线观看a| 欧美freesex交免费视频| 欧美二区三区在线| 国产高清日韩| 欧美整片在线观看| 91一区二区三区在线| 精品一区二区三区四区在线| 亚洲图片小说视频| 欧美日韩国产黄| 午夜激情视频在线播放| 99精品欧美一区二区蜜桃免费 | www.黄色在线| 国产99一区视频免费| 亚洲天堂网一区| 亚洲国产网站| 国产对白在线播放| 国产精品最新| 国产一区二区三区高清| 亚洲日日夜夜| 日韩美女免费观看| bl在线肉h视频大尺度| 波霸ol色综合久久| 成年人在线观看网站| 亚洲成人精品视频在线观看| 在线观看毛片av| 色呦呦一区二区三区| 国产极品在线播放| 亚洲精品高清视频在线观看| 微拍福利一区二区| 久久在线免费观看| 性农村xxxxx小树林| 久久91精品国产91久久小草| 欧美少妇性生活视频| 日韩视频二区| 日韩欧美视频免费在线观看| 99久久99热这里只有精品 | 国产精品亚洲lv粉色| 91久久精品一区二区| 美日韩一二三区| 亚洲国产精品一区二区久久恐怖片| 538精品视频| 国产校园另类小说区| 屁屁影院国产第一页| 粉嫩久久99精品久久久久久夜 | а√在线中文在线新版| 欧美激情精品久久久久久大尺度| 午夜视频在线观看网站| 一本一道久久a久久精品逆3p| 神宫寺奈绪一区二区三区| 精品国产乱码久久久久久久久 | 久久在线免费| 亚洲高清123| 久久久999免费视频| 久久超级碰碰| 国产精品久久久久久久小唯西川| 免费污视频在线一区| 国产成人午夜视频网址| 另类专区亚洲| 国产精品91久久久久久| 欧洲一级精品| 国产精品网红福利| 四虎视频在线精品免费网址| 国产在线精品一区免费香蕉 | 欧美亚洲视频一区二区| 69av成人| 欧美主播福利视频| 日韩高清不卡| 成人国产精品色哟哟| 欧美专区视频| 国产一区二区在线网站| 亚洲ab电影| 日韩av影视| 国产精品精品国产一区二区| 潘金莲一级淫片aaaaa免费看| 国产精品videosex性欧美| 大桥未久一区二区三区| 一区在线免费| 国产一区二区视频免费在线观看| 男人的天堂亚洲| a在线观看免费视频| 国产一区 二区 三区一级| 国模无码视频一区| 久久久.com| 我要看一级黄色录像| 亚洲国产cao| 青青草视频在线观看免费| 欧美日韩国产首页在线观看| 午夜精品久久久久久久99热黄桃| 精品欧美黑人一区二区三区| 三级毛片在线免费看| 亚洲一级一级97网| 深夜国产在线播放| 91国自产精品中文字幕亚洲| 8av国产精品爽爽ⅴa在线观看| 成人网欧美在线视频| 牛牛影视久久网| 在线观看免费91| 99精品视频免费| 91精品999| 91原创在线视频| 天海翼在线视频| 欧美性色19p| 国内老熟妇对白xxxxhd| 亚洲欧美一区二区精品久久久| 欧洲不卡视频| 8090成年在线看片午夜| 99国内精品久久久久| 久久一区二区三区av| 正在播放日韩欧美一页| 欧美黄色一级片视频| 成人一区二区视频| 国产小视频你懂的| 日韩欧美中文在线| 亚洲第一色视频| 最近2019年中文视频免费在线观看| 污的网站在线观看| 国产精品久久久久久久久免费看 | 亚洲精品免费一二三区| 日韩在线播放中文字幕| 日韩精品资源二区在线| 91在线不卡| 97在线观看免费高清| 日韩欧美中文在线观看| 亚洲巨乳在线观看| 性xx色xx综合久久久xx| 久久久无码人妻精品无码| 亚洲天堂免费看| 日韩伦人妻无码| 欧美一区二区三区四区久久| 夜级特黄日本大片_在线| 欧美自拍大量在线观看| 国产一区丝袜| 日韩欧美猛交xxxxx无码| 韩国视频一区二区| 成人午夜免费影院| 欧美影院一区二区| 韩国中文字幕2020精品| 7777精品视频| 老司机精品在线| 国产aaa免费视频| 国产成人在线视频免费播放| 免费黄色国产视频| 欧洲一区二区三区在线| 免费人成黄页在线观看忧物| 欧美综合激情网| 日韩系列在线| 欧美大片在线播放| 国产91精品精华液一区二区三区 | 中文字幕一区三区| 中文字幕永久免费视频| 在线观看欧美www| 欧美日韩亚洲国产| 色播亚洲婷婷| 免费国产亚洲视频| 日韩欧美黄色网址| 欧美日韩视频第一区| 亚洲成人三级| 成人激情视频免费在线| 91精品一区国产高清在线gif| 亚洲人视频在线| 中文字幕一区二区三区精华液| 99re这里只有精品在线| 国产午夜精品免费一区二区三区| brazzers在线观看| 精品伦精品一区二区三区视频| 黄色亚洲精品| 污污污www精品国产网站| 午夜日韩在线电影| 日韩有码电影| 国产精品成久久久久三级| 成人影院在线| 亚洲色图偷拍视频| 亚洲一区在线播放| 五月激情六月婷婷| 国产91在线播放精品91| 日本一区二区高清不卡| 91欧美一区二区三区| 一区二区三区精品视频| 亚洲色图第四色| 欧美日韩亚洲高清一区二区| 日本免费视频在线观看| 亚洲一区二区久久久久久| 狠狠入ady亚洲精品经典电影| 黑人性生活视频| 亚洲va欧美va天堂v国产综合| 天天操天天舔天天干| 欧美亚洲激情视频| 久久影院一区| 91九色蝌蚪porny| 色女孩综合影院| 黄色免费在线观看网站| 国产精品美女黄网| 视频在线观看一区| 欧美日韩精品亚洲精品| 亚洲欧洲在线播放| 久久影院一区二区三区| 男人操女人逼免费视频|