精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

算數(shù)能力接近滿分!新加坡國立大學發(fā)布Goat,僅用70億參數(shù)秒殺GPT-4,起步支持16位數(shù)乘除法

人工智能 新聞
語言模型終于會乘除法了!

大規(guī)模語言模型雖然在各大自然語言處理任務上都展現(xiàn)了優(yōu)越的性能,不過算術類題目仍然是一大難關,即便是當下最強的GPT-4也很難處理基礎運算的問題。

最近,來自新加坡國立大學的研究人員提出了一個專供算術的模型山羊Goat,在LLaMA模型基礎上微調后,實現(xiàn)了顯著優(yōu)于GPT-4的算術能力。

圖片

論文鏈接:https://arxiv.org/pdf/2305.14201.pdf

通過對合成的算術數(shù)據(jù)集進行微調,Goat在BIG-bench算術子任務上實現(xiàn)了最先進的性能,

Goat僅通過監(jiān)督微調就可以在大數(shù)加減運算上實現(xiàn)近乎完美的準確率,超越了之前所有的預訓練語言模型,如Bloom、OPT、GPT-NeoX等,其中零樣本的Goat-7B所達到的精度甚至超過了少樣本學習后的PaLM-540

研究人員將Goat的卓越性能歸功于LLaMA對數(shù)字的一致性分詞技術。

為了解決更有挑戰(zhàn)性的任務,如大數(shù)乘法和除法,研究人員還提出了一種方法,根據(jù)算術的可學習性對任務進行分類,然后利用基本的算術原理將不可學習的任務(如多位數(shù)乘法和除法)分解為一系列可學習的任務。

通過全面的實驗驗證后,文中提出的分解步驟可以有效地提升算術性能。

并且Goat-7 B可以在24 GB VRAM GPU上使用LoRA高效訓練,其他研究人員可以非常容易地重復該實驗,模型、數(shù)據(jù)集和生成數(shù)據(jù)集的python腳本即將開源。

會算數(shù)的語言模型

語言模型

LLaMA是一組開源的預訓練語言模型,使用公開可用的數(shù)據(jù)集在數(shù)萬億個token上進行訓練后得到,并在多個基準測試上實現(xiàn)了最先進的性能。

先前的研究結果表明,分詞(tokenization)對LLM的算術能力很重要,不過常用的分詞技術無法很好地表示數(shù)字,比如位數(shù)過多的數(shù)字可能會被切分。

圖片

LLaMA選擇將數(shù)字切分為多個token,確保數(shù)字表示的一致性,研究人員認為,實驗結果中表現(xiàn)出的非凡算術能力主要歸功于LLaMA對數(shù)字的一致性分詞。

在實驗中,其他微調后的語言模型,如Bloom、OPT、GPT-NeoX和Pythia,無法與LLaMA的算術能力相匹配。

算術任務的可學習性(Learnability of Arithmetic Tasks)

之前有研究人員對使用中間監(jiān)督解決復合任務(composite task)進行了理論分析,結果表明這種任務是不可學習的,但可以分解為多項式數(shù)量的簡單子任務。

也就是說,不可學習的復合問題可以通過使用中間監(jiān)督或逐步思維鏈(CoT)來學習。

在此分析基礎上,研究人員首先對可學習和不可學習任務進行實驗分類。

在算術計算的背景下,可學習任務通常是指那些可以成功訓練模型以直接生成答案的任務,從而在預定義數(shù)量的訓練epochs內實現(xiàn)足夠高的精度。

不可學習的任務是那些即使經過廣泛訓練,模型也難以正確學習和生成直接答案的任務。

雖然任務可學習性變化背后的確切原因尚不完全清楚,但可以假設這與基本模式的復雜性和完成任務所需的工作記憶大小有關。

圖片

研究人員通過在簡化的合成環(huán)境中專門針對每個任務微調模型來實驗檢查這些任務的可學習性。

圖片

可學習的和不可學習的任務

任務分類的結果也與人類的感知相同,通過實踐,人類可以在腦海中計算兩個大數(shù)字的加法和減法,無需手算的情況下,可以直接從左(最高有效數(shù)字)到右(最低有效數(shù)字)寫下最終的數(shù)字答案。

不過心算解決大數(shù)乘法和除法是一項具有挑戰(zhàn)性的任務。

還可以觀察到,上述對任務的分類結果與GPT-4的性能也一致,特別是GPT-4擅長為大數(shù)加法和減法生成直接答案,當涉及到多位乘法和除法任務時,準確性會顯著下降。

像GPT-4這樣強大的模型無法直接解決不可學習的任務,也可能表明,即使經過廣泛的訓練,為這些任務生成直接答案也是極具挑戰(zhàn)性的。

值得注意的是,對于LLaMA來說是可學習的任務可能不一定對于其他LLM來說是可學的。

此外,并非所有被歸類為不可學習的任務對模型來說都是完全不可能學習到的。

例如,兩位數(shù)乘兩位數(shù)被認為是一項不可學習的任務,但如果訓練集中包含所有可能的2位數(shù)乘法枚舉數(shù)據(jù)的話,模型仍然可以通過過擬合訓練集來直接生成答案。

不過整個過程需要近10個epoch才能達到90%左右的準確率。

而通過在最終答案之前插入文中提出的CoT,該模型可以在1個epoch的訓練后就可以在兩位數(shù)乘法中實現(xiàn)相當不錯的精度,也與之前的研究結論一致,即中間監(jiān)督的存在有助于學習過程。

加法與減法

這兩個算術操作是可學習的,僅通過有監(jiān)督微調,模型就表現(xiàn)出了準確生成直接數(shù)字答案的非凡能力。

盡管模型只是在非常有限的加法數(shù)據(jù)子集上進行了訓練,但從模型在未見過的測試集上實現(xiàn)了近乎完美的準確率上可以看出來,模型成功地捕獲了算術運算的基本模式,并且無需使用CoT

乘法

研究人員通過實驗驗證了n位數(shù)乘1位數(shù)的乘法是可學習的,而多位數(shù)乘法則無法學習。

為了克服這個問題,研究人員選擇在生成答案之前對LLM進行微調以生成CoT,將多位數(shù)乘法分解為5個可學習的子任務:

1. 抽取(extraction),從自然語言指令中抽取算術表達式

2. 拆分(split),將兩者中較小的數(shù)拆分為place值

3. 展開(expansion),基于分配性展開求和

4. 乘積(product),同時計算每個乘積

5. 逐項相加(adding term by term),將前兩項相加,復制其余項,得到最終和

圖片

其中每個任務都是可學習的。

除法

類似地,可以通過實驗觀察到n位數(shù)除以1位數(shù)是可以學習的,而多位數(shù)除法是不可學習的。

研究人員利用改進慢除法的遞推方程,設計了一個全新的思維鏈提示。

圖片

主要思想是從被除數(shù)中減去除數(shù)的倍數(shù),直到余數(shù)小于除數(shù)。

圖片

數(shù)據(jù)集

文章中設計的實驗為兩個正整數(shù)的加法和減法,每個正整數(shù)最多包含16位數(shù)字,并且減法運算的結果可能是負數(shù)。

為了限制生成的最大序列長度,乘法的結果為12位以內的正整數(shù);兩個正整數(shù)的除法中,被除數(shù)小于12位,商值6位數(shù)以內。

研究人員使用Python腳本合成了一個數(shù)據(jù)集,生成了大約100萬個問答對,答案包含提出的CoT以及最終的數(shù)字輸出,所有數(shù)字都是隨機生成的,可以保證重復實例的概率非常低,不過小數(shù)字可能會被多次采樣。

微調

為了使該模型能夠基于指令解決算術問題,并促進自然語言問答,研究人員使用ChatGPT生成了數(shù)百個指令模板。

在指令調整過程中,從訓練集中為每個算術輸入隨機選擇一個模板,并微調LLaMA-7B,類似于Alpaca中使用的方法。

圖片

Goat-7B可以在24GB VRAM GPU上使用LoRA進行微調,在A100 GPU上僅花費大約1.5小時即可完成10萬樣本的微調,并實現(xiàn)近乎完美的精度。

實驗結果

比較Goat和GPT-4在大量乘法和除法方面的性能似乎不公平,因為GPT-4會直接生成答案,而Goat則依賴于設計的思維鏈,所以在GPT-4評估時還在每個提示的結尾加入「Solve it step by step」

圖片

不過可以觀察到,雖然GPT-4在某些情況下,長乘法和除法的中間步驟錯了,但最終答案仍然是正確的,也就意味著GPT-4并沒有利用思維鏈的中間監(jiān)督來提高最終輸出。

最終從GPT-4的解決方案中確定了以下3個常見錯誤:

1. 對應數(shù)字的對齊

2. 重復數(shù)字

3. n位數(shù)乘以1位數(shù)的中間結果錯誤

從實驗結果中可以看插到,GPT-4在8D+8D和16D+16D任務上表現(xiàn)相當好,但在大多數(shù)16D+8D任務上的計算結果都是錯誤的,盡管直觀上來看,16D+8D應該比16D+16D相對容易。

雖然造成這種情況的確切原因尚不清楚,但一個可能的因素可能是GPT-4不一致的數(shù)字分詞過程,使得兩個數(shù)字之間很難對齊.

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-06-07 14:16:11

AIGPT-4

2024-04-12 15:10:12

框架模型

2024-01-30 21:18:57

模型智能CMMLU

2025-02-28 09:32:00

2025-02-19 14:10:00

AI3D生成

2025-07-31 08:40:00

AI模型智能體

2024-12-30 10:20:00

模型數(shù)據(jù)訓練

2023-06-19 08:19:50

2022-12-01 17:41:14

深度學習模型

2022-07-06 14:43:21

決策樹算法

2023-07-12 10:04:20

模型訓練

2023-05-19 13:01:10

ChatGPT模型

2023-03-26 21:03:54

GPT-4人工智能

2021-05-21 08:43:23

Wi-Fi信號電能

2025-04-16 09:35:03

2023-11-15 13:18:50

2025-03-24 13:32:43

2023-08-25 13:12:59

AI開源

2024-12-11 15:00:00

點贊
收藏

51CTO技術棧公眾號

国产精品久久久久久久龚玥菲| 日本一卡二卡在线| 五月香视频在线观看| 天堂精品中文字幕在线| 欧美精品一区二区三区很污很色的 | 国产成人精品一区二区三区在线 | 欧美精品一区二区三区国产精品| 亚洲一区二区中文字幕在线观看| av影片免费在线观看| 丝袜美腿亚洲一区| 色婷婷综合成人av| 久久发布国产伦子伦精品| 中文字幕资源网在线观看| 国产不卡在线一区| 66m—66摸成人免费视频| 久久久久久久久久久国产精品| 成人免费网站观看| 欧美国产精品劲爆| 91色视频在线导航| www.天天色| 亚洲日产av中文字幕| 欧美熟乱第一页| 国产精品三级一区二区| 日本韩国免费观看| 免费视频最近日韩| 欧美极品美女电影一区| 午夜理伦三级做爰电影| 欧美亚洲二区| 国产精品毛片大码女人| 成人av免费在线看| 无码人妻久久一区二区三区 | 欧美aⅴ99久久黑人专区| 亚洲国产精品va在线| 国产精品igao| 国产美女一区视频| youjizz久久| 国产精品日韩专区| 久热这里有精品| 国产一区二区三区四区| 日韩欧美的一区| 欧美大尺度做爰床戏| 黑人精品视频| 中文字幕+乱码+中文字幕一区| 91亚洲精品久久久久久久久久久久| 国产在线观看99| 国产精品久久久乱弄| 亚洲九九九在线观看| 精品人妻一区二区三| 精品欧美日韩精品| 最新欧美精品一区二区三区| 麻豆亚洲一区| 欧美一级淫片aaaaaa| 国产综合成人久久大片91| www国产91| 蜜桃无码一区二区三区| 精品视频在线你懂得| 色综合天天性综合| 国产欧美日韩网站| 青春草在线免费视频| 国产精品网站导航| 国产一区福利视频| 精品人妻aV中文字幕乱码色欲| 三级精品在线观看| 久久综合久久88| 蜜桃av.com| 日韩三级在线| 国产亚洲精品久久| avtt中文字幕| 日韩中文在线| 日韩一区二区三区在线观看| av噜噜在线观看| 国产精品.xx视频.xxtv| 欧洲精品视频在线观看| 精品少妇无遮挡毛片| 久久久一本精品| 色域天天综合网| 欧美v在线观看| 欧美少妇网站| 欧美性69xxxx肥| 免费看黄在线看| 密臀av在线播放| 日韩欧美精品网站| 日韩有码免费视频| 欧洲一级精品| 色婷婷av一区二区三区gif| 无码精品a∨在线观看中文| 黄在线观看免费网站ktv| 午夜伊人狠狠久久| 欧美网站免费观看| 黑人巨大精品| 欧美亚洲一区二区三区四区| 久久国产这里只有精品| 精品国产黄a∨片高清在线| 欧美色图一区二区三区| 一级做a免费视频| 国产日韩欧美中文在线| 日韩欧美激情一区| 国产黄色三级网站| 精品国产一区二区三区香蕉沈先生| 欧美最猛性xxxxx免费| 成人性生生活性生交12| 四虎4545www国产精品| 日韩欧美大尺度| 精品无码免费视频| 亚洲国产视频二区| 欧美sm美女调教| 无码一区二区精品| 亚洲午夜久久| 色婷婷久久一区二区| 日本老熟俱乐部h0930| 亚洲午夜黄色| 国产福利精品在线| www.天天干.com| 91香蕉视频污在线| 亚洲欧美日韩国产成人综合一二三区| 精品视频在线一区二区| 亚洲成精国产精品女| 午夜免费福利小电影| av亚洲一区二区三区| 91精品啪在线观看国产60岁| jjzzjjzz欧美69巨大| 美女久久久久| 欧美高清性猛交| 好吊色在线视频| 国产成人免费视频| 欧美午夜精品理论片a级大开眼界| 成年人视频网站在线| 亚洲欧美成人一区二区三区| 国模无码视频一区二区三区| 97久久中文字幕| 亚洲黄色www| 日本少妇aaa| 国产精品久久久久久久久久妞妞 | 超碰一区二区| 91精品婷婷国产综合久久| 波多野结衣 在线| 欧美1区2区| 国产精品免费福利| 黑人操亚洲女人| **欧美大码日韩| 日韩中字在线观看| 日韩最新av| 色婷婷综合久久久久| 毛片基地在线观看| 极品尤物av久久免费看| 欧美日韩另类综合| 欧美videos另类精品| 欧美男同性恋视频网站| 日韩乱码人妻无码中文字幕久久| 国产精品激情电影| 日韩av色综合| 无套内谢的新婚少妇国语播放| 亚洲男人电影天堂| 亚洲18在线看污www麻豆| 国产伦精品一区二区三区千人斩| 欧美丰满老妇厨房牲生活 | 男人在线资源站| 在线看日韩精品电影| 成人网站免费观看| 激情综合视频| 亚洲xxxx在线| 免费av在线| 欧美日韩国产不卡| 精品丰满少妇一区二区三区| 国产精品毛片| 精品视频高清无人区区二区三区| 国产原创视频在线观看| 欧美群妇大交群的观看方式| 丁香激情五月少妇| 久久久久91| 欧美日韩一区二区视频在线观看| 在线观看网站免费入口在线观看国内 | 日av在线播放| 色综合久久久网| 亚洲黄色免费在线观看| 一区在线免费观看| 国产日产精品一区二区三区四区| 91桃色在线| 精品国产a毛片| 国产真实乱偷精品视频| 成a人片国产精品| 免费在线观看亚洲视频| 亚洲人成精品久久久| 国产精品高潮在线| 3d成人动漫在线| 欧美一区二区三区人| 精品少妇一区二区三区密爱| 久久电影国产免费久久电影| 国产精品99久久久久久大便| 国产一区精品二区| 久久天天躁狠狠躁夜夜av| 97人妻精品一区二区三区软件| 国产精品素人视频| 五月天国产视频| 国产综合自拍| 久久久久网址| 你懂的网址国产 欧美| 欧美高清www午色夜在线视频| 国产aⅴ激情无码久久久无码| 天堂va蜜桃一区二区三区漫画版| 宅男av一区二区三区| 亚洲天堂中文字幕在线观看| 91精品国产高清久久久久久久久 | 91综合久久| 高清一区二区三区视频| 91福利精品在线观看| 久99久在线视频| 黄色大片在线免费观看| 欧美精品丝袜久久久中文字幕| 日韩三级小视频| 日韩美女啊v在线免费观看| 日本五十肥熟交尾| 麻豆一区二区三区| 69堂免费视频| 国产精品videosex极品| 日韩国产精品一区二区| 高清一区二区三区| 成人黄在线观看| 欧美舌奴丨vk视频| 国内揄拍国内精品少妇国语| 国产激情在线视频| 中文字幕亚洲在线| 日本福利午夜视频在线| 精品三级av在线| 国产精品久久欧美久久一区| 欧美专区日韩专区| 天天操天天干视频| 亚洲国产精品久久久久秋霞影院 | 一道在线中文一区二区三区| 97久久精品午夜一区二区| 神马电影网我不卡| 97久久伊人激情网| 国产美女福利在线观看| 久久亚洲一区二区三区四区五区高 | av毛片在线| 最近2019中文字幕在线高清| 九色在线视频蝌蚪| 日韩精品免费在线观看| va视频在线观看| 538在线一区二区精品国产| 中文字幕黄色av| 91久久线看在观草草青青| 日本视频免费在线| 午夜久久久久久久久久一区二区| 久久久久成人片免费观看蜜芽| 亚洲天堂免费看| 天天看天天摸天天操| 国产精品卡一卡二卡三| 久久久久无码精品国产sm果冻| 久久久综合激的五月天| 亚洲熟女乱综合一区二区三区| 成人sese在线| 美女黄色一级视频| 97aⅴ精品视频一二三区| 国产女人18毛片水真多18| 成人免费毛片app| 男人网站在线观看| 99riav一区二区三区| 日本少妇毛茸茸| av在线播放不卡| 欧美 日本 国产| 国产欧美日产一区| 精品熟妇无码av免费久久| 中文字幕一区二区三区精华液| 亚洲一二三在线观看| 亚洲精品一卡二卡| 久草免费在线视频观看| 亚洲成av人影院| 日韩精品在线观看免费| 色999日韩国产欧美一区二区| 久久久久精彩视频| 欧美久久久久久蜜桃| 国产色视频在线| 精品国一区二区三区| 无码国产色欲xxxx视频| 亚洲欧美中文在线视频| avtt在线播放| 久久亚洲春色中文字幕| hd国产人妖ts另类视频| 日韩av电影中文字幕| 青青在线精品| 国产高清一区二区三区| 日韩欧美四区| 亚洲一区二区三区欧美| 欧美区日韩区| www.av毛片| 免费一级片91| 无码人妻一区二区三区免费n鬼沢| 97se亚洲国产综合自在线不卡| 国产伦精品一区二区三区视频女| 亚洲婷婷在线视频| 日本五十熟hd丰满| 欧美亚洲综合另类| 午夜精品久久久久久久96蜜桃| 日韩电影第一页| 男人和女人做事情在线视频网站免费观看 | 国产欧美在线播放| 2020最新国产精品| 日韩欧美99| 国内在线观看一区二区三区| 欧美牲交a欧美牲交aⅴ免费真| 极品美女销魂一区二区三区免费| 久久人人爽人人人人片| 国产精品女同一区二区三区| 国产亚洲精品女人久久久久久| 在线免费观看一区| 成人午夜精品福利免费| 中文字幕亚洲无线码a| √天堂8资源中文在线| 国产日韩在线精品av| 蜜桃久久久久| 国产一二三四五| 日精品一区二区| 性欧美18—19sex性高清| 国产精品欧美一区二区三区| 国产精品久久久久久久妇| 欧美一区二区三区男人的天堂| 国产露出视频在线观看| 97视频色精品| 日本在线一区二区三区| 亚洲精品成人久久久998| 国产精品五区| 成年人小视频在线观看| 亚洲欧美一区二区在线观看| 亚洲第一网站在线观看| 亚洲精品第一页| 色www永久免费视频首页在线| 国产精品丝袜高跟| 日韩欧美在线精品| 福利在线一区二区| 国内欧美视频一区二区| 亚洲精品国产精品国自产网站| 精品久久久久久久久久| 亚洲av综合色区无码一区爱av| 日韩综合中文字幕| 亚洲国产尤物| 欧美国产二区| 99日韩精品| 成人啪啪18免费游戏链接| 亚洲色图清纯唯美| 91麻豆一区二区| 中文字幕亚洲无线码在线一区| 电影亚洲精品噜噜在线观看| 久久久久久久久一区二区| 精品1区2区3区4区| 中文字幕 欧美 日韩| 亚洲欧美日本韩国| 国产又粗又大又爽| 日韩在线观看你懂的| 国内精品伊人| 一区二区冒白浆视频| 蜜桃视频在线观看一区| 婷婷国产成人精品视频| 欧美三级电影在线看| 日本电影在线观看网站| 成人国产精品久久久久久亚洲| 天天色综合色| 少妇丰满尤物大尺度写真| 一区二区三区久久| 亚洲AV无码精品国产| 欧美激情免费看| 欧美wwwwww| 黑人糟蹋人妻hd中文字幕| 国产亚洲综合色| 中文字幕精品在线观看| xxxx欧美18另类的高清| 精品国产乱码久久久久久樱花| www.18av.com| 99久久久久免费精品国产 | 999热视频| 亚洲日韩视频| 少妇极品熟妇人妻无码| 亚洲va韩国va欧美va| 国产综合在线观看| 国产精品普通话| 亚洲国产日韩欧美在线| 蜜桃视频无码区在线观看| 欧美日韩一区二区免费视频| 国产二区视频在线观看| 亚洲一区中文字幕在线观看| 国产精品mm| 国产毛片久久久久久久| 欧美日韩极品在线观看一区| caopo在线| 免费在线国产精品| 久久超碰97人人做人人爱| 麻豆视频在线观看| 精品香蕉一区二区三区| 日韩在线激情| a级黄色一级片| 亚洲欧美综合网| 天堂影院在线| 91美女片黄在线观| 亚洲视频大全| 亚洲xxxx3d动漫| 精品一区二区亚洲| 国产精品美女久久久久人| www国产黄色| 亚洲视频一二区| 韩国中文字幕2020精品|