精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-3解數學題準確率升至92.5%!微軟提出MathPrompter,無需微調即可打造「理科」語言模型

人工智能 新聞
ChatGPT的文科腦有救了!

大型語言模型最為人詬病的缺點,除了一本正經地胡言亂語以外,估計就是「不會算數」了。

圖片

比如一個需要多步推理的復雜數學問題,語言模型通常都無法給出正確答案,即便有「思維鏈」技術的加持,往往中間步驟也會出錯。

與文科類的自然語言理解任務不同,數學問題通常只有一個正確答案,在不那么開放的答案范圍下,使得生成準確解的任務對大型語言模型來說更具挑戰性。

并且,在數學問題上,現有的語言模型通常不會對自己的答案提供置信度(confidence),讓用戶無從判斷生成答案的可信度。

為了解決這個問題,微軟研究院提出了MathPrompter技術,可以提高 LLM 在算術問題上的性能,同時增加對預測的依賴。

論文鏈接:https://arxiv.org/abs/2303.05398

MathPrompter 使用 Zero-shot 思維鏈提示技術生成多個代數表達式或 Python 函數,以不同方式解決同一個數學問題,從而提高輸出結果的可信度。

相比其他基于提示的 CoT 方法,MathPrompter還會檢查中間步驟的有效性。

基于175B 參數 GPT,使用MathPrompter方法將MultiArith 數據集的準確率從78.7%提升到了92.5%!

專攻數學的Prompt

近幾年,自然語言處理的發展很大程度上要歸功于大型語言模型(LLMs)在規模上的不斷擴展,其展現出了驚人的zero-shot和few-shot能力,也促成了prompting技術的發展,用戶只需要在prompt中給LLM輸入幾個簡單的樣例即可對新任務進行預測。

prompt對于單步的任務來說可以說相當成功,但在需要多步驟推理的任務中,提示技術的性能仍然不夠。

人類在解決一個復雜問題時,會將其進行分解,并嘗試一步步地解決,「思維鏈」(CoT)提示技術就是將這種直覺擴展到LLMs中,在一系列需要推理的NLP任務中都得到了性能改進。

這篇論文主要研究「用于解決數學推理任務」的Zero-shot-CoT方法,之前的工作已經在MultiArith數據集上得到了顯著的準確率改進,從17.7% 提升到了 78.7%,但仍然存在兩個關鍵的不足之處:

1、雖然模型所遵循的思維鏈改進了結果,但卻沒有檢查思維鏈提示所遵循的每個步驟的有效性;

2、沒有對LLM預測結果提供置信度(confidence)。

MathPrompter

為了在一定程度上解決這些差距,研究人員從「人類解決數學題的方式」中得到啟發,將復雜問題分解為更簡單的多步驟程序,并利用多種方式在每一個步驟中對方法進行驗證。

圖片

由于LLM是生成式模型,要確保生成的答案是準確的,特別是對于數學推理任務,就變得非常棘手。

研究人員觀察學生解決算術問題的過程,總結出了學生為驗證其解決方案而采取的幾個步驟:

遵循已知結果(Compliance with known results),通過將解決方案與已知結果進行比較,可以評估其準確性并進行必要的調整;當問題是一個具有成熟解決方案的標準問題時,這一點尤其有用。

多重驗證 Multi-verification,通過從多個角度切入問題并比較結果,有助于確認解決方案的有效性,確保其既合理又準確。

交叉檢查 Cross-checking,解決問題的過程與最終的答案同樣必要;驗證過程中的中間步驟的正確性可以清楚地了解解決方案背后的思維過程。

計算驗證 Compute verification,利用計算器或電腦進行算術計算可以幫助驗證最終答案的準確性

具體來說,給定一個問題Q,

圖片

 在一家餐廳,每份成人餐的價格是5美元,兒童免費用餐。如果有15個人進來,其中8個是孩子,那么這群人要花多少錢吃飯?

1. 生成代數模板 Generating Algebraic template

首先將問題轉化為代數形式,通過使用鍵值映射將數字項替換為變量,然后得到修改后的問題Qt

圖片

2. 數學提示 Math-prompts

基于上述多重驗證和交叉檢查的思維過程所提供的直覺上,使用兩種不同的方法生成Qt的分析解決方案,即代數方式和Pythonic方式,給LLM提供以下提示,為Qt生成額外的上下文。

圖片

提示可以是「推導出一個代數表達式」或「編寫一個Python函數」

LLM模型在響應提示后可以輸出如下表達式。

圖片

上述生成的分析方案為用戶提供了關于LLM的「中間思維過程」的提示,加入額外的提示可以提高結果的準確性和一致性,反過來會提高MathPrompter生成更精確和有效的解決方案的能力。

3. 計算驗證 Compute verification

使用Qt中輸入變量的多個隨機鍵值映射來評估上一步生成的表達式,使用Python的eval()方法對這些表達式進行評估。

然后比較輸出結果,看是否能在答案中找到一個共識(consensus),也可以提供更高的置信度,即答案是正確且可靠的。

圖片

一旦表達式在輸出上達成一致,就使用輸入Q中的變量值來計算最終的答案。

4. 統計學意義 Statistical significance

為了確保在各種表達式的輸出中達成共識,在實驗中將步驟2和3重復大約5次,并報告觀察到的出現最頻繁的答案值。

在沒有明確共識的情況下,重復步驟2、3、4。

實驗結果

在MultiArith數據集上對MathPrompter進行評估,其中的數學問題專門用來測試機器學習模型進行復雜算術運算和推理的能力,要求應用多種算術運算和邏輯推理才能成功地解決。

圖片

在MultiArith數據集上的準確率結果顯示,MathPrompter的表現優于所有的Zero-shot和Zero-shot-CoT基線,將準確率從78.7% 提升到 92.5%

可以看到,基于175B參數GPT3 DaVinci的MathPrompter模型的性能與540B參數模型以及SOTA的Few-shot-CoT方法相當。

圖片

從上表可以看到,MathPrompter的設計可以彌補諸如「生成的答案有時會有一步之差」的問題,可以通過多次運行模型并報告共識結果來避免。

此外,推理步驟可能過于冗長的問題,可以由Pythonic或Algebraic方法可以解決這個問題,通常需要較少的token

此外,推理步驟可能是正確的,但最終的計算結果卻不正確,MathPrompter通過使用Python的eval()方法函數來解決這個問題。

在大部分情況下,MathPrompter都能生成正確的中間和最終答案,不過也有少數情況,如表中的最后一個問題,代數和Pythonic的輸出都是一致的,但卻有錯誤。

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2019-11-20 10:03:56

AI 數據人工智能

2023-12-13 14:17:10

微軟變色龍框架

2022-05-26 14:04:13

GPT-3機器學習AI

2021-08-17 11:29:13

框架架構開發

2021-10-11 17:27:50

框架計算機開發

2023-12-04 13:51:00

模型數據

2025-09-15 09:05:00

AI數學模型

2025-07-30 09:06:02

2023-09-19 09:20:16

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2023-09-25 10:04:37

模型AI

2021-08-10 16:01:18

模型人工智能深度學習

2021-11-01 10:40:15

機器學習人工智能計算機

2023-09-19 14:56:00

模型訓練

2025-09-16 12:49:11

2021-11-08 10:01:04

AI 數據語言模型

2024-08-02 13:14:51

2021-03-23 15:21:00

人工智能機器學習技術
點贊
收藏

51CTO技術棧公眾號

欧美一区二区三区在线| 国产精品久久久久影院亚瑟| 午夜精品久久久久久久久久久久 | 中文有码在线播放| 888久久久| 欧美精品一区二| 久久精品午夜福利| 超碰porn在线| 久久青草欧美一区二区三区| 成人两性免费视频| 日韩av黄色片| 91亚洲国产| 亚洲第一天堂无码专区| 亚洲少妇久久久| 日韩少妇视频| 国产色产综合产在线视频| 95av在线视频| 无码一区二区三区在线观看| 欧美69wwwcom| 中文字幕日韩欧美| 日本少妇xxxx| 国产精品成人3p一区二区三区| 一区二区三区在线视频观看 | 国产一区红桃视频| 中国一级特黄毛片| 中文字幕免费一区二区| 亚洲最新av在线| 亚洲av成人无码一二三在线观看| 青草综合视频| 日本道免费精品一区二区三区| 久久香蕉视频网站| 日本福利在线| 久久精品欧美一区二区三区麻豆| 国产富婆一区二区三区| 91精品国自产| 男女男精品视频| 51久久精品夜色国产麻豆| 婷婷在线精品视频| 99热国内精品| 中文字幕日韩欧美| 日本一卡二卡在线播放| 欧美日韩导航| 亚洲国产成人爱av在线播放| 一区二区三区国产好的精华液| 福利精品在线| 欧美亚日韩国产aⅴ精品中极品| 精品久久一二三| 免费在线播放电影| 一区二区三区在线不卡| 成人手机在线播放| 成人影院在线看| 亚洲欧美日韩国产手机在线| 香蕉精品视频在线| 黄色国产网站在线播放| 亚洲欧洲99久久| 国产香蕉一区二区三区| 岛国成人毛片| 一区二区免费在线| 人妻av无码专区| av在线网页| 精品久久久久久中文字幕一区奶水| www.日本在线视频| 国产亚av手机在线观看| 亚洲成人精品一区| 国产91在线视频观看| 欧美办公室脚交xxxx| 欧美视频第一页| 久久精品网站视频| 久久免费资源| 日韩视频在线观看一区二区| 国产高潮失禁喷水爽到抽搐| 国产精品极品| 亚洲欧美日韩一区二区三区在线| 免费视频91蜜桃| 色一区二区三区四区| 久久精品国产亚洲精品2020| 放荡的美妇在线播放| 亚洲天堂偷拍| 欧美一区二区三区……| 亚洲av综合一区| 国内精品第一页| 成人自拍网站| 男女视频在线观看免费| 国产精品麻豆视频| 欧美黄网在线观看| 一区二区三区电影大全| 欧美日韩国产中文精品字幕自在自线| 国产裸体舞一区二区三区| 欧美三级电影网址| 亚洲成人久久电影| 97在线观看免费视频| 亚洲网色网站| 热99精品里视频精品| 国产精品视频一区二区三区,| 懂色av一区二区三区免费看| 日本午夜精品一区二区三区| 成人影欧美片| 欧美日韩国产中字| 日本黄色福利视频| 丝袜美腿一区二区三区动态图| 国产一区二区三区在线播放免费观看| 男人操女人的视频网站| 久久一区亚洲| 国产精品手机视频| 最新国产在线观看| 图片区小说区区亚洲影院| 激情视频免费网站| 免费萌白酱国产一区二区三区| 中文字幕不卡在线视频极品| 久久9999久久免费精品国产| 日韩精品91亚洲二区在线观看| 99爱精品视频| 亚洲s色大片| 狠狠干狠狠久久| 久久久久久无码精品人妻一区二区| 欧美日本成人| 91精品国产高清久久久久久| 国产女18毛片多18精品| 久久久久久久久久久黄色| 美女黄色免费看| 国产高清视频一区二区| 在线成人中文字幕| 偷偷操不一样的久久| 国产乱子轮精品视频| 亚洲成人网上| 日韩美女在线看免费观看| 亚洲成人免费网站| 欧美日韩人妻精品一区二区三区| 久久精品久久久精品美女| 欧美一级二级三级九九九| 黄色的视频在线观看| 日韩一卡二卡三卡四卡| 婷婷社区五月天| 美女精品一区二区| 神马欧美一区二区| 日韩欧美少妇| 国产亚洲视频在线观看| 青青视频在线免费观看| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 美女网站一区| 欧美主播福利视频| 肉丝一区二区| 欧美日韩亚洲天堂| theav精尽人亡av| 亚洲精品欧美| 久久精品日韩精品| 自由日本语热亚洲人| 日韩av综合网站| 精品在线播放视频| 91丨九色丨尤物| 男人日女人下面视频| 全国精品免费看| 欧美一区在线直播| 猫咪在线永久网站| 91成人国产精品| 99久久人妻无码精品系列| 久久亚洲综合| 日韩中文字幕一区二区| 日韩一区二区三区免费视频| 中文字幕视频一区二区在线有码| 日韩乱码一区二区三区| 国产精品人成在线观看免费| 久久6免费视频| 欧美va天堂在线| 国产日韩精品推荐| 亚洲精品一区| 在线看国产精品| 国产精品视频一区二区三区,| 亚洲精品乱码久久久久久| 黑人无套内谢中国美女| 中文亚洲免费| 午夜精品美女久久久久av福利| 成人免费视频观看| 不卡中文字幕av| 国产香蕉在线观看| 色天天综合色天天久久| 国产一级淫片久久久片a级| 国模大尺度一区二区三区| 大陆极品少妇内射aaaaaa| 人人精品视频| 91精品啪在线观看麻豆免费| 午夜dj在线观看高清视频完整版| 亚洲黄色www网站| 中文字幕乱码中文字幕| 夜夜夜精品看看| 右手影院亚洲欧美| 久久 天天综合| 激情五月宗合网| 水蜜桃久久夜色精品一区| 国产高清在线一区二区| 粉嫩一区二区三区| 欧美激情性做爰免费视频| 邻居大乳一区二区三区| 日韩一区二区三区在线观看| av资源免费观看| 亚洲人吸女人奶水| 亚洲成人黄色av| 国产成人综合网| 久久久国产欧美| 亚洲国产黄色| 青少年xxxxx性开放hg| 欧美成人一区在线观看| 川上优av一区二区线观看| 男人av在线播放| 欧美大奶子在线| 91xxx在线观看| 日韩精品在线观看一区| av在线免费在线观看| 日本久久精品电影| 久久精品性爱视频| 最近日韩中文字幕| 国产三级黄色片| 97se亚洲国产综合自在线不卡| 小早川怜子一区二区三区| 狂野欧美一区| 人妻熟妇乱又伦精品视频| 一本一本久久a久久综合精品| 欧美一区2区三区4区公司二百| 成人h动漫精品一区二区器材| 国产主播精品在线| av在线不卡精品| 欧美综合一区第一页| av在线理伦电影| 欧美国产第二页| 在线观看中文字幕的网站| 最好看的2019年中文视频| 你懂的在线视频| 日韩精品在线免费| 色噜噜一区二区三区| 精品三级在线看| 国产婷婷在线视频| 91麻豆精品91久久久久同性| 中文字幕+乱码+中文乱码91| 色综合天天天天做夜夜夜夜做| 男人的天堂一区| 五月综合激情网| 91蜜桃视频在线观看| 亚洲国产wwwccc36天堂| 九九免费精品视频| 一区二区成人在线| 国产一级片网址| 亚洲午夜国产一区99re久久| 18岁成人毛片| 国产精品麻豆一区二区 | 精品免费在线| 日韩高清三级| 日本不卡免费一区| 一区二区三区电影| 久久精品久久久| 欧洲亚洲一区二区| 北条麻妃国产九九九精品小说| 视频一区不卡| 91久久夜色精品国产按摩| 伊人婷婷久久| 国产精品99一区二区| 国产一区二区三区在线免费| 红桃视频亚洲| 欧美牲交a欧美牲交aⅴ免费真| 久久高清一区| 91丨九色丨蝌蚪| 国产福利一区二区三区视频| 欧美丰满熟妇bbb久久久| 99久久婷婷国产| 国产在线观看h| 最新热久久免费视频| 精品自拍偷拍视频| 性久久久久久久久久久久| 久久青青草视频| 精品视频一区 二区 三区| 国产女人爽到高潮a毛片| 精品国免费一区二区三区| 天堂av一区二区三区| 亚洲新声在线观看| 黄网站视频在线观看| 97色在线观看| 精品国产欧美日韩一区二区三区| 91在线观看免费高清完整版在线观看 | 91九色单男在线观看| 亚洲网址在线观看| 欧美美乳视频网站在线观看| 99久久精品费精品国产| 色欲色香天天天综合网www| 久久精品盗摄| 性生活一级大片| 久久众筹精品私拍模特| 国产人与禽zoz0性伦| 亚洲高清不卡在线| 欧美 亚洲 另类 激情 另类 | 手机福利小视频在线播放| 国产香蕉97碰碰久久人人| 国产美女福利在线| 欧美亚洲激情视频| 精品国产第一国产综合精品| 久久综合九色综合网站| 久久精品一区二区不卡| 欧美日韩二三区| 国产一区二区精品久久91| 老鸭窝一区二区| 亚洲精品乱码久久久久久| 波多野结衣视频在线观看| 日韩欧美一区二区免费| 国产午夜在线观看| 国产综合在线视频| 亚洲精品tv| 日本不卡久久| 亚洲黄色高清| 自拍一级黄色片| 国产免费久久精品| 国产一级18片视频| 日韩一区二区电影| 欧洲不卡视频| 国产精品久久久久久久久久东京| 激情小说一区| 日本丰满少妇黄大片在线观看| 日韩专区在线视频| 日本黄色免费观看| 亚洲成人免费影院| www.xxxx国产| 美女性感视频久久久| 国产一区高清| 日韩精品一区二区三区外面 | 午夜免费福利影院| 亚洲日本va午夜在线影院| 在线视频 91| 永久免费毛片在线播放不卡| 手机av在线| 国产原创精品| 亚洲国产mv| 91传媒理伦片在线观看| 亚洲精品高清视频在线观看| 国产乱码久久久| 久久精品久久精品亚洲人| 国产一区影院| 伊人久久大香线蕉精品| 美腿丝袜一区二区三区| 手机毛片在线观看| 在线观看欧美精品| 成人免费视频| 国产精品网红直播| 97精品国产| 激情图片中文字幕| 中文字幕亚洲成人| 国产熟女精品视频| 美女扒开尿口让男人操亚洲视频网站| 国产亚洲久久| 欧美一二三不卡| 国产69精品久久久久毛片| 日韩一级片av| 精品国产一区二区三区久久影院| √最新版天堂资源网在线| 国产一区二区中文字幕免费看| 亚洲黑丝一区二区| 香蕉视频黄色在线观看| 色偷偷88欧美精品久久久| 国产一级二级三级在线观看| 国产精品91在线观看| 久久在线播放| 欧美国产在线一区| 亚洲最大成人综合| 欧洲精品久久一区二区| 欧美亚洲成人免费| 精品视频国产| 国产精品探花在线播放| 亚洲国产日韩一区二区| 青青青免费视频在线2| 国产精品女人久久久久久| 99re66热这里只有精品8| 手机看片国产精品| 日本亚洲欧美在线| 日韩av综合中文字幕| 午夜精品成人av| 伊人久久大香线蕉av一区| 国产成人在线观看| 亚洲免费在线视频观看| 在线免费观看羞羞视频一区二区| 国产精品一区免费在线| 91免费黄视频| 国产欧美日韩综合精品一区二区| 国产精品怡红院| 91高清视频免费| 欧美电影一二区| 国内精品免费视频| 欧美在线小视频| 麻豆蜜桃在线| 日韩高清国产精品| 国产成人综合自拍| 波多野结衣一二区| 欧美高清在线视频观看不卡| 亚洲另类春色校园小说| 五月天婷婷在线观看视频| 午夜久久久久久久久| 一级日本在线| 国产精品一区二区在线观看 | 亚洲色图久久久| 一区二区国产视频| 国产视频精品久久| 国产亚洲情侣一区二区无| 美女久久久精品| 国产区在线观看视频| 欧美成人在线网站|