精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4 MATH準確率最高漲至84.3%!港中文、清華等七所頂尖高校提出全新CSV方法

人工智能 新聞
讓模型用代碼自我驗證解決方案,結合多數投票集成機制,推理準確率可以提升近30%!

雖然大型語言模型(LLMs)在常識理解、代碼生成等任務中都取得了非常大的進展,不過在數學推理任務上仍然存在很大改進空間,經常會生成無意義、不準確的內容,或是無法處理過于復雜的計算。

最近推出的一些語言模型,如GPT-4, PaLM-2都在數學推理上取得了重大進步,特別是OpenAI的最新版模型GPT-4 Code Interpreter,在較困難的數學推理數據集上也展現出了很高的性能。

為了探索「代碼生成任務」對「語言模型推理能力」的影響,來自香港中文大學、南京大學、中國科學技術大學、清華大學、香港城市大學、長沙理工大學和塔夫茨大學的研究人員聯合發布了一篇論文,通過在代碼使用頻率(Code Usage Frequency)上引入不同的約束限制進行實驗驗證。

論文鏈接:https://arxiv.org/abs/2308.07921

實驗結果顯示,GPT-4 Code Interpreter模型的成功在很大程度上要歸功于「在生成和執行代碼、評估代碼執行的輸出以及在收到不合理的輸出」時糾正其解決方案方面的強大能力。

基于上述結論,研究人員提出了一種新穎且高效的提示方法,顯式的基于代碼的自我驗證(CSV, code-based self-verification),以進一步提高GPT-4代碼解釋器的數學推理潛力。

該方法在GPT-4 Code Interpreter上采用zero-shot提示,以促使模型使用代碼來對答案進行自我驗證。

在驗證狀態為「假」的情況下,模型將自動修改其解決方案,類似于人類在數學考試中糾錯的過程。

此外,研究人員還發現驗證結果的狀態可以指示解決方案的置信度,并進一步提高多數表決的有效性。

通過結合GPT-4 Code Interpreter和CSV方法,在MATH數據集上的零樣本準確率實現了從54.9%到84.3%的巨大提升。

LLM的推理能力從何而來?

為了探索代碼的使用對GPT4-Code解決數學問題能力的影響,研究人員采用了一種很直接的方法,即通過精心設計的提示來限制GPT4-Code與代碼的交互。

具體包括兩種代碼限制提示以及一種基礎提示用來對比:

圖片

提示1:No code usage is allowed(不允許使用代碼)

GPT4-Code不允許在其解決方案中添加代碼,也就是說模型只能完全依賴自然語言(NL)推理鏈,類似于思維鏈(CoT)框架中的解決方案,由此產生的推理步驟序列叫做CNL,如上圖中(a)所示。

提示2:Code can be used only once(代碼只能使用一次)

GPT4-Code只能用單個代碼塊內的代碼來生成解決方案,類似于之前的PAL方法,論文中將此序列稱為CSL,即使用符號語言(SL),如Python進行推理,上圖中(b)為樣例。

基本提示:對代碼使用沒有任何限制。

推理序列可表示為圖片,其中每個步驟都由自然語言和 Python 代碼組成,示例如上圖中(c)所示。

除此之外,研究人員還引入了代碼使用頻率(Code Usage Frequency)來記錄不同提示下的代碼執行次數,結果表明,GPT4-Code的高性能與高代碼使用頻率之間存在正相關。

具體來說,提示2使用的代碼量比提示1多了一倍,并且提示2比提示1的準確率提高了 6.9%,表明Python代碼鏈CSL比自然語言鏈CNL更能提高計算能力,這一觀察結果與之前基于Python的提示方法結果一致。

不過只能使用一次代碼也存在缺陷,當代碼輸出引發錯誤或產生非預期的結果時,模型缺乏自我調試(self-debugging)的能力。

在對比提示2和基本提示時,可以發現,基本提示始終能生成包含多個代碼使用實例的解決方案,即代碼使用頻率更高,并且基本提示的準確性也明顯提高。

具體可以歸因于代碼的兩個優勢:

1. 生成一些簡短的代碼塊,可以分割自然語言推理步驟,從而帶來更高的準確率;

2. 模型有能力評估代碼執行結果,并在結果中發現錯誤或不合邏輯的解決步驟,并進行修正。

基于代碼的自驗證CSV

受代碼使用頻率分析觀察結果的啟發,研究人員決定利用GPT4-Code的代碼生成、代碼評估、代碼執行,以及自動調整解決方案等能力來增強方案驗證,以提高推理性能。

CSV的主要流程就是對GPT-Code輸入提示,來顯式地通過代碼生成來驗證答案正確性。

對解決方案C的驗證結果V可以分為「真」、「假」、「不確定」三類。

與CSV結合后,模型能夠使用代碼來驗證答案,然后在驗證結果為「錯誤」的情況下審查并調整得出解決方案的方式,從而獲得正確答案。

在完善和修正初始解決方案后,準確率可以得到顯著提高。

值得注意的是,驗證(verification)和修正(rectification)階段都是基于代碼的,所以必然會導致代碼使用頻率的增加。

在 GPT4-Code 出現之前,先前的框架大多依賴于外部LLM使用自然語言進行驗證和精心設計的少樣本提示。

相比之下,CSV方法僅依賴于GPT4-Code的直接提示,以零樣本的方式簡化了流程,利用其先進的代碼執行機制來自主驗證和獨立修正解決方案。

研究人員還將驗證階段集成到了加權多數表決(majority voting)中,為驗證過程的各個狀態分配了不同的權重。

為了防止答案被確認為「假」后不再進行其他驗證,研究人員將三種狀態分配了不同的權重:wT, wF和wU,可以增加系統的可靠性。

為了簡單起見,集成算法從k個解決方案中提取一對最終答案及其相應的驗證結果,表示為圖片其中v和a分別代表第i個最終答案和最終驗證結果。

因此,每個候選答案 a 的投票得分可以表示為:

最后從所有候選答案中選出得分最高的答案:

圖片

實驗結果

MATH數據集

GPT4-Code在MATH基準上的準確率達到了 69.69%,大大超過了之前的方法(53.90%),表明 GPT4-Code在解決數學問題方面表現出很強的能力。

在GPT4-Code的基礎上,文中提出的CSV方法進一步提高了準確性,將準確率提高到了73.54%;

在加入基于代碼的顯式自我驗證和驗證引導的加權多數投票(采樣路徑數為 16)后,結果進一步提高到了84.32%

需要注意的是,雖然增加基于代碼的自我驗證可以提高題目的成績,但具體程度因題目難度、形式而異。

其他數據集

研究人員還在其他推理數據集上應用了CSV方法,包括GSM8K、MMLU-Math 和 MMLU-STEM

從結果上來看,CSV+GPT4-Code在各個數據集上都取得了最優的結果。

與帶有模型選擇功能的GPT-4和 PHP相比,驗證引導的多數表決是減少采樣路徑數量的有效框架。

CSV方法與現有模型在MMLU-Math和MMLU-STEM數據集上的性能對比中,可以看到開源模型明顯優于閉源模型。

為了彌補這一差距,研究人員表示目前已經開始著手準備制作數據集,并將在不久的將來公開發布。

其他開源LLM模型,如LLaMA 2可以利用該數據集進行微調,并進一步提升數學推理能力。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-29 12:49:00

AI模型

2023-11-20 21:56:04

AI推理

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2021-10-11 17:27:50

框架計算機開發

2023-09-19 14:56:00

模型訓練

2025-05-06 15:32:23

模型AI測試

2025-01-21 08:00:00

2023-09-19 09:20:16

2021-11-01 10:40:15

機器學習人工智能計算機

2019-01-29 10:27:27

量子計算機芯片超算

2023-08-17 13:30:28

AI測試

2024-01-03 13:37:00

模型數據

2023-06-14 14:57:38

模型AI

2025-11-14 13:40:55

GPT-4oAI模型

2024-02-26 00:50:00

數據AI

2024-12-02 14:20:00

模型訓練

2024-07-02 01:09:02

2023-12-01 10:20:00

谷歌技術

2023-05-22 15:17:02

谷歌AI
點贊
收藏

51CTO技術棧公眾號

国产成人一区二区三区免费看| 精品电影一区二区三区| 日韩精品成人一区二区在线观看| 不卡av电影在线| 欧美手机视频| 日韩午夜在线观看视频| 青青草成人免费在线视频| 免费a在线观看| 美女爽到高潮91| 欧美黄色片视频| 亚洲第一香蕉网| 国产激情欧美| 黄色91在线观看| 亚洲 国产 日韩 综合一区| 亚洲大尺度网站| 日韩成人午夜精品| 欧美激情视频网| 成人一级片免费看| 国产精品videossex| 欧美午夜精品一区二区蜜桃| 91午夜在线观看| av男人的天堂在线| 成人av网站免费| 国产专区欧美专区| 国产一级做a爱片久久毛片a| 国产韩日影视精品| 日韩精品免费视频| 天天影视色综合| 欧美大胆性生话| 午夜精品久久久久久久蜜桃app | 天天色综合久久| 理论片日本一区| 日本精品在线视频| 亚洲精品77777| 欧美激情性爽国产精品17p| 国产午夜精品美女视频明星a级| www.黄色网| 亚洲一区二区三区久久久| 一本色道综合亚洲| 国产素人在线观看| 久久电影网站| 亚洲精品美腿丝袜| 日本一级淫片演员| 久久bbxx| 亚洲欧洲色图综合| 亚洲视频在线二区| √天堂资源地址在线官网| 久久色视频免费观看| 精品国产一区二区三区四区vr| 国产视频第一页| 国内成人免费视频| 亚洲一区二区三区sesese| 91av国产精品| 久久99蜜桃精品| 国产日韩中文在线| 97人妻精品一区二区三区软件| 日本系列欧美系列| 国产精品美女www爽爽爽视频| 色屁屁影院www国产高清麻豆| 亚洲一级在线| 日本电影亚洲天堂| 国产成人a v| 美女www一区二区| 国产在线拍偷自揄拍精品| 91久久精品国产91性色69| 久久精品99久久久| 亚洲a在线播放| www日本高清视频| 成年人网站91| 欧美二区三区| 在线免费观看黄色网址| 日韩毛片高清在线播放| 红桃一区二区三区| 欧美巨大丰满猛性社交| 在线观看91视频| 欧美一级视频在线| 99久久香蕉| 亚洲美女av黄| 国产aaaaaaaaa| 欧美极品一区二区三区| 97精品伊人久久久大香线蕉| 国产免费一区二区三区四区五区| 蜜桃视频第一区免费观看| 91美女福利视频高清| 丰满肥臀噗嗤啊x99av| 91蝌蚪porny九色| 亚洲欧美日韩精品综合在线观看| 免费黄网站在线| 亚洲一区二区三区四区中文字幕| 青青草原av在线播放| 福利一区二区三区视频在线观看| 91精品福利在线一区二区三区| 性高潮免费视频| 欧美色网址大全| 欧美高清无遮挡| 精品亚洲一区二区| 天堂久久久久久| 成人羞羞网站入口| 欧美精品videossex性护士| 欧美特黄aaaaaa| 久久69国产一区二区蜜臀| 国产精品美女xx| 成人精品一区二区三区免费| 一区二区三区美女| 污污视频网站免费观看| 欧美电影院免费观看| 亚洲日本中文字幕| 久久久国产成人| 男人的天堂久久精品| 国产富婆一区二区三区| 婷婷在线视频观看| 精品久久久久久久久中文字幕 | 国产一区二区按摩在线观看| 精品在线观看一区二区| 久久综合之合合综合久久| 精品久久久视频| 佐山爱在线视频| 精品久久久久久久| 97色在线观看| www.色呦呦| 国产精品伦一区| 无码人妻丰满熟妇区96| 91成人国产综合久久精品| 菁菁伊人国产精品| 久久精品国产v日韩v亚洲| 全部毛片永久免费看| 国产黄人亚洲片| 一区二区三区不卡在线| 欧美精品日日操| 日韩av一区在线观看| 欧美日韩激情在线观看| 狠狠色丁香久久婷婷综合丁香| 欧美亚州在线观看| 91精品论坛| 亚洲国产精品热久久| 国产十六处破外女视频| 久久国产精品无码网站| 日韩一区国产在线观看| 成人片免费看| 国产婷婷色综合av蜜臀av| 久久av高潮av无码av喷吹| 国产综合色视频| 欧美少妇一级片| 亚洲三级在线| 日韩中文字幕精品视频| 国产精品xxxxxx| 国产三级三级三级精品8ⅰ区| 自拍日韩亚洲一区在线| 美腿丝袜亚洲图片| 欧美精品一区三区| 国产福利资源在线| 亚洲一二三专区| 国产 xxxx| 一区二区日韩免费看| 九色综合日本| 欧洲一区二区三区精品| 亚洲一级片在线看| 在线视频欧美亚洲| 综合色中文字幕| 波多野结衣免费观看| 欧美精品三区| 国产亚洲欧美一区二区三区| 蜜桃av.网站在线观看| 精品亚洲aⅴ在线观看| 国产微拍精品一区| 国产三级一区二区| 成人黄色一级大片| 欧美日韩网址| 久久精品中文字幕一区二区三区 | 欧美亚洲综合另类| 日韩一卡二卡在线观看| 国产白丝网站精品污在线入口| 天堂8在线天堂资源bt| 青青视频一区二区| 国产精品h在线观看| 久操视频在线| 亚洲第一二三四五区| 最新中文字幕一区| 国产精品久久久久久久久果冻传媒| 日本在线观看视频一区| 极品少妇一区二区三区| 日产精品一线二线三线芒果| 久久久久伊人| 韩国一区二区电影| 五月婷婷在线视频| 亚洲精品久久久久国产| 国产女优在线播放| 亚洲午夜av在线| chinese麻豆新拍video| 国产精品亚洲综合色区韩国| 亚洲制服中文| 欧美freesex8一10精品| 91精品国产自产在线老师啪| 黄色影院在线看| 中文字幕九色91在线| www久久久久久| 欧美无砖专区一中文字| 国产在线一区视频| 中文字幕不卡在线观看| 日韩av无码一区二区三区不卡| 欧美a级理论片| 国产成人无码a区在线观看视频| 清纯唯美亚洲综合一区| 国产精品一区二区三区精品| 国产精品亚洲成在人线| 91国内产香蕉| 午夜激情在线| 最新国产成人av网站网址麻豆| 丰满肉肉bbwwbbww| 91麻豆精品国产91久久久使用方法 | 美女精品一区最新中文字幕一区二区三区 | 香蕉成人在线| 秋霞午夜一区二区| 黄色小说在线播放| 精品国偷自产在线| 黄色av免费在线观看| 精品乱人伦小说| 国产原创中文av| 欧美私人免费视频| 国产成人综合欧美精品久久| 一区二区三区免费看视频| 69xxx免费| 久久久亚洲欧洲日产国码αv| 国产无套精品一区二区三区| 精品一区二区三区久久| 国产精品乱码久久久久| 亚洲免费中文| 妞干网在线视频观看| 欧美日韩一区二区国产| 国产大尺度在线观看| 日韩国产欧美| 日韩免费av电影| 欧美精美视频| 欧美日韩高清在线一区| 欧美天堂影院| 精品一区二区三区视频日产| 成人直播在线观看| 超碰97人人在线| 日韩欧美久久| 高清国产在线一区| 亚洲综合影院| 高清一区二区三区视频| 91精品导航| 99蜜桃在线观看免费视频网站| 高清国产一区二区三区四区五区| 国产精品情侣自拍| 日本午夜免费一区二区| 国产男人精品视频| 最新亚洲国产| 5566中文字幕一区二区| 亚洲天堂av资源在线观看| av一区二区在线看| 精品网站aaa| 麻豆av一区| 国产在线观看91一区二区三区| 欧美亚洲另类久久综合| 精品国产一区二区三区小蝌蚪 | 50度灰在线| 欧美激情精品久久久久久变态| 麻豆蜜桃在线| 午夜免费久久久久| www.成人爱| 国产精品久久久久一区二区| 欧美亚洲福利| 99伊人久久| 天天久久夜夜| 五月天久久狠狠| 亚洲欧美综合久久久| av在线播放天堂| 久久动漫亚洲| 不卡的在线视频| 国产成人午夜片在线观看高清观看| 亚洲最大视频网| 久久色.com| www日韩在线| 亚洲 欧美综合在线网络| 国产精品国产三级国产专区52| 在线观看成人免费视频| www.亚洲欧美| 亚洲欧美在线x视频| 欧美日韩视频在线播放| 欧美高清无遮挡| japanese23hdxxxx日韩| 91久久在线观看| 久久久久观看| 亚洲一卡二卡三卡| 激情综合视频| 午夜免费看视频| www.成人在线| 久久久久久久久久97| 精品久久久中文| 国产又粗又猛又爽又黄的| 亚洲精品国产精品国自产在线 | 神马午夜精品95| 原创国产精品91| 黄色污污视频在线观看| 国产精品一久久香蕉国产线看观看| 亚洲1区在线| 午夜久久资源| 亚洲国产午夜| 手机在线国产视频| 久久久三级国产网站| 精品无码一区二区三区电影桃花 | 久久99视频| 亚洲国产精品无码av| 久久狠狠亚洲综合| 欧美bbbbb性bbbbb视频| 一区二区三区在线视频观看58| 欧美日韩一级黄色片| 精品欧美久久久| 麻豆视频在线免费观看| 日韩免费中文字幕| 在这里有精品| 国产精品亚洲天堂| 日韩成人伦理电影在线观看| 久久性爱视频网站| 亚洲久草在线视频| 在线观看免费视频一区| 亚洲欧美国产精品久久久久久久 | 福利在线视频导航| 97久久国产精品| 日韩中文字幕无砖| 国产又大又长又粗又黄| 免费人成网站在线观看欧美高清| 特大黑人巨人吊xxxx| 亚洲国产wwwccc36天堂| 性一交一乱一色一视频麻豆| 日韩中文在线中文网三级| 蜜桃视频成人m3u8| 欧美精品123| 亚洲综合国产| jlzzjizz在线播放观看| 亚洲成人免费av| 亚洲精品成av人片天堂无码| 成人444kkkk在线观看| www.91精品| 麻豆一区二区三区在线观看| 国内久久精品视频| 中文字幕av播放| 欧美一区二区视频观看视频| 黄色动漫在线| 成人免费网视频| 欧美视频一区二区在线| 国产亲近乱来精品视频| 亚洲黄色免费观看| 亚洲精品中文字幕av| 天堂中文在线播放| 欧美二区在线| 日本伊人色综合网| 日本激情视频一区二区三区| 欧美日韩一级二级| 午夜小视频在线播放| 456亚洲影院| 国内精品久久久久久99蜜桃| 牛夜精品久久久久久久| 国产精品成人在线观看| 国产欧美久久久| 欧美激情一区二区三区在线视频观看 | 久草在线网址| 国产精品日韩专区| 欧美hentaied在线观看| 亚洲图片 自拍偷拍| 一区二区日韩电影| 天天操天天射天天| 欧美在线国产精品| 国产日产精品一区二区三区四区的观看方式 | 狠狠色丁香久久婷婷综| 欧美爱爱小视频| 亚洲精品美女在线| 91欧美精品| 国产精品av免费观看| 99久久伊人久久99| 青娱乐在线免费视频| 久久中文字幕一区| 国产成人精品福利| 免费国产成人av| 亚洲乱码一区二区三区在线观看| 免费av一级片| 国产精品1234| 欧美大片一区| 少妇真人直播免费视频| 在线不卡免费av| 欧美aa在线| 欧美日韩一级在线| 94色蜜桃网一区二区三区| 亚洲综合精品视频| 欧美精品电影在线| 成人激情诱惑| 久久久久久久久久久久国产精品| 日韩欧美一区二区三区| 日本三级在线视频| 久久精品国产一区二区三区不卡| 蜜臀精品一区二区三区在线观看 | 怡红院在线播放| 欧美三级电影在线播放| 国产精一品亚洲二区在线视频| 9i看片成人免费看片| 色综合视频网站| 成人在线电影在线观看视频| 久久国产免费视频|