精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越PaLM!北大碩士提出DiVeRSe,全面刷新NLP推理排行榜

人工智能 新聞
NLP推理任務(wù)又進(jìn)一步!最近北大的一位碩士生在微軟實(shí)習(xí)期間提出一個(gè)新算法DiVeRSe,全面刷新NLP推理排行榜,在歸納推理數(shù)據(jù)集上性能甚至比PaLM+自洽提升60%,比fine-tuning還要高近30%。

?大型語言模型可以說是現(xiàn)代自然語言處理技術(shù)的基石了,比如1750億參數(shù)的GPT-3,5400億參數(shù)的PaLM,預(yù)訓(xùn)練模型為下游任務(wù)提供了非常強(qiáng)大的few-shot learning的能力。

但推理任務(wù)仍然是一個(gè)難關(guān),尤其是需要多步驟推理才能得到正確答案的問題。

最近有研究人員發(fā)現(xiàn),只要設(shè)計(jì)合適的prompt就能引導(dǎo)模型進(jìn)行多步驟的推理來生成最終答案,這種方法也稱為思維鏈(chain-of-thought)推理。

圖片

 思維鏈技術(shù)在算術(shù)基準(zhǔn)GSM8K上將準(zhǔn)確率從17.9%提升到了58.1%,后來引入的投票自洽(self-consistency)機(jī)制進(jìn)一步將準(zhǔn)確率提升到74.4%

圖片

 簡單來說,復(fù)雜的推理任務(wù)通常有多個(gè)能得到正確答案的推理路徑,自洽方法通過思維鏈從語言模型中采樣一組不同的推理路徑,然后返回其中最自洽的答案。

圖片

 最近,來自北大和微軟的研究人員基于自洽的新方法DiVeRSe,包含三個(gè)主要的創(chuàng)新點(diǎn),進(jìn)一步提升了模型的推理能力。

圖片

論文鏈接:https://arxiv.org/abs/2206.02336

代碼鏈接:https://github.com/microsoft/DiVeRSe

 第一,受到自洽方式「想法不同,答案相同」的啟發(fā),即從語言模型中采樣不同的推理路徑,DiVeRSe在多樣性上更進(jìn)一步,按照「條條大路通羅馬」的理念,使用多個(gè)prompt生成答案,能夠生成更完整、互補(bǔ)的答案。

 

圖片

 研究人員首先對(duì)每個(gè)問題提供5個(gè)不同的prompts,然后對(duì)每個(gè)prompt采樣出20個(gè)推理路徑,最后就可以對(duì)每個(gè)問題生成100個(gè)解答推理路徑。

一個(gè)關(guān)鍵的問題是如何獲取不同的prompt,假定已經(jīng)獲取一個(gè)樣例庫后,我們可以從中采樣K個(gè)樣例來構(gòu)造一個(gè)prompt,然后重復(fù)5次即可

如果沒有足夠的樣例,則采用self-teaching的方式提升prompt多樣性,即從一部分樣例中生成偽推理路徑和<問題,答案>對(duì)。

圖片

 第二,在生成推理路徑時(shí),語言模型中并不存在一種機(jī)制來糾正先前步驟中的錯(cuò)誤,可能會(huì)導(dǎo)致最終預(yù)測結(jié)果的混亂。DiVeRSe借鑒verifier的思想,對(duì)每個(gè)推理路徑的正確性進(jìn)行驗(yàn)證來引導(dǎo)投票機(jī)制。也就是說,并非所有的推理機(jī)制都是相等重要的或都是好的。

假設(shè)我們對(duì)一個(gè)問題有100條推理路徑,其中60條的結(jié)果為「答案是110」,而40條路徑的結(jié)果為「答案是150」。如果沒有驗(yàn)證器(即原始自洽方法),「答案是110」為多數(shù)票,所以我們可以將110視為最終答案,并刪除結(jié)果為150的40條推理路徑。

verifier則是對(duì)推理路徑進(jìn)行打分,函數(shù)f由一個(gè)二分類器訓(xùn)練得到,輸入為問題x,路徑z和答案y,輸出為positive的概率。

圖片

有verifier后,假設(shè)「答案是110」的60條推理路徑的平均得分是0.3;「答案是150」的40條推理路徑的平均得分是0.8。   那么最終的答案應(yīng)該是150,因?yàn)?0*0.8>60*0.3

第三,由于答案是基于多個(gè)步驟的推理而產(chǎn)生的,當(dāng)一個(gè)路徑生成一個(gè)正確的答案時(shí),可以認(rèn)為所有的步驟都對(duì)最終的正確性做出了貢獻(xiàn)。然而,當(dāng)生成一個(gè)錯(cuò)誤的答案時(shí),這并不意味著所有的步驟都是錯(cuò)誤的或?qū)﹀e(cuò)誤有貢獻(xiàn)。

換句話說,盡管結(jié)果錯(cuò)了,中間一些步驟可能仍然是正確的,但一些后續(xù)的偏離方向的步驟導(dǎo)致了最終的錯(cuò)誤答案。DiVeRSe設(shè)計(jì)了一個(gè)機(jī)制,為每個(gè)步驟分配一個(gè)細(xì)粒度的標(biāo)簽,并提出了一個(gè)step-aware的驗(yàn)證器,并將正確性分配到每個(gè)步驟的推理上,而非只看最終的答案。

圖片

主體仍然是一個(gè)二分類器,但關(guān)鍵的問題為如何獲得step-level的負(fù)標(biāo)簽,因?yàn)槿绻罱K的答案錯(cuò)誤,沒有人工的參與,我們并不知道哪步出錯(cuò),而正確的答案則過程應(yīng)該都是正確的。

研究人員提出supports的概念,比如在算術(shù)任務(wù)中,需要有另外一個(gè)樣例的中間結(jié)果和該中間步驟的結(jié)果相同。

圖片

 基于這三點(diǎn)改進(jìn),研究人員在5個(gè)算數(shù)推理數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),可以看到在基于code-davinci-002的DiVeRSe方法都取得了新的SOTA算法,平均的提升率為6.2%

圖片

在兩個(gè)常識(shí)推理任務(wù)上,DiVeRSe的性能略低于基于PaLM的自洽(-2.2%),推測原因可能是常識(shí)推理任務(wù)是多項(xiàng)選擇任務(wù),而不是開放性的生成任務(wù),導(dǎo)致了出現(xiàn)了更多false-positive的偽例證。

在歸納推理任務(wù)上,DiVeRSe在CLUTRR任務(wù)上取得了95.9%的成績,超過了之前SOTA的微調(diào)結(jié)果(+28.9%)

在消融實(shí)驗(yàn)中,可以看到voting verifier機(jī)制對(duì)性能的提升是比較明顯的。

圖片

 而在大多數(shù)實(shí)驗(yàn)中,將voting verifier擴(kuò)展為step-aware版本可以帶來性能的提升。對(duì)于GSM8K上的code-davinci-002,step-aware版本的verifier則會(huì)導(dǎo)致性能略有下降。

可能的原因?yàn)閏ode-davinci-002更強(qiáng)大,可以為GSM8K產(chǎn)生更高質(zhì)量的推理路徑,從而減少步驟級(jí)信息的必要性,即text-davinci更容易生成短/不完整的推理路徑,而code-davinci對(duì)生成長內(nèi)容更友好。 

圖片

 論文的第一作者為Yifei Li,于2020年本科畢業(yè)于東北大學(xué)軟件工程專業(yè),目前碩士就讀于北京大學(xué),主要研究方向?yàn)樽匀徽Z言處理,特別是大規(guī)模語言模型中的prompt-tuning和推理。

 文章的第二作者為Zeqi Lin,為微軟亞洲研究院DKI研究員,分別于2014年和2019年獲得北京大學(xué)的學(xué)士和博士學(xué)位,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)及其在軟件分析和數(shù)據(jù)分析中的應(yīng)用。?

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2013-04-03 10:00:11

2013-08-23 09:41:19

2014-07-30 12:56:56

2025-05-07 08:21:01

2025-03-10 12:10:00

RedisJava排行榜

2022-06-17 12:10:07

RPA機(jī)器人流程自動(dòng)化

2023-11-15 16:55:35

編程語言Java

2020-03-07 22:01:58

編程語言JavaPython

2019-10-21 10:59:52

編程語言JavaC

2024-05-15 17:21:18

RedisSpring數(shù)據(jù)

2022-08-09 08:29:50

TIOBE編程語言排行榜程序員

2022-06-08 13:50:41

AI專業(yè)排行

2021-09-15 05:26:58

編程語言開發(fā)

2025-01-02 13:07:24

2018-02-08 09:19:34

linux

2023-06-09 15:39:40

編程語言Python

2024-01-26 13:18:00

AI訓(xùn)練

2013-04-01 09:50:15

Web框架Web

2020-08-13 11:55:33

編程語言JavaPython

2019-07-23 14:14:59

編程語言JavaPython
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲国产影院| 日韩区一区二| 国产精品护士白丝一区av| 国产有码在线一区二区视频| 九九精品视频免费| 亚洲乱码一区| 色av一区二区| 黄色网zhan| 飘雪影院手机免费高清版在线观看 | 色欧美乱欧美15图片| 五月天亚洲综合情| 国产ts变态重口人妖hd| 国产女优一区| 久久综合88中文色鬼| 999精品免费视频| 91精品店在线| 亚洲韩国一区二区三区| 五月婷婷综合色| 日韩在线观看视频一区| 看片网站欧美日韩| 欧日韩在线观看| 天天操天天操天天操天天操天天操| 欧美大胆视频| 欧美一区二区三区婷婷月色| 免费裸体美女网站| 国产高清在线a视频大全| 欧美经典一区二区三区| 国产一区二区高清不卡| 国产熟女一区二区丰满| 日韩和欧美一区二区| 久久久久久亚洲精品中文字幕| b站大片免费直播| 大桥未久女教师av一区二区| 91精品国产色综合久久不卡电影| 日韩在线第三页| а√天堂8资源中文在线| 亚洲天堂久久久久久久| 日韩偷拍一区二区| 青青草在线播放| 成人av网站在线观看| 91久久中文字幕| 美女黄页在线观看| 久久综合亚州| 日本乱人伦a精品| 日本一区二区网站| 亚洲第一精品影视| 久久久之久亚州精品露出| 中文字幕av播放| 天天做天天爱天天爽综合网| 中文综合在线观看| 精品无码在线观看| 欧美日韩国产免费观看视频| 国产丝袜一区视频在线观看| 欧美激情 亚洲| 国产精品久久久网站| 欧美一区二区三区思思人| 亚洲精品中文字幕乱码无线| 亚洲视频资源| 欧美一区二区三区小说| 麻豆精品国产传媒| 欧美三级一区| 精品国产免费人成电影在线观看四季| 一级黄色片在线免费观看| av在线精品| 欧美一区二区啪啪| 中文字幕1区2区| 成人av动漫| 亚洲精品成人久久久| 给我看免费高清在线观看| 网友自拍区视频精品| 日韩av在线最新| 亚洲精品国产91| 成人久久一区| 久久九九亚洲综合| 久久免费小视频| 亚洲日本激情| 国产成人精品久久久| 欧美另类高清videos的特点| 久久se这里有精品| 91久久久一线二线三线品牌| 亚洲第一天堂在线观看| av高清久久久| 日本一区二区精品视频| bestiality新另类大全| 欧美日韩精品二区| 五月婷婷丁香综合网| 久久久91麻豆精品国产一区| 亚洲黄页视频免费观看| 熟女少妇内射日韩亚洲| 影视亚洲一区二区三区| 性日韩欧美在线视频| 在线精品免费视| 精品影视av免费| 国产精品一区二区欧美| 国产精品毛片一区二区三区四区| 亚洲欧美日韩国产综合在线 | 91麻豆免费在线视频| 亚洲动漫第一页| 男女爽爽爽视频| 亚洲精品a区| 伊人伊成久久人综合网小说| 久久久久久久久久久久久久免费看 | 人人干人人干人人| 99久热这里只有精品视频免费观看| 亚洲剧情一区二区| 中文字幕在线2021| 老**午夜毛片一区二区三区| 91|九色|视频| 国产在线观看网站| 午夜伦欧美伦电影理论片| 亚州精品一二三区| 老牛精品亚洲成av人片| 久久精品国产一区二区三区| 国产一区二区99| 国产成人在线影院| 天堂va久久久噜噜噜久久va| 538视频在线| 91精品视频网| 精品人妻无码一区| 亚洲免费高清| 91精品综合久久| jizz亚洲| 色老头久久综合| 老司机午夜免费福利| 天天天综合网| 国产精品丝袜白浆摸在线| 午夜影院免费视频| 一区二区三区高清| 6080国产精品| 999国产精品视频| 国产ts一区二区| 五月天婷婷激情网| 亚洲一区二区四区蜜桃| 亚洲最大天堂网| 欧美熟乱15p| 国产精品久久久久久av福利软件| 天堂在线中文资源| 亚洲成av人片在线观看无码| 国产裸体视频网站| 亚洲精品二区三区| 成人福利网站在线观看| 91网页在线观看| 欧美亚洲一区三区| 欧美aaa级片| 免费高清不卡av| 日韩欧美亚洲日产国产| 日韩伦理三区| 亚洲欧美国内爽妇网| 国产一级片毛片| 97se亚洲国产综合自在线不卡| 日本一区午夜艳熟免费| 97人人澡人人爽91综合色| 欧美激情videoshd| www日本高清| 亚洲午夜久久久| www国产视频| 亚洲精品激情| 欧美成人dvd在线视频| 欧美性猛交xxx高清大费中文| 国产丝袜高跟一区| 免费精品一区二区| 国产精品无码永久免费888| 另类小说色综合| 亚洲成人99| 亚洲一区制服诱惑| 尤物视频在线看| 亚洲国产精彩中文乱码av| 91在线看视频| 久久久亚洲综合| 手机视频在线观看| 91精品国产调教在线观看| 1区1区3区4区产品乱码芒果精品| 精精国产xxxx视频在线中文版| 精品伦理精品一区| 久久久久久久久久久久久久av| 久久众筹精品私拍模特| 一区二区三区入口| 午夜天堂精品久久久久| 九九九九九精品| 精品免费av一区二区三区| www.日韩av.com| 亚洲黄色小说网| 色综合久久66| 欧美a级片免费看| 国产成人自拍网| 日韩一级在线免费观看| 久久久五月天| 精品国产一区二区三区四区vr | 91成人免费电影| 四虎永久免费地址| 国产精品白丝jk白祙喷水网站| 99热亚洲精品| 日韩专区精品| 黑人另类av| 91精品国产自产观看在线| 久久久久久久国产精品| 大乳在线免费观看| 日韩欧美国产三级电影视频| 免费看毛片网站| 一区二区不卡在线播放| 久久只有这里有精品| 国产一区日韩二区欧美三区| 黄色一级视频片| 一区二区三区在线观看免费| 精品日本一区二区三区| 国产麻豆一区二区三区| 国产精品爱久久久久久久| 亚洲第一图区| 最新国产精品拍自在线播放| 天天综合永久入口| 91精品国模一区二区三区| 国产一级免费视频| 香蕉乱码成人久久天堂爱免费| 天堂网av2018| 久久久噜噜噜久久人人看| 日韩精品xxx| 精品一区二区影视| 国产视频在线视频| 国产精品婷婷| 免费人成自慰网站| 99热在线成人| 日韩欧美一区二区视频在线播放 | 国产一区二区黑人欧美xxxx| 黄片毛片在线看| 日韩一区二区在线免费观看| 国产精品高清无码| 日韩欧美一区二区三区久久| 久久精品www人人爽人人| 中文字幕在线观看一区二区| 91精品人妻一区二区三区| jiyouzz国产精品久久| 精品国产免费久久久久久婷婷| 久久99国产精品免费网站| 男操女免费网站| 久久久夜精品| 久久9精品区-无套内射无码| 国产日韩欧美| 欧美国产亚洲一区| 亚洲视频播放| 91视频 -- 69xx| 亚洲精品字幕| 日韩精品 欧美| 亚洲精品偷拍| 黄色网页免费在线观看| 亚洲精选久久| 每日在线更新av| 国产精品五区| 日韩av一二三四| 日韩电影一区二区三区四区| 色七七在线观看| 老司机精品视频在线| 精品久久久99| 国产美女一区二区三区| 韩国三级hd中文字幕有哪些| 国产v综合v亚洲欧| 色综合久久五月| 久久人人爽人人爽| 先锋影音av在线| 综合色天天鬼久久鬼色| 久久久久久视频| 亚洲国产欧美在线| 欧美日韩乱国产| 欧美日韩黄色一区二区| 国产一区二区三区四区视频| 日韩欧美国产综合在线一区二区三区| 超碰在线观看av| 亚洲精品久久久久久久久| 日本人妖在线| 视频直播国产精品| www在线免费观看视频| 欧美激情久久久久久| 91av久久| 国产精品夜间视频香蕉| 久久中文字幕一区二区| 国产一区福利视频| 精品美女在线视频| 中国老女人av| 欧美亚洲专区| 中文字幕第一页在线视频| 成人小视频免费观看| 亚洲天堂视频一区| 亚洲丝袜自拍清纯另类| 日本免费一二三区| 日本高清不卡aⅴ免费网站| 91极品身材尤物theporn| 欧美mv日韩mv国产| 精品999视频| 超碰97人人做人人爱少妇| 蜜桃在线视频| 成人午夜一级二级三级| 久久精品福利| 正在播放一区二区三区| 99日韩精品| xxxx在线免费观看| 久久亚洲精华国产精华液 | 欧美亚洲日本一区| 亚洲第九十九页| 一区二区三区黄色| 俺来也官网欧美久久精品| 国产精品一区二区三区久久久| 91夜夜蜜桃臀一区二区三区| 亚洲精品第一区二区三区| 伊人久久婷婷| www.成人黄色| 久久久91精品国产一区二区精品| 国产十六处破外女视频| 欧美在线免费播放| 蜜臀久久99精品久久久| www亚洲欧美| 日韩成人影音| 国产精品一区二区免费看| 亚洲成人三区| av无码精品一区二区三区| 成人av片在线观看| 国产波霸爆乳一区二区| 欧美日韩精品欧美日韩精品一综合| 天天操天天干天天爽| 精品综合久久久久久97| 欧美高清影院| 欧美下载看逼逼| 99精品久久久| japanese在线观看| 亚洲一区视频在线| 国产人妻精品一区二区三| 中文字幕免费精品一区高清| 88xx成人永久免费观看| 久久精品一二三区| 亚洲精品乱码| 丰满岳乱妇一区二区| 亚洲综合免费观看高清在线观看| 国产精品羞羞答答在线| 色妞在线综合亚洲欧美| 成人自拍视频网| 日本一区二区在线视频| 先锋a资源在线看亚洲| 懂色av粉嫩av蜜乳av| 亚洲专区一二三| 风流少妇一区二区三区91| 欧美不卡视频一区发布| 自拍偷拍欧美日韩| 天天成人综合网| 激情文学综合插| 久艹在线观看视频| 欧美精品在线观看一区二区| 麻豆视频在线| 96国产粉嫩美女| 欧美久久视频| 国产精品无码自拍| 亚洲一区二区三区四区五区黄 | 黄色成人美女网站| 成年人看的毛片| 99v久久综合狠狠综合久久| 欧美特黄aaaaaa| 亚洲天堂免费在线| 欧美日韩国产网站| 伊人久久大香线蕉av一区| 国产美女精品人人做人人爽| 极品盗摄国产盗摄合集| 欧美大片日本大片免费观看| 国产偷倩在线播放| 国产九色精品| 久久久久久黄| 国产免费嫩草影院| 91精品国产一区二区三区蜜臀 | 在线视频综合导航| 91在线品视觉盛宴免费| 91精品网站| 亚洲免费在线| 一本色道久久88| 欧美成人女星排行榜| 免费成人在线电影| 亚洲午夜精品一区二区三区| 国产精品影视在线| 91香蕉在线视频| 中文国产成人精品久久一| 99久久这里有精品| 黄色av网址在线播放| 国产欧美一区二区精品久导航| 一级黄色片在线播放| 久久久久久18| 国产成人黄色| 国产精欧美一区二区三区白种人| 亚洲国产综合人成综合网站| 你懂的在线观看视频网站| 成人久久久久久久| 夜夜嗨一区二区| 黄色片网站在线播放| 亚洲第一网站男人都懂| 91精品国产66| 青青青青草视频| 亚洲天堂精品在线观看| 亚洲 欧美 自拍偷拍| 91精品久久久久久久久久久久久久 | 国产拍揄自揄精品视频麻豆| 国产美女无遮挡永久免费| 久久久久中文字幕2018| 成人a'v在线播放| 国产精品成人99一区无码 | www.夜夜爽| 精品国产户外野外|