精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈

發(fā)布于 2024-8-9 16:42
瀏覽
0收藏

將語言模型不斷地?cái)U(kuò)大規(guī)模是可以提高它們的能力。而日常運(yùn)用的時(shí)候,通常將推理限制在一次。要是對(duì)于同一個(gè)問題進(jìn)行多次反復(fù)的采樣生成,那么是否能夠覆蓋正確的答案?是否能夠被準(zhǔn)確的撈出?


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

最近一項(xiàng)研究進(jìn)行如下的探索。整個(gè)過程如上圖所示,它分為兩個(gè)步驟,準(zhǔn)備一個(gè)問題,然后遵循重復(fù)采樣程序,通過具有正溫度(代表著回答多樣性)的LLM中采樣來為給定問題生成很多的K個(gè)候選解決方案。第二個(gè)步驟使用特定領(lǐng)域的驗(yàn)證器從生成的樣本中選擇最終答案。

<簡(jiǎn)單總結(jié)一下:可以多次生成,但是成本要低且要包含正確答案。在解決了第一個(gè)問題之后,還要解決從K個(gè)答案,例如10000個(gè)中挑出那個(gè)正確的。>

1.覆蓋率能上去

覆蓋率的定義為被解決問題的比例,被解決的問題至少要在K個(gè)答案中被解開一次。這項(xiàng)研究對(duì)SWE-bench Lite這個(gè)基準(zhǔn)進(jìn)行重復(fù)采樣回答,使用DeepSeek-V2-Coder-Instruct來解決問題具有15.9%的正確率,若僅僅生成一次的回答(樣本)。若讓其生成250次的回答,則覆蓋率飆升至56%。這個(gè)成績(jī)也遠(yuǎn)遠(yuǎn)強(qiáng)于前沿模型的單次回答43%正確率。

細(xì)心的讀者會(huì)提出抗議,會(huì)不會(huì)比較費(fèi)錢。其實(shí)按照當(dāng)前的API定價(jià),即便用調(diào)用5次的DeepSeek模型,也比GPT-4o或Claude 3.5 Sonnet的單次回答性價(jià)比更高且能夠解決更多的問題。<下面就是價(jià)格的對(duì)比圖!>


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


研究中發(fā)現(xiàn),覆蓋率和樣本數(shù)量之間的關(guān)系通常是對(duì)數(shù)線性的,可以用指數(shù)冪律來建模,這表明存在推理時(shí)間縮放定律。

在解決 GSM8K和MATH的數(shù)學(xué)單詞問題時(shí),Llama-3模型在10000次的樣本中對(duì)于正確答案的覆蓋率增長(zhǎng)到95%以上。 從樣本集合中選擇正確解決方案的常用方法(例如多數(shù)投票或獎(jiǎng)勵(lì)模型)在超過數(shù)百個(gè)樣本時(shí)會(huì)趨于穩(wěn)定。


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


在五項(xiàng)任務(wù)中,值得注意的是,使用重復(fù)采樣,能夠?qū)WE-bench Lite上的解決率從15.9%提高到56%。

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

本次的研究將評(píng)估限制在MATH和CodeContests數(shù)據(jù)集上,以最大限度地降低推理成本,測(cè)試中幾乎每個(gè)模型的覆蓋率都有所增加,當(dāng)應(yīng)用重復(fù)采樣時(shí),較小的模型顯示出最明顯的覆蓋率增加。

在CodeContests上,Gemma-2B的覆蓋率增加了300多倍,從pass@1<1代表1次抽樣>的0.02%增加到pass@10k<10k代表10000次抽樣>的7.1%。使用Pythia-160M解決MATH問題時(shí),覆蓋率從pass@1 的0.27%增加到pass@10k的57%。

這種跨模型覆蓋率增加模式的例外是在 CodeContests 上評(píng)估的 Pythia 系列則為例外,所有Pythia模型在這個(gè)數(shù)據(jù)集上的覆蓋率都為零,即便10,000個(gè)樣本也是如此。推測(cè)可能是因?yàn)镻ythia接受的特定的編碼數(shù)據(jù)比 Llama和Gemma少。


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


重復(fù)采樣可以放大較弱模型的功能,并超越來自較強(qiáng)模型的單個(gè)樣本。在這里還是需要證明這種放大比使用大規(guī)模的參數(shù)模型更具成本效益。上圖將之前抽樣次數(shù)的成本采用FLOP(視為成本指標(biāo))重新繪制了統(tǒng)計(jì)圖。

在MiniF2F、GSM8K和MATH的評(píng)估指標(biāo)上,當(dāng)FLOP預(yù)算固定時(shí),Llama-3-8B-Instruct總是比更大(且更昂貴)的70B模型獲得更高的覆蓋率。然而對(duì)于 CodeContests,70B模型幾乎總是更具成本效益!!

每次查詢折算的FLOP公式如下:

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


LLM的Loss與其訓(xùn)練計(jì)算算力之間的關(guān)系已通過??縮放定律<鏈接溫習(xí)!>??講解得很是清晰。這些定律在經(jīng)驗(yàn)上已經(jīng)被驗(yàn)證,并激發(fā)了模型開發(fā)人員的信心,相信只要投資大量的算力則能夠得到很棒的模型。

受到訓(xùn)練縮放定律的啟發(fā),旨在更好地描述覆蓋率和樣本預(yù)算(即多次推理的計(jì)算量)之間的關(guān)系,這里觀測(cè)到兩個(gè)很有意思的想象:

  • 覆蓋率和樣本數(shù)量之間的關(guān)系通常可以用指數(shù)冪律建模。

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

  • 對(duì)于給定的任務(wù),來自同一家族的不同模型的覆蓋率曲線類似于具有相似斜率但不同水平偏移的 S 曲線

    三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

2.如何選擇對(duì)的

覆蓋率上去了,那么如何萬里挑一呢?研究發(fā)現(xiàn)在沒有自動(dòng)驗(yàn)證器的領(lǐng)域中,從許多代中識(shí)別出正確的樣本仍然是未來研究的重要方向。

既然已經(jīng)存在N個(gè)回答,如何挑選一個(gè)最為最后的答案,就像人生如何選擇一樣至關(guān)重要。第2階段關(guān)注的重點(diǎn)在于多次采樣中如何選擇出最佳答案,以便提高正確率。目前存在主流的三種方法:多數(shù)投票(Majority Voting),獎(jiǎng)勵(lì)模型選擇(Reward Model Selection),獎(jiǎng)勵(lì)模型多數(shù)投票(Reward Model Majority Voting)。

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

研究表明,隨著樣本數(shù)量的增加,前面三種組合式的選擇會(huì)隨著樣本數(shù)量的增加而增加,但在100個(gè)樣本左右達(dá)到飽和。而覆蓋率(圖4)會(huì)隨著樣本數(shù)量的增加而繼續(xù)增加,并超過95%。

<!!注意,覆蓋率意味著這么多的備選答案存在正確的,但是并不代表算法可以檢索出正確作為最后的答案!!>

在多數(shù)投票的情況下,這種成功率飽和很容易解釋。隨著樣本數(shù)量的增加,分配給每個(gè)答案的投票比例會(huì)穩(wěn)定下來,因此成功率也會(huì)穩(wěn)定下來。對(duì)于某些GSM8K和MATH問題,正確解決方案的采樣概率為1%或更低,因此它們只是少數(shù)樣本。隨著樣本數(shù)量的增加,更多問題會(huì)出現(xiàn)罕見的正確解決方案,從而增加覆蓋率,但不會(huì)提高多數(shù)投票的成功率。

為了充分利用重復(fù)采樣的優(yōu)勢(shì),識(shí)別出正確解答一定要能夠解決這些“大海撈針”的場(chǎng)景,識(shí)別出稀有的正確樣本。在數(shù)學(xué)應(yīng)用題中,現(xiàn)有工具無法自動(dòng)驗(yàn)證答案,研究者發(fā)現(xiàn)覆蓋率與確定最終答案的方法選擇存在很大差距。

<即便抽樣了N次,還是要選擇一個(gè)不是?!>。

當(dāng)使用Llama-3-8B-Instruct解決數(shù)學(xué)問題時(shí),覆蓋率從100個(gè)樣本的79.8%增加到10,000個(gè)樣本的95.3%。然而,多數(shù)投票和使用獎(jiǎng)勵(lì)模型來選擇最終解答的方法在樣本預(yù)算較低的情況下趨于飽和,在同一范圍內(nèi)僅從38.7%擴(kuò)展到39.8%。

<即便有了正確答案,還是選不中!?>。

這些結(jié)果表明構(gòu)建強(qiáng)大的驗(yàn)證器仍然是一個(gè)懸而未決的問題。

本文轉(zhuǎn)載自??魯班模錘??,作者: 龐德公 ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
japanese国产精品| 国产精欧美一区二区三区蓝颜男同| 久久99精品久久久久久动态图| 日韩在线观看视频免费| 三级黄色片免费观看| 一区二区三区伦理| 91免费观看视频在线| 国产精品一区久久久| 九九视频免费在线观看| 亚洲色图丝袜| 欧美成人a∨高清免费观看| 老司机激情视频| 国产在线网站| 成人永久免费视频| 国产精品欧美日韩一区二区| 国产在线视频第一页| 禁果av一区二区三区| 日韩精品一区在线| 无码无遮挡又大又爽又黄的视频| 国产日产一区二区三区| 99久久99久久精品免费观看| 成人有码视频在线播放| 日韩成人一区二区三区| 天天综合精品| 亚洲美女www午夜| 少妇性l交大片7724com| 成人看片在线观看| 五月婷婷激情综合| 中文字幕一区二区三区四区五区六区 | 亚洲精品一级片| 美女在线视频一区| 国产成+人+综合+亚洲欧洲| 久久精品视频久久| 天天综合网网欲色| 色偷偷88888欧美精品久久久| 亚洲男女在线观看| 午夜电影一区| 在线播放中文字幕一区| 苍井空浴缸大战猛男120分钟| 成人影院在线视频| 一级中文字幕一区二区| 一区二区精品视频| gogogo高清在线观看免费完整版| 91影院在线观看| 国产区一区二区三区| 亚洲av综合色区无码一二三区| 久久99国产精品免费| 国产精品久久久久久久久久久久久| 成人精品在线看| 亚洲美女啪啪| 97精品在线视频| 免费一级特黄特色大片| 欧美激情91| 欧美高清激情视频| 久久精品www人人爽人人| 午夜激情一区| 欧美激情中文网| 久久久久免费看| 国产精品av久久久久久麻豆网| 久久国产精品久久精品| 东方av正在进入| 亚洲一区欧美| 欧美日韩xxxxx| 久久综合亚洲色hezyo国产| 欧美aa国产视频| 久久久久久久久电影| 国产 日韩 欧美 成人| 亚洲网址在线| 2019国产精品自在线拍国产不卡| 超碰超碰超碰超碰| 视频一区二区三区中文字幕| 国产精品毛片a∨一区二区三区|国| 午夜一级黄色片| 美腿丝袜一区二区三区| 91久久嫩草影院一区二区| av资源免费看| 国产精品一二三四| 国产一区二区精品免费| 飘雪影院手机免费高清版在线观看 | 7777精品久久久大香线蕉小说| 国产三级自拍视频| 成人av资源在线| 欧洲在线视频一区| 老司机午夜在线视频| 亚洲综合久久久| 久久国产亚洲精品无码| 欧美123区| 91麻豆精品国产自产在线| 老熟女高潮一区二区三区| 欧美日韩国产综合视频| 国产午夜精品久久久久久免费视| 亚洲欧洲精品一区二区| 午夜av在线播放| 欧美日韩综合视频| www.cao超碰| a级日韩大片| 亚洲欧洲成视频免费观看| 成人无码精品1区2区3区免费看| 伊人情人综合网| 91干在线观看| 国产熟女一区二区三区四区| 白白色 亚洲乱淫| 亚洲国产综合自拍| 99爱在线观看| 欧美久久久久久蜜桃| 亚洲无人区码一码二码三码| 成人高清电影网站| 久久久久国产视频| 中文字幕在线日亚洲9| 国产999精品久久| 亚洲国产一区二区精品视频 | 日本一区二区高清不卡| 欧美激情区在线播放| 国产精华7777777| 成人午夜在线播放| 中文字幕中文字幕99| 国产高清不卡| 亚洲成人国产精品| 日本爱爱小视频| 久久久一二三| 极品校花啪啪激情久久| 精品欧美色视频网站在线观看| 日韩欧美aaa| 亚洲一区和二区| 99精品全国免费观看视频软件| 97婷婷大伊香蕉精品视频| 国产精品人人爽| 中文一区二区完整视频在线观看| 18禁网站免费无遮挡无码中文| 不卡一区视频| 色婷婷综合久久久久| 亚洲中文字幕无码爆乳av | 国产精品日韩一区二区三区| 91电影在线播放| 在线精品视频一区二区| 免费a级黄色片| 激情五月***国产精品| 亚洲aⅴ男人的天堂在线观看 | 国产日产精品一区| heyzo亚洲| 国内精品国产成人国产三级粉色| 久久精品最新地址| 一二三区中文字幕| 国产免费观看久久| av免费网站观看| 伊人久久大香线蕉综合网站| 欧美诱惑福利视频| 日韩在线视频第一页| 亚洲国产精品自拍| 人妻换人妻a片爽麻豆| 好看的亚洲午夜视频在线| 91视频国产一区| 麻豆传媒视频在线观看| 欧美高清视频一二三区 | 亚洲一区av在线| 无码人妻一区二区三区免费n鬼沢| 自拍偷拍欧美专区| 91超碰在线电影| 久久av色综合| 亚洲国产成人爱av在线播放| 日本在线视频免费观看| 99久久精品一区二区| 男人日女人逼逼| 久久av电影| 国产精品视频网| 成人黄视频在线观看| 日韩欧美二区三区| 日本三级2019| 久久九九久久九九| 15—17女人毛片| 91精品啪在线观看国产81旧版| 亚洲永久免费观看| 日本性爱视频在线观看| 亚洲精品xxxx| 欧美日韩在线视频播放| 国产亚洲成年网址在线观看| 黄大色黄女片18第一次| 久久久人成影片免费观看| 成人中文字幕+乱码+中文字幕| 操你啦在线视频| 精品精品国产高清一毛片一天堂| 91久久国产视频| 国产欧美一区二区三区沐欲| 一级片免费在线观看视频| 伊人久久亚洲美女图片| 日本成人三级| 欧美精品三级在线| 热re91久久精品国99热蜜臀| 日本中文字幕在线2020| 精品国产sm最大网站| 欧美黄色一级大片| 亚洲男人电影天堂| 好吊日免费视频| 精品一区二区三区日韩| 久久久亚洲国产精品| 欧美日韩高清| 懂色av一区二区三区在线播放| 奇米777日韩| 欧美—级a级欧美特级ar全黄| 国产一级二级三级在线观看| 日韩欧美国产系列| 亚洲免费视频二区| 亚洲午夜国产一区99re久久| 国产黄色录像视频| av中文字幕亚洲| 8x8x成人免费视频| 香蕉精品999视频一区二区| 天堂va久久久噜噜噜久久va| ccyy激情综合| 国产精品成人一区二区| 国产精品一区hongkong| 色偷偷888欧美精品久久久| 色欲av伊人久久大香线蕉影院| 欧美日韩黄色影视| 女人十八岁毛片| 亚洲精品免费看| 国精产品视频一二二区| 91免费观看国产| 国产情侣久久久久aⅴ免费| 蜜桃久久精品一区二区| 免费午夜视频在线观看| 一区二区视频欧美| 黄色一级片网址| 不卡中文字幕| 欧美在线播放一区二区| 国偷自产av一区二区三区| 91久久久久久| 亚洲网站免费| 国产美女精品免费电影| 国产免费不卡| 亚洲综合欧美| 亚洲精品乱码视频| 久久99高清| 久久精品magnetxturnbtih| 亚洲精品v亚洲精品v日韩精品| 国产乱肥老妇国产一区二| 三上悠亚一区二区| 欧美综合一区第一页| 不卡视频观看| 国内精品久久久久久影视8| 午夜dj在线观看高清视频完整版| 久久精品成人欧美大片| 暖暖日本在线观看| 日韩综合中文字幕| 婷婷在线视频观看| 日韩在线观看av| 天堂中文а√在线| 在线视频中文亚洲| av亚洲在线| zzjj国产精品一区二区| 久做在线视频免费观看| 久久精视频免费在线久久完整在线看 | 春色校园综合激情亚洲| 久久久亚洲影院你懂的| а√在线中文网新版地址在线| 97免费在线视频| 91精品论坛| 国产999视频| 欧美日韩尤物久久| 国产精品自产拍在线观| 9999精品视频| 99se婷婷在线视频观看| 亚洲综合网狠久久| 九九九热999| 久久99国内| 日本特级黄色大片| 午夜性色一区二区三区免费视频| 国产精品自拍合集| 亚洲视频成人| 亚洲中文字幕久久精品无码喷水| 久久精品国产亚洲aⅴ| 香蕉视频xxxx| 不卡视频在线观看| 中文字幕伦理片| 亚洲人妖av一区二区| 久草国产在线观看| 欧美日韩在线影院| 中文字幕一级片| 欧美一二三四区在线| 天堂av资源网| 中文字幕国产精品| 在线看三级电影| 欧美在线视频网| 日韩一级特黄| 国产 高清 精品 在线 a| 西野翔中文久久精品国产| 亚洲欧美久久久久一区二区三区| 欧美另类专区| 91在线视频观看免费| 国产美女一区二区| 玖草视频在线观看| 综合网在线视频| 在线观看免费国产视频| 欧美日韩久久久| 色婷婷av一区二区三| 在线视频日韩精品| 欧美调教sm| 91丨九色丨国产在线| 日韩欧美天堂| 强开小嫩苞一区二区三区网站| 亚洲综合好骚| 苍井空张开腿实干12次| 国产人伦精品一区二区| 国产真人真事毛片| 欧美精品在欧美一区二区少妇| 香蕉久久一区二区三区| 综合欧美国产视频二区| 国产一二三在线| 91在线视频一区| 国产一区二区三区四区五区| 久久福利一区二区| 精品在线你懂的| 国产免费一区二区三区网站免费| 亚洲国产精品一区二区久久| 糖心vlog精品一区二区| 亚洲免费av网址| 国产777精品精品热热热一区二区| 国产日韩欧美另类| 国产一区二区三区探花 | 欧美国产精品一二三| 欧洲人成人精品| 欧美成人综合在线| 97视频在线观看免费| 成人福利免费在线观看| 国产盗摄视频在线观看| 麻豆精品在线看| 少妇av片在线观看| 欧美视频精品一区| 色噜噜在线播放| 97精品国产97久久久久久春色| 欧美1区2区3| 黑人巨茎大战欧美白妇 | 黄色免费看视频| 亚洲一级不卡视频| 亚洲男人第一天堂| 九九精品在线播放| 日韩欧美中文字幕在线视频| 国产对白在线播放| 精品一区二区三区久久| 久久视频一区二区三区| 在线影视一区二区三区| 美女做暖暖视频免费在线观看全部网址91| 欧美高清性猛交| 91蜜桃臀久久一区二区| 日韩黄色片在线| 成人综合激情网| 日本在线视频免费观看| 亚洲成人黄色在线观看| freexxx性亚洲精品| 国产综合动作在线观看| 亚洲乱码久久| 久久国产精品无码一级毛片| 日韩欧美一区二区三区| 男人天堂网在线| 国产精品久久久久久网站| 成人毛片在线| 加勒比av中文字幕| 亚洲另类在线一区| 国产综合视频在线| 97香蕉超级碰碰久久免费软件| 外国成人在线视频| 日日摸天天爽天天爽视频| 国产三级三级三级精品8ⅰ区| 中文字幕乱码在线观看| 久久精品国产69国产精品亚洲| 麻豆国产一区| 奇米影视亚洲色图| 久久久噜噜噜久久中文字幕色伊伊 | a视频免费观看| 一本一道久久a久久精品综合蜜臀| 久青草国产在线| 国产专区欧美专区| 欧美日韩18| 四虎影成人精品a片| 欧美丝袜丝交足nylons图片| 超碰在线免费播放| 国产一区二区中文字幕免费看| 久久婷婷久久| 日本在线观看网址| 日韩精品专区在线| 神马久久资源| 裸体大乳女做爰69| 99久精品国产| 97人妻人人澡人人爽人人精品| 久久99精品久久久久久噜噜| 久久香蕉精品香蕉| 国产嫩草在线观看| 亚洲一本大道在线| 超碰免费97在线观看| 国产精品yjizz| 强制捆绑调教一区二区| 国产亚洲第一页| 在线看日韩欧美| www.神马久久| 日韩在线不卡一区| 婷婷开心激情综合| 国产视频在线播放| 日韩伦理一区二区三区av在线| 成人小视频在线| 999免费视频|