精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭(zhēng)議!被指忽略大量前人研究

人工智能
MSL這篇新論文的核心思想是通過(guò)一種Language Self-Play(LSP)的方法,讓大型語(yǔ)言模型在沒(méi)有額外訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)自我提升。

Meta超級(jí)智能實(shí)驗(yàn)室(MSL)又被送上爭(zhēng)議的風(fēng)口浪尖了。

不過(guò),這次不是人事風(fēng)波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質(zhì)疑忽視前人研究、缺乏創(chuàng)新。

圖片圖片

究竟是啥論文?

讓模型在博弈中學(xué)習(xí)

總的來(lái)說(shuō),MSL這篇新論文的核心思想是通過(guò)一種Language Self-Play(LSP)的方法,讓大型語(yǔ)言模型在沒(méi)有額外訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)自我提升。

這一方法旨在應(yīng)對(duì)當(dāng)前大語(yǔ)言模型高度依賴大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù),且訓(xùn)練數(shù)據(jù)有限所帶來(lái)的困境。

為此,LSP將模型的學(xué)習(xí)過(guò)程設(shè)計(jì)成一個(gè)博弈框架,讓同一個(gè)語(yǔ)言模型扮演兩個(gè)角色進(jìn)行對(duì)抗,從而實(shí)現(xiàn)無(wú)數(shù)據(jù)訓(xùn)練。

圖片圖片

具體來(lái)說(shuō),這兩個(gè)角色分別是:

  • 挑戰(zhàn)者:負(fù)責(zé)生成越來(lái)越有挑戰(zhàn)性的問(wèn)題或指令。
  • 解決者:負(fù)責(zé)回答或執(zhí)行這些指令。

在對(duì)抗過(guò)程中,挑戰(zhàn)者不斷生成越來(lái)越刁鉆的問(wèn)題或指令,以降低解決者的預(yù)期回報(bào);而解決者則必須努力理解并回答這些指令,以最大化自身回報(bào)——這其實(shí)就是我們熟悉的極小極大博弈(minimax game)。

圖片圖片

通過(guò)這樣的對(duì)抗訓(xùn)練,模型能夠在不斷博弈中持續(xù)改進(jìn),逐步提升能力。

此外,與傳統(tǒng)對(duì)抗訓(xùn)練不同,LSP讓單個(gè)語(yǔ)言模型同時(shí)扮演“挑戰(zhàn)者”和“解決者”兩個(gè)角色,研究人員給模型設(shè)計(jì)了一個(gè)特殊的“挑戰(zhàn)者提示”(Challenger Prompt):當(dāng)接收到該提示時(shí),模型進(jìn)入挑戰(zhàn)者模式,生成難題;否則,它就扮演解決者角色,回答問(wèn)題。

這種單一模型的設(shè)計(jì)避免了訓(xùn)練獨(dú)立對(duì)抗模型所帶來(lái)的額外開(kāi)銷(xiāo)和不穩(wěn)定性。整個(gè)過(guò)程完全自主,模型在自我對(duì)抗中不斷迭代,從而在沒(méi)有外部數(shù)據(jù)輸入的情況下提升自身能力。

為了將這個(gè)博弈轉(zhuǎn)化成模型強(qiáng)化學(xué)習(xí)的過(guò)程,研究中采用了GRPO技巧,讓模型在每輪訓(xùn)練中進(jìn)行如下操作:

  • 挑戰(zhàn)者生成問(wèn)題:每輪生成N個(gè)問(wèn)題。
  • 解決者回答問(wèn)題:對(duì)于每個(gè)問(wèn)題,解決者生成一定數(shù)量的答案,并分別計(jì)算獎(jiǎng)勵(lì)。
  • 計(jì)算組價(jià)值與優(yōu)勢(shì):把解決者對(duì)同一個(gè)問(wèn)題的所有答案的獎(jiǎng)勵(lì)進(jìn)行平均,得到這個(gè)問(wèn)題整體的難度或表現(xiàn)水平。然后用每個(gè)答案的實(shí)際獎(jiǎng)勵(lì)減去組價(jià)值,判斷這個(gè)答案比平均水平高還是低。 - 更新挑戰(zhàn)者優(yōu)勢(shì):通過(guò)計(jì)算優(yōu)勢(shì)函數(shù)獲得問(wèn)題和答案的反饋,優(yōu)化自己出題的策略。

圖片圖片

通過(guò)這種獎(jiǎng)勵(lì)機(jī)制,挑戰(zhàn)者生成的問(wèn)題會(huì)針對(duì)解決者的薄弱環(huán)節(jié),從而推動(dòng)模型不斷改進(jìn)。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實(shí)踐中,研究者發(fā)現(xiàn)LSP-Zero有時(shí)會(huì)退化,例如模型為了獲取獎(jiǎng)勵(lì)而生成無(wú)意義但能獲得高分的內(nèi)容(即獎(jiǎng)勵(lì) hacking)。

針對(duì)解決這個(gè)問(wèn)題,他們?cè)贚SP算法中引入了“自我質(zhì)量獎(jiǎng)勵(lì)” (RQ),引導(dǎo)博弈朝高質(zhì)量交互發(fā)展,使訓(xùn)練可長(zhǎng)期進(jìn)行。

(注:LSP的具體算法如下表)

圖片圖片

最后,為了驗(yàn)證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準(zhǔn)上進(jìn)行了兩組實(shí)驗(yàn)。

實(shí)驗(yàn)一將算法與基礎(chǔ)模型本身以及一個(gè)通過(guò)傳統(tǒng)強(qiáng)化學(xué)習(xí)微調(diào)的大語(yǔ)言模型進(jìn)行比較。

實(shí)驗(yàn)結(jié)果顯示,沒(méi)有使用任何數(shù)據(jù)的LSP和LSP-Zero和使用了數(shù)據(jù)的GRPO相當(dāng),并且顯著優(yōu)于原始模型。而在 Vicuna這類對(duì)話型和開(kāi)放式指令的數(shù)據(jù)集上,LSP 的表現(xiàn)遠(yuǎn)超GRPO。

圖片圖片

實(shí)驗(yàn)二以實(shí)驗(yàn)一中通過(guò)數(shù)據(jù)驅(qū)動(dòng) RL(GRPO)訓(xùn)練得到的模型為起點(diǎn),進(jìn)一步使用 LSP-Zero 和 LSP 進(jìn)行訓(xùn)練,計(jì)算這些模型相對(duì)于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進(jìn)行對(duì)比。

實(shí)驗(yàn)顯示,經(jīng)過(guò)LSP的進(jìn)一步訓(xùn)練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數(shù)據(jù)集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練之后繼續(xù)挖掘模型潛力。

圖片圖片

總的來(lái)說(shuō),實(shí)驗(yàn)結(jié)果表明,LSP-Zero和LSP算法能夠在無(wú)需訓(xùn)練數(shù)據(jù)的情況下提升預(yù)訓(xùn)練LLM的性能,尤其是在對(duì)話類任務(wù)上表現(xiàn)顯著,而這可能意味著AI正在從依賴人類數(shù)據(jù)過(guò)渡到自主學(xué)習(xí)系統(tǒng)。

網(wǎng)友:感覺(jué)忽略了大量前人研究?

雖然(……)但是,LSP一經(jīng)發(fā)布后,在網(wǎng)友們這倒是出了些小插曲。

一位推特網(wǎng)友直言:LSP自稱是突破性工作,但實(shí)際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級(jí)智能”實(shí)驗(yàn)室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒(méi)有引用。其實(shí)很多人都做過(guò)類似研究(比如 @Benjamin_eecs),無(wú)論是聯(lián)合最大化還是極小極大,不管是驗(yàn)證器還是獎(jiǎng)勵(lì)模型。為什么要把這說(shuō)成是突破呢?你們?cè)赩icuna上的評(píng)測(cè)確實(shí)做得不錯(cuò),簡(jiǎn)直是2023年LLaMA社區(qū)的典型操作。

圖片圖片

而且,就連失敗的模型也大同小異。

圖片圖片

評(píng)論區(qū)有網(wǎng)友表示這可能是一篇老工作,然后拿到MSL發(fā)的:

圖片圖片

(注:網(wǎng)友提及的論文如下:[1]Absolute Zero: Reinforced Self-play Reasoning with Zero Data[2]SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning[3]Scalable Reinforcement Post-Training Beyond Static Human Prompts)

截至目前,MSL及論文作者尚未對(duì)此作出回應(yīng)。

參考鏈接

[1]https://x.com/teortaxesTex/status/1965654111069876296

[2]https://x.com/_akhaliq/status/1965601392187638018

[3]https://x.com/tydsh/status/1965856666580361705

[4]https://arxiv.org/pdf/2404.10642

[5]https://arxiv.org/pdf/2411.00062

[6]https://arxiv.org/pdf/2505.03335

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-09-08 23:19:25

2025-11-21 12:04:58

2025-09-26 08:59:36

2025-10-23 10:17:20

2025-08-20 09:10:00

2025-07-01 09:04:00

2016-10-19 18:40:30

2025-06-30 08:44:00

2025-11-06 08:45:00

AI語(yǔ)言模型算法

2025-09-22 10:41:42

2025-10-11 18:05:23

智能論文AI

2024-07-19 11:50:28

2025-07-02 01:40:00

OpenAI人工智能扎克伯格

2025-10-17 09:20:49

2025-07-21 09:13:00

2021-08-04 09:48:05

數(shù)字化

2020-01-14 11:28:43

IBM開(kāi)源SysFlow

2009-05-30 08:43:47

惠普裁員英國(guó)研究實(shí)驗(yàn)室

2015-02-06 09:23:52

賽可達(dá)實(shí)驗(yàn)室網(wǎng)絡(luò)安全

2011-05-25 17:51:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

在线观看成人免费| 久久久久久亚洲精品| 久久久久免费精品| 午夜激情视频在线观看| 国产麻豆精品95视频| 91国语精品自产拍在线观看性色 | 亚洲无码精品一区二区三区| 91精品国产麻豆国产在线观看| 精品国产一区二区三区不卡 | 影音成人av| 一区二区三区四区不卡在线| 久久偷窥视频| 国产乱子伦精品无码码专区| 亚洲专区免费| 久久成人18免费网站| 日本黄色特级片| 国产精品一区二区三区av| 欧美视频13p| 精品国产三级a∨在线| 天堂91在线| 国产精品1024久久| 国产精品欧美日韩| 在线观看黄网站| 国产精品suv一区二区69| 免费在线观看的电影网站| 国产清纯白嫩初高生在线观看91 | 中文无字幕一区二区三区| 国产99午夜精品一区二区三区| 乱子伦一区二区三区| 亚洲人妖在线| 久久999免费视频| 蜜桃av免费在线观看| 亚洲+小说+欧美+激情+另类| 日韩一区二区三区电影 | 午夜激情成人网| 亚洲国产成人av| 麻豆一区二区三区在线观看| 69视频在线观看| 久久亚洲精品小早川怜子| 国产成人精品一区二区三区福利| 一级黄色免费看| 日本美女一区二区三区| 欧美中文字幕在线播放| 欧美亚韩一区二区三区| 国产精品大片| 欧美日韩不卡合集视频| 久久国产精品国语对白| 97国产精品| 日韩中文理论片| 日本一二三不卡视频| 国精一区二区| 国产一区二区成人| 欧美老熟妇乱大交xxxxx | 亚洲精品成人网| 国产性生活毛片| 精品视频高潮| 亚洲第一中文字幕在线观看| 欧美图片自拍偷拍| 成人精品动漫一区二区三区| 国模精品一区| 舔着乳尖日韩一区| www..com日韩| 看黄在线观看| 午夜精品123| 国自产拍偷拍精品啪啪一区二区| 97久久人人超碰caoprom| 天天综合天天综合色| 国产不卡一区二区视频| 中文在线а√天堂| 在线看日韩精品电影| 成 人 黄 色 小说网站 s色| 国产一区二区三区精品在线观看 | 丰满人妻一区二区三区四区53| 国产激情一区二区三区| 精品国产一区二区三区四区vr| 神马午夜一区二区| av在线这里只有精品| 欧美日韩国产精品一区二区| 最新国产在线观看| 亚洲免费毛片网站| 日本熟妇人妻xxxx| 深夜成人在线| 欧美嫩在线观看| 在线观看一区二区三区视频| 欧美日韩一区二区三区在线电影| 亚洲精品一区二区三区婷婷月 | 丰满肥臀噗嗤啊x99av| a美女胸又www黄视频久久| 日本一区视频在线播放| 毛片在线播放a| 亚洲图片欧美色图| 青青青国产在线视频| 亚洲一区二区三区久久久| 精品卡一卡二卡三卡四在线| 日韩在线免费观看av| 欧美疯狂party性派对| 高清在线视频日韩欧美| 国产天堂第一区| 国产精品视频在线观看免费 | 99久久伊人网影院| 欧美日韩高清在线一区| www.欧美日本韩国| 黑人巨大精品欧美一区二区一视频 | 官网99热精品| 岛国视频免费在线观看| 亚洲激情第一区| 欧美伦理视频在线观看| 视频一区在线| 永久免费精品影视网站| 毛片a片免费观看| 免费成人av在线播放| 国产精品欧美久久| 69av亚洲| 欧美午夜影院在线视频| 亚洲 自拍 另类 欧美 丝袜| 国产一区二区三区91| 欧美精品电影免费在线观看| 伊人网中文字幕| 91视频一区二区| 男人的天堂视频在线| 成人毛片免费| 日韩电影网在线| 麻豆视频在线观看| 精品午夜一区二区三区在线观看| 精品免费国产| 国内高清免费在线视频| 91精品国产入口| 国产午夜福利一区| 模特精品在线| 国产一区二区久久久| 综合久久2019| 欧美一区二区三区日韩视频| 青青青视频在线播放| 天堂av在线一区| 久久精精品视频| 国产精品—色呦呦| 日韩欧美一级二级| 极品美妇后花庭翘臀娇吟小说| 三级久久三级久久| 欧美日韩精品中文字幕一区二区| av福利在线导航| 91精品国产一区二区三区| 永久免费观看片现看| 秋霞成人午夜伦在线观看| 欧美日韩成人一区二区三区| 一级毛片久久久| 日韩精品视频中文在线观看| 日韩久久久久久久久| 成人精品一区二区三区四区| 毛片在线视频观看| 日本在线一区二区三区| 精品自在线视频| 国产av一区二区三区| 亚洲激情成人在线| 成年人性生活视频| 伊人久久成人| 好吊色欧美一区二区三区四区| 国产三线在线| 亚洲国产精品久久精品怡红院| 日操夜操天天操| www激情久久| 日韩在线第三页| 日韩在线第七页| 91久久久久久久| 日韩欧美一起| 亚洲大胆人体av| 欧美特黄aaaaaa| 久久久久久久久久电影| 簧片在线免费看| 91综合视频| 国产精品久久久久久久免费大片| 国产中文在线播放| 国产亚洲视频中文字幕视频| 国产又大又黄又爽| 亚洲一区二区三区四区在线免费观看| 亚洲中文字幕无码一区| 免费中文字幕日韩欧美| 午夜精品电影在线观看| 国产精品1区| 91av免费观看91av精品在线| 大片免费播放在线视频| 欧美一区二区性放荡片| 五月婷婷开心网| 欧美经典一区二区| 亚洲五月激情网| 亚洲一级在线| 中文字幕日韩精品久久| 久久九九热re6这里有精品| 国产精品久久久久久久久| 亚洲大胆人体大胆做受1| 亚洲精品小视频在线观看| 国产精品一区二区三区在线免费观看| 亚洲va欧美va人人爽午夜| 欧美一区二区三区粗大| 国产精品资源在线| 欧美日韩在线不卡视频| 伊人久久大香线蕉综合四虎小说| 国产欧美综合精品一区二区| 国产精品伊人| 97视频com| 精品51国产黑色丝袜高跟鞋| 日韩精品视频在线| 99热这里只有精品在线观看| 欧美视频在线视频| 久热这里有精品| 国产清纯白嫩初高生在线观看91 | 久久久久久9999| 亚洲一区和二区| 久久成人av少妇免费| 91传媒久久久| 狠狠色丁香久久综合频道| 亚洲开发第一视频在线播放| 无码日韩精品一区二区免费| 96久久精品| 九九热这里有精品| 日本成熟性欧美| 超碰97免费在线| 久久韩国免费视频| 成人午夜在线观看视频| 亚洲国产精品人久久电影| 国产精品久久777777换脸| 色一情一乱一乱一91av| 91蜜桃视频在线观看| 一区二区在线看| 国产喷水在线观看| 国产欧美日韩久久| av无码一区二区三区| 国产成人免费高清| 欧美又黄又嫩大片a级| 免费高清在线视频一区·| 成年网站在线免费观看| 亚洲韩日在线| 国产va亚洲va在线va| 欧美国产先锋| 国产树林野战在线播放| 久久久国产精品| 宅男噜噜99国产精品观看免费| 国产精品一区二区av交换| 欧美二区在线看| 亚洲人成伊人成综合图片| 精品一区久久久| 国语一区二区三区| 高清一区二区三区视频| 国产日韩三级| 精品久久久久久一区| 日本一区影院| 高清视频在线观看一区| 白嫩白嫩国产精品| 国产精品二区在线观看| 成人在线超碰| 久久久久久久久久久久久久久久av | 在线精品一区二区三区| 99精品视频一区| 中文字幕av网址| 国产欧美一区二区精品性色超碰| 国产精品成人无码免费| 中文字幕av不卡| 日本视频在线免费| 中文字幕在线不卡国产视频| 三上悠亚作品在线观看| 一区二区三区欧美日| 久草视频免费播放| 亚洲在线免费播放| 国产无人区码熟妇毛片多| 欧洲另类一二三四区| 亚洲天堂久久久久| 91麻豆精品国产91久久久久久久久 | 奇米影视第四色777| 欧美日韩在线视频一区| 四虎影院在线免费播放| 欧美色偷偷大香| va视频在线观看| 亚洲国产三级网| 国产在线视频网站| 久久精品亚洲一区| 国产后进白嫩翘臀在线观看视频| 午夜精品一区二区三区在线视频 | 91最新在线免费观看| 盗摄系列偷拍视频精品tp| 美乳视频一区二区| 日本不卡二三区| 激情五月婷婷六月| 视频一区二区三区入口| 中文 日韩 欧美| 97久久人人超碰| 国产三级aaa| 亚洲午夜影视影院在线观看| av首页在线观看| 日韩一二在线观看| 免费一级在线观看| 米奇精品一区二区三区在线观看| 激情aⅴ欧美一区二区欲海潮| 国产精品久久久久久久久久新婚| 欧美黄视频在线观看| 欧美重口乱码一区二区| 欧美一区久久| 欧美少妇性生活视频| 国产精品一区免费视频| 亚洲一级中文字幕| 亚洲精品成人悠悠色影视| 日日夜夜狠狠操| 欧美成人三级在线| 国产综合在线观看| 欧美激情国产日韩精品一区18| 澳门av一区二区三区| 高清视频一区| 国产精品久久久久久久| 欧美极品欧美精品欧美图片| 国产不卡在线一区| 日韩欧美视频免费观看| 日韩欧美一区二区三区| 精品人妻无码一区二区色欲产成人| 日韩久久免费电影| 黄色美女视频在线观看| 国产日韩中文字幕| 国产毛片一区二区三区 | 日韩国产欧美三级| 中文字幕第3页| 亚洲天堂av一区| 中文字幕av网站| 亚洲四色影视在线观看| 9lporm自拍视频区在线| 99电影网电视剧在线观看| 欧美成人milf| 国产区二区三区| 26uuu久久综合| 日韩av在线播放观看| 精品日韩99亚洲| av免费在线免费| 91午夜理伦私人影院| 日韩精品中文字幕第1页| 国产a级片免费观看| 久久先锋影音av鲁色资源网| 日本三级黄色大片| 精品国产一区二区三区av性色| 中文字幕中文字幕在线十八区| 91精品久久久久久久久久另类| 精品午夜久久| 日本免费观看网站| 久久久久久毛片| 亚洲va在线观看| 亚洲美女性生活视频| 手机看片久久| 日本最新一区二区三区视频观看| 美女国产精品| 级毛片内射视频| 欧美午夜寂寞影院| 最新97超碰在线| 91网站在线免费观看| 在线观看免费一区二区| 亚洲国产日韩在线一区| 依依成人综合视频| 亚洲大尺度网站| 97久久伊人激情网| 日韩系列在线| 日韩精品一区二区三区色欲av| 久久久久久久久久久久久久久99| av片免费观看| 久久精品影视伊人网| 欧美大片91| 日本福利视频在线| 久久久综合激的五月天| 国产美女www| www.久久色.com| 日韩一区免费| 国产av人人夜夜澡人人爽麻豆| 91在线看国产| 亚洲天堂视频在线播放| 久久韩剧网电视剧| av动漫精品一区二区| 免费看日本毛片| 国产偷国产偷亚洲高清人白洁| 中文字幕你懂的| 九九热精品视频| 国产美女撒尿一区二区| 国产性生交xxxxx免费| ㊣最新国产の精品bt伙计久久| 亚洲av无码一区二区三区性色| 97超级碰碰人国产在线观看| 成人国产精品一级毛片视频| 亚洲丝袜在线观看| 欧美性xxxx极品hd欧美风情| 日韩理伦片在线| 国产在线一区二区三区欧美| 日韩高清电影一区| 久热这里有精品| 一个人看的www久久| 精品亚洲a∨一区二区三区18| 久久精品国产sm调教网站演员| 亚洲国产精品99久久久久久久久| www.亚洲黄色| 国产精品成人播放| 在线播放不卡| jizzjizzjizz国产| 亚洲国产欧美自拍| 国产精品中文| 午夜精品在线免费观看| 一区二区国产盗摄色噜噜| av网站在线播放| 激情一区二区三区|