精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型開(kāi)始打王者榮耀了

人工智能
正如我們開(kāi)頭提到的,經(jīng)過(guò)SFT和GRPO訓(xùn)練(2000步)的Qwen-3-14B達(dá)到了90.91%的準(zhǔn)確率,超過(guò)了參數(shù)量大一個(gè)數(shù)量級(jí)的 Deepseek-R1(86.67%)。

大語(yǔ)言模型可以打王者榮耀了!

圖片圖片

騰訊最新提出的Think-In-Games (TiG) 框架,直接把大模型丟進(jìn)王者榮耀里訓(xùn)練。它不僅能實(shí)時(shí)理解盤面信息(英雄、發(fā)育、兵線、防御塔、資源、視野等),還能打出像人類玩家一樣的操作。

更炸裂的是,靠著這種“邊玩邊學(xué)”的訓(xùn)練方式,讓僅14B參數(shù)的Qwen-3-14B,干翻了671B的 Deepseek-R1,動(dòng)作精準(zhǔn)度高達(dá)90.91%

圖片圖片

那么問(wèn)題來(lái)了:它是怎么做到的?

TiG:邊玩邊學(xué)

總的來(lái)說(shuō),TiG將基于強(qiáng)化學(xué)習(xí)的決策重新定義為一種語(yǔ)言建模任務(wù)。大語(yǔ)言模型生成由語(yǔ)言指導(dǎo)的策略,然后根據(jù)環(huán)境反饋,通過(guò)在線強(qiáng)化學(xué)習(xí)進(jìn)行迭代優(yōu)化。

這一方法彌合了傳統(tǒng)大語(yǔ)言模型只知道為什么,但無(wú)法作出行動(dòng);強(qiáng)化學(xué)習(xí)只知道行動(dòng),卻無(wú)法解釋為什么的鴻溝。

為了實(shí)現(xiàn)這一方法,研究團(tuán)隊(duì)直接讓大語(yǔ)言模型在《王者榮耀》中行動(dòng),并解釋原因。

值得注意的是,在這一框架中,大語(yǔ)言模型主要學(xué)習(xí)了人類玩家在《王者榮耀》游戲中宏觀層面的推理能力

與微觀層面動(dòng)作(如精確技能施放)不同,宏觀層面推理優(yōu)先考慮長(zhǎng)期目標(biāo)和團(tuán)隊(duì)協(xié)同,涉及制定和執(zhí)行團(tuán)隊(duì)范圍的策略,例如控制目標(biāo)、地圖施壓和協(xié)調(diào)團(tuán)隊(duì)機(jī)動(dòng)

這也就意味著,與其說(shuō)TiG是一名職業(yè)選手,不如說(shuō)他是能精準(zhǔn)判斷場(chǎng)上局勢(shì)的金牌教練

具體來(lái)說(shuō),Tig將決策轉(zhuǎn)化為文本,模型通過(guò)讀取JSON獲取游戲狀態(tài),然后再?gòu)墓潭ú藛危ɡ缤七M(jìn)或防御)中選擇宏操作(如推上路”、“奪龍”、“防守基地”),并解釋為何如此。

圖片圖片

舉例來(lái)說(shuō),在上圖的游戲場(chǎng)景中,阿古朵,與隊(duì)友姜子牙在中路推進(jìn),目標(biāo)是敵方一座血量較低的一塔 。

基于此,模型先對(duì)游戲狀態(tài)進(jìn)行全面評(píng)估 。例如,“防御塔和野區(qū)保護(hù)機(jī)制均已失效”(對(duì)局已進(jìn)入中期)。然后分析優(yōu)先目標(biāo)(摧毀中路一塔),制定策略(聯(lián)合姜子牙前往敵方中路一塔,集中火力推塔)并提示風(fēng)險(xiǎn),

最后,模型將結(jié)合英雄的的理解,建議作為射手的阿古朵“保持安全距離輸出”,并與姜子牙的控制效果協(xié)同配合,并將這一指令輸出給玩家“聯(lián)合姜子牙推掉敵方中路一塔,注意敵方可能埋伏”。

為了實(shí)現(xiàn)上面在游戲中邊玩邊學(xué)的效果,研究團(tuán)隊(duì)先從真實(shí)游戲?qū)种胁蓸樱瑯?gòu)建數(shù)據(jù)集,為了確保每個(gè)游戲狀態(tài)都帶有一個(gè)宏觀級(jí)別的動(dòng)作標(biāo)簽,研究提出了“重新標(biāo)注算法”

該方法先在幀窗口內(nèi)進(jìn)行向后填充,再通過(guò)優(yōu)先級(jí)覆蓋機(jī)制確保每個(gè)狀態(tài)都標(biāo)注為最關(guān)鍵的宏觀動(dòng)作。這樣得到的密集且一致的序列,為后續(xù)的 GRPO 訓(xùn)練與基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)提供了穩(wěn)健信號(hào)。

之后,為了在游戲環(huán)境中實(shí)現(xiàn)有效的戰(zhàn)略推理學(xué)習(xí),研究團(tuán)隊(duì)采用了Group Relative Policy Optimization (GRPO) 算法,以最大化生成內(nèi)容的優(yōu)勢(shì),并限制策略與參考模型之間的分歧。

圖片圖片

在獎(jiǎng)勵(lì)設(shè)置方面,TiG使用基于二元規(guī)則的獎(jiǎng)勵(lì),當(dāng)預(yù)測(cè)操作與人類游戲玩法匹配時(shí)為1,否則為0,從而保持更新的穩(wěn)定性和成本。

獎(jiǎng)勵(lì)是基于實(shí)戰(zhàn)積累的過(guò)程性知識(shí)、人類可讀的戰(zhàn)略規(guī)劃,以及依然保持完好的通用語(yǔ)言能力。

訓(xùn)練過(guò)程與實(shí)驗(yàn)結(jié)果

TiG采用多階段訓(xùn)練方法,結(jié)合了監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)來(lái)增強(qiáng)模型能力。

  • SFT階段:從Deepseek-R1中提取訓(xùn)練數(shù)據(jù)進(jìn)行SFT。這些數(shù)據(jù)展示了強(qiáng)大的推理能力,可以幫助較小的模型獲取深度推理能力。
  • 在線RL階段:使用真實(shí)游戲數(shù)據(jù),并利用GRPO算法訓(xùn)練模型。

在具體的實(shí)驗(yàn)中,研究探索了多種訓(xùn)練方法的組合方式。

  • GRPO:僅使用GRPO算法訓(xùn)練基礎(chǔ)模型,不進(jìn)行SFT訓(xùn)練。
  • SFT:僅使用SFT訓(xùn)練數(shù)據(jù)集訓(xùn)練基礎(chǔ)模型 。
  • SFT + GRPO :首先使用SFT訓(xùn)練基礎(chǔ)模型,然后應(yīng)用GRPO 算法進(jìn)一步訓(xùn)練,以提高模型的推理能力。

(注:為了評(píng)估模型的質(zhì)量,研究設(shè)置了以下不同規(guī)模的基線模型,包括Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct、Qwen-2.5-32B-Instruct、Qwen-3-14B-Instruct和Deepseek-R1)

實(shí)驗(yàn)結(jié)果表明:SFT和GRPO的組合能顯著提高不同模型規(guī)模的性能,Qwen-2.5-32B在應(yīng)用GRPO后,準(zhǔn)確率從 66.67% 提高到86.84%。而Qwen2.5-14B在依次應(yīng)用SFT和GRPO后,準(zhǔn)確率從53.25%提高到83.12%。

圖片圖片

此外,正如我們開(kāi)頭提到的,經(jīng)過(guò)SFT和GRPO訓(xùn)練(2000步)的Qwen-3-14B達(dá)到了90.91%的準(zhǔn)確率,超過(guò)了參數(shù)量大一個(gè)數(shù)量級(jí)的 Deepseek-R1(86.67%)。

綜上,TiG不僅彌合了“知其然”與“知其所以然”之間的鴻溝,還在數(shù)據(jù)量和計(jì)算需求顯著降低的情況下,取得了與傳統(tǒng)RL方法具有競(jìng)爭(zhēng)力的性能。

參考鏈接

[1]https://arxiv.org/abs/2508.21365

[2]https://x.com/rohanpaul_ai/status/1962499431137493195

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2017-08-30 12:17:02

Python王者榮耀套路

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2023-08-24 14:27:00

AI模型

2017-10-30 08:20:16

王者榮耀騰訊云游戲

2017-11-27 11:02:46

高并發(fā)突發(fā)池系統(tǒng)架構(gòu)王者榮耀

2017-11-21 09:25:23

2021-04-21 07:53:13

Android屏幕刷新

2024-06-28 11:04:32

2023-11-03 07:47:12

機(jī)器資源大模型:

2017-12-25 16:20:40

Python自動(dòng)化王者榮耀

2017-07-10 14:20:45

2017-06-09 18:31:00

電競(jìng)手游王者榮耀

2020-09-01 10:46:55

微服務(wù)架構(gòu)服務(wù)器

2020-07-10 08:27:55

王者榮耀微服務(wù)架構(gòu)

2021-08-06 06:49:19

王者榮耀項(xiàng)目IDEA

2024-07-31 08:14:17

2024-11-26 09:33:44

2024-12-26 00:46:25

機(jī)器學(xué)習(xí)LoRA訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

成人免费网站视频| 久久久久久久伊人| 欧美日一区二区三区| 久久久久久久久岛国免费| 国产成人高潮免费观看精品| 国产亚洲无码精品| 日本不卡一二三| 国产精品视频看| 亚洲综合社区网| 国产无码精品在线播放| 偷拍视屏一区| 欧美日韩高清一区二区三区| 强开小嫩苞一区二区三区网站| 亚洲av无码国产精品永久一区 | 66国产精品| 精品国产乱码久久久久久夜甘婷婷| 日本wwwcom| 日韩av成人| 老司机午夜精品视频| 精品国产一区av| 国产大尺度视频| 人人鲁人人莫人人爱精品| 国产精品传媒在线| 欧美一级淫片007| av动漫免费观看| 色窝窝无码一区二区三区成人网站 | 超碰男人的天堂| 希岛爱理一区二区三区av高清| 国产精品理伦片| 国产一区二区精品免费| 亚洲无码精品一区二区三区| 女人天堂亚洲aⅴ在线观看| 欧美日韩一区二区免费视频| 亚洲欧洲精品一区二区三区波多野1战4| 国产精品国产精品国产专区| 国产欧美一区二区三区在线看蜜臂| fc2ppv国产精品久久| 韩国精品久久久| 欧美黑人又粗大| 成人黄色免费网址| 国产精品香蕉| 91精品国产综合久久婷婷香蕉 | 亚洲午夜极品| 夜夜嗨av色综合久久久综合网| 黄色av电影网站| 欧美综合影院| 色菇凉天天综合网| 欧美又粗又长又爽做受| 里番在线观看网站| 2023国产精品自拍| 超碰97在线资源| 国产精品久久免费| 野花国产精品入口| 欧美精品久久久久a| 男人的午夜天堂| 国产精品一在线观看| 亚洲国产成人av在线| 色呦色呦色精品| 欧美成a人片在线观看久| 亚洲国产婷婷综合在线精品| 潘金莲一级淫片aaaaa免费看| 1769在线观看| 国产精品全国免费观看高清| 日韩精品一区二区三区丰满 | 欧美成人ⅴideosxxxxx| 午夜日韩在线电影| 日韩精品免费一区| fc2ppv国产精品久久| 亚洲男人的天堂在线aⅴ视频| 亚洲视频导航| 日本最黄一级片免费在线| 国产日产欧美一区二区三区| 欧美日韩国产精品一区二区| 亚洲欧洲精品视频| 91小视频免费观看| 欧美精品一区二区三区在线四季| 头脑特工队2免费完整版在线观看| 成人动漫视频在线| 国产视频99| 午夜在线视频免费| 97久久超碰国产精品电影| 欧美激情综合色综合啪啪五月| 久久久久人妻一区精品色| 国内精品久久久久久久久电影网| 亚洲激情视频在线播放| 粉嫩av懂色av蜜臀av分享| 精品网站aaa| 亚洲精品www久久久久久广东| 亚洲一区二区三区无码久久| 66精品视频在线观看| 欧美裸体bbwbbwbbw| 一级黄色片在线免费观看| 国产精品毛片无码| 精品国产乱码久久久久久蜜臀| 午夜影院福利社| 日本成人精品| 精品一区电影国产| 欧美人与性囗牲恔配| 日韩精品水蜜桃| 免费av在线一区| 激情综合网五月婷婷| 国产精品免费看| 国产精品久久久av| av老司机久久| 99久久伊人网影院| 午夜精品亚洲一区二区三区嫩草| 麻豆av在线导航| 亚洲成人高清在线| 狠狠躁狠狠躁视频专区| 国产精品国产亚洲精品| 亚洲第一男人av| 在线观看免费小视频| 午夜精品视频一区二区三区在线看| 九九综合九九综合| 久久永久免费视频| 国产乱人伦偷精品视频免下载| 精品国产乱码久久久久久蜜柚 | 精品丝袜在线| 中文字幕一区二区三区色视频| 国产欧美综合一区| sis001欧美| 日韩午夜小视频| 欧洲av一区二区三区| 欧美精品一级| 国产精品久久二区| 风流老熟女一区二区三区| 国产日产欧美一区| 国产a级片网站| 欧美电影在线观看网站| 欧美精品一区二区不卡| 夫妇露脸对白88av| 亚洲黄色大片| 成人国内精品久久久久一区| 日韩精品系列| 亚洲在线视频网站| 亚洲欧美一二三| 丁香六月综合| 欧美一区欧美二区| 波多野在线播放| aa国产精品| 国产伦精品一区二区三区视频黑人 | www.爱色av.com| 女人天堂av在线播放| 色婷婷综合激情| 成年人黄色片视频| 在线免费观看亚洲| 国产午夜精品美女视频明星a级| 精品处破女学生| 久久福利资源站| 三区精品视频观看| 92国产精品| 亚洲精品videossex少妇| 久久久久久久麻豆| 男女激情视频一区| 日韩av高清| xx欧美xxx| 日韩第一页在线| 精品在线视频免费| 国产99久久久国产精品潘金 | 国内少妇毛片视频| 成人在线视频免费看| 亚洲色图综合网| 中文字幕在线播| 久久蜜桃av一区二区天堂 | 午夜一区在线| 狼狼综合久久久久综合网| 亚洲小说区图片| 日韩精品一区二| 久久久久免费看| 成人午夜av影视| 成人毛片100部免费看| 亚洲视频国产| 国模精品视频一区二区三区| 国产黄色片网站| 亚洲免费在线观看视频| 在线免费黄色小视频| 天天射综合网视频| 91欧美视频网站| 中文国产字幕在线观看| 欧美美女网站色| jizz亚洲少妇| 成人视屏免费看| 缅甸午夜性猛交xxxx| 亚洲第一福利社区| 国产精品女人久久久久久| 69av在线| 日韩视频在线永久播放| xxxx 国产| 久久久综合视频| 亚洲这里只有精品| 欧美在线黄色| 久久久久久久久久久久久久久久av| 在线女人免费视频| 中文字幕国产日韩| 国产美女自慰在线观看| 亚洲午夜在线视频| 亚洲成人网在线播放| 秋霞午夜鲁丝一区二区老狼| 中文字幕欧美日韩一区二区| 亚洲91网站| 8050国产精品久久久久久| 国产免费av高清在线| 欧美精品久久久久久久多人混战 | 亚洲久久一区| 亚州欧美一区三区三区在线| 久久久久久久性潮| 欧美多人乱p欧美4p久久| 天堂国产一区二区三区| 欧美在线观看一区二区| 亚洲黄色小说在线观看| 国产精品a久久久久| 麻豆亚洲一区| 国产精品成人**免费视频| 性欧美xxxx交| jizz视频在线观看| 精品国产乱子伦一区| 真实的国产乱xxxx在线91| 一区二区三区欧美视频| 日韩人妻一区二区三区 | 亚洲精品中文字幕乱码无线| 国产精品mv在线观看| 日韩精品无码一区二区三区| 成人av激情人伦小说| 国产精品爽爽ⅴa在线观看| 男女在线观看视频| 最近2019免费中文字幕视频三 | 日本一区二区三区视频在线观看| 91麻豆精品一二三区在线| 欧美一乱一性一交一视频| 国产精品一区二区三区四区色| 精品国产亚洲一区二区三区在线观看| 青青草视频在线观看免费| 亚洲宅男天堂在线观看无病毒| 精品丰满少妇一区二区三区| 99久久久国产精品| av在线免费观看不卡| 日韩成人一级大片| 日韩亚洲欧美视频| 中文字幕日韩欧美精品高清在线| 自拍偷拍99| 国产精品毛片久久| 中国成人亚色综合网站| 999精品色在线播放| 亚洲精品成人久久久998| 日韩1区2区| 艳色歌舞团一区二区三区| 日韩精品看片| 自拍偷拍亚洲色图欧美| 91精品电影| 日韩视频在线观看视频| 欧美96在线丨欧| 91黄色在线看| 国产欧美一区二区三区国产幕精品| 97在线国产视频| 国产一区二区你懂的| av免费播放网址| 每日更新成人在线视频| 色一情一乱一伦一区二区三区日本| 日韩精品五月天| 性刺激的欧美三级视频| 蜜臀av性久久久久av蜜臀妖精| 日韩av片专区| 国产高清一区日本| 无码成人精品区在线观看| 99久久综合精品| 国产精品天天干| 亚洲欧洲www| 久久久久无码国产精品不卡| 偷拍日韩校园综合在线| 国产精品va无码一区二区三区| 日本黄色一区二区| 在线视频欧美亚洲| 亚洲黄网站在线观看| 久久久久久久极品内射| 激情懂色av一区av二区av| 日韩免费av网站| 7777精品伊人久久久大香线蕉经典版下载 | 超碰97人人干| 国产精品伦一区二区三级视频| 黄色录像一级片| 午夜精品成人在线视频| 免费av中文字幕| 欧美一区二区三区视频| 午夜黄色小视频| 久久精品久久久久久国产 免费| 久久久123| 国产精品扒开腿做| 亚洲国产精品免费视频| 蜜桃免费一区二区三区| 91成人免费| 国产精品无码专区av在线播放| 久久99在线观看| 亚洲欧美色图视频| 亚洲丝袜美腿综合| 国产一级片毛片| 91精品免费在线观看| 亚洲av片一区二区三区| 久久精品国产99国产精品澳门| 理论片午夜视频在线观看| 成人福利视频网| 最新亚洲精品| 欧美性潮喷xxxxx免费视频看| 奇米影视一区二区三区小说| 亚洲乱妇老熟女爽到高潮的片| 欧美激情自拍偷拍| 日本三级网站在线观看| 欧美日韩免费高清一区色橹橹 | 日韩三级av高清片| 欧美一区二区三区四区在线观看地址| 91精品啪在线观看国产18 | 欧美黄色三级| 国产自产精品| 99久久99久久精品国产片桃花| 欧美国产激情视频| 国产精品18久久久久久vr| 日本美女bbw| 日韩欧美在线一区| 人妻与黑人一区二区三区| 久久久精品久久久| 中文.日本.精品| 九色视频成人porny| 欧美日本一区二区视频在线观看| 亚洲 激情 在线| 国产日韩欧美一区二区三区乱码| 国产在线视频二区| 91精品国产欧美日韩| 成人高清网站| 国产成人黄色av| 亚洲成人一品| 欧美亚洲一二三区| 99视频一区二区| 欧美成人精品欧美一级乱黄| 日韩视频一区二区三区 | 亚洲人吸女人奶水| 一级特黄aaaaaa大片| 一区二区三区 在线观看视| 中文字幕21页在线看| 国内外成人免费视频| 影音先锋亚洲一区| 国产吃瓜黑料一区二区| 亚洲自拍偷拍图区| 亚洲国产精品无码久久| 欧美极品第一页| 国产精品极品在线观看| 国产玉足脚交久久欧美| 成人免费观看男女羞羞视频| 久久精品久久国产| 亚洲精品在线观看视频| 91黄页在线观看| 精品国产电影| 久久亚洲欧美| 免费a级黄色片| 色欧美日韩亚洲| av在线免费观看网| 91精品久久久久久| 综合天堂av久久久久久久| 一起草最新网址| 午夜影院在线观看欧美| 天天在线女人的天堂视频| 国产91精品网站| 成人免费av| 亚洲国产午夜精品| 亚洲愉拍自拍另类高清精品| 亚洲国产精品18久久久久久| 欧美激情图片区| 日韩美脚连裤袜丝袜在线| 国产97色在线 | 日韩| 国产精品国产三级国产普通话99| 国产精品丝袜黑色高跟鞋| 九九热精品在线| 午夜精品福利影院| www.夜夜爽| 亚洲一区二区视频在线| 亚洲av成人无码久久精品老人 | 欧美牲交a欧美牲交aⅴ免费真| 久久九九99视频| 国产一区二区三区成人| 欧美国产日韩精品| 伊人久久大香线蕉av不卡| www.com黄色片| 亚洲午夜精品网| 国产污视频在线| 亚洲自拍中文字幕| 亚洲欧美日韩国产| 视频国产一区二区| 亚洲国产精品va在线| 成人深夜福利| 国内少妇毛片视频| 国产女人aaa级久久久级 | 国产精品xxx| 黄色成人在线免费观看| 久久久久久久精| 精品国产乱码一区二区三| 欧美一区二区视频97| 一本到12不卡视频在线dvd| 国产又爽又黄无码无遮挡在线观看| 欧美日韩精品一二三区| 9999精品成人免费毛片在线看| 性高潮久久久久久久久| 91小视频在线|