精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Qwen3家族訓(xùn)練秘籍公開:思考/非思考融進(jìn)一個(gè)模型,大模型蒸餾帶動(dòng)小模型

人工智能
Qwen3系列包括6個(gè)密集模型,參數(shù)量分別為0.6B、1.7B、4B、8B、14B和32B;以及2個(gè)MoE模型,總參數(shù)量分別為30B和235B,激活參數(shù)量對(duì)應(yīng)為3B和22B。

Qwen3技術(shù)報(bào)告新鮮出爐,8款模型背后的關(guān)鍵技術(shù)被揭曉!

  • 采用了雙模式架構(gòu),一個(gè)模型同時(shí)支持推理和非推理任務(wù),根據(jù)需要自動(dòng)切換。
  • 訓(xùn)練和微調(diào)過程采取分段式策略,逐步構(gòu)建模型能力。
  • 采取了“大帶小”的模式,從大號(hào)模型中蒸餾數(shù)據(jù)訓(xùn)練小號(hào)模型。

圖片圖片

有已經(jīng)讀完報(bào)告的網(wǎng)友,還發(fā)現(xiàn)了其中的更多亮點(diǎn)。

比如這位Hugging Face研究員感嘆,Qwen3在RL階段的樣本量,竟然不到4k。

圖片圖片

思考/非思考,一個(gè)模型搞定

Qwen3系列包括6個(gè)密集模型,參數(shù)量分別為0.6B、1.7B、4B、8B、14B和32B;以及2個(gè)MoE模型,總參數(shù)量分別為30B和235B,激活參數(shù)量對(duì)應(yīng)為3B和22B。

密集模型的架構(gòu)與Qwen2.5相似,但移除了Qwen2中使用的QKV偏置,并在注意力機(jī)制中引入了QK-Norm,以確保Qwen3的穩(wěn)定訓(xùn)練。

圖片圖片

與Qwen2.5-MoE不同,Qwen3-MoE設(shè)計(jì)不包含共享專家,另外Qwen3采用了全批次負(fù)載均衡損失來促進(jìn)專家專業(yè)化。

圖片圖片

Qwen3的一個(gè)核心創(chuàng)新就是其雙重工作模式,也就是思考模式和非思考模式的融合,兩種模式分別對(duì)應(yīng)了復(fù)雜推理任務(wù)和快速應(yīng)答任務(wù)的需求。

為了靈活地在兩種模式間切換,Qwen3引入了thinking budget(思考預(yù)算)的概念。

Thinking budget本質(zhì)上是一個(gè)決定thinking mode下計(jì)算資源投入的參數(shù),它的大小與輸入問題的復(fù)雜程度成正相關(guān)。

當(dāng)接收到輸入后,模型會(huì)評(píng)估其復(fù)雜程度,動(dòng)態(tài)分配thinking budget。

簡(jiǎn)單問題會(huì)被分配較少的thinking budget,使得模型傾向于快速給出答案;復(fù)雜問題則會(huì)分配較高的thinking budget,模型會(huì)投入更多算力深入思考后再給出答案。

圖片圖片

Qwen3這樣訓(xùn)練

預(yù)訓(xùn)練環(huán)節(jié),Qwen3采用了三階段策略,逐步構(gòu)建和強(qiáng)化模型的語言理解和生成能力。

第一階段的目的是讓模型掌握語言和通用基本知識(shí),這部分的訓(xùn)練在通用語料上進(jìn)行,采用了4096個(gè)token的序列長(zhǎng)度。

第二階段側(cè)重于增強(qiáng)模型的推理能力。此階段采用了更高質(zhì)量的語料,主要來自于STEM、編程、推理等領(lǐng)域。

通過在這些語料上的訓(xùn)練,模型的邏輯分析、因果推理等能力得到了顯著提升。此階段的序列長(zhǎng)度仍為4096個(gè)token,但學(xué)習(xí)率衰減速度加快。

第三階段則專注于長(zhǎng)文本能力,使用了研究團(tuán)隊(duì)專門收集的高質(zhì)量長(zhǎng)文檔語料,并將訓(xùn)練序列長(zhǎng)度擴(kuò)展到了32768個(gè)token。

通過在這些超長(zhǎng)文本上的訓(xùn)練,模型學(xué)會(huì)了處理復(fù)雜的長(zhǎng)距離依賴關(guān)系,掌握了跨段落、跨文檔的信息整合技能。

圖片圖片

后訓(xùn)練同樣采用了分段式的方法,一共可以分為四個(gè)階段。

圖片圖片

第一階段稱為長(zhǎng)思維鏈冷啟動(dòng),目標(biāo)是為模型在數(shù)學(xué)和編程領(lǐng)域的推理任務(wù)建立初始的解題能力。

Qwen團(tuán)隊(duì)構(gòu)建了一個(gè)包含大量高質(zhì)量數(shù)學(xué)和編程問題的數(shù)據(jù)集,并為每個(gè)問題標(biāo)注了詳細(xì)的解題步驟,然后使用這些標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行監(jiān)督微調(diào),使其掌握解題的關(guān)鍵技能和常見思路。

具體來說,他們通過Qwen2.5-72B對(duì)問題進(jìn)行篩選,然后使用QwQ-32B模型自動(dòng)生成初步的解題步驟,這當(dāng)中,人類專家對(duì)這些自動(dòng)生成的解題步驟進(jìn)行核對(duì)和修正,確保其準(zhǔn)確性和可讀性。

這個(gè)階段的訓(xùn)練樣本數(shù)量和訓(xùn)練步數(shù)都被控制在一個(gè)較小的規(guī)模,目的是讓模型掌握基本的解題能力,而不是過度專門化。

圖片圖片

第二階段則是推理強(qiáng)化學(xué)習(xí),在第一階段的基礎(chǔ)上進(jìn)一步引入了強(qiáng)化學(xué)習(xí),以優(yōu)化模型的解題策略。

他們從第一階段的數(shù)據(jù)集中篩選出了3995個(gè)問題,這些問題需要覆蓋一定領(lǐng)域、具備一定難度,但可被模型學(xué)習(xí)。

這一階段當(dāng)中,會(huì)通過GRPO對(duì)模型參數(shù)進(jìn)行更新。

圖片圖片

第三階段思維模式融合,顧名思義,目的是將思考和非思考兩種模式融合進(jìn)同一個(gè)模型,這一過程使用了同時(shí)包含思考和非思考內(nèi)容的SFT數(shù)據(jù)集。

對(duì)于思考類型的樣本,Qwen團(tuán)隊(duì)沿用了前兩個(gè)階段的數(shù)據(jù)生成方法;對(duì)于非思考類型的樣本,則是廣泛收集了一些開放域?qū)υ挃?shù)據(jù),并針對(duì)性地生成了一些問候語、指令等樣本。

此外,團(tuán)隊(duì)還設(shè)計(jì)了一種聊天模板,在輸入側(cè)用一些特殊標(biāo)記來區(qū)分思考和非思考模式。

通過在這個(gè)混合數(shù)據(jù)集上進(jìn)行繼續(xù)預(yù)訓(xùn)練,并融入人類反饋,模型學(xué)會(huì)了根據(jù)輸入信號(hào)靈活切換兩種模式,形成了一個(gè)無縫集成的雙模態(tài)系統(tǒng)。

圖片圖片

最后一個(gè)階段是通用強(qiáng)化學(xué)習(xí),目的是進(jìn)一步增強(qiáng)模型在多種場(chǎng)景下的能力和穩(wěn)定性。

該階段中,Qwen團(tuán)隊(duì)構(gòu)建了一個(gè)覆蓋廣泛任務(wù)的強(qiáng)化學(xué)習(xí)環(huán)境,包括問答、寫作、代碼生成、數(shù)學(xué)推理等20多個(gè)種類的任務(wù)。每個(gè)任務(wù)都設(shè)計(jì)了獨(dú)特的評(píng)分標(biāo)準(zhǔn)。

并且,這些特別針對(duì)指令遵循、格式遵循、偏好遵循等能力的提升。

圖片圖片

除了這樣的訓(xùn)練模式之外,Qwen3家族還采用了“大帶小”的數(shù)據(jù)蒸餾模式。

蒸餾分為Off-policy蒸餾和On-policy蒸餾兩個(gè)主要階段。

類比人類學(xué)習(xí)的話,第一個(gè)階段像是背書,第二個(gè)階段則是刷題并自己根據(jù)答案訂正。

圖片圖片

在Off-policy蒸餾階段,首先使用教師模型(MoE模型使用235B蒸餾30B,密集模型使用32B蒸餾其他)在大規(guī)模的數(shù)據(jù)集上生成大量高質(zhì)量的輸出。

然后,這些數(shù)據(jù)作為監(jiān)督信號(hào),對(duì)學(xué)生模型進(jìn)行訓(xùn)練,使之盡可能地模仿教師模型的輸出分布。

在這個(gè)階段,教師模型使用的是思考和非思考模式的混合輸出,這使得學(xué)生模型也能夠同時(shí)學(xué)習(xí)到應(yīng)對(duì)兩種模式的能力。

在On-policy蒸餾階段,研究團(tuán)隊(duì)采用了一種更加動(dòng)態(tài)和交互式的學(xué)習(xí)方式。

這個(gè)階段首先讓學(xué)生模型在實(shí)際任務(wù)中自主生成一系列輸出,然后將這些輸出與教師模型在相同任務(wù)上的輸出進(jìn)行比對(duì)。

學(xué)生模型的優(yōu)化目標(biāo)是最小化其輸出分布與教師模型輸出分布之間的差異。

通過這種持續(xù)的自我生成和比對(duì)過程,學(xué)生模型可以在實(shí)踐中不斷修正和完善其知識(shí)體系,使其輸出分布逐步逼近教師模型。

Qwen版DeepResearch上線

除了發(fā)布Qwen3的技術(shù)報(bào)告,Qwen Chat還全量上線了深度研究功能,此前該功能進(jìn)行了分階段測(cè)試。

按官方介紹,只要描述問題,然后回答模型給出的細(xì)化提問,等過一杯咖啡的時(shí)間,Qwen就能整理出一份研究報(bào)告。

圖片圖片

官方案例中,Qwen研究了這樣的一個(gè)問題:

醫(yī)療保健行業(yè)在過去三年中如何適應(yīng)遠(yuǎn)程醫(yī)療和數(shù)字健康工具?必要時(shí)使用表格讓表達(dá)更加清晰。

可以看到,在明確具體需求之后,Qwen規(guī)劃了方案,然后分成子問題進(jìn)行檢索、總結(jié),研究過程用時(shí)約8分半,最終生成了帶有表格的報(bào)告,并自動(dòng)導(dǎo)出pdf。

圖片圖片

感興趣的話不妨體驗(yàn)一下~

報(bào)告地址:https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
Qwen Chat:https://chat.qwen.ai

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-05-21 09:04:38

2025-04-29 08:14:14

2025-09-04 01:00:00

大模型Qwen3AI

2025-07-31 09:06:00

2025-10-10 01:25:00

大模型訓(xùn)練數(shù)據(jù)OpenAI

2023-07-11 09:51:04

訓(xùn)練模型

2023-12-04 14:28:15

模型應(yīng)用設(shè)計(jì)

2025-05-14 01:00:00

2025-04-22 08:08:37

2022-06-02 10:29:23

神經(jīng)網(wǎng)絡(luò)AI計(jì)算機(jī)

2025-05-08 09:22:14

2025-08-19 16:10:46

AI模型開源

2023-09-05 14:43:15

2025-11-05 09:00:29

2025-07-22 12:44:53

2025-05-19 09:32:06

2025-10-11 09:23:28

RLPT強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2025-06-06 09:12:53

2023-10-28 13:29:27

2025-04-29 08:05:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲国产小视频在线观看| 国产精品卡一卡二| 欧美一区二三区| 五月婷六月丁香| 日韩欧美高清一区二区三区| 精品久久久久久亚洲精品| 日韩三级电影免费观看| 午夜精品久久久久久久99热黄桃| 午夜亚洲影视| 欧美精品日韩三级| 国产女主播喷水高潮网红在线| 青娱乐极品盛宴一区二区| 污片在线观看一区二区| 中文字幕一区二区三区精彩视频| 视频三区在线观看| 黄页网站大全一区二区| 欧美一区深夜视频| 免费在线观看日韩| 久久亚洲精品中文字幕蜜潮电影| 精品国产免费一区二区三区香蕉| 亚洲第一中文av| 高清精品在线| 亚洲尤物视频在线| 综合视频免费看| 国产在线视频网| bt欧美亚洲午夜电影天堂| 国产中文欧美精品| 欧美一区免费看| 国产精品嫩草99av在线| 欧美日韩第一视频| 久艹在线观看视频| 日韩夫妻性生活xx| 亚洲人成网站在线播| 久久久老熟女一区二区三区91| 2020国产精品小视频| 色婷婷av一区二区三区软件| 免费国产a级片| 91色在线看| 亚洲午夜国产一区99re久久| ijzzijzzij亚洲大全| а√天堂中文在线资源bt在线| 91网站最新网址| 国产精品一区在线观看| 午夜精品久久久久久久99老熟妇| 国产在线日韩欧美| 国产日韩欧美在线播放| 亚洲精品一区二区二区| 免费不卡在线视频| 国产精品视频不卡| 瑟瑟视频在线免费观看| 美女视频一区在线观看| 国产精品视频一区国模私拍 | 3p视频在线观看| 久久精品欧美日韩| 日本电影一区二区三区| 国模吧精品人体gogo| 国产欧美一区二区精品婷婷 | 在线观看日韩国产| 亚洲精品中文字幕无码蜜桃| 性欧美gay| 欧美在线综合视频| 日韩不卡一二三| 亚洲色图图片| 日韩欧美国产精品一区| 成人区人妻精品一区二| 久久夜色精品国产噜噜av小说| 亚洲福利在线观看| 黄色在线观看av| 精品无人区麻豆乱码久久久| 色哟哟入口国产精品| 天天综合天天做| 欧美日韩一区二区国产| 97人人爽人人喊人人模波多 | 欧美日韩免费不卡视频一区二区三区| 性生活免费在线观看| 9999精品免费视频| 精品国产网站在线观看| 亚洲第一页av| 国产精品成人av| 欧美激情第三页| 精品国产午夜福利| 国产综合色视频| 99在线视频免费观看| 同心难改在线观看| 国产精品每日更新| 真实国产乱子伦对白视频| 一区二区乱码| 7777女厕盗摄久久久| 国产人妻黑人一区二区三区| 九九综合久久| 欧美成在线观看| 一二三区免费视频| 国产精品一二三区在线| 欧美三日本三级少妇三99| 大地资源网3页在线观看| 午夜久久福利影院| 日韩不卡一二三| 人体久久天天| 久久伊人色综合| 国产精品suv一区| 国产剧情一区二区三区| 欧美一区免费视频| 丝袜在线观看| 欧美三级午夜理伦三级中视频| 男人操女人下面视频| 欧美一二区在线观看| 欧美激情亚洲激情| 中文字幕在线观看1| 99精品偷自拍| 久久综合亚洲精品| 深夜视频一区二区| 亚洲国产毛片完整版| 亚洲精品一区二区三区在线播放| 在线亚洲成人| 9a蜜桃久久久久久免费| 视频三区在线| 色综合天天性综合| 影音先锋黄色资源| 欧美日韩国产综合网| 国产区精品在线观看| 欧美男男同志| 精品国产91久久久久久老师| 少妇丰满尤物大尺度写真| 日韩啪啪电影网| 国产成人精品最新| 青青青草网站免费视频在线观看| 亚洲综合一区在线| 亚洲综合在线一区二区| 色综合天天综合网中文字幕| 日韩美女在线观看| 色中色在线视频| 精品久久久中文| 欧美激情 亚洲| 狠狠色丁香久久综合频道| 亚洲最大的免费| 国产乱色在线观看| 337p亚洲精品色噜噜| 免费看一级黄色| 久久国产精品99精品国产| 日本精品一区二区三区高清 久久| 精品众筹模特私拍视频| 亚洲国产欧美精品| 日韩欧美不卡视频| 99久久精品国产毛片| 成人免费视频91| 日本一道高清一区二区三区| 午夜精品在线视频| 亚洲三级黄色片| 欧美日韩中文字幕在线视频| 男男做爰猛烈叫床爽爽小说| 亚洲国产精品一区| 精品在线观看一区二区| 深夜av在线| 亚洲免费影视第一页| 懂色av蜜臀av粉嫩av分享吧最新章节| 久久久影院官网| 欧美日韩在线成人| 成人在线免费观看91| 成人h猎奇视频网站| 国产视频在线播放| 亚洲变态欧美另类捆绑| 欧美亚洲精品天堂| 国产亚洲精久久久久久| 亚洲va综合va国产va中文| 久久久久久久久久久久久久久久久久 | 噜噜噜噜噜久久久久久91| 一区二区三区四区日本视频| 亚洲人成毛片在线播放| 亚洲图片视频小说| 一区二区三区在线观看动漫| 国产精品成人99一区无码| 视频精品一区二区| eeuss中文| 欧美挤奶吃奶水xxxxx| 国产精品高潮在线| 操你啦视频在线| 亚洲风情亚aⅴ在线发布| 波多野结衣毛片| 玉米视频成人免费看| 91视频啊啊啊| 麻豆91在线观看| 日本手机在线视频| 欧美少妇性xxxx| 成人午夜电影免费在线观看| 暖暖成人免费视频| 久色乳综合思思在线视频| 四虎影院在线域名免费观看| 欧美日韩在线播放三区| 久久人人爽人人爽人人| 国产人妖乱国产精品人妖| 韩国三级与黑人| 丝袜美腿亚洲综合| 国产一线二线三线女| 日韩欧美精品| 国产精品区一区二区三在线播放| 91精品xxx在线观看| 欧美激情精品久久久久久| 久久久久久久影视| 欧美成人午夜电影| 亚洲中文无码av在线| 午夜精品福利一区二区三区av| 精品人体无码一区二区三区| 99精品视频一区| 又色又爽又黄视频| 日本伊人精品一区二区三区观看方式| 2022中文字幕| 国产精品福利在线观看播放| 欧美不卡三区| 北条麻妃一区二区三区在线观看 | 一本大道熟女人妻中文字幕在线| 9999国产精品| 青青影院一区二区三区四区| www.神马久久| 91传媒视频在线观看| 国产激情欧美| 国产z一区二区三区| 成人在线免费观看黄色| 日韩有码在线播放| gogogo高清在线观看免费完整版| 亚洲国产精品热久久| 国产乱人乱偷精品视频| 精品婷婷伊人一区三区三| 久久国产黄色片| 亚洲成精国产精品女| 国产一区二区播放| 亚洲人亚洲人成电影网站色| 阿v天堂2014| 久久噜噜亚洲综合| 亚洲国产综合视频| 99在线精品视频| 国产精品一区二区无码对白| 国产精品888| 香蕉视频xxx| 国产老女人精品毛片久久| 911av视频| 精油按摩中文字幕久久| 粉色视频免费看| 六月婷婷色综合| 久久撸在线视频| 精品一区精品二区高清| 在线观看国产一级片| 奇米777欧美一区二区| 无码人妻精品一区二区三区66| 久久经典综合| www日韩在线观看| 日韩激情一二三区| 亚洲综合色在线观看| 麻豆精品精品国产自在97香蕉| 美女黄色片视频| 日韩精彩视频在线观看| 日日躁夜夜躁aaaabbbb| 久久99久久久欧美国产| www.桃色.com| 粉嫩13p一区二区三区| 中文字幕在线视频播放| 26uuu亚洲婷婷狠狠天堂| 高潮毛片无遮挡| 中文字幕精品综合| 日本成人精品视频| 亚洲一区二区三区在线看| 国产一级视频在线播放| 午夜伦理一区二区| 四虎影院在线免费播放| 欧美日韩精品一区二区三区四区 | 影音欧美亚洲| 中文字幕日韩一区二区不卡| 亚洲乱码日产精品bd在线观看| 狠久久av成人天堂| 欧美一级片中文字幕| 麻豆国产一区二区| 色综合久久久无码中文字幕波多| 成人三级伦理片| 亚洲做受高潮无遮挡| 国产精品成人网| 久久久久久久久久久网 | 国产又大又黄的视频| 欧美成人a视频| 男女视频在线观看| 久久夜精品香蕉| 中文不卡1区2区3区| 国产美女久久精品| 97久久综合区小说区图片区| 欧美三级电影在线播放| 综合久久精品| 噜噜噜久久亚洲精品国产品麻豆 | 国产一区玩具在线观看| 国产 日韩 欧美 综合 一区| 日本高清不卡三区| 欧美成人一品| 99久久激情视频| 国产成a人亚洲精| 女女互磨互喷水高潮les呻吟| 亚洲欧美色图小说| 中文字幕国产在线观看| 日韩视频一区二区三区在线播放| 免费人成黄页在线观看忧物| 操日韩av在线电影| 日韩不卡免费高清视频| 国产传媒欧美日韩| 欧美高清视频手机在在线| 97成人在线免费视频| 久久99国内精品| 中文字幕一区二区人妻在线不卡| 亚洲免费观看高清完整版在线观看 | 东京一区二区| 动漫美女被爆操久久久| 久久高清免费| 日韩a在线播放| 成人av在线资源网站| 中国毛片直接看| 欧美中文字幕亚洲一区二区va在线| 人人妻人人澡人人爽久久av| 久久最新资源网| av免费在线一区| 欧美 日韩 国产在线| 伊人久久大香线蕉av超碰演员| 亚洲欧美日韩三级| 国产欧美综合在线观看第十页| 日韩三级av在线| 日韩欧美国产高清| 大片免费在线观看| 成人a免费视频| 日韩精品一区二区三区免费观看 | 综合在线影院| 久久久免费看| 一本不卡影院| 欧美xxxx日本和非洲| 亚洲人xxxx| 国产乱码精品一区二三区蜜臂| 色999日韩欧美国产| 成人短视频app| 久久影院理伦片| 亚洲综合日本| www.自拍偷拍| 色综合久久久久| 色播色播色播色播色播在线| 97精品久久久| 日韩av资源网| 人妻av中文系列| 99精品久久久久久| 亚洲欧美在线视频免费| 亚洲精品videossex少妇| 99爱在线观看| 精品卡一卡二| 麻豆成人在线| 欧美成人另类视频| 欧美日本韩国一区二区三区视频| av二区在线| 成人免费午夜电影| 中文字幕一区二区三三| av不卡中文字幕| 亚洲va天堂va国产va久| 五月婷婷六月色| 国产aaa精品| 久久视频精品| 性高潮久久久久久| 亚洲福利国产精品| 三级av在线| 国产精品视频久| 欧美一区影院| 7788色淫网站小说| 欧洲精品在线观看| 欧美成人高清在线| αv一区二区三区| 99国产成+人+综合+亚洲欧美| 中文字幕国产专区| 精品视频色一区| 91一区二区三区在线| 国产亚洲福利社区| 久久aⅴ国产紧身牛仔裤| 国产一区二区三区视频播放| 欧美一级片免费看| 操人在线观看| 日韩欧美第二区在线观看| 久久99热狠狠色一区二区| 久久精品久久国产| 亚洲图片欧美日产| 国产精品一区二区三区av| 2019日韩中文字幕mv| 国产日本欧洲亚洲| 精品国产伦一区二区三| 91精品国产色综合| 色999日韩| 日韩综合第一页| 欧美日韩久久不卡| 草草在线视频| 中日韩在线视频| 97aⅴ精品视频一二三区| 涩涩视频在线观看| 高清亚洲成在人网站天堂| 人人狠狠综合久久亚洲婷婷| 亚洲精品一区二区18漫画 | 熟妇人妻va精品中文字幕 | 欧美a视频在线观看| 久久久精品在线观看| 亚洲精品亚洲人成在线| 成人av毛片在线观看| 黑人欧美xxxx| 在线电影福利片| 亚洲精品不卡|