快手 AutoThink 大模型 KAT-V1 正式開源,40B 版本比肩滿血版 R1,技術(shù)報(bào)告全公開! 精華
近日,快手發(fā)布并開源了KAT-V1 自動(dòng)思考(AutoThink)大模型,這是一款融合思考與非思考能力、并且可以根據(jù)問題難度自動(dòng)切換思考形態(tài)的模型。
KAT-V1模型共有40B和200B兩個(gè)版本。在自動(dòng)思考模式下,40B版本的性能可追平今年5月發(fā)布的新版DeepSeek-R1(參數(shù)量為6850億)。而200B版本的模型,則在多項(xiàng)基準(zhǔn)測(cè)試中超過了Qwen、DeepSeek和Llama這三大開源模型家族中的旗艦?zāi)P汀?/p>

值得一提的是,在號(hào)稱無法作弊的競(jìng)賽級(jí)實(shí)時(shí)基準(zhǔn)測(cè)試 LiveCodeBench Pro上,KAT-V1也以40B的參數(shù)成功躋身于閉源模型之列,超越一眾思考/非思考的開源模型:

快手Kwaipilot團(tuán)隊(duì)在技術(shù)報(bào)告中,揭秘了KAT-V1模型背后的多項(xiàng)技術(shù)創(chuàng)新。
該團(tuán)隊(duì)不僅提出了一種全新的長(zhǎng)短思考混合模型訓(xùn)練范式,還基于傳統(tǒng)強(qiáng)化學(xué)習(xí)算法(GRPO),提出了帶有新型強(qiáng)化學(xué)習(xí)方法Step-SRPO,進(jìn)一步提升了模型輸出token的思考密度以及對(duì)是否應(yīng)該開啟思考模式的判斷力。
在部分基準(zhǔn)測(cè)試中,即使模型自我選擇不開啟思考模式,受益于融合訓(xùn)練方法和推理模板,性能也有小幅上漲。

KAT-V1模型家族的40B版本已在開源模型托管平臺(tái)Hugging Face上線。技術(shù)報(bào)告透露,200B版本的MoE模型仍在訓(xùn)練過程中。同時(shí),用戶也可在快手打造的AI研發(fā)助手Kwaipilot中體驗(yàn)到這一模型。
模型開源地址:https://huggingface.co/Kwaipilot/KAT-V1-40B
技術(shù)報(bào)告地址:https://arxiv.org/pdf/2507.08297
一、推理模型過度思考問題凸顯,如何讓AI學(xué)會(huì)自主判斷?
自O(shè)penAI推出o系列模型以來,通過工程設(shè)計(jì)和后訓(xùn)練技術(shù),讓模型在回答問題前進(jìn)行更深入的思考、推理和規(guī)劃,已經(jīng)成為智能水平提升的重要路徑。
然而,在實(shí)際體驗(yàn)中,推理模型“凡事都要先思考”的運(yùn)行模式,演變成了“過度思考”的問題:模型機(jī)械地展開冗長(zhǎng)的推理鏈,缺乏靈活的判斷能力。

::: hljs-center
在問及簡(jiǎn)單事實(shí)性問題時(shí),推理模型也會(huì)過度思考
:::
推理模型的這種思考模式,其實(shí)與人類日常的思考模式大相徑庭,人類往往先基于直覺或經(jīng)驗(yàn)做出快速判斷,再在需要時(shí)進(jìn)行深入的思考。
“過度思考”現(xiàn)象不僅顯著拉長(zhǎng)了響應(yīng)時(shí)間,讓用戶感到“笨重”、“遲鈍”,還會(huì)在問及簡(jiǎn)單事實(shí)性問題時(shí)帶來明顯負(fù)面體驗(yàn)。對(duì)于需要快速、直接反饋的場(chǎng)景(如客服問答、代碼調(diào)試),這種延遲會(huì)降低滿意度和使用意愿。
同時(shí),大模型“過度思考”還會(huì)顯著增加推理所需的計(jì)算資源和能源消耗,導(dǎo)致運(yùn)算成本上升。對(duì)面向C端的大規(guī)模部署來說,這種浪費(fèi)尤為突出。
為了“顯得在思考”,模型還有可能在中間步驟生成并不準(zhǔn)確或邏輯矛盾的內(nèi)容。這些內(nèi)容若被用戶誤解為可靠推理,反而增加了錯(cuò)誤決策的風(fēng)險(xiǎn)。
已經(jīng)有不少模型廠商注意到了“過度思考”的挑戰(zhàn)。谷歌為Gemini引入了思考預(yù)算組件,允許開發(fā)者選擇模型的思考長(zhǎng)度;Anthropic則將Claude 4模型做成了混合推理模型,用戶無需切換模型,即可自主選擇是否開啟推理。
不過,上述流程仍需要人類的參與和配置。要更為系統(tǒng)性地解決推理模型的“過度思考”問題,研究者還需要探索如何讓模型根據(jù)任務(wù)復(fù)雜度自主決定是否思考,實(shí)現(xiàn)更靈活、高效的人機(jī)協(xié)作。
快手Kwaipilot團(tuán)隊(duì)已在今年6月初發(fā)布了上述問題的初步解決方案——KwaiCoder-AutoThink-preview,雖然名字是Coder但具備通用模型能力,KAT-V1在其基礎(chǔ)之上針對(duì)推理能力進(jìn)行了重點(diǎn)優(yōu)化。
二、高質(zhì)量數(shù)據(jù)+模型知識(shí)蒸餾+MTP,1/30成本完成模型的冷啟動(dòng)
KAT-V1模型由Qwen2.5-32B擴(kuò)展而來,通過分層定向擴(kuò)展的策略,將模型參數(shù)量有選擇地?cái)U(kuò)展到40B,減少了無效的參數(shù)增長(zhǎng),實(shí)現(xiàn)規(guī)模與計(jì)算效率的平衡。
在KAT-V1模型的預(yù)訓(xùn)練階段,Kwaipilot團(tuán)隊(duì)構(gòu)造了大量的思考/非思考數(shù)據(jù)。對(duì)于非思考數(shù)據(jù),為了保證問題的廣泛性,他們從預(yù)先收集的5TB tokens預(yù)訓(xùn)練數(shù)據(jù)中,抽取出部分帶有推理特征、具有一定難度的多領(lǐng)域數(shù)據(jù)。

思考數(shù)據(jù)則使用一個(gè)Agentic框架來合成。該框架由解答者(solver)、思考者(thinker)和評(píng)論者(critic)組成。解答者先提供初步答案,思考者對(duì)解決方案進(jìn)行反思和迭代改進(jìn),評(píng)論者對(duì)整個(gè)流程進(jìn)行監(jiān)督,以保證邏輯一致性和輸出質(zhì)量。
這一框架可在一定程度上提升合成數(shù)據(jù)的質(zhì)量——只有經(jīng)過核驗(yàn)的高質(zhì)量合成數(shù)據(jù)才能被保留,并轉(zhuǎn)化為長(zhǎng)思維鏈(long-CoT)數(shù)據(jù)。
預(yù)訓(xùn)練階段,Kwaipilot團(tuán)隊(duì)使用了大約1000萬個(gè)示例的語料,其中約34.8%的數(shù)據(jù)為思考數(shù)據(jù),約65.2%的數(shù)據(jù)為非思考數(shù)據(jù)。這些數(shù)據(jù)涵蓋了科學(xué)、代碼、數(shù)學(xué)、工具調(diào)用和通用知識(shí)等廣泛領(lǐng)域,給模型的能力泛化提供基礎(chǔ)。
Kwaipilot團(tuán)隊(duì)選擇通過模型蒸餾的方式完成模型的初始化冷啟動(dòng)——先讓一個(gè)大型教師模型在輸入數(shù)據(jù)上輸出詳細(xì)的概率分布,再讓較小的學(xué)生模型在相同輸入下產(chǎn)生預(yù)測(cè),通過最小化兩者之間的差異,使學(xué)生模型學(xué)習(xí)教師模型的預(yù)測(cè)模式和知識(shí)。
不過,KAT-V1采用了獨(dú)特的異構(gòu)蒸餾框架,能夠更高效地將教師模型的知識(shí)傳遞給學(xué)生模型。該框架由通用Logits蒸餾損失(ULD Loss)和多Token預(yù)測(cè)(MTP)兩大模塊組成。

其中,MTP模塊使學(xué)生模型在一次計(jì)算中不僅能預(yù)測(cè)下一個(gè)Token,還能同時(shí)預(yù)測(cè)多個(gè)后續(xù)Token,從而增強(qiáng)模型對(duì)“未來收益”的理解。通俗地說,多Token預(yù)測(cè)讓模型學(xué)會(huì)做出有利于整個(gè)序列長(zhǎng)遠(yuǎn)表現(xiàn)的決策,提高了預(yù)測(cè)的準(zhǔn)確性和學(xué)習(xí)效率。
在多種對(duì)齊方式中(如對(duì)齊embedding層或語言模型輸出等),Kwaipilot團(tuán)隊(duì)發(fā)現(xiàn),對(duì)齊Token級(jí)別的logits效果最好,這就是通用Logits蒸餾損失(ULD Loss)的核心。
教師模型在生成每個(gè)Token(如Token A、B、C)時(shí),會(huì)輸出對(duì)應(yīng)的logits(即模型預(yù)測(cè)該Token的原始分?jǐn)?shù)),并將其作為監(jiān)督信號(hào)傳遞給學(xué)生模型的MTP模塊。ULD Loss則彌合了正常序列預(yù)測(cè)與并行預(yù)測(cè)之間的差異,使得即便模型架構(gòu)不同,也能靈活實(shí)現(xiàn)知識(shí)遷移。
整體上,這個(gè)設(shè)計(jì)大大提高了知識(shí)遷移的效率,讓小模型在冷啟動(dòng)時(shí)用較少算力就能快速獲得較好的性能。Kwaipilot團(tuán)隊(duì)透露,他們以傳統(tǒng)方法1/30的成本,完成了模型的冷啟初始化。
三、優(yōu)化GRPO算法實(shí)現(xiàn)高效RL,激發(fā)模型智能選擇思考模式
在預(yù)訓(xùn)練階段,模型已經(jīng)通過思考、非思考數(shù)據(jù)的注入,學(xué)會(huì)了在得到外部指令時(shí),被動(dòng)切換思考模式。而后訓(xùn)練階段的目標(biāo),則是讓KAT-V1學(xué)會(huì)根據(jù)輸入查詢,自動(dòng)確定適合的思考模式。
SFT for AutoThink
Kwaipilot團(tuán)隊(duì)通過結(jié)構(gòu)化的數(shù)據(jù)合成流程,讓模型學(xué)會(huì)在Think-on(思考)和Think-off(非思考)兩種模式之間做出選擇。每個(gè)查詢先由多個(gè)模型投票決定適合的推理模式,再分別用DeepSeek-R1或DeepSeek-V3生成回答,確保內(nèi)容多樣且契合任務(wù)。
同時(shí),為提升模型對(duì)思考模式的理解,每條樣本還由DeepSeek-V3生成解釋說明合理性,作為額外訓(xùn)練信號(hào),并將約1%的數(shù)據(jù)隨機(jī)分配模式防止過擬合。所有數(shù)據(jù)都使用統(tǒng)一模板,包含對(duì)是否需要推理的判斷、(如需推理時(shí)的)推理過程及最終回答,使模型既能判斷是否推理,又能清晰區(qū)分分析與作答。

這些數(shù)據(jù)讓模型學(xué)會(huì)了如何判斷用戶意圖以及問題難度,并決定如何思考后再進(jìn)行回答。經(jīng)過冷啟 SFT,KAT-V1可以在需要思考的困難榜單上達(dá)到DeepSeek-R1-0528 95%以上的性能;在較為簡(jiǎn)單的榜單上,由于模型自我決定部分問題進(jìn)行深度思考,而出現(xiàn)10%-30%的性能漲幅。
RL via Step-SRPO
僅通過精細(xì)化數(shù)據(jù) SFT 所獲得的判斷能力受到數(shù)據(jù)制約,其智能程度和靈活性仍然受限,泛化性也還不夠強(qiáng)。
為了讓模型的思考判斷更加智能,Kwaipilot團(tuán)隊(duì)需要進(jìn)行強(qiáng)化學(xué)習(xí)。最初,他們采用傳統(tǒng)強(qiáng)化學(xué)習(xí)算法GRPO進(jìn)行端到端強(qiáng)化學(xué)習(xí),希望讓模型更智能地判斷是否需要思考。但由于GRPO缺乏清晰的過程監(jiān)督,訓(xùn)練中出現(xiàn)了不穩(wěn)定現(xiàn)象,比如模型表面上判斷應(yīng)開啟思考模式,最終卻不進(jìn)行推理,或者在簡(jiǎn)單的代碼和數(shù)學(xué)題上也頻繁啟動(dòng)推理。
最終,Kwaipilot團(tuán)隊(duì)提出了一種分布式獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法:Step-SRPO。在Step-SRPO框架中,模型先進(jìn)行“推理必要性評(píng)估”,判斷每個(gè)問題是否需要深入思考,以避免對(duì)簡(jiǎn)單問題浪費(fèi)計(jì)算資源。
隨后,通過雙重獎(jiǎng)勵(lì)機(jī)制引導(dǎo)學(xué)習(xí):判斷獎(jiǎng)勵(lì)(Judge Reward)根據(jù)模型是否正確選擇推理模式打分,鼓勵(lì)準(zhǔn)確判斷推理需求;答案獎(jiǎng)勵(lì)(Answer Reward)依據(jù)最終回答的正確性和質(zhì)量進(jìn)行評(píng)分,并結(jié)合判斷獎(jiǎng)勵(lì)進(jìn)行調(diào)整,確保回答質(zhì)量和推理選擇相一致。

數(shù)據(jù)顯示,由于強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)策略,模型選擇思考模式的比例不斷降低。

::: hljs-center
模型在訓(xùn)練階段,由于強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)策略,模型開啟think-on的比例不斷降低
:::
這種趨勢(shì)在測(cè)試集上的表現(xiàn)更為明顯,模型在多個(gè)測(cè)試集的平均token數(shù)下降了20%-30%,其中復(fù)雜推理榜單(例如AIME 2025/2024、LCB、GPQA) 變化趨勢(shì)最小,但是相對(duì)簡(jiǎn)易榜單的比例下降趨勢(shì)更為明顯。

::: hljs-center
模型在測(cè)試集合,模型開啟think-on的比例不斷降低
:::
Step-SRPO讓模型在訓(xùn)練中逐步學(xué)會(huì)既能保持高準(zhǔn)確性,也能根據(jù)問題難度靈活調(diào)整推理深度,最終實(shí)現(xiàn)在模型性能上漲的前提下,還能進(jìn)一步降低token的使用,提升了模型輸出token的思考密度以及對(duì)是否應(yīng)該開啟思考模式判斷的智能程度。
強(qiáng)化學(xué)習(xí)訓(xùn)練后,KAT-V1 40B成功學(xué)會(huì)了自動(dòng)在某些簡(jiǎn)單問題上切換到非思考模式,模型性能在保持和DeepSeek-R1-0528接近的水位下,平均token消耗降低。

::: hljs-center
約為 DeepSeek R1-0528 85%左右的token消耗量
:::
四、復(fù)雜推理能力對(duì)標(biāo)R1-0528
經(jīng)過專項(xiàng)訓(xùn)練后的模型,對(duì)于困難的問題會(huì)首先進(jìn)行判斷難易程度,然后進(jìn)行思考并給出解題過程及最終步驟。
小球在六邊形內(nèi)運(yùn)動(dòng)
這里以前段時(shí)間較火的小球問題舉例,讓大模型寫一個(gè)程序,模擬小球的運(yùn)動(dòng)。
“write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically” (編寫一個(gè)Python程序,展示一個(gè)在旋轉(zhuǎn)六邊形內(nèi)彈跳的小球。小球需受重力和摩擦力影響,并能夠根據(jù)旋轉(zhuǎn)的六邊形墻壁實(shí)現(xiàn)真實(shí)碰撞反彈效果。)

KAT-V1-40B 編寫的小球運(yùn)動(dòng)代碼表現(xiàn)自然,且比較真實(shí)的反映了物理世界中重力和摩擦力的影響,滿足了題目的要求。

對(duì)比O3-mini與DeepSeek-R1 生成的代碼看起來也更流暢自然。
為了測(cè)試模型的多輪對(duì)話能力,我們給題目的難度再升升級(jí),讓模型能夠模擬小球尾跡,并且當(dāng)用戶按下空格時(shí),小球數(shù)量增加,并且希望模型可以正確處理小球之間的碰撞,再經(jīng)過新一輪的對(duì)話后,模型寫出了以下代碼:

AutoThink 實(shí)際使用體驗(yàn)
在代碼生成方向,由于編程相關(guān)問題往往更加復(fù)雜,而這種 “pre-think” 的推理形態(tài)也展現(xiàn)出更強(qiáng)大的問題理解能力以及規(guī)劃能力。
在復(fù)雜的SQL優(yōu)化例子中,KAT-V1-40B自動(dòng)啟動(dòng)其思考模式。在15秒的思考時(shí)間內(nèi),提供了結(jié)構(gòu)化的多步驟分析,而另一款推理模型則需要53秒,KAT-V1-40B還給出了問題的分析和路徑的規(guī)劃,在深度、架構(gòu)洞察力和可擴(kuò)展性建議方面要優(yōu)于另一款推理模型。

在處理不需要思考的問題時(shí),最先進(jìn)的推理模型仍然會(huì)進(jìn)行不必要的逐步分析,生成近400個(gè)token的冗長(zhǎng)回復(fù),并產(chǎn)生額外的17秒延遲。
相比之下,KAT-V1-40B 正確地識(shí)別了任務(wù)的簡(jiǎn)單性,迅速激活了非思考模式,并生成了高質(zhì)量的回復(fù),這種特性進(jìn)一步鞏固了其在實(shí)際部署中的實(shí)用價(jià)值:

當(dāng)前的思考模型相比非思考模型,往往在復(fù)雜場(chǎng)景不能很好的識(shí)別用戶意圖。而在這種場(chǎng)景下,由于這種“pre-think”的過程存在,往往能結(jié)合用戶意圖和問題進(jìn)行更詳細(xì)的方案設(shè)計(jì)與規(guī)劃。
除了自主思考控制之外,KAT模型還支持用戶通過簡(jiǎn)單的意圖指令(例如顯式的思考或非思考偏好)來引導(dǎo)模型是否開啟思考模式:

KAT-V1的思考形態(tài)也適配了智能體模式,模型可以在多智能體的場(chǎng)景中,準(zhǔn)確地在思考與非思考之間切換。例如,文件檢查期間禁用推理,并在需要診斷或代碼生成時(shí)主動(dòng)啟用深度推理和基于工具的探索。、
以下是一個(gè)模型和Kwaipilot產(chǎn)品中 智能體代碼生成功能 協(xié)同作用的例子:

五、結(jié)語
Kwaipilot團(tuán)隊(duì)在過去幾個(gè)月里已開源多款覆蓋推理、編程、Embedding等領(lǐng)域的模型。在后續(xù)的工作中,我們將詳細(xì)介紹完整的AutoThink訓(xùn)練框架,并計(jì)劃開源相關(guān)訓(xùn)練數(shù)據(jù)、強(qiáng)化學(xué)習(xí)代碼庫,以及1.5B、7B和13B等不同規(guī)模的模型。此外,AutoThink框架未來有望擴(kuò)展到多模態(tài)和交互式智能體應(yīng)用,進(jìn)一步提升模型的可控性與通用性。KAT-V1的200B參數(shù)的MoE(Mixture-of-Experts)變體也有望在訓(xùn)練完成后向社區(qū)開放。
感謝大家關(guān)注Kwaipilot近期的工作,道阻且長(zhǎng),行則將至,我們會(huì)在大模型的探索之路上砥礪前行。
- END -

















