精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o

發(fā)布于 2025-5-27 07:00
瀏覽
0收藏

引言:重新定義工具使用型語言模型的訓(xùn)練范式

大型語言模型(LLM)的工具使用能力已成為擴(kuò)展其功能邊界的關(guān)鍵戰(zhàn)略。傳統(tǒng)方法通常依賴監(jiān)督微調(diào)(SFT)來確保工具調(diào)用的正確性,或從更強(qiáng)大的模型中提煉推理軌跡。然而,這些方法各有局限:要么完全忽略推理過程,要么產(chǎn)生僅能模仿表面模式的偽推理,限制了模型的泛化能力。

近日,NVIDIA研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性成果——Nemotron-Research-Tool-N1(簡(jiǎn)稱Tool-N1),這是一系列基于強(qiáng)化學(xué)習(xí)訓(xùn)練的工具使用型語言模型。該研究受到DeepSeek-R1通過規(guī)則基礎(chǔ)的強(qiáng)化學(xué)習(xí)成功引出推理能力的啟發(fā),采用類似的訓(xùn)練范式,通過二元獎(jiǎng)勵(lì)機(jī)制來評(píng)估工具調(diào)用的結(jié)構(gòu)有效性和功能正確性,而無需標(biāo)注的推理軌跡。

這種輕量級(jí)的監(jiān)督方式使模型能夠自主內(nèi)化推理策略,在BFCL和API-Bank基準(zhǔn)測(cè)試中,基于Qwen-2.5-7B/14B-Instruct構(gòu)建的Tool-N1-7B和Tool-N1-14B取得了令人矚目的成果,超越了包括GPT-4o在內(nèi)的多個(gè)強(qiáng)大基線模型。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

工具學(xué)習(xí)的問題定義

在正式介紹Tool-N1之前,我們首先明確工具學(xué)習(xí)的問題定義。考慮一個(gè)大型語言模型(LLM)和一組外部工具集合??={zi},模型可以訪問這些工具。每個(gè)工具zi可以表示為一個(gè)三元組(ni,di,ki),包含工具使用的基本信息:ni表示工具的名稱,di提供工具的自然語言描述,ki指定工具的輸入?yún)?shù)說明。

模型的目標(biāo)是根據(jù)策略π響應(yīng)用戶查詢。為實(shí)現(xiàn)這一目標(biāo),LLM可能在交互過程中發(fā)出多個(gè)帶有適當(dāng)參數(shù)的工具調(diào)用。在任何決策步驟t,LLM接收兩種類型的輸入:(1)歷史上下文ct,由所有前面的工具調(diào)用和觀察對(duì)組成;(2)當(dāng)前可用的工具集??。然后,LLM必須決定下一步行動(dòng)。

形式上,決策過程定義為:

π(ct,??~)→at, s.t. at???

其中at表示在步驟t選擇的操作,對(duì)應(yīng)從可訪問工具子集??~中抽取的一個(gè)或多個(gè)工具調(diào)用。ct表示歷史上下文。具體來說:

{ at={z0(p0),…,zm(pm)}, ct=(a0,o0,…,at,ot) }

其中每個(gè)zm表示調(diào)用的第m個(gè)工具,pm是其對(duì)應(yīng)的參數(shù)。m的值表示在時(shí)間t進(jìn)行的工具調(diào)用數(shù)量。ot表示采取操作at后的觀察結(jié)果。工具學(xué)習(xí)的最終目標(biāo)是使LLM具備一個(gè)泛化策略π,通過產(chǎn)生一系列連貫的操作-觀察對(duì)(at,ot)來有效解決用戶查詢。

Nemotron-Research-Tool-N1的創(chuàng)新方法

Nemotron-Research-Tool-N1是一個(gè)基于R1風(fēng)格強(qiáng)化學(xué)習(xí)框架設(shè)計(jì)的通用工具使用型語言模型。Tool-N1構(gòu)建于GRPO強(qiáng)化學(xué)習(xí)算法之上,旨在提高模型在復(fù)雜場(chǎng)景中的工具調(diào)用能力,特別是在LLM需要使用一組可訪問工具解決查詢的情況下。

形式上,給定歷史上下文ct和當(dāng)前可用工具集??,模型生成一組候選響應(yīng)[O1,O2,...,O?]。每個(gè)響應(yīng)包含(1)文本推理和(2)相關(guān)聯(lián)的操作an。這些響應(yīng)使用獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估,產(chǎn)生一個(gè)獎(jiǎng)勵(lì)集{r?,r?,...,r?}。然后使用GRPO算法估計(jì)優(yōu)勢(shì)并更新策略模型,受KL散度約束。第i個(gè)響應(yīng)的相對(duì)優(yōu)勢(shì)Ai計(jì)算如下:

Ai = (ri - mean({r?,r?,...,r?})) / std({r?,r?,...,r?})

其中mean和std分別表示獎(jiǎng)勵(lì)的均值和標(biāo)準(zhǔn)差。

數(shù)據(jù)準(zhǔn)備

許多先前的工作集中于收集大規(guī)模工具調(diào)用軌跡,然后通過監(jiān)督微調(diào)(SFT)來提高LLM的工具使用能力。這些數(shù)據(jù)集通常由自然語言用戶查詢Q和一系列地面真實(shí)工具調(diào)用步驟(a?,o?,...,a?,o?)組成。然后訓(xùn)練模型根據(jù)觀察到的軌跡預(yù)測(cè)每個(gè)后續(xù)操作at。然而,SFT往往表現(xiàn)出有限的泛化能力,因?yàn)槟P蛢A向于記憶訓(xùn)練軌跡,而不是發(fā)展穩(wěn)健的內(nèi)在推理能力。

為充分利用社區(qū)中可用的SFT數(shù)據(jù),研究團(tuán)隊(duì)統(tǒng)一并預(yù)處理了來自xLAM和ToolACE子集的數(shù)據(jù),這些數(shù)據(jù)提供了單輪和多輪合成工具調(diào)用軌跡。由于這些數(shù)據(jù)集是由潛在不穩(wěn)定的LLM生成的,它們通常包含不一致性和不適合GRPO訓(xùn)練的非結(jié)構(gòu)化格式。研究團(tuán)隊(duì)通過過濾掉包含無效工具調(diào)用的樣本來標(biāo)準(zhǔn)化數(shù)據(jù)集,特別是那些涉及候選工具列表中不存在的工具的樣本。

可用工具從系統(tǒng)提示中提取,候選工具和地面真實(shí)工具調(diào)用都解析為結(jié)構(gòu)化字典格式。丟棄了JSON解析失敗或包含格式不一致的實(shí)例。這種預(yù)處理產(chǎn)生了適合強(qiáng)化學(xué)習(xí)的干凈一致的數(shù)據(jù)集。對(duì)于來自ToolACE子集的多輪數(shù)據(jù),研究團(tuán)隊(duì)進(jìn)一步將每個(gè)軌跡分割成多個(gè)單步預(yù)測(cè)實(shí)例,其中每個(gè)實(shí)例包含一個(gè)目標(biāo)工具調(diào)用,前面的步驟被視為上下文。使用R1風(fēng)格的GRPO訓(xùn)練LLM,根據(jù)這些上下文信息和提供的工具預(yù)測(cè)每個(gè)工具調(diào)用步驟。

思考模板

遵循Guo等人(2025)的方法,研究團(tuán)隊(duì)采用了一個(gè)輕量級(jí)提示模板來引出LLM的工具調(diào)用。該提示明確指示模型在<think>...</think>標(biāo)簽內(nèi)生成中間推理,然后在<tool_call>...</tool_call>標(biāo)簽內(nèi)封裝工具調(diào)用。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

這個(gè)模板背后的設(shè)計(jì)理念是最小化對(duì)過于僵化格式規(guī)則的依賴,這可以降低過擬合特定提示模式的風(fēng)險(xiǎn)。通過允許模型在表達(dá)其推理方面有更大的靈活性,目標(biāo)是促進(jìn)跨多樣化工具使用場(chǎng)景的更強(qiáng)泛化能力。此外,在訓(xùn)練期間使用這種輕量級(jí)提示設(shè)計(jì)使得生成的模型能夠更容易與更復(fù)雜的提示策略集成。

獎(jiǎng)勵(lì)建模

按照數(shù)據(jù)準(zhǔn)備中描述的方法,研究團(tuán)隊(duì)構(gòu)建了一個(gè)訓(xùn)練數(shù)據(jù)集,其中每個(gè)地面真實(shí)工具調(diào)用表示為結(jié)構(gòu)化字典。這種格式使得在強(qiáng)化學(xué)習(xí)過程中能夠可靠地驗(yàn)證工具名稱和參數(shù)-值對(duì),而不僅僅是簡(jiǎn)單的字符串匹配。利用這種結(jié)構(gòu),研究團(tuán)隊(duì)定義了一個(gè)R1風(fēng)格的二元獎(jiǎng)勵(lì)函數(shù),共同評(píng)估推理格式的正確性和工具調(diào)用的準(zhǔn)確性,包括其名稱和參數(shù)。

格式檢查:遵循先前的工作,研究團(tuán)隊(duì)在訓(xùn)練期間納入格式檢查,以驗(yàn)證模型的輸出是否符合預(yù)期的結(jié)構(gòu)約定——具體來說,推理是否封裝在<think>...</think>標(biāo)簽內(nèi),工具調(diào)用是否正確放置在<tool_call>...</tool_call>標(biāo)簽內(nèi)。這種結(jié)構(gòu)約束鼓勵(lì)模型在工具調(diào)用之前進(jìn)行明確的推理,而不是直接跳到最終答案。通過強(qiáng)制格式遵守,目標(biāo)是培養(yǎng)模型的內(nèi)在推理能力,這可能潛在地有助于改善泛化——特別是對(duì)于分布外輸入。

工具調(diào)用檢查:研究團(tuán)隊(duì)還檢查工具調(diào)用本身的正確性。工具調(diào)用輸出被解析為字典,使得能夠與地面真實(shí)調(diào)用進(jìn)行精確匹配。這涉及檢查預(yù)測(cè)的工具名稱是否與地面真實(shí)相匹配,以及所有必需的參數(shù)是否存在且值正確。這種嚴(yán)格的匹配標(biāo)準(zhǔn)確保模型學(xué)習(xí)生成功能精確且可執(zhí)行的工具調(diào)用。與SFT中的下一個(gè)標(biāo)記預(yù)測(cè)邏輯相比,這種基于字典的匹配引入了更大的靈活性。它允許參數(shù)順序變化而不受懲罰,鼓勵(lì)模型關(guān)注工具調(diào)用的底層語義,而不是表面級(jí)記憶。這種設(shè)計(jì)促進(jìn)了對(duì)工具使用的更深入理解,并支持更好的泛化。

二元獎(jiǎng)勵(lì)定義:給定上下文ct和預(yù)測(cè)操作at,研究團(tuán)隊(duì)定義了一個(gè)二元獎(jiǎng)勵(lì)函數(shù)r(ct,at)∈{0,1},當(dāng)滿足以下兩個(gè)條件時(shí),分配獎(jiǎng)勵(lì)1:(1)格式正確性:模型輸出符合結(jié)構(gòu)格式,即包含<think>...</think>和<tool_call>...</tool_call>標(biāo)簽;(2)工具調(diào)用正確性:預(yù)測(cè)的工具調(diào)用at在工具名稱和所有參數(shù)鍵值對(duì)方面與地面真實(shí)調(diào)用at*完全匹配。

r(ct,at) = { 1, 如果 FormatCorrect(at) ∧ ToolCallMatch(at,at*) 0, 否則 }

其中FormatCorrect(at)在輸出正確包裝在兩個(gè)所需標(biāo)簽中時(shí)返回true,ToolCallMatch(at,at*)在at在結(jié)構(gòu)和內(nèi)容上與地面真實(shí)工具調(diào)用at*完全匹配時(shí)返回true。

實(shí)驗(yàn)結(jié)果與分析

研究團(tuán)隊(duì)進(jìn)行了廣泛實(shí)驗(yàn),證明了所提方法的優(yōu)越性。實(shí)驗(yàn)主要在BFCL和API-Bank兩個(gè)典型基準(zhǔn)測(cè)試上進(jìn)行評(píng)估。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集:主要使用ToolACE和xLAM的子集作為訓(xùn)練數(shù)據(jù)集。ToolACE涵蓋了廣泛的工具調(diào)用場(chǎng)景,包括具有多個(gè)候選工具和并行函數(shù)調(diào)用的示例,覆蓋了26,507個(gè)多樣化工具的池。相比之下,xLAM專注于單輪函數(shù)調(diào)用,包含通過APIGen收集的60,000個(gè)實(shí)例。

模型:除非另有說明,研究團(tuán)隊(duì)使用Qwen2.5-7B/14B-Instruct作為主要骨干模型。為評(píng)估方法的泛化能力,還對(duì)替代骨干模型進(jìn)行了評(píng)估,包括來自LLaMA家族的多個(gè)變體。實(shí)驗(yàn)中,研究團(tuán)隊(duì)與通用開源模型(如GPT系列和Gemini-2.0)以及專門的工具調(diào)用模型(包括ToolACE-8B、xLAM-2和Hammer2.1)進(jìn)行了比較。

基準(zhǔn)測(cè)試:主要評(píng)估單輪工具調(diào)用查詢的性能。在幾個(gè)代表性基準(zhǔn)測(cè)試上評(píng)估了方法,包括Berkeley Function Call Leaderboard (BFCL)和API-Bank。對(duì)于BFCL,在Non-live和Live子集上進(jìn)行了評(píng)估,分別對(duì)應(yīng)合成和真實(shí)世界數(shù)據(jù)。每個(gè)子集包括四個(gè)類別:Simple、Multiple、Parallel和Parallel Multiple。Simple和Multiple場(chǎng)景都涉及單個(gè)工具的調(diào)用,Multiple類別具有多個(gè)候選工具。相比之下,Parallel和Parallel Multiple場(chǎng)景需要同時(shí)調(diào)用多個(gè)工具。對(duì)于API-Bank,排除了多輪案例。所有基準(zhǔn)測(cè)試的性能都以準(zhǔn)確率報(bào)告。

其他實(shí)現(xiàn)細(xì)節(jié):所有實(shí)驗(yàn)使用開源強(qiáng)化學(xué)習(xí)庫Verl進(jìn)行。訓(xùn)練使用1024的批量大小和1×10??的學(xué)習(xí)率。溫度固定在0.7。熵系數(shù)設(shè)置為0,因?yàn)橛^察到引入熵對(duì)訓(xùn)練期間的探索產(chǎn)生負(fù)面影響。KL散度損失系數(shù)在所有實(shí)驗(yàn)中設(shè)置為1×10?3。所有訓(xùn)練運(yùn)行在由4個(gè)節(jié)點(diǎn)組成的集群上執(zhí)行,每個(gè)節(jié)點(diǎn)配備8個(gè)NVIDIA H100 80GB GPU。

主要結(jié)果

BFCL基準(zhǔn)測(cè)試結(jié)果:實(shí)驗(yàn)結(jié)果清楚地表明,所有Tool-N1-7B/14B模型都取得了最佳的總體性能,超過了最先進(jìn)的閉源模型(如GPT-4o)和專門的微調(diào)模型(包括xLAM-2-70B和ToolACE-8B)。值得注意的是,訓(xùn)練的工具調(diào)用推理模型顯著優(yōu)于在相同數(shù)據(jù)源上訓(xùn)練的監(jiān)督微調(diào)基線(即ToolACE和xLAM系列)。結(jié)果證明,與標(biāo)準(zhǔn)監(jiān)督微調(diào)相比,R1風(fēng)格的強(qiáng)化學(xué)習(xí)為增強(qiáng)LLM的工具調(diào)用能力提供了更有效的范式。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

API-Bank基準(zhǔn)測(cè)試結(jié)果:為提供更全面的評(píng)估,研究團(tuán)隊(duì)還在API-Bank基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn)。Tool-N1-7B和Tool-N1-14B模型在大多數(shù)情況下都始終優(yōu)于基線。值得注意的是,Tool-N1-7B/14B的準(zhǔn)確率分別比GPT-4o高4.12%和5.03%,清楚地證明了該方法的有效性。

深入分析

可擴(kuò)展性和泛化能力

可擴(kuò)展性:擴(kuò)展定律,它描述了模型大小和性能之間的關(guān)系,在理解訓(xùn)練方法的有效性方面起著關(guān)鍵作用。研究團(tuán)隊(duì)通過評(píng)估一系列模型大小來評(píng)估所提訓(xùn)練方法的擴(kuò)展行為,包括來自Qwen2.5-Instruct系列的0.5B、1.5B、3B、7B和14B。為進(jìn)行比較,還報(bào)告了沒有任何額外訓(xùn)練的原始指令調(diào)整模型的性能。

研究團(tuán)隊(duì)報(bào)告了BFCL基準(zhǔn)測(cè)試的Live和Non-Live類別的平均性能。如預(yù)期的那樣,較大的模型在兩種評(píng)估設(shè)置中始終優(yōu)于較小的模型。值得注意的是,對(duì)于較小的模型(0.5B和1.5B),后訓(xùn)練的性能改進(jìn)有限,而較大的模型表現(xiàn)出顯著的增益。這些發(fā)現(xiàn)表明,R1風(fēng)格的訓(xùn)練方法隨著模型大小的增加而更有效地?cái)U(kuò)展。

泛化能力:研究團(tuán)隊(duì)進(jìn)一步評(píng)估了不同骨干LLM的影響,以研究所提訓(xùn)練方法的泛化能力。除了Qwen系列,還包括使用基于LLaMA的模型的實(shí)驗(yàn):LLaMA3-8B-Instruct和LLaMA3.1-8B-Instruct。這些評(píng)估在BFCL基準(zhǔn)測(cè)試上進(jìn)行。研究發(fā)現(xiàn),在相同的模型規(guī)模下,Qwen2.5-Instruct顯著優(yōu)于兩種LLaMA變體。這種優(yōu)勢(shì)可能是由于Qwen固有的更強(qiáng)推理能力,正如Gandhi等人(2025)先前觀察到的那樣。因此,R1風(fēng)格的訓(xùn)練范式能夠在應(yīng)用于Qwen時(shí)引出更好的性能。

消融研究

獎(jiǎng)勵(lì)設(shè)計(jì)的消融:為評(píng)估獎(jiǎng)勵(lì)粒度如何影響模型行為,研究團(tuán)隊(duì)在兩種獎(jiǎng)勵(lì)方案下評(píng)估了Tool-N1-7B:細(xì)粒度和二元。細(xì)粒度設(shè)置提供部分獎(jiǎng)勵(lì),即使最終函數(shù)調(diào)用不正確,正確的推理格式也提供0.2的獎(jiǎng)勵(lì),匹配函數(shù)名稱再提供0.2的額外獎(jiǎng)勵(lì)。相比之下,二元設(shè)置僅在所有組件都正確時(shí)給予1.0的獎(jiǎng)勵(lì),包括推理、函數(shù)名稱和參數(shù)。Tool-N1在二元獎(jiǎng)勵(lì)下始終取得更好的性能,特別是在Live子集上(80.38%對(duì)76.61%),這涉及更現(xiàn)實(shí)的輸入。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

研究團(tuán)隊(duì)將這歸因于減少了獎(jiǎng)勵(lì)黑客行為:在細(xì)粒度方案下,模型可能過度擬合表面線索,如格式化或部分匹配,而不確保完全執(zhí)行正確性。此外,在二元設(shè)置中,觀察到移除推理格式約束顯著損害了性能(從80.38%下降到76.24%)。這突顯了結(jié)構(gòu)化推理在引導(dǎo)Tool-N1-7B實(shí)現(xiàn)可靠和可泛化工具使用方面的關(guān)鍵作用,特別是在復(fù)雜的真實(shí)世界場(chǎng)景中。

訓(xùn)練數(shù)據(jù)組成的消融:研究團(tuán)隊(duì)還調(diào)查了不同數(shù)據(jù)組成策略如何影響B(tài)FCL基準(zhǔn)測(cè)試的性能。實(shí)驗(yàn)使用Tool-N1-7B模型進(jìn)行。主要發(fā)現(xiàn)如下:(1)與原始模型(Qwen2.5-7B-Instruct)相比,R1風(fēng)格的訓(xùn)練顯著增強(qiáng)了工具調(diào)用能力;(2)ToolACE數(shù)據(jù)在實(shí)時(shí)設(shè)置中產(chǎn)生了特別強(qiáng)的改進(jìn);(3)與使用相同數(shù)據(jù)進(jìn)行SFT訓(xùn)練的模型相比,R1風(fēng)格的訓(xùn)練始終產(chǎn)生更好的性能。具體來說,僅在xLAM數(shù)據(jù)上訓(xùn)練的Tool-N1-7B模型比xLAM-8B SFT模型表現(xiàn)好6.36%,僅在ToolACE子集上訓(xùn)練的Tool-N1-7B模型比ToolACE-8B SFT模型表現(xiàn)好1.62%,盡管只使用了數(shù)據(jù)的一個(gè)子集。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

SFT還是RL?:研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)系統(tǒng)研究,比較了純RL、監(jiān)督微調(diào)(SFT)和常用的SFT-then-RL流程。使用5,518個(gè)提煉的推理軌跡進(jìn)行分析,發(fā)現(xiàn):(1)盡管在許多領(lǐng)域,對(duì)推理軌跡進(jìn)行SFT然后進(jìn)行RL的組合通常被認(rèn)為是最佳實(shí)踐,但在相等的數(shù)據(jù)預(yù)算下,在工具調(diào)用設(shè)置中沒有觀察到性能改進(jìn);(2)在相等的數(shù)據(jù)預(yù)算下,純RL優(yōu)于Reason-SFT和No-Reason SFT;(3)有趣的是,No-Reason SFT的表現(xiàn)僅比Reason-SFT略差,表明在SFT期間提供推理軌跡提供的額外好處有限。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

結(jié)論與未來展望

Nemotron-Research-Tool-N1引入了一系列使用基于規(guī)則的強(qiáng)化學(xué)習(xí)訓(xùn)練的工具使用型語言模型。與依賴監(jiān)督微調(diào)的先前方法不同,Nemotron-Research-Tool-N1利用僅監(jiān)督最終答案和推理結(jié)構(gòu)格式的獎(jiǎng)勵(lì)函數(shù)。這使模型能夠在不需要注釋推理軌跡的情況下學(xué)習(xí)有效的推理策略。

實(shí)驗(yàn)結(jié)果表明,Nemotron-Research-Tool-N1在多個(gè)基準(zhǔn)測(cè)試中始終優(yōu)于現(xiàn)有基線,包括BFCL和API-Bank。此外,當(dāng)在相同數(shù)據(jù)上訓(xùn)練時(shí),使用R1風(fēng)格強(qiáng)化學(xué)習(xí)的模型比其SFT訓(xùn)練的對(duì)應(yīng)物實(shí)現(xiàn)了更優(yōu)越的性能,肯定了基于強(qiáng)化的訓(xùn)練相對(duì)于SFT的好處。

這項(xiàng)研究為工具使用型語言模型的訓(xùn)練提供了一個(gè)新的范式,強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)在培養(yǎng)模型推理能力方面的潛力。未來的研究方向可能包括探索更復(fù)雜的獎(jiǎng)勵(lì)函數(shù)、集成多模態(tài)工具和擴(kuò)展到更廣泛的應(yīng)用領(lǐng)域。

論文:???https://arxiv.org/abs/2505.00024v1???

GitHub:???https://github.com/NVlabs/Tool-N1??

本文轉(zhuǎn)載自???頓數(shù)AI???,作者:蔥蔥

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产欧美日韩亚洲精品| 亚洲视频在线观看免费| 精品视频在线观看一区| 青青草免费观看免费视频在线| 久久精品中文| 久久精品视频播放| 在线天堂www在线国语对白| 777午夜精品电影免费看| 亚洲人亚洲人成电影网站色| 激情五月综合色婷婷一区二区 | 深夜福利视频一区| 另类欧美日韩国产在线| 欧美激情伊人电影| 中文字幕欧美激情极品| 97青娱国产盛宴精品视频| 91国产免费看| 成人午夜视频在线观看免费| 国产免费av在线| 成人激情文学综合网| 国产精品久久婷婷六月丁香| 久久精品视频国产| 97国产精品| 日韩精品在线免费观看| 黑人巨大猛交丰满少妇| www.精品国产| 色哟哟一区二区| 人妻无码久久一区二区三区免费| 美女隐私在线观看| 国产亚洲va综合人人澡精品| 好吊色欧美一区二区三区| av手机免费看| 久久99精品久久只有精品| 日韩免费在线免费观看| 免费看日韩毛片| 国产精品v亚洲精品v日韩精品| 色悠悠久久久久| 91中文字幕永久在线| 国产毛片精品| 精品蜜桃在线看| 小早川怜子一区二区三区| 国产情侣一区二区三区| 欧洲日韩一区二区三区| 欧美日韩在线视频一区二区三区| 欧美人动性xxxxz0oz| 亚洲三级免费电影| 中文字幕日韩精品一区二区| a天堂在线资源| 国产亚洲女人久久久久毛片| 欧美二级三级| 三级在线视频| 久久香蕉国产线看观看99| 久99久在线| 你懂的网站在线| 99久久久精品| 精品国产第一页| 四虎精品成人免费网站| 91香蕉视频在线| 久久99精品久久久久久秒播放器| 欧美一级片免费| 成人一区二区三区在线观看| 国产精品久久亚洲7777| 天堂中文在线资源| 91网页版在线| 日韩视频在线观看国产| 97视频在线观看网站| 中文在线免费一区三区高中清不卡| 欧洲亚洲一区| 在线日本视频| 亚洲人成网站精品片在线观看| 国产系列第一页| 天天色天天射天天综合网| 一区二区高清在线| 午夜精品久久久久久久无码| 欧美专区福利免费| 欧美视频一区二区在线观看| 国模私拍视频在线观看| 老司机亚洲精品一区二区| 日韩欧美国产一区二区三区| 性久久久久久久久久久| 精品高清久久| 日韩一区二区久久久| 免费毛片在线播放免费| 亚洲免费黄色| 国产精品福利在线| av男人天堂av| 91丨九色丨国产丨porny| 日韩偷拍一区二区| 香蕉久久aⅴ一区二区三区| 婷婷亚洲久悠悠色悠在线播放| 国产a视频免费观看| 久久久久毛片| 日韩不卡中文字幕| 日日操免费视频| 在线欧美福利| 国产成人精品综合| 国产精品视频一二区| 99精品1区2区| 在线观看日韩羞羞视频| 阿v视频在线观看| 欧美日韩高清不卡| 免费黄色三级网站| 国产精品成人av| 欧美一级高清免费播放| 国产又色又爽又黄又免费| av中文字幕在线不卡| 亚洲一区二区三区色| av中文在线资源库| 欧美精品电影在线播放| 短视频在线观看| 欧美+日本+国产+在线a∨观看| 琪琪第一精品导航| 亚洲国产综合网| 国产精品久久久久影院亚瑟| 波多野结衣家庭教师在线播放| 99er精品视频| 亚洲色图第三页| 国内免费精品视频| 国产二区国产一区在线观看| 婷婷五月色综合| 在线能看的av网址| 欧美刺激脚交jootjob| jizzjizz日本少妇| 日韩一区精品字幕| 久久久7777| 51漫画成人app入口| 欧美卡1卡2卡| 91导航在线观看| 麻豆91精品| 久久久久久久久久码影片| 午夜伦理大片视频在线观看| 欧美日本一区二区| 99精品欧美一区二区| 一区二区三区国产在线| 国产99在线免费| av毛片在线播放| 制服丝袜av成人在线看| 婷婷丁香综合网| 秋霞av亚洲一区二区三| 日韩不卡av| 高清电影一区| 国产香蕉一区二区三区在线视频 | 成年人在线网站| 欧美成va人片在线观看| 欧美被狂躁喷白浆精品| 国产一区二区三区黄视频 | 成人精品电影在线| 亚洲区在线播放| 波多野结衣不卡| 国产区在线观看成人精品| 六月丁香婷婷在线| 久久99国产精品视频| 国产成人短视频| 国产视频网站在线| 欧美午夜理伦三级在线观看| 日韩黄色中文字幕| 韩日精品视频一区| 国产盗摄视频在线观看| 深夜福利一区| 国内外成人免费激情在线视频网站| www.av在线.com| 亚洲福利视频一区| 黄色短视频在线观看| 亚洲综合激情| 日韩欧美99| 57pao成人永久免费| 欧美巨猛xxxx猛交黑人97人| 亚洲精品国产精品国| 午夜国产精品一区| 在线免费观看日韩av| 秋霞av亚洲一区二区三| 乱子伦一区二区| 欧美亚洲tv| 国产精品99导航| 国产二区三区在线| 精品电影一区二区三区| 国产成人在线免费视频| 久久九九全国免费| 国产美女视频免费看| 欧美精品三级| 日本在线播放不卡| 麻豆一区在线| 7777精品视频| 毛片网站在线免费观看| 精品国产一区二区三区久久久蜜月 | 成人在线播放av| 丁香花视频在线观看| 亚洲欧美日韩图片| 国产区精品在线| 婷婷国产在线综合| 久久久99999| 99久久精品免费看国产免费软件| 国产天堂在线播放| 欧美国产先锋| 天天综合狠狠精品| 成人性生交大片免费看中文视频| 欧美在线不卡区| av网站网址在线观看| 日韩精品在线免费观看| va视频在线观看| 在线国产电影不卡| 久久一区二区三| 国产精品免费aⅴ片在线观看| 中国黄色片视频| 久久99精品久久久久久国产越南| 波多野结衣av一区二区全免费观看| 蜜乳av综合| eeuss一区二区三区| 欧美日韩破处视频| 国产91网红主播在线观看| 一二三四区在线观看| 在线播放日韩精品| 污污的视频网站在线观看| 宅男在线国产精品| 中文在线观看av| 欧美日韩亚洲一区二区| 91精品国产高清一区二区三蜜臀| 国产欧美日韩综合精品一区二区| 艳妇乳肉豪妇荡乳xxx| 国产一区在线观看视频| 一区二区三区国产免费| 国产日本精品| 美女扒开大腿让男人桶| 小处雏高清一区二区三区| 视频一区视频二区视频三区视频四区国产 | 亚洲第五色综合网| 国产人妖在线播放| 欧美日韩成人综合天天影院| 神马久久久久久久| 精品国产精品自拍| 国产真人真事毛片| 亚洲在线观看免费| 曰本女人与公拘交酡| 亚洲人亚洲人成电影网站色| 中文字幕91视频| 国产欧美一区二区精品婷婷| 国产熟妇久久777777| 91女神在线视频| 日本xxxx裸体xxxx| www久久久久| 无码人妻精品一区二区三区温州| 国产成人aaaa| xxxxwww一片| 成人短视频下载| 香港三日本8a三级少妇三级99| 成人小视频在线| www.555国产精品免费| 成人午夜免费av| 久久久久9999| av欧美精品.com| 成人网站免费观看| 久久久影视传媒| 娇妻被老王脔到高潮失禁视频| 久久精品亚洲精品国产欧美 | 国产精品狼人色视频一区| 日韩成人av电影| 国产精品久久一区| 国产精品亚洲欧美一级在线| 91青青草免费在线看| 成人爽a毛片| 久久资源av| 国产精品一区二区av交换| 亚洲成人自拍视频| 99久久久久国产精品| 欧美 日韩 国产精品| 在线 亚洲欧美在线综合一区| 国产欧美日韩网站| 久久久精品日韩| 中文字幕天天干| 国产福利91精品| 欧美做受喷浆在线观看| 国产精品欧美精品| 欧美日韩在线视频免费播放| 亚洲成年人网站在线观看| www.com亚洲| 91精品国产综合久久香蕉麻豆| www.国产免费| 精品亚洲一区二区| 黄网站在线播放| 久久久久免费视频| 国产一区二区三区朝在线观看| 91精品在线观看视频| 成人看片爽爽爽| 欧美国产一区二区在线| 亚洲女同中文字幕| av之家在线观看| 久久精品国产第一区二区三区| 制服.丝袜.亚洲.中文.综合懂 | 欧美日韩日本网| 日韩一区电影| 日韩精品在线观看av| 久久精品1区| 黄色片子免费看| 久久精品一区二区| 欧美日韩在线视频免费| 欧洲一区在线电影| 日本黄色三级视频| 中文字幕亚洲二区| 国产精品电影| 91日本在线观看| 精品国产日韩欧美| 美女扒开大腿让男人桶| 精品一区二区三区香蕉蜜桃| 免费无码一区二区三区| 亚洲三级在线免费| 中文字幕人妻色偷偷久久| 亚洲福利在线观看| 精品国产白色丝袜高跟鞋| 欧美一乱一性一交一视频| 精品国产伦一区二区三区观看说明| 免费精品视频一区| 激情欧美一区二区三区| aaaaaaaa毛片| 中文字幕第一页久久| 国产九色在线播放九色| 日韩免费视频一区| 老司机99精品99| 国产精品久久久久久久久粉嫩av| 猫咪成人在线观看| 中文字幕第50页| 久久精品理论片| 熟女高潮一区二区三区| 精品久久久香蕉免费精品视频| 国产熟女一区二区丰满| 中文字幕久久久av一区| 成人在线视频播放| 久久伊人一区| 一本久久综合| 日韩av手机在线播放| 亚洲一区二区三区四区五区中文 | 久久综合久久综合亚洲| 国产一级片视频| 日韩精品专区在线影院重磅| 国产秀色在线www免费观看| 国产深夜精品福利| 菠萝蜜一区二区| 日本成人中文字幕在线| 久久嫩草精品久久久精品一| 五月天婷婷久久| 日韩国产在线看| 亚洲妇女成熟| 欧美激情一区二区三区在线视频| 99热这里只有成人精品国产| 成人做爰www看视频软件| 亚洲成人自拍一区| 亚洲欧美综合一区二区| 日本精品久久久久久久| 精品freesex老太交| 妺妺窝人体色www在线小说| 91在线国产观看| 日本熟女毛茸茸| 国产亚洲精品激情久久| 国产精品久久久久77777丨| 亚洲精品一区二区三| 国产最新精品精品你懂的| 精品国产国产综合精品| 9191国产精品| caoporn免费在线| 国产精品一级久久久| 国产精品久久久免费| 香蕉视频久久久| 欧美狂野另类xxxxoooo| 丰满的护士2在线观看高清| 国内一区二区三区在线视频| 免费一级欧美片在线播放| japanese中文字幕| 在线播放亚洲一区| 久草在线视频福利| 欧美二区在线看| 激情国产一区二区| 国产精品成人久久| 亚洲欧美综合区自拍另类| 欧美天堂一区| 国产曰肥老太婆无遮挡| 国产亚洲一二三区| 国产精品无码天天爽视频| 久久久久久久999| 精品中文字幕一区二区三区av| 欧美大尺度做爰床戏| 亚洲激情六月丁香| 欧美色视频免费| 成人性生交大片免费看视频直播 | 欧美日韩国产综合久久| 最新日本在线观看| 欧美日韩高清免费| 国内精品伊人久久久久av影院| 国产亚洲精品码| 国产亚洲美女久久| 日本少妇精品亚洲第一区| 国产亚洲综合视频| 亚洲少妇最新在线视频| 偷拍自拍在线| 亚洲伊人久久大香线蕉av| 性感少妇一区| 91porn在线视频| 国产一区二区三区在线视频| 高清日韩欧美| 日韩欧美国产片| 日韩欧亚中文在线| 日本片在线观看| 亚洲一区二区三区加勒比|