精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節(jié)跳動(dòng) AdaCoT:基于強(qiáng)化學(xué)習(xí)的自適應(yīng)推理觸發(fā)方法

人工智能
在人工智能領(lǐng)域,大型語言模型(LLM)正以前所未有的速度發(fā)展。然而,這些模型在處理復(fù)雜推理任務(wù)時(shí)仍面臨諸多挑戰(zhàn),如數(shù)學(xué)問題求解、邏輯推理等場景下的表現(xiàn)不足。而字節(jié)跳動(dòng)提出的 AdaCoT 框架,為 LLM 的高效推理提供了新的思路。

大家好,我是肆〇柒。在當(dāng)下,大型語言模型(LLM)憑借其強(qiáng)大的語言理解和生成能力,在眾多領(lǐng)域展現(xiàn)出了巨大的潛力。然而,盡管 LLM 在處理常規(guī)任務(wù)時(shí)表現(xiàn)出色,但在面對(duì)復(fù)雜推理任務(wù)時(shí),卻常常暴露出明顯的短板。

例如,在解決數(shù)學(xué)問題時(shí),LLM 需要進(jìn)行多步邏輯推理和精確的數(shù)值計(jì)算,但在這一過程中,模型往往會(huì)因?yàn)檫壿嬫湕l的斷裂或計(jì)算步驟的遺漏而導(dǎo)致錯(cuò)誤答案。類似的情況也出現(xiàn)在邏輯推理和創(chuàng)造性寫作等任務(wù)中。為了克服這一難題,研究者們提出了 Chain-of-Thought(CoT)推理方法。CoT 方法通過引導(dǎo)模型逐步輸出中間推理步驟,最終得出答案,從而顯著提升了模型在復(fù)雜任務(wù)中的表現(xiàn)。相關(guān)實(shí)驗(yàn)表明,在采用 CoT 方法后,LLM 在數(shù)學(xué)問題求解等復(fù)雜任務(wù)上的準(zhǔn)確率得到了顯著提升。

然而,CoT 推理方法并非完美無缺。其主要問題在于,無論查詢的復(fù)雜程度如何,CoT 都會(huì)生成 lengthy 的推理步驟,這導(dǎo)致了巨大的計(jì)算成本和低下的運(yùn)行效率。例如,對(duì)于簡單的算術(shù)問題 “1+1=?” 或者一些簡單的事實(shí)性查詢,CoT 方法依然會(huì)啟動(dòng)復(fù)雜的推理過程,這無疑是對(duì)計(jì)算資源的浪費(fèi)。這種無差別的推理觸發(fā)機(jī)制,使得 LLM 在實(shí)際應(yīng)用場景中面臨著巨大的推理成本壓力,限制了其在資源敏感型環(huán)境下的廣泛應(yīng)用。

圖片

針對(duì)上述問題,我在瀏覽論文的時(shí)候,發(fā)現(xiàn)了字節(jié)跳動(dòng)的一篇關(guān)于模型自適應(yīng)思考的框架,叫 AdaCoT。它通過將自適應(yīng)推理觸發(fā)機(jī)制與強(qiáng)化學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)了在模型性能和 CoT 調(diào)用成本之間的有效平衡。AdaCoT 框架的核心思想是根據(jù)查詢的復(fù)雜程度,智能地決定是否啟動(dòng) CoT 推理過程,從而在保證復(fù)雜任務(wù)高性能的同時(shí),大幅降低簡單查詢的推理成本。字節(jié)的論文在今年之前很少見到,最近倒是讀到好幾篇。下面我們一起來看看字節(jié)這篇介紹 AdaCoT 的論文都說了什么。

相關(guān)工作回顧

CoT 推理的發(fā)展歷程

CoT 推理方法自提出以來,便在人工智能領(lǐng)域引起了廣泛關(guān)注。早期的 LLM 在處理復(fù)雜任務(wù)時(shí),往往直接生成最終答案,忽略了中間推理過程,這導(dǎo)致模型在面對(duì)多步邏輯推理任務(wù)時(shí)容易出錯(cuò)。而 CoT 方法的出現(xiàn),徹底改變了這一局面。通過模仿人類解決問題時(shí)的逐步思考過程,CoT 方法引導(dǎo)模型先輸出中間推理步驟,再得出最終答案。這一創(chuàng)新方法在多個(gè)復(fù)雜任務(wù)中展現(xiàn)出了顯著的優(yōu)勢。

在數(shù)學(xué)推理領(lǐng)域,CoT 方法通過引導(dǎo)模型進(jìn)行分步計(jì)算和邏輯推理,大幅提升了模型在解決算術(shù)問題、代數(shù)方程求解、幾何證明等任務(wù)上的準(zhǔn)確率。例如,在某項(xiàng)關(guān)于數(shù)學(xué)問題求解的研究中,采用 CoT 方法后,模型的準(zhǔn)確率從 60% 提升至 85%。同樣,在邏輯推理任務(wù)中,CoT 方法幫助模型更好地梳理邏輯鏈條,避免了因中間步驟缺失而導(dǎo)致的錯(cuò)誤。在創(chuàng)造性寫作任務(wù)中,CoT 方法使得模型能夠先構(gòu)思故事大綱、角色設(shè)定等關(guān)鍵要素,再逐步展開情節(jié)創(chuàng)作,從而生成更加連貫、富有邏輯性的作品。

此外,CoT 方法還在自然語言推理、代碼生成與調(diào)試、多輪對(duì)話等眾多領(lǐng)域展現(xiàn)出了廣泛的應(yīng)用前景。隨著研究的不斷深入,CoT 方法也在不斷進(jìn)化。從最初的簡單分步提示,到后來結(jié)合多種提示策略和優(yōu)化方法,CoT 方法在提升模型性能方面取得了顯著進(jìn)展。例如,研究者們提出了多種改進(jìn)的 CoT 方法,如通過引入多種角度的提示信息、采用動(dòng)態(tài)調(diào)整提示策略等,使得模型在不同任務(wù)中的表現(xiàn)更加出色。

然而,盡管 CoT 方法在提升模型性能方面取得了巨大成功,但其高計(jì)算成本和低效率問題也日益凸顯。尤其是在處理大規(guī)模數(shù)據(jù)和實(shí)時(shí)性要求較高的應(yīng)用場景中,CoT 方法的這一缺點(diǎn)成為了限制其進(jìn)一步發(fā)展的瓶頸。

現(xiàn)有 CoT 優(yōu)化方法的局限性剖析

為了降低 CoT 推理的計(jì)算成本,研究者們提出了多種優(yōu)化方法。這些方法大致可以分為以下幾類:

1. 縮短 CoT 長度 :一些方法試圖通過限制推理步驟的數(shù)量或者優(yōu)化推理路徑來縮短 CoT 的長度。例如,通過設(shè)定最大推理步數(shù)限制,或者采用啟發(fā)式搜索算法尋找更短的推理路徑。然而,這些方法往往在縮短長度的同時(shí),可能會(huì)導(dǎo)致推理過程的不完整性,進(jìn)而影響模型的準(zhǔn)確率。例如,在某項(xiàng)實(shí)驗(yàn)中,當(dāng)將推理步驟限制在 3 步以內(nèi)時(shí),模型在復(fù)雜數(shù)學(xué)問題求解任務(wù)上的準(zhǔn)確率下降了 20%。

2. 調(diào)整輸出結(jié)構(gòu) :另一些方法通過對(duì) CoT 輸出結(jié)構(gòu)進(jìn)行調(diào)整來降低計(jì)算成本。例如,采用分層輸出結(jié)構(gòu),將關(guān)鍵推理步驟提取出來,減少冗余信息。但這種方法在處理復(fù)雜多變的查詢時(shí),可能會(huì)因?yàn)檩敵鼋Y(jié)構(gòu)的固定而無法適應(yīng)不同的推理需求,導(dǎo)致模型在某些場景下的性能受限。

3. 使用顯式指令或選擇機(jī)制 :還有一些方法通過給模型提供顯式的指令或者設(shè)計(jì)特定的選擇機(jī)制來控制 CoT 的使用。例如,在查詢中明確指示模型是否需要進(jìn)行詳細(xì)推理,或者根據(jù)預(yù)定義的規(guī)則選擇是否啟動(dòng) CoT。然而,這些方法往往需要人工干預(yù)或者對(duì)查詢進(jìn)行預(yù)分類,缺乏自動(dòng)化和自適應(yīng)的能力。在實(shí)際應(yīng)用中,查詢的復(fù)雜性和多樣性使得人工預(yù)分類變得不切實(shí)際,而預(yù)定義規(guī)則又難以適應(yīng)各種不同的情況。

綜上所述,現(xiàn)有的 CoT 優(yōu)化方法在適應(yīng)查詢復(fù)雜性變化、動(dòng)態(tài)調(diào)整推理深度等方面存在明顯的局限性。它們無法根據(jù)查詢的具體復(fù)雜程度智能地決定是否啟動(dòng) CoT 推理過程,從而在模型性能和計(jì)算成本之間實(shí)現(xiàn)最佳平衡。這些局限性為 AdaCoT 框架的提出提供了充分的對(duì)比依據(jù)和研究空間。

AdaCoT 框架

核心思想與目標(biāo)定位

AdaCoT 框架的核心思想是將自適應(yīng)推理觸發(fā)視為一個(gè)多目標(biāo)優(yōu)化問題。在這一框架下,模型需要在兩個(gè)相互競爭的目標(biāo)之間找到最佳平衡:一是最大化模型性能,即提高對(duì)復(fù)雜查詢的推理準(zhǔn)確率;二是最小化 CoT 使用成本,即降低對(duì)簡單查詢的推理資源消耗。為了實(shí)現(xiàn)這一目標(biāo),AdaCoT 框架采用了 Pareto 優(yōu)化理論作為其理論基礎(chǔ)。

Pareto 優(yōu)化是一種在多目標(biāo)優(yōu)化問題中尋找最優(yōu)解的方法。在 AdaCoT 框架中,通過構(gòu)建合適的優(yōu)化模型,將模型性能和 CoT 使用成本作為兩個(gè)優(yōu)化目標(biāo),尋求在不同目標(biāo)之間達(dá)到 Pareto 前沿的解決方案。具體來說,AdaCoT 框架通過定義模型性能指標(biāo)和 CoT 使用成本指標(biāo),構(gòu)建了一個(gè)多目標(biāo)優(yōu)化函數(shù),并利用強(qiáng)化學(xué)習(xí)方法來動(dòng)態(tài)調(diào)整模型的推理觸發(fā)決策邊界。

AdaCoT 框架的目標(biāo)是使得模型能夠在面對(duì)不同復(fù)雜程度的查詢時(shí),自適應(yīng)地觸發(fā) CoT 推理過程。對(duì)于復(fù)雜查詢,模型將啟動(dòng)詳細(xì)的推理步驟,以確保準(zhǔn)確的答案;而對(duì)于簡單查詢,則直接給出答案,避免不必要的推理開銷。通過這種方式,AdaCoT 框架是為了實(shí)現(xiàn)模型性能和計(jì)算成本之間的最佳平衡,從而提高 LLM 在實(shí)際應(yīng)用中的效率和經(jīng)濟(jì)性。

訓(xùn)練流程解析

1. 數(shù)據(jù)準(zhǔn)備與有監(jiān)督微調(diào)(SFT)

在數(shù)據(jù)準(zhǔn)備階段,AdaCoT 框架采用了一個(gè)輔助模型來對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注。這個(gè)輔助模型基于一組預(yù)定義的原則,如查詢復(fù)雜性、預(yù)期推理深度和領(lǐng)域等,對(duì)查詢進(jìn)行評(píng)估,判斷其是否需要 CoT 推理。具體來說,輔助模型會(huì)分析查詢的結(jié)構(gòu)、涉及的知識(shí)領(lǐng)域、可能的推理步驟等因素,將查詢標(biāo)記為 “需要 CoT 推理” 或 “不需要 CoT 推理”。

例如,對(duì)于一個(gè)數(shù)學(xué)方程求解的查詢,輔助模型會(huì)根據(jù)方程的類型、變量數(shù)量、運(yùn)算復(fù)雜性等因素,判斷其需要多步推理過程,從而標(biāo)記為 “需要 CoT 推理”。而對(duì)于一個(gè)簡單的事實(shí)性查詢,如 “誰是美國第一任總統(tǒng)?”,則會(huì)被標(biāo)記為 “不需要 CoT 推理”。

基于這些標(biāo)注結(jié)果,SFT 數(shù)據(jù)集被構(gòu)建為兩種結(jié)構(gòu)。對(duì)于需要 CoT 推理的查詢,其對(duì)應(yīng)的響應(yīng)將包含完整的推理過程,格式為 “think”reasoning_steps”/think”answer”。而對(duì)于不需要 CoT 推理的查詢,響應(yīng)則省略了明確的推理過程,格式為 “think”/think”answer”。

SFT 階段的訓(xùn)練過程類似于傳統(tǒng)的監(jiān)督學(xué)習(xí)。模型通過學(xué)習(xí) SFT 數(shù)據(jù)集中的輸入 - 輸出對(duì),初步建立起對(duì) CoT 推理適用場景的認(rèn)知。這一階段的訓(xùn)練使模型能夠根據(jù)輸入查詢的特征,初步判斷是否需要啟動(dòng) CoT 推理過程,并生成相應(yīng)的響應(yīng)格式。SFT 階段的訓(xùn)練對(duì)于模型的性能提升具有基礎(chǔ)性作用,它為后續(xù)的強(qiáng)化學(xué)習(xí)階段提供了良好的初始化。

為了評(píng)估 SFT 階段的訓(xùn)練效果,研究者們采用了一系列評(píng)估指標(biāo),如準(zhǔn)確率、F1 分?jǐn)?shù)、召回率和精確率等。通過在驗(yàn)證集上的測試,可以定量地分析模型在初步 CoT 推理觸發(fā)決策方面的能力。例如,在某次實(shí)驗(yàn)中,經(jīng)過 SFT 階段訓(xùn)練后的模型在驗(yàn)證集上的準(zhǔn)確率達(dá)到 75%,相較于未經(jīng)過 SFT 訓(xùn)練的模型提升了 15 個(gè)百分點(diǎn)。

2. 強(qiáng)化學(xué)習(xí)(RL)階段

強(qiáng)化學(xué)習(xí)階段是 AdaCoT 框架的核心部分。在這一階段,模型通過與環(huán)境的交互,不斷調(diào)整其 CoT 推理觸發(fā)策略,以實(shí)現(xiàn)模型性能和 CoT 使用成本之間的最優(yōu)平衡。

獎(jiǎng)勵(lì)函數(shù)是 RL 階段的關(guān)鍵組成部分。其具體構(gòu)成如下:

  •  Rbase(x, r) :這是基礎(chǔ)獎(jiǎng)勵(lì)部分,用于衡量模型生成的響應(yīng)在質(zhì)量上的優(yōu)劣。它通常基于一些預(yù)定義的評(píng)估指標(biāo),如響應(yīng)的準(zhǔn)確性、相關(guān)性、連貫性等。例如,在數(shù)學(xué)問題求解任務(wù)中,如果模型的最終答案正確,Rbase(x, r) 將獲得較高的分?jǐn)?shù);如果答案錯(cuò)誤,則得分較低。具體的計(jì)算方法可以表示為:

      a.對(duì)于數(shù)學(xué)問題求解任務(wù),Rbase(x, r) = 1(答案正確)或 0(答案錯(cuò)誤)。

      b. 對(duì)于自然語言推理任務(wù),Rbase(x, r) 可以根據(jù)語義相似度計(jì)算,例如采用余弦相似度衡量模型生成的響應(yīng)與參考答案之間的語義相似度,相似度越高,Rbase(x, r) 越高。

      c.對(duì)于創(chuàng)造性寫作任務(wù),Rbase(x, r) 可以通過一些文本質(zhì)量評(píng)估指標(biāo)來確定,如文本的連貫性、豐富度等,采用預(yù)訓(xùn)練的質(zhì)量評(píng)估模型進(jìn)行打分。

  • Pmiss(x, r) :這是一個(gè)二元懲罰項(xiàng),用于對(duì)模型在需要 CoT 推理時(shí)未啟動(dòng) CoT 推理的情況進(jìn)行懲罰。當(dāng)模型面對(duì)復(fù)雜查詢而未能觸發(fā) CoT 推理,導(dǎo)致答案錯(cuò)誤或質(zhì)量低下時(shí),Pmiss(x, r) 將對(duì)模型進(jìn)行懲罰,懲罰力度由懲罰系數(shù) α1 控制。例如,若模型對(duì)一個(gè)需要分步推理的數(shù)學(xué)問題直接給出了錯(cuò)誤答案,則 Pmiss(x, r) = 1,模型將受到懲罰。
  • Pover(x, r) :另一個(gè)二元懲罰項(xiàng),用于對(duì)模型在不需要 CoT 推理時(shí)錯(cuò)誤地啟動(dòng) CoT 推理的情況進(jìn)行懲罰。當(dāng)模型對(duì)簡單查詢啟動(dòng)了不必要的 CoT 推理過程時(shí),Pover(x, r) 將發(fā)揮作用,懲罰系數(shù)為 α2。例如,模型對(duì) “誰是美國第一任總統(tǒng)?” 這類簡單事實(shí)性查詢啟動(dòng)了 CoT 推理,則 Pover(x, r) = 1,模型將受到相應(yīng)的懲罰。
  • Pfmt(r) :用于對(duì)響應(yīng)格式錯(cuò)誤的情況進(jìn)行懲罰。如果模型生成的響應(yīng)不符合預(yù)定義的格式要求,如在需要 CoT 推理時(shí)未正確輸出推理步驟,或者在不需要 CoT 推理時(shí)出現(xiàn)了多余的推理內(nèi)容,Pfmt(r) 將對(duì)模型進(jìn)行懲罰,懲罰系數(shù)為 γ。例如,模型在不需要 CoT 推理時(shí),生成的響應(yīng)中包含了 “think” 標(biāo)簽內(nèi)的多余推理內(nèi)容,則 Pfmt(r) = 1,模型將受到懲罰。

通過調(diào)整懲罰系數(shù) α1、α2 和 γ,可以引導(dǎo)模型在不同查詢復(fù)雜性下探索最優(yōu)的推理策略。例如,當(dāng)增加 α1 的值時(shí),模型將更加傾向于啟動(dòng) CoT 推理過程,以避免因錯(cuò)過 CoT 推理而導(dǎo)致的懲罰;而增加 α2 的值,則會(huì)使模型更加謹(jǐn)慎地啟動(dòng) CoT 推理,避免不必要的推理開銷。

在訓(xùn)練過程中,模型通過不斷地試錯(cuò)和學(xué)習(xí),逐步收斂到 Pareto 前沿的解決方案。具體來說,模型在與環(huán)境交互過程中,根據(jù)當(dāng)前的策略生成響應(yīng),并計(jì)算相應(yīng)的獎(jiǎng)勵(lì)值。然后,模型根據(jù)獎(jiǎng)勵(lì)值對(duì)策略進(jìn)行更新,以期在未來獲得更高的累計(jì)獎(jiǎng)勵(lì)。這一過程反復(fù)進(jìn)行,直到模型的策略在不同查詢復(fù)雜性下達(dá)到最優(yōu)平衡。

為了更詳細(xì)地說明獎(jiǎng)勵(lì)函數(shù)的計(jì)算方法和模型的決策機(jī)制,下面以一個(gè)具體的例子進(jìn)行說明:

假設(shè)我們有一個(gè)數(shù)學(xué)問題求解的查詢:“已知三角形的三邊長分別為 3、4、5,求這個(gè)三角形的面積。” 在訓(xùn)練過程中,模型可能會(huì)嘗試不同的策略:

  • 在某一次嘗試中,模型判斷這是一個(gè)簡單查詢,直接給出了答案 “6”。此時(shí),模型的響應(yīng)不符合 CoT 推理的格式要求(未包含推理步驟),但答案是正確的。在這種情況下,Rbase(x, r) = 1(答案正確),Pfmt(r) = 1(格式錯(cuò)誤),Pmiss(x, r) = 0(模型未觸發(fā) CoT 推理,但答案正確,未造成性能損失),Pover(x, r) = 0(模型未觸發(fā) CoT 推理,符合實(shí)際情況)。根據(jù)獎(jiǎng)勵(lì)函數(shù)公式,模型的總獎(jiǎng)勵(lì)值將受到 Pfmt(r) 的懲罰,模型會(huì)根據(jù)這一懲罰信號(hào)調(diào)整策略,增加對(duì)格式正確性的關(guān)注。
  • 在另一次嘗試中,模型啟動(dòng)了 CoT 推理過程,逐步計(jì)算半周長、應(yīng)用海倫公式等步驟,最終得出了正確答案。這時(shí),模型的響應(yīng)符合 CoT 推理的格式要求,Rbase(x, r) = 1(答案正確),Pfmt(r) = 0(格式正確),Pmiss(x, r) = 0(正確觸發(fā)了 CoT 推理),Pover(x, r) = 0(正確觸發(fā)了 CoT 推理)。模型獲得了較高的總獎(jiǎng)勵(lì)值,從而強(qiáng)化了這一正確的推理觸發(fā)策略。
  • 在又一次嘗試中,模型錯(cuò)誤地對(duì)一個(gè)需要 CoT 推理的復(fù)雜查詢(如一個(gè)需要多步邏輯推理的數(shù)學(xué)證明問題)未觸發(fā) CoT 推理,直接給出了錯(cuò)誤答案。此時(shí),Rbase(x, r) = 0(答案錯(cuò)誤),Pmiss(x, r) = 1(未觸發(fā) CoT 推理導(dǎo)致性能損失),Pfmt(r) = 0(格式符合簡單查詢的要求),Pover(x, r) = 0(未觸發(fā) CoT 推理)。模型的總獎(jiǎng)勵(lì)值較低,模型將根據(jù)這一反饋信號(hào)調(diào)整策略,增加對(duì)復(fù)雜查詢的 CoT 推理觸發(fā)概率。

通過這種方式,模型逐漸學(xué)習(xí)到對(duì)于不同類型的查詢,如何觸發(fā) CoT 推理能夠獲得更高的獎(jiǎng)勵(lì),從而實(shí)現(xiàn)了推理觸發(fā)策略的優(yōu)化。

Selective Loss Masking(SLM)技術(shù)是 RL 階段的另一個(gè)重要?jiǎng)?chuàng)新。在多階段 RL 培訓(xùn)過程中,尤其是在處理具有偏斜 CoT 分布的數(shù)據(jù)集(例如數(shù)學(xué)數(shù)據(jù)集,CoT 推理幾乎總是有益的)時(shí),模型可能會(huì)出現(xiàn)決策邊界崩潰的現(xiàn)象。即模型可能會(huì)退化為始終啟動(dòng)或始終不啟動(dòng) CoT 推理的同質(zhì)化行為,從而失去在早期培訓(xùn)階段學(xué)到的精細(xì)決策能力。

SLM 技術(shù)通過選擇性地屏蔽關(guān)鍵 “決策token” 的損失貢獻(xiàn)來解決這一問題。在 RL 訓(xùn)練過程中,當(dāng)模型的輸出接近決策token(即 “think” 標(biāo)簽)時(shí),SLM 會(huì)暫時(shí)忽略該token的損失計(jì)算。具體來說,SLM 通過以下步驟實(shí)現(xiàn):

  1.  識(shí)別決策token :在模型生成的響應(yīng)序列中,定位到表示 CoT 推理開始的 “think” 標(biāo)簽及其對(duì)應(yīng)的結(jié)束標(biāo)簽 “/think”。這兩個(gè)標(biāo)簽之間的內(nèi)容即為 CoT 推理部分,而 “think” 標(biāo)簽本身是決定是否啟動(dòng) CoT 推理的關(guān)鍵決策token。
  2.  屏蔽損失計(jì)算 :在計(jì)算損失函數(shù)時(shí),對(duì)于決策token “think” 的損失貢獻(xiàn)進(jìn)行屏蔽,即不將其納入總的損失計(jì)算中。這樣,模型在訓(xùn)練過程中不會(huì)因?yàn)閱我粵Q策token的錯(cuò)誤而受到過大的損失影響,從而能夠更好地保持對(duì) CoT 推理觸發(fā)比率和分布的穩(wěn)定性。
  3. 與模型優(yōu)化相結(jié)合 :SLM 技術(shù)與模型的優(yōu)化過程緊密結(jié)合。在每次迭代更新模型參數(shù)時(shí),SLM 確保模型在學(xué)習(xí)其他部分(如 CoT 推理內(nèi)容、最終答案等)的同時(shí),不會(huì)過度擬合于決策token的預(yù)測,從而維持了模型對(duì) CoT 推理觸發(fā)決策的泛化能力。

例如,在數(shù)學(xué)問題求解數(shù)據(jù)集的 RL 訓(xùn)練中,由于大部分查詢都需要 CoT 推理,模型可能會(huì)傾向于總是啟動(dòng) CoT 推理。通過應(yīng)用 SLM 技術(shù),當(dāng)模型在某些簡單查詢上錯(cuò)誤地啟動(dòng) CoT 推理時(shí),SLM 會(huì)屏蔽這一決策token的損失貢獻(xiàn),使得模型能夠有機(jī)會(huì)調(diào)整其策略,而不會(huì)因?yàn)檫@一錯(cuò)誤決策而導(dǎo)致整個(gè)訓(xùn)練過程的偏差過大。實(shí)驗(yàn)結(jié)果顯示,應(yīng)用 SLM 技術(shù)后,模型在保持 CoT 推理觸發(fā)比率方面表現(xiàn)出顯著的穩(wěn)定性提升,其自適應(yīng) CoT 推理觸發(fā)能力得到了有效增強(qiáng)。

實(shí)驗(yàn)評(píng)估

實(shí)驗(yàn)設(shè)置細(xì)化

實(shí)驗(yàn)所用的 LLM 基礎(chǔ)模型是一個(gè)內(nèi)部的 15B/150B 參數(shù)的 Mixture-of-Experts(MoE)模型。MoE 模型是一種高效的模型架構(gòu),通過在不同的輸入數(shù)據(jù)上激活不同的專家網(wǎng)絡(luò),從而在保持模型性能的同時(shí)降低了計(jì)算成本。該模型具有大規(guī)模的參數(shù)量,能夠捕捉復(fù)雜的語言模式和語義信息,為 AdaCoT 框架的實(shí)現(xiàn)提供了強(qiáng)大的基礎(chǔ)支持。

SFT 和 RL 訓(xùn)練數(shù)據(jù)集的構(gòu)建過程經(jīng)過精心設(shè)計(jì),以確保數(shù)據(jù)的多樣性和代表性。數(shù)據(jù)來源廣泛涵蓋了多個(gè)領(lǐng)域,包括數(shù)學(xué)、推理、專業(yè)學(xué)科(如法律、醫(yī)學(xué))、對(duì)話、創(chuàng)造性寫作和一般知識(shí)問答等。這種廣泛的領(lǐng)域覆蓋確保了模型能夠?qū)W習(xí)到不同類型任務(wù)的特征和需求,從而在實(shí)際應(yīng)用中具有更好的適應(yīng)性。

在數(shù)據(jù)集的構(gòu)建過程中,研究者們采用了原則引導(dǎo)的評(píng)估方法對(duì) CoT 必要性進(jìn)行標(biāo)注。具體來說,對(duì)于每個(gè)查詢,輔助模型根據(jù)預(yù)定義的原則(如查詢復(fù)雜性、預(yù)期推理深度、領(lǐng)域等)進(jìn)行評(píng)估,判斷其是否需要 CoT 推理。在 SFT 數(shù)據(jù)集的標(biāo)注過程中,大約 67% 的樣本被標(biāo)記為需要 CoT 推理,而在 RL 數(shù)據(jù)集中,這一比例約為 40%。這種標(biāo)注比例反映了不同數(shù)據(jù)集在查詢復(fù)雜性分布上的差異,同時(shí)也為模型在不同階段的訓(xùn)練提供了合適的指導(dǎo)。

實(shí)驗(yàn)評(píng)估涉及到 15 個(gè)開源基準(zhǔn)數(shù)據(jù)集,這些數(shù)據(jù)集在特性和評(píng)估指標(biāo)上各具特色。例如,MMLU-Pro 數(shù)據(jù)集是一個(gè)增強(qiáng)版的多任務(wù)語言理解基準(zhǔn)測試,專注于復(fù)雜推理問題;SuperGPQA 數(shù)據(jù)集則涵蓋了 285 個(gè)研究生學(xué)科的知識(shí)和推理能力評(píng)估;還有 AIME24 & AIME25 數(shù)據(jù)集,用于評(píng)估數(shù)學(xué)推理和問題解決能力。這些數(shù)據(jù)集從不同角度對(duì)模型的性能進(jìn)行了全面的測試,確保了評(píng)估結(jié)果的可靠性和有效性。

此外,研究者們還精心創(chuàng)建了一個(gè)包含 1000 個(gè)日常使用提示的測試集。這些提示涵蓋了各種類型的查詢,從簡單事實(shí)性問題到復(fù)雜推理任務(wù),具有廣泛的難度分布。為了確保標(biāo)注的準(zhǔn)確性,這些提示的標(biāo)注結(jié)果經(jīng)過了人工驗(yàn)證。通過這種方式,研究者們構(gòu)建了一個(gè)高質(zhì)量的測試集,用于評(píng)估模型在實(shí)際應(yīng)用場景中的自適應(yīng) CoT 推理觸發(fā)性能。

Pareto 前沿深度分析

在 15 個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,AdaCoT RL 模型變體(Exp1-Exp4)在平均得分與 CoT 觸發(fā)率的關(guān)系曲線上,形成了明顯的改進(jìn) Pareto 前沿。與基線模型相比,AdaCoT 模型在不同的懲罰系數(shù)設(shè)置下,實(shí)現(xiàn)了性能和 CoT 成本之間的有效權(quán)衡。

例如,AdaCoT RL Exp2 模型在 53.3% 的 CoT 觸發(fā)率下,達(dá)到了 62.8% 的平均得分,接近全 CoT RL 基線模型(100% CoT 觸發(fā)率,65.0% 平均得分)的性能。這表明 AdaCoT 模型能夠在大幅降低 CoT 使用成本的同時(shí),保持較高的模型性能。而 AdaCoT RL Exp4 模型在 67.7% 的 CoT 觸發(fā)率下,平均得分達(dá)到了 64.4%,進(jìn)一步縮小了與全 CoT RL 基線模型的差距。

通過對(duì)比不同模型的性能表現(xiàn),我們可以更深入地理解 AdaCoT 模型在不同 CoT 觸發(fā)率下的性能變化趨勢。例如,隨著 CoT 觸發(fā)率的增加,模型的平均得分逐漸提高,但提高的幅度逐漸減小。這表明在一定范圍內(nèi),增加 CoT 的使用能夠顯著提升模型性能,但超過某一閾值后,繼續(xù)增加 CoT 使用帶來的性能提升有限。同時(shí),與基線模型相比,AdaCoT 模型在大多數(shù)情況下都能以更低的 CoT 觸發(fā)率實(shí)現(xiàn)相近甚至更高的性能,充分展示了其在性能和成本之間權(quán)衡的優(yōu)勢。

圖片

平均分?jǐn)?shù)與15個(gè)廣泛采用的基準(zhǔn)測試中的CoT觸發(fā)率對(duì)比

在此過程中繪制的模型性能與 CoT 觸發(fā)率關(guān)系圖如上圖所示,不同模型在圖中的位置直觀地體現(xiàn)了它們?cè)谛阅芎统杀局g的平衡狀態(tài)。藍(lán)色點(diǎn)代表基線模型,綠色點(diǎn)代表 AdaCoT SFT 模型,橙色點(diǎn)代表 AdaCoT RL 模型,橙色虛線和陰影區(qū)域展示了相比基線改進(jìn)的 Pareto 前沿,虛線連接了無 CoT RL 基線和全 CoT RL 基線,描繪了一個(gè)更簡單的權(quán)衡曲線。這一圖形化展示有助于讀者迅速把握 AdaCoT 框架相較于傳統(tǒng)方法在多目標(biāo)優(yōu)化上的優(yōu)勢,明晰其在不同觸發(fā)率下性能的相對(duì)位置及改進(jìn)幅度。

自適應(yīng) CoT 觸發(fā)性能評(píng)估

基于日常使用提示測試集的實(shí)驗(yàn)結(jié)果,AdaCoT 模型在不同訓(xùn)練階段的自適應(yīng) CoT 觸發(fā)性能得到了全面評(píng)估。在 SFT 階段,模型的 CoT 觸發(fā)準(zhǔn)確性達(dá)到了 79.5%,F(xiàn)1 分?jǐn)?shù)為 75.0%,召回率為 61.6%,精確率為 95.9%。這些結(jié)果表明,經(jīng)過 SFT 階段的訓(xùn)練,模型已經(jīng)具備了一定的自適應(yīng) CoT 觸發(fā)能力,能夠在大多數(shù)情況下正確判斷是否需要啟動(dòng) CoT 推理過程。

在 RL-Math 階段,未應(yīng)用 SLM 技術(shù)時(shí),模型的性能出現(xiàn)了顯著的退化。其 CoT 觸發(fā)準(zhǔn)確性僅為 50.6%,F(xiàn)1 分?jǐn)?shù)為 66.9%,召回率為 1.0,精確率為 0.503。這表明模型在這一階段幾乎總是啟動(dòng) CoT 推理過程,導(dǎo)致了大量的誤觸發(fā)。然而,當(dāng)應(yīng)用 SLM 技術(shù)后,模型的性能得到了顯著提升。CoT 觸發(fā)準(zhǔn)確性提高到了 81.3%,F(xiàn)1 分?jǐn)?shù)為 78.1%,召回率為 0.670,精確率為 0.938。這一結(jié)果充分證明了 SLM 技術(shù)在穩(wěn)定模型自適應(yīng)觸發(fā)能力方面的重要作用。

在 RL-General 階段,通過調(diào)整懲罰系數(shù) α1 和 α2,模型的決策邊界得到了進(jìn)一步優(yōu)化。例如,AdaCoT RL Model Exp2 在這一階段的 CoT 觸發(fā)準(zhǔn)確性達(dá)到了 81.6%,F(xiàn)1 分?jǐn)?shù)為 81.4%,召回率為 0.804,精確率為 0.823。這些結(jié)果表明,經(jīng)過 RL-General 階段的訓(xùn)練,模型能夠在更廣泛的查詢類型上實(shí)現(xiàn)精確的 CoT 推理觸發(fā)決策。

圖片

不同AdaCoT階段和配置在1000個(gè)日常使用提示測試集上的CoT觸發(fā)表現(xiàn)(正類:需要CoT)。RL-Math是數(shù)學(xué)專項(xiàng)強(qiáng)化學(xué)習(xí)階段;RL-General指的是最終模型

上表展示了不同 AdaCoT 階段和配置在 1000 個(gè)日常使用提示測試集上的 CoT 觸發(fā)性能,其中陽性類別表示需要 CoT。從表中可以看出,隨著訓(xùn)練的推進(jìn)和 SLM 技術(shù)的應(yīng)用,模型的性能指標(biāo)呈現(xiàn)出逐步提升的趨勢,尤其在 RL-General 階段,各模型的準(zhǔn)確率、F1 分?jǐn)?shù)等關(guān)鍵指標(biāo)均達(dá)到了較高水平,直觀地反映了模型自適應(yīng) CoT 觸發(fā)能力的不斷增強(qiáng)過程,為讀者提供了詳細(xì)的性能對(duì)比數(shù)據(jù),有助于深入理解 AdaCoT 框架在不同訓(xùn)練階段的優(yōu)化效果及最終的性能表現(xiàn)。

元推理策略在 SFT 階段的應(yīng)用也取得了顯著的效果。通過在 SFT 階段引入元推理機(jī)制,模型的 F1 分?jǐn)?shù)從 0.750 提高到了 0.840。這一提升表明,元推理策略能夠增強(qiáng)模型對(duì)查詢復(fù)雜性的評(píng)估能力,從而優(yōu)化 CoT 推理觸發(fā)決策。例如,在面對(duì)復(fù)雜查詢時(shí),模型能夠更加準(zhǔn)確地識(shí)別其復(fù)雜性,及時(shí)啟動(dòng) CoT 推理過程;而在面對(duì)簡單查詢時(shí),模型則能夠更加自信地直接給出答案,避免不必要的推理開銷。

圖片

包含明確元推理(meta-reasoning)以用于因果鏈(Chain of Thought,CoT)決策的示例回答結(jié)構(gòu)

上圖展示了包含顯式元推理的響應(yīng)結(jié)構(gòu)示例,這種結(jié)構(gòu)使模型能夠先對(duì)查詢復(fù)雜性進(jìn)行自我評(píng)估,再?zèng)Q定是否進(jìn)行詳細(xì)推理。例如,對(duì)于復(fù)雜查詢,模型先輸出 “這是一個(gè)相對(duì)復(fù)雜的問題,我需要仔細(xì)思考”,隨后展開正式的 CoT 推理;而對(duì)于簡單查詢,則直接判斷 “這是一個(gè)簡單問題,可以直接作答”,然后給出答案。這種響應(yīng)結(jié)構(gòu)的可視化呈現(xiàn),有助于讀者直觀地理解元推理在實(shí)際推理決策中的應(yīng)用方式,清晰地展現(xiàn)了模型如何通過元推理來控制 CoT 的觸發(fā),進(jìn)一步提升了文章的可讀性和技術(shù)細(xì)節(jié)的透明度。

響應(yīng)長度減少與效率提升量化分析

在生產(chǎn)流量測試集上的實(shí)驗(yàn)結(jié)果進(jìn)一步展示了 AdaCoT 模型在實(shí)際應(yīng)用場景中的效率提升效果。以移動(dòng)設(shè)備為例,AdaCoT RL Model Exp2 的平均響應(yīng)token數(shù)為 116.70,相較于全 CoT RL 基線模型的 377.18,減少了 69.1%。同時(shí),CoT 觸發(fā)率也從 100% 降低到了 3.18%。在 PC 端,AdaCoT RL Model Exp2 的平均響應(yīng)token數(shù)為 405.25,相較于全 CoT RL 基線模型的 1376.31,減少了 70.6%,CoT 觸發(fā)率降低到了 12.50%。

圖片

在生產(chǎn)流量測試集上,AdaCoT RL模型Exp2與完整CoT RL基線的平均響應(yīng)token數(shù)(標(biāo)注了減少量)和CoT觸發(fā)率對(duì)比

上表直觀地呈現(xiàn)了 AdaCoT RL Model Exp2 與全 CoT RL 基線模型在生產(chǎn)流量測試集上的平均響應(yīng)token數(shù)及 CoT 觸發(fā)率對(duì)比情況。通過具體數(shù)據(jù)的比較,讀者可以清晰地看到 AdaCoT 模型在實(shí)際應(yīng)用中帶來的顯著效率提升和成本降低效果。這對(duì)于關(guān)注模型部署和運(yùn)營成本的讀者來說,提供了有力的數(shù)據(jù)支持,增強(qiáng)了文章的說服力和實(shí)用性。

這種顯著的響應(yīng)長度減少和 CoT 觸發(fā)率降低,直接轉(zhuǎn)化為計(jì)算成本的大幅降低和系統(tǒng)效率的顯著提升。例如,對(duì)于一個(gè)擁有大量用戶的移動(dòng)應(yīng)用來說,采用 AdaCoT 模型后,服務(wù)器的計(jì)算負(fù)載將大幅減輕,響應(yīng)時(shí)間也將顯著縮短。這不僅能夠降低運(yùn)營成本,還能夠提升用戶體驗(yàn),使應(yīng)用在市場中更具競爭力。

討論與未來工作

設(shè)計(jì)考量與局限性深度剖析

AdaCoT 框架的設(shè)計(jì)理念是在模型性能和推理效率之間實(shí)現(xiàn)平衡。通過結(jié)合原則引導(dǎo)的初始數(shù)據(jù)標(biāo)注與基于 RL 的 CoT 決策邊界優(yōu)化,AdaCoT 能夠根據(jù)查詢的復(fù)雜程度智能地調(diào)整 CoT 推理的觸發(fā)策略。這種設(shè)計(jì)使得 AdaCoT 框架在保證復(fù)雜任務(wù)高性能的同時(shí),大幅降低了簡單查詢的推理成本,從而在整體上提高了 LLM 的效率和經(jīng)濟(jì)性。

然而,AdaCoT 框架也存在一些局限性。首先,其對(duì)不同 LLM 的適配性是一個(gè)需要考慮的問題。由于不同 LLM 的架構(gòu)、參數(shù)規(guī)模和性能特點(diǎn)存在差異,AdaCoT 框架在應(yīng)用于不同的 LLM 時(shí),可能需要進(jìn)行相應(yīng)的調(diào)整和優(yōu)化。例如,對(duì)于一些較小的 LLM,其計(jì)算資源有限,可能需要簡化 AdaCoT 的訓(xùn)練流程,如減少 SFT 和 RL 階段的訓(xùn)練數(shù)據(jù)量、降低模型的參數(shù)更新頻率等,以適應(yīng)其有限的計(jì)算資源。同時(shí),不同 LLM 的架構(gòu)差異也會(huì)影響 AdaCoT 框架的適配性。例如,基于 Transformer 的 LLM 和基于 RNN 的 LLM 在處理序列數(shù)據(jù)和生成響應(yīng)方面存在差異,這可能導(dǎo)致 AdaCoT 框架在不同架構(gòu)的 LLM 上的表現(xiàn)不同。針對(duì)這一問題,可以采用模型架構(gòu)轉(zhuǎn)換方法,將 AdaCoT 框架的關(guān)鍵組件(如 CoT 觸發(fā)決策模塊)適配到不同架構(gòu)的 LLM 中,或者設(shè)計(jì)可調(diào)整的訓(xùn)練超參數(shù),使框架能夠根據(jù)不同 LLM 的特點(diǎn)進(jìn)行自適應(yīng)調(diào)整。

其次,AdaCoT 框架目前采用的是二元 CoT 調(diào)用機(jī)制,即 CoT 推理要么完全啟動(dòng),要么完全不啟動(dòng)。這種簡化方式雖然在一定程度上降低了模型的復(fù)雜性,但也限制了對(duì)推理深度和風(fēng)格的精細(xì)化控制。在實(shí)際應(yīng)用中,不同的查詢可能需要不同程度的推理深度,而 AdaCoT 框架的二元機(jī)制無法滿足這一需求。為了解決這一問題,可以引入多級(jí) CoT 調(diào)用閾值,根據(jù)查詢的復(fù)雜程度動(dòng)態(tài)調(diào)整 CoT 推理的深度。例如,對(duì)于中等復(fù)雜度的查詢,可以啟動(dòng)部分推理步驟,而不是完全啟動(dòng)或關(guān)閉 CoT 推理。此外,還可以采用基于連續(xù)推理深度的調(diào)整策略,通過構(gòu)建一個(gè)連續(xù)的推理深度控制機(jī)制,使模型能夠根據(jù)查詢的復(fù)雜性連續(xù)地調(diào)整推理深度。這些改進(jìn)方法雖然在實(shí)現(xiàn)上具有一定的可行性,但也面臨著一些挑戰(zhàn),如如何確定多級(jí)閾值的具體設(shè)置,如何設(shè)計(jì)連續(xù)推理深度控制機(jī)制以確保模型的穩(wěn)定性和性能等。

此外,領(lǐng)域泛化也是一個(gè)挑戰(zhàn)。不同知識(shí)領(lǐng)域的查詢具有不同的特征和推理需求,而 AdaCoT 框架目前在跨領(lǐng)域適應(yīng)性方面還有待提高。例如,在法律領(lǐng)域和醫(yī)學(xué)領(lǐng)域的查詢可能需要不同的推理策略和知識(shí)背景,AdaCoT 框架需要進(jìn)一步優(yōu)化以更好地適應(yīng)不同領(lǐng)域的查詢特點(diǎn)。為了提高領(lǐng)域泛化能力,可以采用領(lǐng)域自適應(yīng)算法,如在訓(xùn)練數(shù)據(jù)中增加不同領(lǐng)域的樣本比例,設(shè)計(jì)領(lǐng)域特定的特征提取模塊等,使模型能夠更好地捕捉不同領(lǐng)域的查詢特征和推理需求。同時(shí),還可以引入領(lǐng)域?qū)<抑R(shí),通過與領(lǐng)域?qū)<液献鳎瑢?duì)模型的 CoT 推理觸發(fā)策略進(jìn)行領(lǐng)域特定的優(yōu)化,從而提升模型在不同領(lǐng)域的適應(yīng)性。

最后,AdaCoT 框架缺乏對(duì)用戶對(duì)模型冗長偏好個(gè)性化的需求滿足。不同的用戶可能對(duì)模型的回答風(fēng)格和詳細(xì)程度有不同的偏好,而 AdaCoT 框架目前無法根據(jù)用戶的個(gè)性化需求動(dòng)態(tài)調(diào)整 CoT 推理的觸發(fā)策略。這在一定程度上影響了用戶體驗(yàn)和模型的適用范圍。為了解決這一問題,可以開發(fā)用戶偏好自定義功能,通過收集用戶的反饋信息(如用戶對(duì)模型回答的滿意度評(píng)價(jià)、用戶對(duì)回答風(fēng)格的偏好設(shè)置等),構(gòu)建用戶偏好模型。然后,將用戶偏好模型與 AdaCoT 框架相結(jié)合,使模型能夠根據(jù)用戶的個(gè)性化需求動(dòng)態(tài)調(diào)整 CoT 推理的觸發(fā)方式和推理深度,從而提升用戶體驗(yàn)。

圖片

詳細(xì)基準(zhǔn)數(shù)據(jù)集的分?jǐn)?shù)。“TR”表示推理觸發(fā)率(%)

上表列出了各基準(zhǔn)數(shù)據(jù)集上的詳細(xì)測試成績,其中 “TR” 表示推理觸發(fā)率。這些數(shù)據(jù)涵蓋了不同領(lǐng)域的測試結(jié)果,包括數(shù)學(xué)、常識(shí)問答、專業(yè)學(xué)科等多個(gè)方面,反映了 AdaCoT 模型在各類任務(wù)中的性能表現(xiàn)及推理觸發(fā)頻率。通過該表格,讀者可以詳細(xì)了解模型在各個(gè)具體數(shù)據(jù)集上的得分情況,深入分析其優(yōu)勢領(lǐng)域和待提升方向,為后續(xù)研究提供了豐富的數(shù)據(jù)基礎(chǔ)和改進(jìn)參考,有助于全面評(píng)估 AdaCoT 框架的實(shí)際應(yīng)用價(jià)值和廣泛適用性。

元推理在推理決策中的應(yīng)用案例分析

元推理策略在推理決策中的應(yīng)用為 AdaCoT 框架帶來了顯著的優(yōu)勢。以下是一些具體的實(shí)際問答場景案例分析:

案例 1:歷史創(chuàng)意問題

原始問題:“玄武門之變的夜晚,李世民獨(dú)自一人會(huì)寫些什么?”

模型在接收到這一問題后,首先通過元推理機(jī)制快速評(píng)估查詢的復(fù)雜性。它識(shí)別到這是一個(gè)涉及歷史背景、人物心理和創(chuàng)意寫作的復(fù)雜問題。因此,模型決定啟動(dòng) CoT 推理過程,逐步展開對(duì)歷史背景的分析、人物心理的揣摩以及可能的寫作內(nèi)容的構(gòu)思。最終,模型生成了一段詳細(xì)而富有創(chuàng)意的回答,既體現(xiàn)了李世民作為政治家的果斷與謀略,又展現(xiàn)了其作為普通人內(nèi)心的矛盾與不安。

修改后的問題:“直接作答,無需深入思考:玄武門之變的夜晚,李世民獨(dú)自一人會(huì)寫些什么?”

在這一問題中,用戶明確要求模型無需進(jìn)行深入思考。模型通過元推理機(jī)制識(shí)別到這一指令,判斷查詢的復(fù)雜性較低,因此決定不啟動(dòng) CoT 推理過程。模型直接根據(jù)已有的知識(shí)和創(chuàng)意模板,生成了一段簡潔的回答,滿足了用戶對(duì)簡短答案的需求。

案例 2:事實(shí)性問題

原始問題:“世界上最高的山峰是哪座?”

模型在接收到這一問題后,通過元推理機(jī)制迅速判斷這是一個(gè)簡單的事實(shí)性問題。它直接從知識(shí)庫中檢索相關(guān)信息,無需啟動(dòng) CoT 推理過程,快速生成了準(zhǔn)確的答案:“世界上最高的山峰是珠穆朗瑪峰,海拔高度為 8848.86 米。”

修改后的問題:“經(jīng)過仔細(xì)思考后回答:世界上最高的山峰是哪座?”

盡管用戶要求經(jīng)過仔細(xì)思考,但模型通過元推理機(jī)制識(shí)別到這一問題的本質(zhì)仍然是一個(gè)簡單的事實(shí)性查詢。為了滿足用戶對(duì)思考過程的要求,模型在回答中加入了對(duì)不同衡量標(biāo)準(zhǔn)(如海拔高度、從基底到山頂?shù)母叨鹊龋┑暮喴f明,同時(shí)強(qiáng)調(diào)了在常規(guī)地理語境下,珠穆朗瑪峰被公認(rèn)為世界最高峰。通過這種方式,模型在滿足用戶需求的同時(shí),避免了不必要的復(fù)雜推理過程。

保留值性能的實(shí)驗(yàn)驗(yàn)證與分析

通過系統(tǒng)提示(SPs)控制 AdaCoT 的 CoT 推理觸發(fā)行為,研究者們?cè)诙鄠€(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示,當(dāng)明確要求模型始終啟動(dòng) CoT 推理時(shí),AdaCoT 模型的平均得分與專門的始終開啟 CoT 模型相當(dāng),甚至在某些情況下略有超越。

例如,在 AIME24 數(shù)據(jù)集上,AdaCoT RL Model Exp3 在始終開啟 CoT 推理的情況下,平均得分為 88.0,超過了全 CoT RL 基線模型的 84.7。在 AIME25 數(shù)據(jù)集上,AdaCoT RL Model Exp2 的平均得分為 75.7,同樣超過了全 CoT RL 基線模型的 70.0。

圖片

在“始終推理”系統(tǒng)提示與完整CoT強(qiáng)化學(xué)習(xí)基線模型下,AdaCoT強(qiáng)化學(xué)習(xí)模型的表現(xiàn),展現(xiàn)了峰值性能的保持。這些指標(biāo)是在15個(gè)基準(zhǔn)數(shù)據(jù)集上平均得出的

上表展示了在 “始終推理” 系統(tǒng)提示下 AdaCoT RL 模型相較于全 CoT RL 基線的性能表現(xiàn),指標(biāo)為 15 個(gè)基準(zhǔn)數(shù)據(jù)集上的平均得分。從表中可以看出,多數(shù)模型在此提示下的平均得分接近甚至超過基線模型,有力地證明了 AdaCoT 框架在確保模型峰值推理能力方面的有效性,即使在自適應(yīng)觸發(fā)模式下,也能通過特定系統(tǒng)提示恢復(fù)至與始終開啟 CoT 相當(dāng)?shù)男阅芩剑瑸樽x者提供了明確的數(shù)據(jù)支持,增強(qiáng)了對(duì) AdaCoT 框架在關(guān)鍵場景下性能保障能力的信心。

這些結(jié)果表明,AdaCoT 框架在明確要求全面推理時(shí),能夠保留峰值推理能力。這主要得益于 AdaCoT 在訓(xùn)練過程中采用的多樣化數(shù)據(jù)和優(yōu)化策略。通過在訓(xùn)練數(shù)據(jù)中包含非 CoT 示例,模型在學(xué)習(xí)過程中不僅能夠優(yōu)化 CoT 推理的觸發(fā)策略,還能夠提升其對(duì)復(fù)雜推理任務(wù)的處理能力。同時(shí),強(qiáng)化學(xué)習(xí)的優(yōu)化機(jī)制使得模型能夠在不同的推理需求下,靈活調(diào)整其推理策略,從而在保證簡單查詢高效處理的同時(shí),保持對(duì)復(fù)雜任務(wù)的高性能表現(xiàn)。

總結(jié)、展望

通過了解 AdaCoT 框架,我認(rèn)識(shí)到 AdaCoT 框架通過將自適應(yīng)推理觸發(fā)機(jī)制與強(qiáng)化學(xué)習(xí)相結(jié)合,巧妙地解決了大型語言模型(LLM)在復(fù)雜推理任務(wù)中面臨的高成本和低效率問題。它不僅在理論上構(gòu)建了一個(gè)多目標(biāo)優(yōu)化的解決方案,更在實(shí)踐中通過大量實(shí)驗(yàn)驗(yàn)證了其有效性。

從技術(shù)層面來看,AdaCoT 的核心思想是根據(jù)查詢的復(fù)雜程度智能地決定是否啟動(dòng) CoT 推理過程。這種自適應(yīng)的觸發(fā)機(jī)制在保證復(fù)雜任務(wù)高性能的同時(shí),顯著降低了簡單查詢的推理成本。通過 Pareto 優(yōu)化理論和強(qiáng)化學(xué)習(xí)方法的結(jié)合,AdaCoT 框架能夠在模型性能和 CoT 使用成本之間實(shí)現(xiàn)最佳平衡。實(shí)驗(yàn)結(jié)果表明,AdaCoT 模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上的性能表現(xiàn)優(yōu)異,同時(shí)大幅減少了 CoT 的使用頻率,降低了計(jì)算成本。

在了解這個(gè)AdaCoT 框架的過程中,它具有一些亮點(diǎn)特性。它將模型性能和 CoT 使用成本這兩個(gè)相互競爭的目標(biāo)整合到一個(gè)多目標(biāo)優(yōu)化框架中,并利用強(qiáng)化學(xué)習(xí)動(dòng)態(tài)調(diào)整決策邊界。這種設(shè)計(jì)不僅展現(xiàn)了研究者對(duì)問題的深刻洞察,也體現(xiàn)了他們?cè)诩夹g(shù)創(chuàng)新上的能力。此外,Selective Loss Masking(SLM)技術(shù)的引入,有效解決了決策邊界崩潰的問題,進(jìn)一步增強(qiáng)了模型的穩(wěn)定性和性能。

通過對(duì)實(shí)驗(yàn)數(shù)據(jù)和圖表的觀察,我直觀地感受到了 AdaCoT 框架的優(yōu)勢。例如,在 Pareto 前沿分析中,AdaCoT 模型在不同 CoT 觸發(fā)率下的性能表現(xiàn)明顯優(yōu)于基線模型,展示了其在性能和成本之間權(quán)衡的有效性。同時(shí),響應(yīng)長度減少與效率提升的量化分析也讓我看到了 AdaCoT 框架在實(shí)際應(yīng)用中的巨大潛力。它不僅降低了計(jì)算成本,還顯著縮短了響應(yīng)時(shí)間,提升了用戶體驗(yàn)。

當(dāng)然,AdaCoT 框架也存在一些局限性。如何提高其對(duì)不同 LLM 的適配性、探索更精細(xì)的 CoT 調(diào)用機(jī)制、加強(qiáng)領(lǐng)域泛化能力以及滿足用戶個(gè)性化需求,這些都是需要解決的問題。例如,引入多級(jí) CoT 調(diào)用閾值、采用領(lǐng)域自適應(yīng)算法、開發(fā)用戶偏好自定義功能等方法,有望進(jìn)一步提升 AdaCoT 框架的性能和適用性。

總體來看,AdaCoT 框架的研究讓我在技術(shù)層面和研究方法上都受益匪淺。關(guān)于自適應(yīng)思考的文章,之前已發(fā)了兩篇,大家可以選擇對(duì)比著來看。它們分別是《AdaptThink:推理模型的自適應(yīng)思考范式》和《Thinkless框架:讓LLM學(xué)會(huì)“聰明偷懶”的智慧》。各位,看過此文有什么感想?如有其他想法可以在評(píng)論區(qū)留言,我們聊聊。或者加入“覺察流”社區(qū)群,與群里的小伙伴一起學(xué)習(xí)、交流。加入方法,私信回復(fù)“入群”“加群”即可。

參考資料


責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-06-05 06:36:17

2025-06-26 09:06:59

2025-06-03 03:15:00

2025-06-10 02:30:00

智能體ARTIST強(qiáng)化學(xué)習(xí)

2024-09-30 14:40:00

AI強(qiáng)化學(xué)習(xí)框架

2023-07-20 15:18:42

2025-01-26 11:00:00

2025-05-27 15:28:47

模型推理AI

2024-09-29 09:36:31

2022-12-01 08:00:00

2025-05-28 02:40:00

AdaptThink推理模型AI

2023-07-19 16:22:00

Hudi機(jī)器學(xué)習(xí)

2022-12-21 17:27:30

強(qiáng)化學(xué)習(xí)AI

2025-03-21 13:00:54

2022-05-13 12:46:06

開源深度學(xué)習(xí)技術(shù)

2025-04-18 12:25:34

2017-07-14 16:24:48

TensorFlow框架開發(fā)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2024-03-14 14:16:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产福利91精品| 国内毛片久久| 日韩美女视频一区二区| 国产欧美一区二区三区久久| 偷偷色噜狠狠狠狠的777米奇| 先锋影音在线资源站91| 成人免费视频视频在线观看免费| 欧美高清videos高潮hd| 中国极品少妇xxxx| 不卡福利视频| 中文字幕一区二| 97在线中文字幕| 欧美精品一区二区蜜桃| 懂色av一区二区| 日韩欧美在线播放| 亚洲精品一区二区三区av| 国产永久免费视频| 亚洲日本视频| 亚洲网在线观看| 一卡二卡三卡四卡五卡| 川上优av中文字幕一区二区| av福利精品导航| 国产精品嫩草视频| 五月婷婷一区二区| 亚洲丝袜啪啪| 欧美日韩美女一区二区| 日产精品久久久久久久蜜臀| 亚洲aaa在线观看| 精品一区二区免费视频| 亚洲 日韩 国产第一| 欧美波霸videosex极品| 亚洲第一二区| 在线视频你懂得一区二区三区| 免费久久久久久| 天堂成人在线视频| 久久 天天综合| 91精品国产色综合久久不卡98| 久久久久久成人网| 99亚洲乱人伦aⅴ精品| 色久综合一二码| 丝袜人妻一区二区三区| 男同在线观看| 成人av片在线观看| 国产日韩欧美一二三区| 亚洲 欧美 视频| 国产毛片一区二区三区| 精品剧情v国产在线观看在线| 国产精品无码专区av在线播放 | 免费高潮视频95在线观看网站| 欧美激情综合五月色丁香小说| 高清国产在线一区| 91麻豆一区二区| 噜噜噜久久亚洲精品国产品小说| 久久中文字幕在线视频| 久久免费手机视频| 中文精品一区二区| 欧美精品电影在线播放| 色诱视频在线观看| 色综合桃花网| 亚洲成人777| 亚洲色图自拍| 黄色片免费在线| 久久亚洲欧美国产精品乐播| 国产亚洲情侣一区二区无| www.久久成人| 国产又黄又大久久| 国产欧美日韩中文字幕在线| 波多野结衣在线观看视频| aa级大片欧美三级| 国语自产精品视频在线看一大j8 | 另类视频在线| 一区二区三区久久久| av不卡在线免费观看| 77777影视视频在线观看| 久久久精品国产99久久精品芒果 | 26uuu久久综合| 国产伦精品一区二区三区视频孕妇| 亚洲字幕av一区二区三区四区| 久久亚洲二区| 国产成人精品久久| 超碰在线免费97| 日本中文字幕一区| 国产精品久久久久一区二区 | 欧美日韩黄色一区二区| 在线观看免费视频高清游戏推荐| 亚洲国产尤物| 欧美日韩一级二级三级| 三级性生活视频| 不卡亚洲精品| 91精品国产综合久久小美女| 五月天丁香花婷婷| 国产精品日韩精品在线播放| 欧美一级黄色片| 日韩综合第一页| 日韩深夜福利| 在线观看精品国产视频| 三级黄色在线观看| 久久国产综合| 欧美激情精品久久久久久黑人| 国产精彩视频在线观看| 国产亚洲永久域名| 国产精品av在线| 国产黄a三级三级看三级| 国产成都精品91一区二区三| 韩国成人动漫在线观看| 户外极限露出调教在线视频| 久久综合五月天婷婷伊人| 天堂一区二区三区 | 久久久成人精品| 久草网在线观看| 六月丁香综合| 91原创国产| 日韩有码电影| 国产精品国产馆在线真实露脸| 99久久99久久精品| 中文字幕这里只有精品| 欧美一区欧美二区| 中文字幕日韩三级片| 日韩亚洲一区在线| 久久免费精品日本久久中文字幕| 免费看污视频的网站| 精品一区二区久久| 久久久久免费网| 欧美边添边摸边做边爱免费| 午夜精品视频一区| 九九精品久久久| 丝袜久久网站| 欧美另类精品xxxx孕妇| jizz国产在线| 国产毛片精品一区| 日韩电影大全在线观看| 国产高清在线a视频大全| 在线观看一区二区视频| 美女伦理水蜜桃4| 97久久视频| 日韩美女在线播放| 欧美 日韩 国产 成人 在线| 中文字幕一区二区三中文字幕| 国产精品沙发午睡系列| 国产一区二区三区精品在线观看| 亚洲男女性事视频| 妺妺窝人体色www聚色窝仙踪 | 国模吧一区二区三区| 在线视频 中文字幕| 99国产欧美久久久精品| 亚洲啊啊啊啊啊| 久久久国产精品网站| 日韩麻豆第一页| 亚洲精品在线观看av| 国产精品123| 欧美爱爱视频网站| 成人开心激情| 亚洲经典中文字幕| 久久久久亚洲av片无码下载蜜桃| 麻豆国产精品一区二区三区| 欧美一级日本a级v片| 美女av在线免费看| 欧美精品一区二区高清在线观看| 亚洲天堂一级片| 日本午夜精品视频在线观看 | 黄色片久久久久| 欧州一区二区三区| 日韩在线观看高清| 亚洲最大成人av| 国产精品九色蝌蚪自拍| 美女一区二区三区视频| 少妇一区二区三区| 91精品国产乱码久久久久久久久| 四虎永久在线观看| 午夜日韩在线电影| 在线观看免费视频国产| 黄色av成人| 精品国产91亚洲一区二区三区www| 日本电影在线观看| 日韩视频免费观看高清完整版| 国产精品久久久久久久av| 日本欧美一区二区在线观看| 日韩精品久久久| 欧美天堂一区| 久久精品国产一区| www.久久久久久| 亚洲网友自拍偷拍| 亚洲久久久久久| 久久久久久夜| 亚洲三级一区| 亚洲一区二区三区在线免费| 韩国国内大量揄拍精品视频| 日本一卡二卡四卡精品| 色综合天天性综合| 日本高清黄色片| 国产在线观看免费一区| 国产成人艳妇aa视频在线| 青草视频在线免费直播| 亚洲国产成人精品女人久久久 | 视频一区二区中文字幕| 国产日本欧美在线| 婷婷综合福利| 亚洲综合中文字幕在线| 久久精品女人天堂av免费观看| 久久精品中文字幕免费mv| 天堂a中文在线| 制服丝袜亚洲网站| 免费看污视频的网站| 一区二区三区精品视频| 99精品全国免费观看| 成+人+亚洲+综合天堂| 久久婷五月综合| 国产一区二区三区的电影 | 一区二区国产精品| 亚洲美女自拍偷拍| 久久av免费| 国产精华一区二区三区| 精品亚洲a∨| 热re91久久精品国99热蜜臀| 色黄网站在线观看| 中文字幕一精品亚洲无线一区| 天堂网在线播放| 日韩精品一区二区三区视频播放| 中文字幕丰满人伦在线| 欧美日韩国产色| 久久99久久98精品免观看软件| 国产精品久久久一本精品| 波多野结衣一本| www.亚洲激情.com| 麻豆tv在线观看| 国内精品久久久久影院一蜜桃| 天堂在线资源视频| 久久久一二三| 99热成人精品热久久66| 制服诱惑一区二区| 全黄性性激高免费视频| 欧美精品偷拍| 特级西西人体www高清大胆| 色无极亚洲影院| 五码日韩精品一区二区三区视频| 亚洲美女久久| 久久青青草综合| 日韩精品免费一区二区夜夜嗨 | 亚洲国产日韩在线一区| 久久狠狠亚洲综合| 91亚洲免费视频| 久久超级碰视频| 久久6免费视频| 精品影视av免费| 国产精欧美一区二区三区白种人| 久久99九九99精品| 亚洲高清免费在线观看| 久热成人在线视频| 制服丝袜中文字幕第一页| 久久av资源网| 三日本三级少妇三级99| 国产一区二区剧情av在线| www.桃色.com| 福利一区福利二区| 亚洲一区二区三区四区av| 成人av免费观看| 网站免费在线观看| 国产亚洲人成网站| 国产传媒视频在线| 亚洲四区在线观看| 欧美久久久久久久久久久久| 亚洲主播在线播放| 中日韩精品视频在线观看| 欧美性猛交xxxx免费看漫画| 国产精品午夜一区二区| 欧美精品在线观看一区二区| av网站免费大全| 亚洲国产成人精品女人久久久| 天堂av在线资源| 最近2019中文免费高清视频观看www99 | 香蕉成人app| 久久99久久精品国产| 欧美精品系列| 看全色黄大色大片| 亚洲毛片av| 性刺激的欧美三级视频| 国产主播一区二区三区| 日本国产在线视频| 国产午夜久久久久| 26uuu成人网| 欧美日韩一区二区三区在线免费观看 | 午夜欧美精品| 国产免费毛卡片| 久久9热精品视频| 亚洲图片综合网| 国产精品久久久久久亚洲毛片| 亚洲欧美一区二区三区四区五区| 欧美日韩国产色视频| 92久久精品一区二区| 日韩禁在线播放| 国产在线观看免费麻豆| 三级欧美在线一区| 国内精品99| 国产精品美女呻吟| 视频免费一区二区| 久久综合久久久| 国产精品久久久久久麻豆一区软件 | 国内精品在线一区| 99久久精品一区二区成人| 成人片在线免费看| 俺要去色综合狠狠| 国产在线视频综合| 日韩电影在线免费| 欧美做受高潮中文字幕| 中文字幕av在线一区二区三区| 久久精品www人人爽人人| 91黄色免费看| 少妇高潮一区二区三区69| 最近中文字幕mv在线一区二区三区四区| 黄页网站在线| 91精品国产综合久久香蕉的用户体验| 老牛精品亚洲成av人片| 亚洲天堂第一区| 日韩av中文在线观看| 中国xxxx性xxxx产国| 日韩理论片在线| 成人毛片一区二区三区| 精品久久久久久无| 国产精品刘玥久久一区| 国产精品无av码在线观看| 任我爽精品视频在线播放| 在线观看18视频网站| 全国精品久久少妇| 中文乱码人妻一区二区三区视频| 亚洲日本电影在线| 中文无码精品一区二区三区| 国产视频自拍一区| 国产99re66在线视频| 国产一区香蕉久久| 成人国产精品一级毛片视频| 波多野结衣家庭教师在线播放| 夫妻av一区二区| 91杏吧porn蝌蚪| 欧美精品丝袜久久久中文字幕| 黄色在线视频观看网站| 欧美亚洲伦理www| 欧美亚洲国产日韩| 毛片在线视频播放| 成人一区二区在线观看| 美国黄色小视频| 欧美一级片在线| 2021国产在线| 成人h在线播放| 国内精品久久久久久久影视麻豆| 能看毛片的网站| 一区二区三区中文免费| 国产黄色av网站| 欧美激情一区二区三区成人| 午夜日韩影院| www精品久久| 26uuu亚洲| 免费黄色小视频在线观看| 国产一区二区三区欧美| 欧美与亚洲与日本直播| 亚洲第一在线综合在线| 麻豆精品国产传媒mv男同| 亚洲视频重口味| 91精品国产91综合久久蜜臀| 中文字幕有码在线观看| 成人免费91在线看| 在线日韩av| 成年人网站免费看| 色婷婷亚洲综合| 91短视频版在线观看www免费| 国产又爽又黄的激情精品视频| 综合天天久久| 人妻无码中文久久久久专区| 日韩欧美视频一区二区三区| 成年在线电影| 91深夜福利视频| 亚洲国产第一| 亚洲精品视频网址| 欧美一区二区视频网站| 丁香花在线高清完整版视频| 欧美精品v日韩精品v国产精品| 久久综合亚州| 青草草在线视频| 亚洲精品美女网站| 69堂精品视频在线播放| 久久久久亚洲av无码专区喷水| 成人免费毛片高清视频| 日日夜夜狠狠操| 欧美另类精品xxxx孕妇| 妖精一区二区三区精品视频| 日本黄大片一区二区三区| 亚洲一区二区在线播放相泽| 六十路在线观看| 5566av亚洲| 天堂久久久久va久久久久| 欧美爱爱免费视频| 日韩av在线免费播放| 欧美美女福利视频| 国产精品专区在线| 国产精品美日韩| 台湾av在线二三区观看| 成人黄色免费在线观看| 久久久精品五月天| 天天综合天天做| 尤物精品国产第一福利三区| 91精品尤物|