精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架

發布于 2025-10-14 00:07
瀏覽
0收藏

Agent Learning via Early Experience

2025-10-09|OSU, Meta Superintelligence Labs, Meta FAIR|??172

??http://arxiv.org/abs/2510.08558v1???
???https://huggingface.co/papers/2510.08558??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 語言智能體旨在通過自身經驗學習和提升,最終在復雜現實任務中超越人類表現。然而,當前訓練方法面臨諸多挑戰。
  • 傳統的監督學習依賴專家示范數據,難以擴展且泛化能力有限,因示范數據覆蓋場景狹窄且缺乏環境多樣性。
  • 強化學習雖能優化長期獎勵,但現實環境中往往缺乏可驗證的獎勵信號,且多輪交互任務導致訓練低效且不穩定。
  • 本文提出“早期經驗”范式,介于模仿學習與強化學習之間,利用智能體自身動作產生的未來狀態作為無獎勵信號的監督,突破了傳統方法的限制。
  • 該范式通過智能體自我探索獲得豐富的環境反饋,促進其從失敗和非最優行為中學習,提高適應性和泛化能力。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 早期經驗范式定義:智能體在專家示范基礎上,主動采樣多樣化動作,收集對應的未來環境狀態,構建包含狀態-動作-后續狀態的滾動數據集,作為無獎勵的監督信號。
  • 隱式世界建模(Implicit World Modeling, IWM)

將未來狀態預測作為輔助任務,訓練語言模型預測執行某動作后環境的下一狀態。

該方法使模型內化環境動態,無需獨立模擬器,提升對環境轉移規律的理解,增強對非專家動作的魯棒性。

訓練采用兩階段:先用未來狀態預測任務預訓練,再用專家示范數據微調,兼顧環境理解和專家行為擬合。

  • 自我反思(Self-Reflection, SR)

基于智能體對專家動作與自身備選動作產生的未來狀態差異進行自然語言推理,生成“鏈式思考”解釋,闡明專家動作優越性。

利用生成的反思文本與專家動作聯合訓練模型,促進模型學習更細粒度、可遷移的決策原則。

該方法強化模型從自身非最優行為中吸取經驗,提升邏輯推理和長期規劃能力。

  • 兩種方法均將智能體自身行為及其結果轉化為可擴展的監督信號,突破了傳統依賴外部獎勵或專家示范的局限。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 實驗環境:涵蓋八個多樣化語言智能體任務,包括具身導航、科學實驗模擬、長程規劃、多輪工具使用、網頁導航等,使用多種主流語言模型(Llama、Qwen等)。
  • 訓練細節:統一訓練步驟預算,IWM先進行未來狀態預測預訓練再微調,SR生成反思文本與專家數據混合訓練,確保公平比較。
  • 效果顯著提升

兩種方法在幾乎所有環境和模型規模上均超越純模仿學習,成功率提升幅度明顯,尤其在需要多步推理和約束滿足的任務中SR表現突出。

不同動作空間(有限、結構化大空間、開放動作集)和觀察空間復雜度下均表現穩定,顯示方法的廣泛適用性。

  • 泛化能力

在多項環境的領域外測試中,早期經驗方法顯著提升模型對未見狀態的適應性,部分環境中泛化增益甚至超過域內表現。

IWM在環境動態穩定時表現更優,SR在工具可用性和參數變化的分布轉移中更具優勢。

  • 強化學習銜接

在具備獎勵信號的環境中,以早期經驗訓練的模型作為強化學習初始化,顯著提升后續強化學習的最終性能和訓練穩定性。

證明早期經驗范式不僅提升無獎勵階段表現,也為后續獎勵驅動學習奠定堅實基礎。

結論與展望

  • 本文系統提出并驗證了早期經驗范式,作為模仿學習與強化學習之間的有效橋梁,解決了語言智能體訓練中缺乏獎勵信號和專家數據不足的核心難題。
  • 通過隱式世界建模和自我反思兩種策略,智能體能夠從自身探索中提取豐富監督信號,提升決策質量、泛化能力及后續強化學習效果。
  • 實驗覆蓋多樣環境和模型規模,結果表明該范式具有高度的通用性和可擴展性。
  • 未來工作可探索更高效的探索策略、更豐富的反思機制以及與更多強化學習算法的深度結合,推動語言智能體邁向完全自主學習的“經驗時代”。

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

2025-09-26|KAIST, AITRICS|??44

??http://arxiv.org/abs/2510.03259v1???
???https://huggingface.co/papers/2510.03259???
???https://github.com/akatigre/MASA-RL??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 問題定義與現狀近年來,基于強化學習(RL)的后訓練方法在提升大型語言模型(LLMs)推理能力方面表現突出,尤其是GRPO等算法在數學和代碼生成等復雜任務中取得了領先成績。然而,現有大型推理模型普遍缺乏“元認知”能力,即模型自我感知“如何思考”的能力,表現為模型預測的元信息(如問題難度、推理長度)與實際推理過程嚴重不匹配。
  2. 挑戰與目標現有元認知推理方法往往依賴外部模型、人工設計的推理流程或專門的數據集,限制了其適用性和訓練效率。本文提出的目標是設計一種無需外部監督、能夠利用模型自生成信號進行元認知訓練的強化學習框架,提升模型的元認知能力,從而直接促進推理性能和訓練效率的提升。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 核心方法——MASA框架MASA(Meta-Awareness via Self-Alignment)通過并行生成元預測路徑和解決方案路徑,分別針對元信息(如預測推理長度、難度及數學概念)和具體解答進行采樣。其核心創新在于設計了“自我對齊”獎勵機制,鼓勵模型預測的元信息與真實推理軌跡統計數據保持一致,從而提升元認知的準確性。
  2. 獎勵設計
  • 長度對齊獎勵:若預測推理長度落在正確解答推理長度范圍內,則給予獎勵。
  • 難度對齊獎勵:依據預測通過率與真實通過率的差異,采用指數衰減函數給予獎勵,差異越小獎勵越高。
  • 數學概念獎勵:統計預測涉及的數學概念在正確與錯誤解答中的出現頻率,鼓勵模型關注對正確解答有區分度的概念。
  1. 行為克隆與專家軌跡為提升訓練穩定性,MASA引入基于DAgger的專家行為克隆機制,動態收集高質量的元預測軌跡作為專家數據,并在訓練中進行監督微調,促進模型快速學習準確的元認知能力。
  2. 訓練效率提升——MASA-efficient在MASA基礎上,提出MASA-efficient,利用元預測結果實現預測性門控(過濾掉無效或過于簡單/復雜的任務)和早期截斷(提前終止可能錯誤的長推理軌跡),顯著節省訓練計算資源并加速收斂。此外,元預測的數學概念用于為模型提供輔助提示,進一步輔助推理過程。
  3. 理論基礎與對比MASA方法區別于依賴外部驗證器或人類設計推理流程的元認知方法,強調模型內部信號的自我對齊訓練,具有更好的可擴展性和泛化能力。與傳統GRPO等強化學習方法相比,MASA不僅提升了推理準確率,也優化了訓練效率。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 實驗設置
  • 使用VeRL數據集和DeepScalerR,結合GRPO算法進行后訓練。
  • 評估指標包括數學推理準確率(Pass@1,Pass@32)及邏輯、科學、編碼推理等多領域的泛化能力。
  • 對比基線為GRPO和DAPO,驗證MASA與MASA-efficient的性能和效率提升。
  1. 主要結果
  • 數學推理任務:MASA在六個數學基準(AIME24、AIME25、AMC23、MATH500、Minerva、Olympiad)上均顯著優于GRPO,Qwen3-8B模型平均準確率提升6.2%,14B模型提升2.45%。
  • 泛化能力:在邏輯推理(ProntoQA、ProofWriter)、科學推理(GPQA-Diamond)和編碼任務(EvalPlus)等多領域測試中,MASA均表現出優于基線的性能,證明元認知訓練提升了模型的跨領域推理能力。
  • 訓練效率:MASA-efficient通過預測性門控和早期截斷實現了1.28倍的訓練速度提升,同時保持甚至提升了最終性能。
  1. 統計顯著性與多場景表現實驗數據表明,元認知獎勵與性能提升之間存在直接正相關,且MASA在不同模型規模和任務領域均表現穩健,驗證了方法的普適性和有效性。

結論與展望

  1. 貢獻總結
  • 提出基于自我對齊的元認知強化學習框架MASA,首次實現無需外部監督的元認知訓練。
  • 設計多維度元認知獎勵機制,促進模型準確預測推理過程的關鍵屬性。
  • 引入MASA-efficient,結合行為克隆和元預測驅動的計算資源優化策略,實現訓練效率和性能的雙重提升。
  • 實驗驗證MASA顯著提升了數學推理準確率及跨領域泛化能力。
  1. 局限性分析
  • 當前元認知獎勵設計依賴于對正確解答軌跡的統計,若訓練數據質量不足,可能影響元認知準確性。
  • 行為克隆機制引入額外超參數和訓練復雜度,需進一步優化以適配更大規模模型。
  • 預測性門控和截斷策略在極端任務分布下的魯棒性尚需深入研究。
  1. 未來展望
  • 探索更豐富的元認知信號維度,如推理路徑多樣性和模型不確定性,以進一步提升自我認知能力。
  • 將MASA框架擴展至多模態推理和交互式任務,增強模型的適用范圍。
  • 結合元認知與解釋性推理,促進模型透明度和可控性,推動實際應用中的可信AI發展。

Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward

2025-10-03|Tencent , THU, PKU, CUHK|??37

??http://arxiv.org/abs/2510.03222v1???
???https://huggingface.co/papers/2510.03222???
???https://github.com/CarlanLark/Lp-Reg??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 問題定義與現狀概述

隨著大型語言模型(LLMs)在復雜推理任務中的應用,強化學習與可驗證獎勵(RLVR)成為提升模型推理能力的關鍵技術。然而,RLVR訓練過程中普遍存在性能瓶頸,表現為策略熵快速下降,導致探索能力喪失,訓練陷入停滯甚至崩潰。現有方法多聚焦于保持整體策略熵,但忽視了探索的質量,導致無差別增加隨機性,反而放大了無關噪聲,影響訓練穩定性。

  • 挑戰與目標闡明

本文深入分析探索瓶頸,發現關鍵在于低概率但極具價值的“推理火花”(Reasoning Sparks)——如“wait”、“however”等邏輯連接詞的采樣概率被系統性壓制,導致探索路徑單一化。同時,簡單的熵增強方法會無差別放大噪聲詞,破壞訓練穩定。目標是設計一種機制,有選擇地保護這些有意義的低概率探索,過濾掉無關噪聲,從而實現穩定且高質量的探索。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 技術描述提出“低概率正則化”(Low-probability Regularization,Lp-Reg)方法,通過構造一個基于模型自信度的代理分布(proxy distribution),篩除低概率噪聲詞并重新歸一化剩余詞的概率,放大有價值的推理火花的相對概率。正則化項采用前向KL散度,懲罰策略對代理分布的偏離,避免有意義低概率詞被過度懲罰。
  • 創新點突出

聚焦探索質量而非整體熵:區別于傳統熵正則化,Lp-Reg通過概率閾值過濾噪聲,精準保護推理火花,提升探索的語義相關性和有效性。

基于模型內在置信度的動態閾值:采用動態“min-p”閾值自適應調整,增強過濾策略的魯棒性和適應性。

選擇性正則化機制:僅對低概率且負優勢(負反饋)的推理火花施加正則化,避免對正向學習信號產生干擾,保持訓練靈活性。

理論基礎扎實:基于LLMs內在置信度區分有意義探索詞與噪聲詞的統計特征,提供了正則化設計的理論支撐。

  • 與現有方法對比

Lp-Reg克服了傳統基于策略整體熵的間接調控方法的缺陷,避免了無差別放大噪聲導致的訓練不穩定。相比多種先進熵控制技術,Lp-Reg更精準地維護了探索的核心成分,實現了更穩定和有效的訓練過程。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 實驗設計

在兩個規模的Qwen模型(14B與32B)上,采用五個數學推理基準(AIME24、AIME25、MATH-500、OlympiadBench、MinervaMath)進行評測。對比基線包括GRPO、GRPO+EntropyLoss及多種先進熵控制方法。訓練使用統一框架和相同超參數設置,確保公平比較。重點考察模型在長達1000步訓練過程中的穩定性、策略熵動態及最終準確率。

  • 結果分析

性能提升顯著:Lp-Reg在14B模型上實現60.17%的平均準確率,較次優方法提升2.66%。在32B模型上也表現出色,證明方法的規模適應性。

訓練穩定性優越:Lp-Reg能維持穩定的探索狀態,避免策略熵的快速崩塌,支持長周期的on-policy訓練,而其他方法多在早期崩潰。

探索行為合理:通過概率-熵散點圖和推理火花頻率分析,Lp-Reg保持了推理火花的多樣性和合理采樣,避免了無意義噪聲的放大。

消融實驗驗證設計合理性:去除噪聲過濾閾值導致訓練不穩定,固定閾值不如動態閾值表現優異,驗證了核心組件及自適應策略的必要性。

結論與展望

  • 研究貢獻總結

本文首次揭示了RLVR中推理火花被系統性壓制導致探索崩潰的根本機制,提出了基于模型內在置信度的低概率正則化方法,有效保護關鍵探索路徑,提升了推理模型的訓練穩定性和最終性能。實驗結果表明,Lp-Reg不僅在多個基準和模型規模上實現了性能領先,還顯著延長了穩定訓練周期。

  • 局限性與未來方向

目前Lp-Reg依賴于概率閾值的設定和模型內在置信度的區分能力,未來可探索更細粒度的噪聲識別機制及動態調整策略。此外,方法主要驗證于數學推理任務,后續可擴展至更廣泛的復雜推理和自然語言生成場景。結合更豐富的獎勵信號和多模態信息,或將進一步提升探索效率和模型泛化能力。

  • 方法展望

未來研究可聚焦于自動化噪聲與推理火花的區分機制,融合強化學習與自監督學習的優勢,構建更智能的探索調控框架。同時,探索跨任務、跨模型的通用性和適應性,推動RLVR技術在更廣泛領域的應用與發展。

The Alignment Waltz: Jointly Training Agents to Collaborate for Safety

2025-10-09|Meta Superintelligence Labs, JHU|??33

??http://arxiv.org/abs/2510.08240v1???
???https://huggingface.co/papers/2510.08240??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 問題定義與挑戰

本文聚焦于大型語言模型(LLMs)在安全性與有用性之間的核心矛盾:一方面,模型易受對抗攻擊,生成不安全內容;另一方面,為避免風險,模型往往對敏感但無害的提示過度拒絕(overrefusal),導致用戶體驗下降。現有的安全防護機制(如獨立的安全守衛模型)通常通過完全拒絕含有潛在風險的內容來保障安全,但這加劇了過度拒絕問題,且缺乏對拒絕原因的細致指導。

  1. 研究目標

本文旨在提出一種能夠協調安全與有用性的多智能體協作訓練框架,實現安全對齊的“正和游戲”,使模型在保證安全的同時最大限度地減少過度拒絕,并提升反饋的細致性和有效性。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. WaltzRL框架設計

該方法構建了兩個協作智能體:對話智能體負責生成回答,反饋智能體負責審查并提供安全及拒絕相關的反饋建議。二者通過多輪交互共同優化回答。核心創新在于將安全對齊建模為一個正和多智能體強化學習問題,強調協作而非競爭。

  1. 動態改進獎勵(DIR)機制

反饋智能體的獎勵設計為基于對話智能體在接受反饋后的改進幅度,即反饋導致回答從不安全或過度拒絕向安全且有用轉變的程度。該獎勵動態調整,鼓勵反饋智能體產生有助于改進對話智能體回答的建議。

  1. 兩階段訓練策略
  • 第一階段凍結對話智能體,僅訓練反饋智能體以準確識別不安全與過度拒絕情況及生成格式規范的反饋。
  • 第二階段聯合訓練兩個智能體,取消反饋智能體的標簽獎勵以避免過擬合,強化協同改進能力。
  1. 推理時自適應反饋機制反饋智能體僅在檢測到對話智能體回答存在安全或拒絕問題時介入,避免不必要的反饋,降低延遲,保持對安全提示的靈敏響應。
  2. 多輪反饋與協作允許多輪反饋與回答修正,提升模型對復雜安全邊界和模糊提示的處理能力,區別于傳統單輪拒絕機制。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 實驗設置
  • 使用Llama-3.1-8B-Instruct作為基礎模型,收集包含對抗攻擊和邊界過度拒絕提示的訓練數據。
  • 評估指標涵蓋安全性(攻擊成功率ASR)、過度拒絕率(ORR)、指令遵循能力和通用能力,以及反饋觸發率(FTR)以衡量效率。
  1. 性能表現
  • WaltzRL在五個多樣化數據集上顯著降低了不安全回答率(例如WildJailbreak從39.0%降至4.6%)和過度拒絕率(例如OR-Bench從45.3%降至9.9%),優于多種基線方法,包括單模型強化學習和傳統守衛模型。
  • 即使未在訓練中引入幫助性提示,WaltzRL仍保持了對話智能體的指令遵循和通用能力,幾乎無性能損失。
  • 反饋智能體的標簽預測準確率顯著提升,反饋觸發率大幅降低,顯示了推理時反饋的高效自適應性。
  1. 消融研究
  • 動態改進獎勵中結合標簽獎勵對維持反饋智能體標簽預測準確性至關重要。
  • 兩階段訓練策略有效避免了訓練過程中的數據不平衡和過擬合,提升了反饋的實用性和協作效果。
  • 反饋機制不僅減少了不安全和過度拒絕回答,還通過詳細反饋指導對話智能體生成更合理的回答。
  1. 定性分析

反饋智能體能夠生成具體且有說服力的改進建議,甚至引導對話智能體引用理想回答,展現出協作智能體間的復雜互動與策略性。

結論與展望

  1. 主要貢獻
  • 提出WaltzRL,一種基于多智能體強化學習的安全對齊框架,通過協作正和游戲顯著推動了安全性與有用性的Pareto前沿。
  • 創新設計動態改進獎勵機制,促進反饋智能體有效引導對話智能體改進回答。
  • 采用兩階段訓練策略與自適應反饋機制,實現了安全提升與性能保持的良好平衡。
  1. 未來方向
  • 探索訓練通用反饋智能體,可適配多種對話智能體,提升方法的泛化能力和部署靈活性。
  • 擴展多輪反饋機制,進一步提升模型處理復雜安全邊界的能力。
  • 結合更多現實場景和多模態輸入,增強系統在實際應用中的魯棒性和實用性。
  1. 倫理考量本研究旨在提升LLM的安全性和責任感,強調研究目的,提醒實際應用中需配合嚴格的安全測試和監控措施,避免潛在風險。

綜上,WaltzRL通過多智能體協作與動態獎勵機制,創新性地解決了大型語言模型在安全與有用性之間的平衡難題,展示了強化學習在AI安全領域的巨大潛力和應用前景。

Training-Free Group Relative Policy Optimization

2025-10-09|Youtu-AgentTeam|??31

??http://arxiv.org/abs/2510.08191v1???
???https://huggingface.co/papers/2510.08191???
???https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 問題定義與現狀

大型語言模型(LLM)作為通用智能體,具備在復雜環境中解決多樣任務的能力,但在專業領域中表現常受限于對外部工具的集成和特定提示策略的適應性不足。現有強化學習(RL)方法如基于參數微調的GRPO雖能提升性能,但計算成本高昂,且容易過擬合,限制了其實際應用。

  1. 挑戰與目標

參數微調方法面臨計算資源消耗大、數據需求高、泛化能力差及收益遞減等問題。論文旨在探索非參數化的策略優化方法,降低訓練成本和數據需求,同時保持模型的泛化能力和性能。

  1. 研究意義

通過提出無需參數更新的訓練范式,論文為LLM在專業領域的高效適應提供了新路徑,解決了傳統RL方法的瓶頸,具有重要的理論價值和廣泛的應用前景。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 核心方法描述提出Training-Free Group Relative Policy Optimization(Training-Free GRPO),該方法通過多輪生成輸出組(rollouts),利用LLM自身進行語義優勢(semantic advantage)的內省和提煉,形成并更新外部的經驗知識庫(token prior),以此引導模型行為,無需參數更新。
  2. 創新點詳解
  • 非參數化策略優化:將策略優化從參數空間轉移到上下文空間,通過動態更新的語義經驗庫實現類似GRPO的效果,避免了昂貴的梯度計算和模型微調。
  • 語義組優勢替代數值優勢:利用自然語言形式的經驗總結替代傳統的數值獎勵優勢,增強了模型對不同輸出間質量差異的理解與利用。
  • 多步多組學習機制:采用多輪多組輸出比較,持續優化經驗庫,提升了經驗的豐富性和泛化能力。
  • 高效數據利用:僅需少量訓練樣本(幾十個),即可顯著提升模型性能,極大降低了數據和計算資源需求。
  1. 理論基礎與優勢對比

該方法基于LLM強大的上下文學習能力和推理能力,利用內省機制實現經驗知識的積累與利用,兼具RL的策略優化優勢和無微調的輕量級特點。相比傳統GRPO和其他RL方法,Training-Free GRPO在成本、泛化和實用性上具有顯著優勢。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 實驗設置
  • 任務與數據:涵蓋數學推理(AIME2024/2025)、網頁搜索(WebWalkerQA)等復雜領域,訓練集規模極小(約100樣本)。
  • 模型與基線:使用DeepSeek-V3.1-Terminus等大型凍結模型,比較傳統參數微調的GRPO、ReAct等方法。
  • 評估指標:主要采用Mean@32、Pass@1等準確率指標,結合統計顯著性和多場景表現進行綜合評估。
  1. 關鍵結果
  • Training-Free GRPO在數學推理任務中,相較于無訓練的基線提升2.7%-5.4%,超越了需大規模數據和昂貴計算的傳統RL方法。
  • 在網頁搜索任務中,提升了4.6%的Pass@1表現,顯示出跨領域的適用性和穩健性。
  • 消融實驗表明,語義組優勢、多輪學習和經驗庫優化均為性能提升的關鍵因素。
  • 訓練成本僅為傳統方法的千分之一左右(約18美元),極大提升了經濟效益。
  1. 多場景表現與泛化該方法在不同模型規模和任務域均表現出一致的性能提升,且無需針對每個領域進行參數微調,展示了優越的跨域泛化能力。

結論與展望

  1. 研究貢獻總結

本文創新性地提出了一種無需參數更新的強化學習策略優化范式——Training-Free GRPO,通過語義優勢引導和經驗庫更新,實現了對大型語言模型行為的高效調控。該方法在多個復雜任務上顯著提升了性能,且極大降低了訓練數據和計算資源需求。

  1. 局限性分析
  • 依賴于基礎模型的推理和工具使用能力,較弱模型效果有限。
  • 語義優勢的提煉質量受限于經驗庫的構建和更新策略,未來可探索更精細的知識表示與管理。
  • 當前實驗主要聚焦于數學和網頁搜索領域,其他專業領域的適用性有待進一步驗證。

3.未來研究方向

  • 探索更豐富的語義經驗表示和自動化更新機制,提升經驗庫的表達力和適應性。
  • 結合更多類型的外部工具和多模態信息,擴展方法的應用范圍。
  • 設計更高效的訓練策略和并行機制,進一步降低資源消耗。
  • 深入研究跨領域遷移和終身學習能力,推動LLM智能體的持續自我優化。

本文轉載自??AI研究前瞻??,作者:胡耀淇

已于2025-10-14 09:59:33修改
收藏
回復
舉報
回復
相關推薦
亚洲制服欧美另类| 无遮挡爽大片在线观看视频| 国产成人在线观看免费网站| 久久久影视精品| 亚洲精品成人无码熟妇在线| 视频在线日韩| 亚洲欧美日韩在线播放| 狠狠色噜噜狠狠色综合久| 蜜臀99久久精品久久久久小说| 色琪琪久久se色| 精品噜噜噜噜久久久久久久久试看| 久久久噜噜噜www成人网| 在线国产情侣| av一二三不卡影片| 国产日韩亚洲欧美| 六月丁香在线视频| 91精品国产乱码久久久久久久| 亚洲第一av在线| 亚洲天堂国产视频| 一二三四视频在线中文| 亚洲激情男女视频| 日本在线观看一区二区三区| 精品国产伦一区二区三| 日韩av在线播放中文字幕| 欧美黑人狂野猛交老妇| 亚洲av无码一区二区三区人| 波多野结衣欧美| 欧美视频在线观看一区二区| 国产乱子伦农村叉叉叉| 国产福利视频在线| 国产精品美女久久久久久久| 欧美精品一区二区三区在线四季 | 色美美综合视频| 日韩精品久久一区二区| 久久77777| 国产免费观看久久| 欧美理论一区二区| 日韩中文字幕影院| 国产成人精品一区二区三区四区| 国产中文欧美精品| 中文字幕日本视频| 水蜜桃久久夜色精品一区的特点| 91精品国产91久久久久久不卡| 国产波霸爆乳一区二区| 婷婷亚洲最大| 久久精品国产成人| 久久av红桃一区二区禁漫| 国产精品三级| 亚洲欧洲日本专区| 精品无码人妻一区| 免费久久精品| 亚洲区免费影片| 亚洲精品视频久久久| 日本国产精品| 精品一区二区亚洲| 可以直接看的无码av| 欧美自拍一区| 亚洲精选在线观看| 精品无码国产污污污免费网站| 老牛国内精品亚洲成av人片| 亚洲国产欧美一区二区三区同亚洲| 极品白嫩少妇无套内谢| 荡女精品导航| 欧美成人猛片aaaaaaa| 国产大学生av| 久久99精品国产自在现线| 日韩av网站大全| www.自拍偷拍| 欧美日韩一区二区综合| 综合av色偷偷网| 日本黄色录像视频| 欧美国产综合| 欧美激情一区二区久久久| 国产一级特黄aaa大片| 亚洲少妇一区| 国产精品久久久久久久久久小说| 无码人妻精品一区二| 日韩电影一区二区三区| 91精品视频大全| 亚洲乱码在线观看| 97久久人人超碰| 五月天综合网| 中日韩高清电影网| 亚洲成av人影院| 凹凸日日摸日日碰夜夜爽1| 国精产品一区二区三区有限公司| 欧美日韩在线综合| 欧美日韩一区二区区| 日韩美女国产精品| 最近2019免费中文字幕视频三 | 国产精品国语对白| aa视频在线免费观看| 99久久久久久99| 亚洲一区二区在线看| a级片免费在线观看| 在线免费视频一区二区| 三大队在线观看| 国产欧美日韩| 欧美激情18p| 最新国产中文字幕| 成人三级在线视频| 亚洲高清在线观看一区| 不卡一本毛片| 欧美另类久久久品| 亚洲精品女人久久久| 999久久久亚洲| 欧美亚洲第一页| 国产欧美第一页| 久久精品一区二区| 日韩久久久久久久久久久久| 日韩成人亚洲| 亚洲国产欧美一区二区三区同亚洲 | 久久久久久少妇| 国产在线精品国自产拍免费| 欧美xxxx黑人又粗又长精品| 青青草原国产在线| 欧美日韩不卡一区二区| 日本xxxx裸体xxxx| 欧美成人午夜| 国产日韩欧美成人| 激情小说 在线视频| 亚洲国产精品一区二区久久| 欧美一级特黄aaa| 精品久久久亚洲| 51精品在线观看| 亚洲大尺度网站| 亚洲三级在线观看| 亚洲欧美国产日韩综合| 九九久久电影| 欧美一级黄色网| 日韩在线视频观看免费| 亚洲影视在线播放| 久久精品国产99久久99久久久| 国产欧美一区| 日韩av男人的天堂| 日本一卡二卡四卡精品| 亚洲成人一区在线| 精品无码av一区二区三区不卡| 国产高清一区| 成人性生交大片免费看小说 | 国产aaa一级片| 欧美一性一交| 欧美中文字幕视频在线观看| 日本黄色大片视频| 亚洲国产视频在线| 国产欧美视频一区| 黑人一区二区| 国产精品麻豆免费版| 美女尤物在线视频| 精品国产91乱码一区二区三区 | 182在线视频| av成人黄色| 久久亚洲免费| 亚洲国产尤物| 日韩亚洲在线观看| 国产精品久久久久久无人区| 亚洲欧洲www| 手机在线观看日韩av| 欧美久久视频| 91免费看网站| av电影免费在线看| 日韩成人在线视频网站| 精品国产午夜福利| 国产亚洲一二三区| 污片在线免费看| 在线国产一区| 精品乱码一区二区三区| 三级中文字幕在线观看| 一本色道久久88综合亚洲精品ⅰ | 国内成人精品2018免费看| 福利网在线观看| a级日韩大片| 日本sm极度另类视频| gogogo高清在线观看免费完整版| 欧美日韩国产美女| 久久久久免费看| 久久亚洲一区二区三区四区| 激情视频免费网站| 欧美视频亚洲视频| 欧美亚洲国产免费| 国产一区 二区| 国产91成人在在线播放| 欧洲日本在线| 亚洲国产精品久久久| 午夜精品免费观看| 亚洲精品乱码久久久久久| 国产麻豆xxxvideo实拍| 日本va欧美va精品| 欧美a级免费视频| 美女毛片一区二区三区四区| 91久久久久久久久久久| 亚洲天堂手机| 欧美高清videos高潮hd| 国模精品一区二区| 欧美大片日本大片免费观看| 男操女视频网站| 亚洲一区二区在线免费看| 白白色免费视频| 成人免费观看视频| 亚洲一级免费观看| 99热精品在线观看| 公共露出暴露狂另类av| 五月激激激综合网色播| 亚洲xxxxx性| 秋霞国产精品| 97精品在线视频| 久久精品视频免费看| 亚洲女人天堂成人av在线| av在线免费在线观看| 91国产成人在线| 男人天堂中文字幕| 亚洲视频1区2区| 国产又粗又猛又爽视频| 成人高清伦理免费影院在线观看| 91亚洲精品久久久蜜桃借种| 乱人伦精品视频在线观看| 成年在线观看视频| 91九色精品| 亚洲黄色一区二区三区| 九九热精品视频在线观看| 国产精品免费一区二区三区| 日本综合精品一区| 国产欧美精品日韩| 日韩一区精品| 国产精品白嫩美女在线观看| 国产精品一区二区日韩| 欧美日韩国产va另类| av片在线免费观看| 亚洲美女在线视频| 污污的视频网站在线观看| 日韩视频国产视频| 国产精品女同一区二区| 欧美午夜片在线观看| 在线观看污污网站| 黑人精品xxx一区一二区| 国产精品第108页| 亚洲靠逼com| 草视频在线观看| 亚洲免费色视频| 东方av正在进入| 亚洲精品ww久久久久久p站| 天天爽天天爽天天爽| 国产精品国产三级国产aⅴ原创| 特级西西www444人体聚色 | 欧美大片国产精品| 亚洲av无码一区二区三区dv| 欧美一级二级三级蜜桃| av观看在线免费| 日韩美女视频在线| 成人精品在线播放| 亚洲精品一区二区精华| 国产91绿帽单男绿奴| 精品福利视频一区二区三区| 蜜臀av午夜精品| 日韩毛片中文字幕| 日本v片在线免费观看| 亚洲人线精品午夜| www在线免费观看| 精品国产网站地址| 影音先锋中文在线视频| 国内成人精品一区| 亚洲少妇视频| 国产伦精品一区二区三区精品视频 | 999久久久精品国产| 今天免费高清在线观看国语| 精久久久久久| 97xxxxx| 九九在线精品视频| 麻豆免费在线观看视频| 91小视频在线免费看| brazzers精品成人一区| 国产精品免费看片| 九九热国产精品视频| 精品久久久一区| 中文字幕免费高清在线观看| 日韩一区二区在线观看视频播放| 人妻精品一区一区三区蜜桃91| 日韩电影免费观看中文字幕| 国产免费视频在线| 久久国产精品首页| 九色porny自拍视频在线播放 | 男女视频网站在线观看| 久久久久国产精品一区三寸| 欧美日韩理论片| 2023国产精品| 亚洲天堂一级片| 黄色成人在线免费| 亚洲一卡二卡在线| 亚洲成人激情在线观看| 91女主播在线观看| 久久男人的天堂| 福利一区二区三区视频在线观看| 91麻豆桃色免费看| 精品一区亚洲| 日韩小视频网站| 麻豆精品国产91久久久久久 | 欧美国产欧美综合| 欧美色图一区二区| 91久久免费观看| 成人精品在线播放| 久久久精品网站| 国产精品迅雷| 国产精品.com| 91久久高清国语自产拍| 欧美韩国日本在线| 丰满少妇久久久久久久| xxxxx99| 日韩欧美亚洲国产一区| 精品区在线观看| 日韩中文字幕av| 成人免费短视频| 国产综合精品一区二区三区| 性欧美69xoxoxoxo| 在线视频日韩一区| 99国产精品久久| 国产亚洲小视频| 欧美一区二区三区四区高清| av二区在线| 国产91在线播放| 欧美人妖视频| av在线播放天堂| 夫妻av一区二区| 久久久精品视频在线| 678五月天丁香亚洲综合网| 成人在线观看一区| 热久久99这里有精品| 久久婷婷国产| 日本免费成人网| 国产乱人伦精品一区二区在线观看| 国产欧美小视频| 色美美综合视频| 国产永久免费高清在线观看 | 欧美激情精品| 中文字幕成人一区| 麻豆91精品视频| 天堂av网手机版| 欧美日韩一级黄| aaa在线观看| 国产欧美一区二区三区在线| 不卡一区综合视频| 亚洲视频在线a| 日本一区二区综合亚洲| 国产成人a v| 中文字幕欧美国内| 欧美一级网址| 日本黄色a视频| 国产精品一区二区三区四区| 欧美三根一起进三p| 精品国产伦一区二区三区免费| 肉肉视频在线观看| 国产91精品入口17c| 亚洲二区在线| 一女三黑人理论片在线| 日韩欧美视频一区二区三区| 国产理论电影在线观看| 国产精品久久国产精品99gif| 成人直播大秀| 伊人国产精品视频| 亚洲综合丁香婷婷六月香| 欧美77777| 欧美做受高潮电影o| 欧美军人男男激情gay| 色播五月激情五月| 亚洲欧美日韩人成在线播放| 亚洲第一色视频| 97视频com| 国产日韩视频在线| 亚洲欧美偷拍另类| 亚洲影视在线播放| 青青草视频免费在线观看| 国产精品久久久久久av| 夜间精品视频| 一级欧美一级日韩片| 欧美性大战久久久| 成人在线播放| 久久精品欧美| 久久国产欧美日韩精品| 久久久99精品| 亚洲欧美日韩在线一区| 中文成人在线| 少妇高潮喷水在线观看| 日本一区二区三区dvd视频在线| 国产免费av电影| 91精品国产高清久久久久久| 成人激情在线| 日韩无码精品一区二区| 欧美视频日韩视频| 国产白丝在线观看| 亚洲成人自拍视频| 国产99一区视频免费| 亚洲中文字幕无码爆乳av| 欧美成人在线免费| 综合干狼人综合首页| 超碰在线超碰在线| 欧美性猛交xxxx乱大交3| 国产丝袜在线| 日韩精品一区二区三区外面| 国产精品99久| 中文字幕视频一区二区| 国模视频一区二区|