精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SWEET-RL:基于訓練時信息的多輪LLM代理強化學習框架

人工智能
SWEET-RL(Step-WisE Evaluation from Training-time information,基于訓練時信息的逐步評估)是多輪大型語言模型(LLM)代理強化學習領域的重要技術進展。

SWEET-RL(Step-WisE Evaluation from Training-time information,基于訓練時信息的逐步評估)是多輪大型語言模型(LLM)代理強化學習領域的重要技術進展。該算法相較于現有最先進的方法,成功率提升了6%,使Llama-3.1-8B等小型開源模型能夠達到甚至超越GPT-4O等大型專有模型的性能水平。本文將深入分析SWEET-RL如何改進AI代理在復雜協作任務中的訓練方法。

LLM代理與多輪交互機制

LLM代理是經過特定任務微調的大型語言模型,能夠作為決策實體與環境或人類進行交互以完成預定目標。多輪交互過程本質上是一系列連續的信息交換,類似于結構化對話,每個交互步驟都朝著最終解決方案遞進。這種交互模式可類比于協作規劃過程:例如在共同規劃旅行時,一方提出目的地建議,另一方提出問題或顧慮,然后初始建議被逐步完善直至形成完整計劃。在此類情境中,代理需要學習如何有效貢獻,而反饋往往僅在整個交互序列結束時才能獲得,這顯著增加了訓練的復雜性。

強化學習在此情境中發揮關鍵作用,它使代理能夠通過試錯方法進行學習,以最大化累積獎勵。然而,多輪交互環境中的傳統強化學習面臨信用分配問題——即難以準確判定長期序列中哪些特定行動導致了最終的成功或失敗。對于已經通過大規模文本數據預訓練的LLM而言,這一挑戰尤為明顯,因為它們需要在保持通用泛化能力的同時適應特定任務的要求。

ColBench:協作推理任務的評估基準

ColBench是專為驗證LLM代理在協作產物創建過程中的多輪強化學習算法而設計的基準。該基準主要關注后端編程和前端設計兩個關鍵領域,遵循以下核心原則:

ColBench確保任務具有足夠的復雜性,要求代理具備推理和泛化能力,從而真實反映實際應用場景。同時,它采用LLM作為人類模擬器和功能評估器,實現了低開銷的快速原型設計。

在后端編程任務中,代理最多可與人類模擬器進行10輪交互,從高級需求描述和函數簽名開始,最終通過通過全部10個單元測試(二元獎勵制:0或1)評估性能。該數據集包含10,000個訓練任務和1,000個測試任務,以及來自Llama-3.1-8B/70B-Instruct的15,000個離線交互軌跡。前端設計任務則要求代理設計網頁界面,通過計算與參考設計的余弦相似度評估效果,包含10,000個訓練任務和500個測試任務,以及來自Llama-3.1-8B和Qwen2-VL-72B的6,000個交互軌跡。

通過與現有多輪LLM代理基準的比較可知,ColBench是唯一同時滿足三個關鍵標準的評估框架:1)具備充分的任務多樣性,確保強化學習訓練不會過度擬合;2)擁有足夠的任務復雜性,能夠挑戰代理的推理和泛化能力;3)工程開銷最小化,適合快速研究原型開發。

多輪LLM代理面臨的核心挑戰

在當前快速發展的AI技術生態中,構建高效多輪LLM代理是最具挑戰性的前沿研究領域之一。這類代理必須能夠參與持續的交互過程,做出連貫一致的決策序列,同時保持對長期目標的導向性。傳統強化學習方法在應對此類復雜性時面臨諸多困難,主要體現在三個方面:跨回合的信用分配問題、對不同任務的泛化能力,以及如何高效利用有限訓練數據。

SWEET-RL作為一種創新解決方案,通過根本性改變LLM代理在協作推理任務中的訓練方法,有效應對了上述挑戰。

圖左展示了ColBench框架概覽,包括后端編程和前端設計兩個評估任務,支持在真實環境中對代理多輪強化學習算法進行低成本且可靠的評估。圖右闡述了SWEET-RL的核心理念,即利用額外的訓練時信息結合適當的Bradley-Terry(BT)目標函數實現有效的信用分配。

SWEET-RL的技術創新:核心組件與架構

非對稱Actor-Critic結構

SWEET-RL的核心創新在于其非對稱actor-critic架構,該架構從根本上改變了代理從經驗中學習的方式:

Critic(評估器)可以訪問額外的訓練時信息,從而提供更精確的行動評估,實現更有效的跨回合信用分配。而Actor(策略網絡)則在有限觀察條件下運作,根據交互歷史做出決策,保持在實際應用場景中的泛化能力。

這種非對稱設計使SWEET-RL能夠同時獲得兩種優勢:Critic在訓練階段的全面深入理解能力,以及Actor在實際部署中的適用性。

創新的優勢函數參數化

SWEET-RL引入了一種新型優勢函數參數化方法,顯著區別于傳統強化學習方法。該方法直接建模優勢函數,與LLM預訓練目標保持一致,提高了訓練穩定性和泛化能力,同時增強了信用分配效率。

兩階段訓練流程

該算法實現了精心設計的兩階段訓練過程:

第一階段:回合式Critic訓練 - 使用Bradley-Terry目標函數訓練Critic,利用訓練時信息進行準確評估,根據偏好對優勢函數進行優化。

第二階段:策略改進 - 利用訓練好的Critic指導策略更新,實施直接偏好優化的變體算法,確保學習過程穩定高效。

SWEET-RL訓練流程概述。在宏觀層面,我們首先應用Bradley-Terry目標函數直接訓練一個能夠訪問額外訓練時信息的逐步優勢函數。優勢函數訓練完成后,通過將其作為每個回合的獎勵模型執行策略改進。

實驗性能與應用效果

后端編程任務性能

SWEET-RL在后端編程任務中展現出卓越性能,達到了40.4%的成功率,而多輪DPO方法僅為34.4%;單元測試通過率達到56.8%,顯著高于競爭方法的48.0%。

前端設計任務性能

在前端設計場景中,SWEET-RL同樣取得了顯著進步,與參考解決方案的余弦相似度達到77.7%,對基線方法的勝率為48.2%。

ColBench基準上不同LLM和多輪強化學習算法的性能比較。SWEET-RL相較于其他多輪強化學習算法實現了超過6%的性能提升,使Llama-3.1-8B-Instruct模型能夠達到與更大規模專有模型相當的性能水平。

技術優勢與創新特點

增強的信用分配機制

SWEET-RL的創新信用分配方法解決了多輪強化學習中最具挑戰性的問題之一,通過有效利用訓練時信息,提供準確的回合級獎勵信號,減少學習信號的方差。

優化的泛化能力

該算法通過與LLM預訓練目標保持一致性,展現出卓越的泛化能力,在未見過的任務上表現強勁,并能隨訓練數據增加而有效擴展。

計算效率優化

SWEET-RL在實現性能提升的同時保持了較高的計算效率,通過直接優勢函數建模、穩定的訓練動態以及有效利用訓練數據實現這一目標。

性能比較圖表:(a)展示了不同步進獎勵模型在后端編程任務上Best-of-N采樣的擴展曲線。結果表明SWEET能夠在回合基礎上最優判斷高質量行動,從而實現Best-of-N采樣的最佳擴展性能。需注意,此曲線區別于測試時擴展曲線,因為SWEET利用了額外的訓練時信息。(b)展示了不同多輪強化學習算法在后端編程任務上隨微調數據量增加的性能擴展情況。盡管SWEET-RL初期需要更多數據以學習可靠的Critic,但它能迅速趕上并最終實現更優的收斂性能。

實驗表明,利用訓練時信息顯著增強了信用分配能力,這一點從SWEET-RL與不使用訓練時信息的SWEET-RL之間的性能差距得到證實。雖然相對于固定的LLM-as-a-Judge的Best-of-N采樣可在零樣本成功率上帶來一定改進,但這種改進有限。從質性分析看,固定的LLM評判器容易被響應的長度和格式影響,而未能真正關注其對任務成功的實際效用。最后,盡管在深度強化學習文獻中較為常見,但價值函數的使用與SWEET-RL相比未能實現相當的擴展性能,這凸顯了SWEET-RL在強化學習算法選擇上的精心設計,同時表明訓練價值函數的常規做法可能在未見過任務上泛化能力較差。

總結

SWEET-RL代表了多輪LLM代理訓練技術的重大進展。其在信用分配、優勢函數參數化和非對稱actor-critic結構方面的創新為該領域確立了新的基準。該算法使小型模型能夠實現與大型專有模型相當的性能,成為AI能力民主化進程中的關鍵一步。

展望未來,SWEET-RL的影響可能超越其當前應用范圍,影響更復雜AI系統的開發,特別是需要復雜推理和協作能力的系統。其成功證明了強化學習的持續發展價值及其在構建更強大、更高效AI代理中的重要性。

SWEET-RL通過技術創新、實用性和卓越性能的結合,成為人工智能領域的關鍵發展,可能深刻影響未來多輪LLM代理和強化學習的研究與發展方向。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2025-03-21 13:00:54

2025-10-11 04:00:00

2025-05-28 02:25:00

2025-11-10 04:15:00

2024-08-28 13:53:42

多代理強化學習機器人

2021-07-22 15:25:14

開源技術 框架

2025-08-08 09:15:00

2024-10-12 17:14:12

2025-05-12 08:24:01

2023-05-04 15:53:34

強化學習開發

2025-10-10 08:33:49

2020-12-23 06:07:54

人工智能AI深度學習

2025-11-06 08:56:00

2024-03-19 00:15:00

機器學習強化學習人工智能

2020-06-05 08:09:01

Python強化學習框架

2025-07-30 09:12:00

2025-07-22 09:05:00

強化學習AI模型

2025-05-06 08:40:00

2020-04-15 16:44:38

谷歌強化學習算法

2023-07-20 15:18:42

點贊
收藏

51CTO技術棧公眾號

国产精品欧美精品| 亚欧成人精品| 精品嫩草影院久久| 黑人糟蹋人妻hd中文字幕| 日本a一级在线免费播放| 香蕉av777xxx色综合一区| 伊人久久五月天| 日韩 国产 一区| 阿v视频在线观看| 欧美国产成人精品| 国产精品theporn88| 天天天天天天天干| 亚洲国产高清一区二区三区| 国产亚洲精品综合一区91| 又黄又爽又色的视频| 午夜裸体女人视频网站在线观看| 国产精品天干天干在线综合| 国产精品久久亚洲| 在线免费a视频| 亚洲中字在线| 久久99亚洲热视| 四季av中文字幕| 菁菁伊人国产精品| 91精品国模一区二区三区| 欧美日韩亚洲第一| 青草在线视频| 中文字幕一区二区三区不卡| 欧美激情专区| 免费观看国产视频| 狠狠色狠狠色合久久伊人| 亲爱的老师9免费观看全集电视剧| 手机在线免费看片| 欧美日韩中字| 亚洲男人第一网站| 白嫩情侣偷拍呻吟刺激| 91国产一区| 欧美日韩一级片网站| 成年人视频观看| 国产后进白嫩翘臀在线观看视频| 中文字幕一区二区不卡| 日韩av高清在线播放| 狠狠综合久久av一区二区| 国产专区综合网| 国产区精品在线观看| а中文在线天堂| 亚洲欧美日本国产专区一区| 欧美精品国产精品日韩精品| 午夜写真片福利电影网| 99久久精品费精品国产| 色七七影院综合| 蜜桃av免费在线观看| 精品久久电影| 中文在线资源观看视频网站免费不卡| 新91视频在线观看| 视频一区中文| 亚洲欧美另类中文字幕| 国产ts丝袜人妖系列视频 | 一区二区激情视频| 最新欧美日韩亚洲| 国产写真视频在线观看| 一区视频在线播放| 亚洲欧美日产图| 超碰在线国产| 国产精品进线69影院| 无码免费一区二区三区免费播放| 韩国三级av在线免费观看| 久久综合色8888| 欧美人与物videos另类| 国产精品一区在线看| 国产视频一区不卡| 亚洲精品免费在线看| lutube成人福利在线观看| 国产精品美女一区二区| 欧美日韩一区二区三区电影| 羞羞视频在线观看免费| 午夜精品久久久久久久蜜桃app| 日韩欧美精品免费| 手机在线观看av网站| 欧美午夜激情在线| 欧美日韩亚洲一二三| 国产精品4hu.www| 欧美精品在线视频| 色哟哟网站在线观看| 日韩大尺度在线观看| 一区二区欧美亚洲| 极品魔鬼身材女神啪啪精品| 韩国av一区| 国产mv久久久| 国产有码在线观看| 成人av免费在线观看| 欧美另类一区| 黄色网址在线免费观看| 午夜日韩在线电影| 五月天激情视频在线观看| 欧美高清一级片| 亚洲精品久久在线| 亚洲精品视频网址| 亚洲精品久久| 久久久久久成人精品| 九一国产在线观看| 久久成人av少妇免费| 高清一区二区三区视频| 女人偷人在线视频| 伊人婷婷欧美激情| 日本成年人网址| 精品中文字幕一区二区三区| 亚洲精品久久久一区二区三区 | 久久中文亚洲字幕| 久久久久久网站| 一区精品在线观看| av在线不卡电影| 五月天色婷婷综合| 91精品国产91久久久久麻豆 主演| 99久久精品国产一区色| 久久婷婷一区二区三区| 国产人妻人伦精品| 成人国产一区二区三区精品麻豆| 亚洲大胆美女视频| 三上悠亚作品在线观看| 三级久久三级久久久| 国产a一区二区| 麻豆视频网站在线观看| 色婷婷亚洲精品| 污污免费在线观看| 亚洲精品午夜av福利久久蜜桃| 欧美中文字幕精品| 国产成人手机在线| 亚洲精品视频免费观看| 一本大道熟女人妻中文字幕在线 | av免费在线免费观看| 色婷婷久久综合| 亚洲天堂av网站| 牛牛国产精品| 国产日韩欧美在线看| 蜜桃视频在线免费| 欧美日韩国产精品| 少妇被狂c下部羞羞漫画| 欧美激情成人在线| 91亚洲精品久久久久久久久久久久| 黄色片在线播放| 欧美体内谢she精2性欧美| 亚洲一区二区三区综合| 在线免费高清一区二区三区| 亚洲999一在线观看www| 久草中文在线观看| 欧美日本乱大交xxxxx| 久久久精品成人| 日韩黄色小视频| 日韩av电影免费播放| gay欧美网站| 亚洲毛片在线免费观看| 色av性av丰满av| 久久久亚洲午夜电影| 六月丁香婷婷激情| 小说区图片区色综合区| 欧美最近摘花xxxx摘花| 美州a亚洲一视本频v色道| 欧美日韩亚洲一区二区| 成人影视免费观看| 免费看黄裸体一级大秀欧美| 欧美激情论坛| 91p九色成人| 中文字幕亚洲图片| 136福利视频导航| 亚洲欧美自拍偷拍色图| 911福利视频| 欧美精品麻豆| 国产欧美一区二区三区不卡高清| 超碰资源在线| 精品亚洲aⅴ在线观看| 中文字幕第四页| 91首页免费视频| 成人3d动漫一区二区三区| 成人精品亚洲| 亚洲一区中文字幕在线观看| 在线观看的网站你懂的| 亚洲成成品网站| 中文字幕一区二区人妻视频| 国产精品女人毛片| 巨乳女教师的诱惑| 亚洲在线一区| 在线观看欧美一区| 国产精品115| 日本欧美一级片| 麻豆网站在线免费观看| 精品久久久久久久久久久久包黑料 | 爽成人777777婷婷| 粉嫩精品一区二区三区在线观看 | 欧美亚洲系列| 精品亚洲一区二区三区在线播放 | 日韩精品中文字幕一区二区三区| 国产极品在线播放| 中文字幕不卡一区| 国产成人av片| 日本91福利区| 无码av天堂一区二区三区| 久久91成人| 亚洲综合中文字幕68页| 日韩av影片| 久久成人在线视频| 久草福利在线视频| 日韩欧美亚洲另类制服综合在线 | 888av在线视频| 综合av色偷偷网| 深爱五月激情五月| 欧美日韩和欧美的一区二区| 免费毛片一区二区三区| 国产精品乱子久久久久| 精品中文字幕在线播放| 国产福利电影一区二区三区| 久久精品视频16| 欧美二区视频| 亚洲国产婷婷香蕉久久久久久99| 加勒比久久高清| 69堂成人精品视频免费| 欧美三区四区| 91av视频在线观看| 天堂亚洲精品| 久久人人爽亚洲精品天堂| 欧洲综合视频| 亚洲精品国产综合久久| 国产高清在线观看视频| 欧美日韩亚洲不卡| 久久久久亚洲视频| 欧美日韩亚洲激情| 你懂的国产视频| 亚洲一级二级三级| 中文字幕亚洲欧美日韩| 国产精品久久久久影院色老大| 欧美亚一区二区三区| 成人黄色在线网站| 不许穿内裤随时挨c调教h苏绵| 极品尤物av久久免费看| www.天天射.com| 日韩国产在线一| 少妇人妻互换不带套| 亚洲一区二区伦理| 日韩在线综合网| 亚洲激情国产| 成人一区二区免费视频| 亚洲网站在线| 蜜桃传媒一区二区三区| 伊人狠狠色j香婷婷综合| 欧美另类videosbestsex日本| 91精品国产麻豆国产在线观看 | 黄a在线观看| 久久久国产精品亚洲一区| 免费日本一区二区三区视频| 中文字幕久精品免费视频| av午夜在线| 丝袜情趣国产精品| 麻豆av在线免费看| 欧美精品一区二区免费| 97caopor国产在线视频| 欧美激情第一页xxx| 黄色小说在线播放| 97免费在线视频| 色综合桃花网| 国产精品日韩一区| 亚洲图片小说区| 亚洲综合色av| 粉嫩的18在线观看极品精品| 国产一区二区久久久| 色婷婷狠狠五月综合天色拍| 欧美日韩一区二| 99久久.com| 日本男女交配视频| 日韩午夜在线| 色七七在线观看| 精品在线播放午夜| 中文字幕制服丝袜| 91小视频在线观看| 亚洲一级黄色录像| 亚洲精品日产精品乱码不卡| 国产在线一区视频| 日韩欧美国产一区二区| 伊人网中文字幕| 欧美一级一区二区| 手机看片国产1024| 国产一区二区三区毛片| 毛片在线看片| 97视频在线观看网址| 日韩高清不卡| 亚洲bt欧美bt日本bt| 久久久精品国产**网站| 日韩影院一区| 亚洲天堂偷拍| 一区二区三区韩国| 成人免费视频免费观看| 国产毛片欧美毛片久久久| 亚洲欧美日韩国产手机在线 | 欧美美女网站色| 免费国产羞羞网站视频| 亚洲无限av看| tube8在线hd| 国产免费一区二区三区在线观看| 亚洲日本视频在线| 亚洲 国产 日韩 综合一区| 欧美日本一区| 国产理论在线播放| 成人高清视频免费观看| 国精产品视频一二二区| 午夜电影网亚洲视频| 一级aaaa毛片| 日韩av一区二区在线观看| 免费高清在线观看| 奇米成人av国产一区二区三区| 日韩成人视屏| 亚洲高清乱码| 亚洲综合精品| 午夜福利三级理论电影| 国产精品久久久久影院老司 | 媚黑女一区二区| 国产一线在线观看| 亚洲天天做日日做天天谢日日欢| 九九热精品视频在线| 精品国产免费久久| 免费黄色电影在线观看| 国产精品久久久久999| 青青操综合网| 蜜臀精品一区二区| 韩国理伦片一区二区三区在线播放| 亚洲第九十七页| 一二三四区精品视频| 国产精品福利电影| 在线视频日本亚洲性| 裤袜国产欧美精品一区| 精品国产免费人成电影在线观...| 伊人久久大香线| 日韩av自拍偷拍| 国产精品电影一区二区三区| 中文字幕av影院| 亚洲精品videossex少妇| 美女91在线| 国产精品国产精品国产专区不卡| 亚洲欧美色图| 中文字幕第三区| 亚洲欧美激情在线| 国产精品污视频| 久久成人人人人精品欧| 久久久久久久久久久久电影| 一区二区不卡在线视频 午夜欧美不卡'| 久久一综合视频| 好吊视频在线观看| 91久久一区二区| 成人高清免费在线播放| 国产精品流白浆视频| 成人免费看片39| 黄色小视频免费网站| 国产精品灌醉下药二区| 国产一区二区在线不卡| 久久不射热爱视频精品| jizzjizzjizz欧美| 人人干视频在线| 久久久午夜精品理论片中文字幕| 日韩av综合在线| 亚洲精品一区二区三区不| 三上悠亚激情av一区二区三区| 欧洲成人一区二区| 免费不卡在线观看| 特一级黄色录像| 精品剧情在线观看| 中文一区一区三区高中清不卡免费| 蜜桃久久精品乱码一区二区| 日韩精品国产精品| 三级黄色录像视频| 日韩欧美在线网站| 1234区中文字幕在线观看| 欧美连裤袜在线视频| 精品一区二区三区在线播放 | 国产偷自视频区视频一区二区| 无码人妻精品一区二区三区温州| 日韩欧美国产高清91| 在线免费av电影| 91青青草免费观看| 99综合在线| 久久久久久久久久97| 日韩女同互慰一区二区| 手机在线观看av网站| 一级做a爰片久久| 国产馆精品极品| 香蕉影院在线观看| 久久网福利资源网站| 欧美黑白配在线| 日韩av在线中文| 午夜国产精品一区| 999国产在线视频| 国产精品免费一区二区| 日韩专区中文字幕一区二区| 蜜臀av午夜精品久久| 日韩成人xxxx| 99re8精品视频在线观看| 黄色国产一级视频| 国产精品女同一区二区三区| 色丁香婷婷综合久久| 91九色单男在线观看| 久久激情婷婷| 国产一级特黄毛片| 在线观看精品国产视频| 风间由美中文字幕在线看视频国产欧美|