精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GUI智能體訓練迎來新范式!半在線強化學習讓7B模型媲美GPT-4o

人工智能 新聞
浙江大學與通義實驗室Mobile-Agent團隊在UI-R1的基礎上,推出全新研究成果——UI-S1,提出了一種名為半在線強化學習(Semi-online Reinforcement Learning)的創新訓練范式。

如何讓AI更聰明地操作手機、電腦界面?

浙江大學與通義實驗室Mobile-Agent團隊在UI-R1的基礎上,推出全新研究成果——UI-S1,提出了一種名為半在線強化學習(Semi-online Reinforcement Learning)的創新訓練范式。

該工作融合了離線訓練的穩定性與在線學習的長程優化能力,在不依賴真實環境交互的前提下,顯著提升了模型在動態多輪任務中的表現。

也就是說,這種方法用的還是離線學習的現成操作數據,但會模擬在線學習的過程。

下面來看看是怎么做到的。

用“離線”數據,模擬“在線”過程

核心問題:傳統方法的局限性

現有的GUI Agent訓練主要依賴兩類強化學習范式:

  • 離線強化學習(Offline RL)利用預先收集的專家軌跡進行訓練,具有高穩定性與低部署成本,但其本質是“行為克隆+單步模仿”,缺乏對軌跡級獎勵信號的學習能力,難以應對需要長期規劃的任務。在以下任務中:基于離線學習的模型表現出早停現象,面對長程任務缺乏有效的規劃。

  • 在線強化學習(Online RL)通過與真實環境持續交互獲取反饋,能夠捕捉到任務完成與否的全局獎勵信號,適用于多步決策優化,但面臨獎勵稀疏、試錯成本高昂以及訓練不穩定等問題。

因此,如何在無需頻繁真實交互的前提下,賦予模型類似在線學習的上下文連貫性和長程推理能力,成為突破瓶頸的關鍵。

解決方案:三大核心技術構建半在線學習框架

為解決上述矛盾,研究團隊提出了三項關鍵技術,共同構成UI-S1的核心架構:

半在線機制:在離線數據中模擬在線交互

離線學習的軌跡是固定的,只能將專家軌跡的動作(*表示)作為歷史:

而在線學習的軌跡是可以動態變化的,將模型自己的原始輸出(π表示)作為歷史:

UI-S1首次提出半在線強化學習范式,其核心思想是在固定離線軌跡的基礎上,在每次rollout過程中保留模型自身的原始輸出(包括動作選擇與思維鏈),而非僅使用專家動作作為歷史輸入。

這一設計使得模型能夠在訓練中體驗“自我行為帶來的上下文變化”,從而增強策略的一致性和多輪連貫性。

換言之,即使沒有真實環境反饋,模型也能“感知”自己過去的行為,并據此調整后續決策,實現了對在線學習過程的有效模擬。

補丁機制(Patching Module):自適應修復采樣偏差

由于模型在rollout中可能偏離專家路徑,導致后續狀態無法匹配原始軌跡,研究者引入了可配置的補丁機制,以恢復被中斷的操作流。具體包含三種策略:

  • Thought-Free Patch:僅修正錯誤動作,保持原思考過程不變
  • Off-Policy Thought Patch:調用更強外部模型重寫錯誤思維鏈
  • On-Policy Thought Patch:引導模型自身生成正確的推理路徑

此外,提高補丁次數上限可顯著提升模型訪問完整軌跡的能力,進而增強對后期步驟的學習效果。

分析顯示,更高的補丁閾值有助于維持策略熵,防止過早收斂,促進探索多樣性。

長程獎勵建模:從步驟級到軌跡級的優勢估計

為了彌補傳統離線RL無法捕獲未來收益的缺陷,UI-S1引入了帶折扣因子的未來獎勵傳播機制。對于每個中間步驟,系統不僅計算其即時規則獎勵還結合未來步驟的潛在價值(按衰減因子γ加權)形成綜合獎勵:有了這個步驟級別獎勵,研究者們用其估計同一個步驟組內的步驟級別優勢,最后一步的優勢被當作軌跡級別優勢,用于評估軌跡是否完成:研究者將兩個級別的優勢加權后(),采用動態采樣的方式優化策略模型:

評測革新:SOP——更貼近真實表現的動態評估指標

針對傳統靜態評測(如AC-High)無法反映多輪容錯能力的問題,研究團隊提出了新的評測——SOP(Semi-online Performance)

該協議保留模型每一輪的真實輸出,一旦出現錯誤即終止任務,全面模擬真實使用場景下的連續交互過程。結果表明,SOP與真實在線性能高度對齊,且支持更高任務多樣性和更快評估速度,填補了現有評測體系在動態性與實用性之間的空白。

實驗結果:全面超越基線,逼近頂尖閉源模型

在多個主流GUI自動化基準上的測試中,UI-S1-7B展現出卓越性能:

實驗結果

特別是在AndroidWorld任務中,UI-S1-7B取得了34.0%的任務成功率,接近GPT-4o(34.5%)與UI-TARS-7B(33.0%),顯著優于純SFT或離線RL方法。

值得注意的是,部分基線方法在動態評測中甚至不如基礎模型,反映出其在多輪泛化方面的根本缺陷。

同時,在單輪任務(如GUI Odyssey)上,UI-S1-7B仍保持+7.1%的增益,說明半在線訓練并未犧牲局部精度,實現了“長短兼顧”的雙重優化。

在常規的GUI單輪評測上,UI-S1-7B相比于base模型也有一定程度的提升(比如GUI Odyssey +7.1),證明了半在線方法并沒有犧牲單輪預測能力。

深入分析:機制有效性與可擴展性驗證

補丁機制顯著提升數據利用率

作為UI-S1框架的核心組件之一,補丁模塊(Patch Module)在維持訓練穩定性與提升策略泛化能力方面發揮了不可替代的作用。

其設計初衷在于解決半在線強化學習中一個根本性矛盾:模型在rollout過程中不可避免地會偏離原始專家軌跡,導致后續狀態無法對齊真實數據,從而中斷整個軌跡的學習進程。

為緩解這一問題,研究團隊引入了可調節的補丁機制,允許系統在檢測到操作偏差時,以有限次數對歷史動作或思維鏈進行修正。通過設置超參數閾值控制每條軌跡最多可修補的次數,研究人員系統評估了不同配置下的性能變化。

實驗結果表明,提高補丁閾值顯著提升了模型在SOP和AndroidWorld兩個動態評測基準上的表現

在具體修補策略的選擇上,研究對比了三種典型方案,揭示了性能與效率之間的深層權衡:

  1. On-Policy Thought Patch由目標策略模型自身重新生成正確的推理過程,在語義風格和推理節奏上與原輸出高度一致,因此能提供最自然的上下文銜接,帶來最優性能。然而,該方法需額外執行完整的前向推理,計算開銷較大,不利于大規模訓練。
  2. Thought-Free Patch僅修正錯誤的動作標簽,保留原有的思維鏈不變。盡管未修復潛在的邏輯缺陷,但由于GUI動作空間相對結構化且可通過規則校驗,該方式在實踐中表現出接近最優的性能,同時幾乎不引入額外計算成本,具備極高的工程實用性。
  3. Off-Policy Thought Patch借助外部更強的大模型(如GPT-4)重寫錯誤的思考過程。雖然理論上可提供更高質量的推理指導,但因生成風格、術語使用與目標模型存在分布偏移,反而可能導致上下文斷裂或誤導訓練方向,實際效果不如預期。

更進一步分析發現,較大的補丁閾值有助于在訓練過程中維持較高的策略熵(policy entropy),即模型在動作選擇上的不確定性水平。

較高的熵值反映了更豐富的探索行為,避免策略過早收斂于少數高頻路徑。

這說明補丁機制不僅是誤差糾正工具,更是促進策略多樣性和防止模式坍縮的重要手段。

數據縮放規律揭示高效學習潛力

研究表明,UI-S1的性能增長符合指數型數據規模律。

隨著補丁閾值從0增至無窮,指數系數k從?1.13提升至?0.73,表明單位數據帶來的邊際收益明顯改善。

這意味著即使在有限數據條件下,該方法也能更充分挖掘非完美軌跡中的監督信號,具備良好的小樣本適應能力。

消融實驗確認關鍵組件貢獻

消融實驗進一步驗證了多個核心組件的技術貢獻。

首先,在未來獎勵建模方面,折扣因子γ的設置對多輪任務表現具有決定性影響:當γ=0(完全忽略未來獎勵)時,模型性能最低;而在 γ=0.5時達到峰值,說明適度納入長程優化信號可顯著提升策略的全局一致性與任務完成率,凸顯了半在線范式在捕獲跨步依賴關系上的優勢。

其次,在訓練范式組合上,聯合使用監督微調(SFT)與半在線強化學習(Semi-online RL)的效果明顯優于任一單獨方法——在AndroidWorld基準上,組合方案取得34.0%的任務成功率,分別高出僅用Semi-online RL(30.4%)和僅用SFT(21.7%)的配置,且平均任務完成步數更少,表明其具備更強的路徑規劃與執行效率。

最后,同時引入軌跡級與步驟級優勢函數計算,并保留多幀歷史觀測信息(包括動作、思考鏈與界面狀態),均被證實對最終性能有正向增益,去除任一組件均會導致性能下降,說明這些設計共同支撐了模型在復雜GUI交互中的穩健決策能力。

樣例分析

研究者們展示了一項復雜的跨應用任務,該任務要求在多個操作步驟中持續保留關鍵信息:從Simple Gallery中查看一張包含交易信息的圖片,并在Markor應用中創建文件記錄該信息。

實驗表明,基礎模型和離線強化學習(Offline RL)模型在執行過程中出現了思維與動作不一致的問題。

例如,Offline RL模型在規劃完切換至下一應用后便提前終止操作,可能因其過度擬合局部獎勵,未能統籌后續任務目標。而經過監督微調(SFT)的模型則在流程中遺失了關鍵信息,導致執行冗余操作,如嘗試創建一個已存在的文件。

相比之下,基于半在線強化學習(Semi-Online RL)框架的UI-S1模型在整個12步操作序列中保持了穩定的上下文連貫性,成功將交易信息“2023-03-23, Monitor Stand, $33.22”準確以CSV格式寫入文件。

這一表現驗證了該方法在學習多輪復雜行為方面的優勢,實現了推理過程與動作執行的高度對齊。

研究者認為,該成果體現了半在線范式在提升GUI智能體長程規劃能力與任務魯棒性方面的關鍵作用。

感興趣的朋友可戳下方點鏈接獲取更多內容~

論文地址:https://arxiv.org/abs/2509.11543

項目代碼:https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1

模型地址:https://huggingface.co/mPLUG/UI-S1-7B

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-14 10:25:11

2025-10-24 12:07:12

2025-01-06 12:46:16

模型數據訓練

2025-11-04 08:42:27

2025-07-14 09:00:00

2020-04-15 16:44:38

谷歌強化學習算法

2025-08-07 14:05:40

OpenAI大模型開源

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2024-12-13 14:03:44

模型訓練AI

2025-06-10 09:07:00

2025-10-28 02:11:00

2025-09-28 15:35:32

AI模型強化學習

2023-08-28 06:52:29

2025-02-27 13:45:00

2024-11-22 14:10:00

AI智能體

2025-03-11 13:07:58

2024-09-23 15:04:16

2023-05-04 15:53:34

強化學習開發

2025-06-06 14:17:11

模型訓練AI

2025-08-01 14:32:35

AI模型訓練
點贊
收藏

51CTO技術棧公眾號

成人免费毛片嘿嘿连载视频…| 国产露脸无套对白在线播放| 欧美三级午夜理伦三级在线观看| 色综合色综合色综合| 日本免费一区二区三区| 国产美女明星三级做爰| 亚洲精选国产| 丝袜亚洲另类欧美重口| 丰满人妻一区二区三区免费视频棣 | 三级成人在线视频| 操日韩av在线电影| 亚洲熟妇无码av| 嫩呦国产一区二区三区av| 欧美色欧美亚洲高清在线视频| 亚洲精品一区二| 人妻一区二区三区免费| 老司机精品视频导航| 久99九色视频在线观看| 亚洲一二三精品| 精品人人人人| 欧美一区二区三区在线视频| www.国产区| 免费不卡av| 久久精品综合网| 国产精品国产精品国产专区不卡| 国产乱码在线观看| 亚洲女优在线| 久久久久久久国产精品| 国产十六处破外女视频| 波多野结衣在线观看一区二区| 亚洲国产一区二区三区在线观看| www.午夜av| 欧美综合社区国产| 在线视频国内自拍亚洲视频| 黄色一级视频片| 色帝国亚洲欧美在线| 自拍偷拍国产亚洲| 亚洲视频导航| 成黄免费在线| 日本一区二区三区国色天香 | 色综合久久88色综合天天 | 日本不卡视频在线观看| 欧洲中文字幕国产精品 | 日本乱人伦aⅴ精品| 青娱乐自拍偷拍| 91超碰在线播放| 一区二区三区在线不卡| japanese在线播放| 黄色成人影院| 亚洲美女一区二区三区| 久久久久亚洲av无码专区喷水| 91精彩在线视频| 亚洲国产精品t66y| 亚洲国产精品一区二区第四页av| 成人性生交大片免费看午夜| 国产无一区二区| 神马影院一区二区| av资源种子在线观看| 国产精品免费久久久久| 性欧美大战久久久久久久免费观看 | 91麻豆精品激情在线观看最新 | 天天插综合网| 久久久999国产| 中文字幕在线有码| 国内视频精品| 2019中文字幕免费视频| jizz国产在线观看| 久久精品久久精品| 91精品国产高清久久久久久91裸体 | 日本一区二区在线视频| av网站在线免费播放| 国产精品家庭影院| 日本福利视频在线观看| av在线中出| 在线观看日韩av先锋影音电影院| 国产九九在线观看| 视频精品一区| 亚洲免费av网址| 刘亦菲国产毛片bd| 欧美天堂亚洲电影院在线观看| 久久久亚洲影院| 亚洲 欧美 日韩 在线| 黄色片一区二区三区| 免播放器亚洲一区| 99久久精品免费看国产四区| 日韩一级片免费| 国产女主播视频一区二区| 在线不卡日本| 国产精选在线| 欧美午夜精品久久久久久超碰 | 日韩中文字幕av| 欧美黑人猛猛猛| 欧美亚洲专区| 亚洲自拍偷拍福利| 日韩精品系列| 亚洲色图清纯唯美| 欧美精品色婷婷五月综合| 欧美大片网站| 精品亚洲男同gayvideo网站| 99精品中文字幕| 亚洲一区图片| 亚洲综合一区二区不卡| 成人激情视频在线| 欧美不卡在线播放| 亚州一区二区三区| 日韩欧美一卡二卡| 亚洲成人黄色av| 午夜视频精品| 国产精品视频免费在线| 婷婷av一区二区三区| 中文字幕一区二区三区四区不卡| 成人免费aaa| 国产在线不卡一区二区三区| 亚洲欧美自拍一区| 久草视频免费在线| 激情久久五月天| 日本一区二区在线视频观看| 美女视频在线免费| 精品日韩99亚洲| 综合五月激情网| 丝袜美腿高跟呻吟高潮一区| 国产原创精品| 调教一区二区| 91精品国产高清一区二区三区蜜臀| 男人操女人动态图| 国产精品日韩| 精品国产乱码久久久久久88av| 超碰个人在线| 欧美日韩国产精选| 免费看黄色av| 日韩精品欧美精品| 免费看成人av| 中文字幕一区久| 日韩精品极品毛片系列视频| 久久久久久久九九九九| 国产精品影视天天线| 日本一区二区免费高清视频| 日本免费成人| 日韩在线精品视频| 888奇米影视| 国产精品美女久久久久av爽李琼| 国产97色在线 | 日韩| 国产这里有精品| 一区免费在线| 国产精品日韩二区| av有码在线观看| 精品国产第一区二区三区观看体验| 一级黄色录像视频| 国产精品亚洲专一区二区三区| 国产精品多人| 67194成人在线观看| 谁有免费的黄色网址| 亚洲在线国产日韩欧美| 国产在线一区二区三区播放| ririsao久久精品一区| 欧美成人福利视频| 国产一级在线播放| 97久久久精品综合88久久| 欧美成人三级在线视频| 香蕉久久夜色精品国产使用方法 | 免费在线中文字幕| 精品国产亚洲在线| 在线观看黄网站| 久久久五月婷婷| 天天色综合天天色| 午夜国产一区二区| av免费精品一区二区三区| 少妇av在线| 日韩国产欧美区| 成年人视频免费| 国产精品高潮呻吟| 又大又长粗又爽又黄少妇视频| 亚洲国产三级| 日韩欧美在线电影| 中文字幕日本一区| 午夜精品久久久久久99热软件| 日韩av成人| 色综合久久久久久久久久久| 国产在视频线精品视频| 国产suv精品一区二区6| 女性女同性aⅴ免费观女性恋| 欧美一站二站| 91久久精品www人人做人人爽| 国模精品视频| 中国人与牲禽动交精品| 精品国产区一区二| 欧美性xxxx极品hd满灌| 国产一区在线观看免费| 成人黄色在线网站| 久久久国产欧美| 欧美freesex交免费视频| 久久婷婷开心| 高清一区二区| 欧亚精品在线观看| 18加网站在线| 亚洲一区二区国产| 性网爆门事件集合av| 日本精品一区二区三区高清| 九九九免费视频| 国产欧美一区二区在线观看| 国产香蕉精品视频| 免费成人在线影院| 欧美 日本 亚洲| 91精品综合| 日本午夜精品电影| 亚洲一区网址| 成人黄色在线观看| 欧美大片免费观看网址| 欧美精品久久久久久久| 最新电影电视剧在线观看免费观看| 亚洲国产成人av在线| 国产免费不卡av| 日本高清免费不卡视频| 国产精品a成v人在线播放| 国产精品乱码一区二三区小蝌蚪| 看全色黄大色黄女片18| 国产伦精品一区二区三区在线观看 | 91精品国产色综合久久不卡电影 | 亚洲精品视频在线播放| 精品人妻伦一二三区久久| 欧美日韩成人综合天天影院| 国产黄色免费观看| 午夜视频在线观看一区二区三区| 国产福利视频网站| 中文成人综合网| 日本激情小视频| 久久久久久久久久久久久久久99 | 国产超碰人人模人人爽人人添| 日本久久精品电影| 天天干天天色综合| 日韩欧美在线国产| 免费看日韩毛片| 亚洲电影在线播放| 久久精品国产亚洲AV无码男同| 亚洲欧美日韩系列| 三级在线观看免费大全| 中文字幕一区二区三区色视频 | 成人免费视频网| 激情欧美一区二区三区黑长吊| 国产精品久久久久不卡| 视频在线日韩| 国产精品青草久久久久福利99| 日韩影片中文字幕| 日本欧美一二三区| 国产成人精品亚洲日本在线观看| 日本久久久a级免费| 88xx成人永久免费观看| 青青草99啪国产免费| 欧美无毛视频| 国产精品美女网站| 日韩一级特黄| 91成人免费在线观看| 伊色综合久久之综合久久| 懂色av一区二区三区在线播放| 97se亚洲国产一区二区三区| 国产成人亚洲欧美| 视频小说一区二区| 日本一区不卡| 久久在线电影| 精品久久久无码人妻字幂| 国产综合网站| 六月丁香激情网| 日韩激情在线观看| 国产探花在线看| 国产馆精品极品| 午夜剧场免费看| 国产午夜一区二区三区| 国产精品18在线| 亚洲精品免费在线观看| 激情综合网五月天| 日韩欧美在线看| 亚洲图片中文字幕| 精品美女在线观看| 欧美日韩伦理片| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 在线观看麻豆| 欧美xxxx18国产| 国产网站在线| 国产免费久久av| 亚洲综合色婷婷在线观看| 久久精品丝袜高跟鞋| 波多野结衣一区| 91动漫在线看| 青青国产91久久久久久| 杨幂一区二区国产精品| 91香蕉视频mp4| 91久久久久久久久久久久久久| 亚洲一区免费观看| 久久久国产免费| 欧美成人bangbros| 1769在线观看| 9.1国产丝袜在线观看| 久久精品97| 久久国产精品久久精品国产| 外国成人免费视频| 久久久久久久久久久久久国产精品| 美女爽到高潮91| 亚洲一区二区三区综合| 国产精品久久久久久久久久免费看 | 亚洲国产你懂的| 在线观看中文字幕2021| 亚洲精品99久久久久中文字幕| 麻豆网站视频在线观看| 秋霞成人午夜鲁丝一区二区三区| 亚洲精品成a人ⅴ香蕉片| 久久久水蜜桃| 国内精品亚洲| 永久免费黄色片| 国产日韩精品视频一区| 久久人人爽人人爽人人| 欧美日韩精品免费| 暖暖视频在线免费观看| 久久人人爽人人| 二区三区精品| 中文字幕日韩一区二区三区| 三级在线观看一区二区| 亚洲啪av永久无码精品放毛片 | 国产成人一二片| 一道本在线观看视频| 日本欧美在线看| 久久国产精品影院| 性久久久久久久| 性一交一乱一精一晶| 久久综合亚洲社区| 久久精品xxxxx| 亚洲国产精品久久久久久女王| 久久经典综合| 日韩精品一区二区三区高清免费| 亚洲乱码一区二区三区在线观看| 中文字幕欧美在线观看| 亚洲视频精品在线| 男人最爱成人网| 欧美12av| 美女日韩在线中文字幕| 国产三级国产精品| 精品久久久久久久久久久| 蜜桃久久一区二区三区| 欧美精品久久久久久久久| 91亚洲精品视频在线观看| 蜜桃视频一区二区在线观看| 国产精品一区二区在线观看不卡| 亚洲区一区二区三| 51午夜精品国产| av黄色在线| 97免费高清电视剧观看| 欧美日本不卡| 欧美做受高潮中文字幕| 午夜精品国产更新| 五月天激情婷婷| 奇米影视亚洲狠狠色| 欧美精品尤物在线观看| 午夜免费福利在线| 国产精品污污网站在线观看 | 亚洲国产精品久久久久久| 91高清视频在线观看| 你懂的网址一区二区三区| 日韩国产精品久久久久久亚洲| 亚洲最大成人综合网| 欧美久久一二三四区| 日本孕妇大胆孕交无码| 国产精品视频入口| 欧美一级专区| 久久久国产一级片| 欧美一级理论性理论a| 国产理论电影在线| 欧美日韩一区二区三| 蜜桃视频在线一区| 免费成年人视频在线观看| 精品久久久久久久久久久久包黑料| 韩国成人免费视频| 日本不卡二区高清三区| 麻豆国产精品一区二区三区| 欧美三级在线免费观看| 亚洲国语精品自产拍在线观看| 日韩电影大全网站| 中文字幕综合在线观看| 不卡av在线免费观看| 91丝袜一区二区三区| xxxx性欧美| 亚州精品视频| 中文字幕第17页| 五月激情丁香一区二区三区| 国产日本在线观看| 91精品网站| 久久看片网站| 亚洲欧美小视频| 日韩国产欧美区| 国产一区二区av在线| 黑人糟蹋人妻hd中文字幕| 中文字幕人成不卡一区| 五月天激情婷婷| 成人在线免费观看视视频| 99视频在线精品国自产拍免费观看| 亚洲a v网站| 日韩色在线观看| 小明成人免费视频一区| av日韩一区二区三区| 中文字幕在线观看不卡视频| 手机看片一区二区| 亚洲一区二区中文字幕|