精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

任務級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

人工智能 新聞
為了確保訓練的穩定性,團隊提出了一個三階段訓練過程:格式微調、動作級訓練和任務級訓練。此外引入新的中文基準和高質量軌跡數據集,證明了該方法在移動代理領域的有效性。

現有Mobile/APP Agent的工作可以適應實時環境,并執行動作,但由于它們大部分都僅依賴于動作級獎勵(SFT或RL)。

而這些獎勵只能引導代理預測每一步中最佳的單一動作,因此難以應對不斷變化的移動環境。

比如一句指令:“打開飛豬,進入酒店套餐,進入熱門直播,找到飛豬超級VIP,并關注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。

圖片

淘天集團算法技術-未來生活實驗室&點淘算法團隊聯合提出,采用多回合、任務導向的學習方式,結合在線學習和軌跡糾錯,也許能提高Agent的適應性和探索能力。

他們提出了個具有任務級獎勵(Task-level Reward)的交互式強化學習框架,即Mobile-R1。

圖片

為了確保訓練的穩定性,團隊提出了一個三階段訓練過程:格式微調、動作級訓練和任務級訓練。此外引入新的中文基準和高質量軌跡數據集,證明了該方法在移動代理領域的有效性。

結果Mobile-R1順利地完成了這一任務。

圖片

軌跡數據集

團隊使用Qwen2.5-VL-3B執行一系列任務獲得初始軌跡,并人工標注這些初始軌跡,得到了高質量的軌跡數據集。

其構造可以分為數據收集和軌跡標注兩部分,最終得到了4,635條高質量的人工標注軌跡,包含24,521個單步數據。

圖片

△軌跡數據集構造流程

首先,選擇了28個中國移動應用程序,通過人工設計和自動生成相結合的方法創建了多樣化的任務指令,隨后統一經過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執行這些指令后,成功收集了大量動作執行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執行的動作以及對應的工具調用。

得到軌跡后,針對模型的輸出做了以下三個維度的標注:

  • 邏輯思考:將所有思考修正為“當前狀態+下一步的動作+動作目的”的格式,比如“當前在手機主屏(當前狀態),下一步是點擊淘寶圖標(下一步動作)來進入淘寶(動作目的)”。如果原思考內容錯誤也會人工標注者會按照該格式重寫思考。
  • 清晰動作:清晰動作是單步可執行操作的一句話描述,動作應符合思考的內容并且可推動任務的完成。
  • 準確調用:人工標注者會修正錯誤的操作調用,包括類型錯誤以及參數錯誤。

訓練流程

訓練流程由三個階段構成,基于Qwen2.5-VL-3B。這三個階段分別是初始格式微調、動作級在線訓練和任務級在線訓練。

圖片

Stage1:初始格式微調

在第一階段,對模型進行初始格式微調。這一步是通過監督微調(SFT)的方式進行的,使用的是之前人工標注的高質量軌跡數據集。在微調過程中,模型不僅會學習如何將用戶的指令與當前的GUI狀態對應起來,還會調整輸出格式以符合預期的結構,包括邏輯思考、清晰動作和準確調用。

Stage2:動作級在線訓練

在第二階段,模型通過群體相對策略優化(GRPO)進行動作級在線訓練。此階段使用動作級獎勵(Action-level Reward)來評估每個動作的正確性,同時確保輸出格式的完整性。動作級獎勵由可驗證動作獎勵和格式獎勵組成,其中可驗證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結構化、可解釋的。

  • 動作級獎勵。1)對于基于坐標的動作(如點擊、滑動),如果預測的坐標落在目標GUI元素的真實邊界框內,則獎勵為1,否則為0。2)對于非坐標的動作(如輸入文本),如果預測的動作或參數與真實值完全匹配,則獎勵為1,否則為0。
  • 格式獎勵。格式獎勵促使模型生成符合標簽和結構要求的輸出,確保響應的邏輯思考、動作以及工具調用的格式化。

Stage3:任務級在線訓練

在第三階段,通過多步驟任務級在線訓練來提高模型的泛化能力和探索能力。

在動態的移動環境中,模型需要進行自由探索和錯誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。

任務級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個軌跡中保持對響應格式的遵循,同時評估任務的完成情況。

  • 軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個歷史互動軌跡,確保步驟和動作的一致性以及任務的完成情況。
  • 格式獎勵。格式獎勵在此階段仍然起著重要作用,為整個軌跡計算平均格式獎勵,并通過[-1, 1]的范圍來對錯誤施加更嚴格的懲罰,以增強輸出的精確度。

訓練的部分階段在淘天自研的強化學習框架ROLL上進行實驗。

實驗結果

實驗中,主要評估了模型在自定義benchmark上的性能,并進行了針對模型泛化能力的魯棒性分析,以驗證Mobile-R1的表現。

圖片

△整體實驗結果,粗體表示最佳結果,下劃線表示次優結果

結果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現類似。

其中,AgentCPM-8B 由于專為中國移動生態系統優化,因此在中文場景中表現優異。更為顯著的是,Mobile-R1在所有基準中表現最佳,任務成功率達到49.40,比最優秀的baseline model高出將近20點。

Stage 3的訓練進一步增強了Mobile-R1的表現,其成功率比只有階段1和階段2訓練的模型高出1.4點,這得益于任務級GRPO的有效應用。

特別值得注意的是,通過階段1和階段2的訓練,Qwen2.5-VL-3B模型的表現超越了其標準版本,并在多項指標上領先于其他基準模型,突顯了動作級和任務級獎勵機制的重要性。

圖片

△Stage 3訓練的獎勵曲線

此過程中,Stage 3的獎勵分數顯示出在前四個訓練步驟中穩步增長,表明學習過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由于策略過于激進或探政策的改變導致的不穩定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優化和改進。

Mobile-R1在處理未見應用時表現出良好的泛化性,而其他模型在泛化能力上存在挑戰。Mobile-R1的優異表現主要歸功于Stage 3的訓練,這一階段有效增強了模型的魯棒性和適應性。

圖片

△魯棒性分析結果,粗體表示最佳結果

最后總結,在本文中,Mobile-R1通過在動態環境中整合交互式強化學習與任務級獎勵,顯著提升了基于視覺語言模型(VLM)的移動代理的能力。

通過包括格式微調、動作級GRPO訓練和任務級GRPO訓練在內的三階段訓練過程,克服了以往方法僅依賴單一動作預測的局限性。

實驗結果表明,Mobile-R1在所有指標上都超越了所有基準。此外,團隊計劃全面開源相關資源以促進進一步的研究。

論文鏈接:https://arxiv.org/abs/2506.20332

項目主頁:https://mobile-r1.github.io/Mobile-R1/

訓練框架參考:https://github.com/alibaba/ROLL/

開源數據: https://huggingface.co/datasets/PG23/Mobile-R1

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-12 09:48:27

2025-09-19 11:09:40

2009-05-17 10:17:39

Windows Mob微軟移動OS

2024-04-10 08:15:17

模型語言模型GPT

2025-03-07 08:50:03

2024-03-27 09:09:57

模型AI開源

2025-06-18 02:30:00

推理能力強化學習大語言模型

2024-04-08 08:05:00

大模型人工智能開源

2025-06-12 08:46:00

2025-02-05 23:21:32

2025-07-14 08:30:00

2024-10-17 18:52:41

2025-05-14 13:22:08

Qwen3訓練小模型

2025-10-17 09:08:05

2024-12-18 07:10:00

2025-07-18 09:55:11

2025-01-08 09:30:00

Meta大模型訓練

2024-06-13 09:12:48

點贊
收藏

51CTO技術棧公眾號

男人天堂av片| 国产精品久久久久久久久久久久午夜片 | 中文字幕在线观看一区二区三区| 国产精品久久久久久久一区二区| 欧美激情性爽国产精品17p| 亚洲精品一区二区三区99| 久久久久久久久久福利| 九七久久人人| 99re热这里只有精品视频| 国产精品视频色| 免费中文字幕在线观看| 国产免费播放一区二区| 日韩天堂在线观看| 亚洲成人福利在线观看| 国产精品偷拍| 国产精品卡一卡二卡三| 国产精品一区二区a| 成人午夜淫片100集| 久久久久久美女精品| 日韩精品一区二区三区第95| 久久久福利影院| 香蕉视频亚洲一级| 亚洲永久精品国产| 亚洲精品不卡| 日韩电影免费| 国产91精品久久久久久久网曝门| 国产大片精品免费永久看nba| 久久亚洲国产成人精品性色| 日韩国产一区| 亚洲另类欧美自拍| 亚洲av成人片无码| 超碰国产精品一区二页| 色哟哟日韩精品| 精品人妻少妇一区二区| 黄色成人影院| 国产精品国产三级国产有无不卡 | 成人久久精品视频| 男人天堂2024| 中文亚洲字幕| 久久久久久亚洲精品中文字幕| www.99re6| 欧美偷拍自拍| 亚洲视频在线观看| 国产ts丝袜人妖系列视频| 亚洲3区在线| 欧美一级在线免费| 国产性生活一级片| 久久伊人影院| 欧美一级一区二区| 欧美性猛交xx| 成人在线视频www| 7777精品伊人久久久大香线蕉的 | 丰满人妻av一区二区三区| 韩国av一区二区| 成人在线观看视频网站| 国产精品免费无遮挡| 狠狠色丁香久久婷婷综| 国产精品综合久久久| 亚洲天堂网在线视频| 蜜臀av性久久久久蜜臀aⅴ四虎 | 亚洲欧美另类综合| 国产91精品露脸国语对白| 99国产超薄肉色丝袜交足的后果| 国产精品人妻一区二区三区| 激情小说亚洲一区| 91在线无精精品一区二区| 国产精品乱码一区二区| 国产麻豆精品一区二区| 99久久国产免费免费| 高清乱码毛片入口| 99精品在线观看视频| 六月婷婷久久| 成年女人的天堂在线| 国产精品黄色在线观看| 久久久国内精品| 理论片午夜视频在线观看| 欧美性少妇18aaaa视频| 欧美日韩在线观看不卡| 亚洲精品第一| 亚洲成人网在线| 亚洲自拍偷拍一区二区| 久久精品高清| 九九热精品视频| 久久狠狠高潮亚洲精品| 日韩成人av影视| 亚洲aⅴ男人的天堂在线观看 | 亚洲视频在线观看网站| 国产人与禽zoz0性伦| 一区二区电影| 国产91精品高潮白浆喷水| 中文字幕免费观看| 国产一区视频导航| 美日韩精品免费| 日本在线天堂| 亚洲成av人片一区二区梦乃| 少妇人妻互换不带套| 99综合久久| 精品视频中文字幕| 国产精品成人69xxx免费视频| 亚洲激情在线| 国产精品网红直播| 日韩一区二区三区在线观看视频 | 可以直接看的黄色网址| 国产精品美女久久久| 国产欧美一区二区三区在线看 | 五月婷婷激情视频| 国产成人自拍网| 奇米影视首页 狠狠色丁香婷婷久久综合| 免费网站免费进入在线| 精品久久久久久电影| av免费一区二区| 日韩母乳在线| 欧美老女人xx| 国产精品51麻豆cm传媒| 成人不卡免费av| 天天操天天干天天玩| 欧美日韩精品免费观看视完整| 日韩一区二区精品| 一级黄色毛毛片| 日韩视频二区| **亚洲第一综合导航网站| 国产日韩精品在线看| 午夜精品在线视频一区| 亚洲av毛片在线观看| 国产精品欧美在线观看| 久久免费少妇高潮久久精品99| 波多野结衣小视频| 99国产精品国产精品毛片| 久久久成人精品一区二区三区| 成人精品三级| 亚洲欧洲xxxx| 天天操天天操天天操天天| 风间由美一区二区三区在线观看| 中文字幕av导航| 免费一级欧美在线观看视频| 亚洲视频精品在线| 色老头在线视频| 97se狠狠狠综合亚洲狠狠| 成人小视频在线观看免费| 亚洲男女网站| 久久精品国产亚洲精品2020| 中文字幕乱码视频| 欧美国产日产图区| 超碰av在线免费观看| 啪啪亚洲精品| 日韩av免费在线| 日韩精品视频无播放器在线看 | 国产精品一区二区女厕厕| 男女视频在线观看免费| 色综合欧美在线| www.色天使| 丝袜亚洲精品中文字幕一区| 欧美精品一区二区三区在线看午夜 | 亚洲欧洲无码一区二区三区| 亚洲污视频在线观看| 欧美亚洲国产精品久久| 国产精品美女999| 爱爱爱免费视频在线观看| 在线观看视频一区二区欧美日韩| www.黄色在线| 久久超碰97中文字幕| 99re99热| 国内精品国产成人国产三级粉色 | 最近国语视频在线观看免费播放| 欧美激情在线看| 亚洲a级黄色片| 在线精品视频在线观看高清| 99国产在线观看| 99色在线观看| 亚洲天堂日韩电影| 亚洲一区中文字幕永久在线| 中文字幕一区二区三区色视频| 亚洲天堂国产视频| 欧美激情自拍| 欧美日韩大片一区二区三区 | 国产视频欧美| 日本一区视频在线| 伊人国产精品| 国模gogo一区二区大胆私拍 | 久久影院免费观看| 特级丰满少妇一级aaaa爱毛片| 大伊人狠狠躁夜夜躁av一区| 极品尤物一区二区| 国产福利不卡视频| 日本不卡在线观看视频| 91麻豆精品国产91久久久平台| 亚洲一区二区三区久久| 亚洲人成在线网站| 久久精品国产亚洲一区二区 | 视频二区欧美毛片免费观看| 91sa在线看| 尤物网在线观看| 精品国产免费人成在线观看| 无码无套少妇毛多18pxxxx| 日韩一区日韩二区| 538国产视频| 看电视剧不卡顿的网站| 欧美 日韩 亚洲 一区| 成人午夜国产| 国产日韩精品推荐| 四虎成人精品一区二区免费网站| 久久青草福利网站| 在线免费观看黄| 精品国产乱码久久| 一级做a爱片性色毛片| 精品国产31久久久久久| 欧美风情第一页| 97超碰欧美中文字幕| 日韩av加勒比| 老司机亚洲精品| 久久综合久久久久| 色婷婷亚洲mv天堂mv在影片| 精品在线视频一区二区三区| 国模大尺度视频一区二区| 日本高清视频一区| 岛国毛片av在线| 欧美成人免费网| 91精彩在线视频| 日韩精品中文字幕在线观看| 亚洲精品一区二区口爆| 欧美日韩国产小视频| 久久久久久久久久久影院| 一级特黄大欧美久久久| 强制高潮抽搐sm调教高h| 久久久精品国产免大香伊| bl动漫在线观看| 高清视频一区二区| 一级黄色片在线免费观看| 日本视频免费一区| 日韩中文字幕免费在线| 国产欧美在线| 成人一区二区免费视频| 午夜精品久久久久99热蜜桃导演| 亚洲一区三区电影在线观看| 精品日韩免费| 日本一区高清不卡| 美女精品一区最新中文字幕一区二区三区 | 国产精品区在线观看| 欧美日韩在线一区二区| 亚洲精品国产欧美在线观看| 欧美性猛交xxxx免费看久久久| 日本少妇久久久| 亚洲成av人片观看| 国产午夜视频在线播放| 亚洲成人自拍一区| 国产污片在线观看| 亚洲成人综合在线| 日本少妇性生活| 欧美日韩国内自拍| 久久久久久少妇| 色爱区综合激月婷婷| 日韩一级片中文字幕| 91国产丝袜在线播放| 成人免费毛片视频| 欧美三级电影在线看| 亚洲熟妇无码久久精品| 欧美精品日韩一区| 国产成人精品一区二区无码呦| 日韩一区二区在线看| www.蜜臀av| 亚洲第一偷拍网| 色播色播色播色播色播在线 | 在线观看免费黄色网址| 国产精品久久免费看| 国产精品视频看看| 亚洲免费观看高清完整版在线观看 | 黄色动漫在线| 久久久久亚洲精品| 中文字幕资源网在线观看免费| 日本韩国在线不卡| 久久久免费人体| 99国精产品一二二线| 亚洲国产日韩在线观看| 国产99久久久国产精品潘金网站| 亚洲综合社区网| 国产精品香蕉| 欧美成ee人免费视频| 成人在线丰满少妇av| 狠狠干视频网站| 亚洲欧美成人综合| 91女神在线观看| 国产一区二区电影| 韩国无码一区二区三区精品| 中文字幕精品一区二区三区精品| 少妇久久久久久被弄高潮| 疯狂欧美牲乱大交777| 中文字幕一区二区三区波野结 | 国产免费一区二区三区在线能观看| 国产一区精品福利| 俄罗斯精品一区二区三区| 宅男在线一区| 中文字幕精品在线播放| 亚洲女人av| 欧美xxxx黑人| 久久精品欧美日韩| 午夜爱爱毛片xxxx视频免费看| 精品福利樱桃av导航| 在线播放一级片| 亚洲精品久久久久国产| 免费观看久久久久| 日本精品久久久久影院| 99精品美女视频在线观看热舞| 久久影院理伦片| 一区二区电影| 美女黄色片视频| 不卡视频在线观看| 97在线观看视频免费| 日韩欧美在线观看| 亚洲免费视频网| 精品久久久999| 伊人色综合一区二区三区影院视频| 91精品久久久久久蜜桃| 成人在线国产| 国产免费视频传媒| 成人福利在线看| 国产suv一区二区三区| 在线观看av不卡| 日韩二区三区| 午夜精品久久久久久久99黑人| 国产精品毛片aⅴ一区二区三区| 日韩精品国内| 亚洲欧美日韩在线观看a三区| 天天色天天综合网| 中文子幕无线码一区tr| 丁香社区五月天| 亚洲激情第一页| 成人av影院在线观看| 91久久国产自产拍夜夜嗨| 欧美性感美女一区二区| 欧美精品成人网| 26uuu亚洲综合色| 精品成人免费视频| 精品国产免费一区二区三区四区| a级在线观看| 91久久久久久久久| 91偷拍一区二区三区精品| caoporn超碰97| 国产日韩欧美综合在线| 秋霞av一区二区三区| 亚洲欧美国产va在线影院| 麻豆免费在线| 久久一区免费| 免播放器亚洲| 人人妻人人藻人人爽欧美一区| 激情成人中文字幕| 日本不卡视频一区二区| 青草青草久热精品视频在线观看| 丝袜久久网站| 国产成人a亚洲精v品无码| 久久久久亚洲蜜桃| 天天干,天天干| 中文字幕av一区中文字幕天堂 | 极品尤物一区二区| 欧美理论片在线| 亚洲图区一区| 国产精选一区二区| 亚洲欧美成人| 久久国产柳州莫菁门| 欧美日韩亚洲另类| 国产超级va在线视频| 粉嫩av四季av绯色av第一区| 精品动漫3d一区二区三区免费版| 日韩av手机在线播放| 欧美日韩加勒比精品一区| 黄上黄在线观看| 成人免费淫片aa视频免费| 欧美另类亚洲| 精品中文字幕在线播放| 日本道色综合久久| 日本a级在线| 国产精品免费观看高清| 香蕉久久a毛片| 国产又粗又猛又爽又黄的视频四季 | 亚洲免费视频中文字幕| 亚洲精选一区二区三区| 欧美在线观看视频| 成人无号精品一区二区三区| 操人视频免费看| 欧美日韩国产在线看| aaa在线观看| 成人蜜桃视频| 快she精品国产999| 91久久久久久久久久久久久久| 精品国产一区二区在线观看| av日韩电影| 国产福利片一区二区| 91视视频在线观看入口直接观看www| 瑟瑟视频在线免费观看| 欧美国产视频一区二区| 欧美激情在线精品一区二区三区| 国产福利精品一区二区三区| 岛国av在线不卡| 日本中文字幕在线视频| 精品欧美一区二区在线观看视频| 秋霞成人午夜伦在线观看| 国产精品第一页在线观看| 一个色综合导航| 韩国精品福利一区二区三区| 国产91色在线观看| 欧美日韩国产专区|