SEAgent:開啟從實戰經驗中自我進化的GUI智能體新紀元
當前計算機使用智能體(CUA)的發展,主要依賴于大量昂貴的人工標注數據 。這極大地限制了它們在缺少現成數據的新穎或專業軟件中的應用能力 。為了打破這一瓶頸,來自上海交通大學和香港中文大學的學者們提出了 SEAgent,一個全新的、無需任何人類干預,即可通過與環境交互來自主學習和進化的智能體框架。
SEAgent 的核心創新在于其閉環的自主進化框架、一個經過深度優化的評判模型,以及一套高效的 「專才 - 通才」 融合策略。

- 論文鏈接: https://arxiv.org/abs/2508.04700v1
- 代碼鏈接: https://github.com/SunzeY/SEAgent
SEAgent 的核心:三位一體的自主進化框架

圖 2. 總體算法概覽
SEAgent 的自主進化能力,源于其內部三大核心組件的協同工作,形成了一個可持續的、自我驅動的學習閉環。
- 課程生成器 (Curriculum Generator):扮演 「導師」 的角色。它能根據智能體當前的能力,自動生成難度循序漸進的探索任務 。它還會維護并更新一本 「軟件指南」,記錄智能體在探索中發現的新功能,從而提出更具多樣性和挑戰性的新任務。
- 執行者 - 智能體 (Actor-CUA):即智能體本身,它根據 「導師」生成的任務,在軟件環境中進行實際操作和探索。
- 評判者 - 世界狀態模型 (World State Model):作為框架的 「裁判」,它負責評估智能體執行任務的每一步表現 。它的精準評判,為智能體的學習提供了最關鍵的反饋信號,并幫助 「導師」 了解智能體的最新能力,從而形成一個完整的進化閉環。

圖 3:自動課程學習構建細節
構建更好的 「裁判」:世界狀態模型的優化之路
一個精準的 「裁判」 是自主進化的基石。我們發現,現有的開源大視覺語言模型在評判智能體長序列操作時能力不足,當輸入過多的歷史截圖時,其判斷準確率甚至會下降 。為了解決這一核心問題,我們著手構建了一個更強大的評判模型 ——
世界狀態模型 (World State Model)。
我們的優化策略主要有兩點:
- 革新評判范式:我們摒棄了只看最終結果的傳統方式,而是讓模型學會分析整個交互軌跡 。通過對所有歷史狀態進行細致的、一步步的推理,模型能夠更精準地捕捉到關鍵的成敗節點,從而提供高質量的步驟級獎勵信號。
- 高質量數據蒸餾:我們使用 GPT-4o 在 OSWorld 的 Chrome 環境中生成了包含 860 條高質量評判的軌跡數據,并利用這些數據對 Qwen2.5-VL-7B 模型進行微調 。同時,我們創新性地引入了截圖變化描述(Screenshot Change Description)的協同訓練任務,這顯著增強了模型對 GUI 微小變化的感知能力,進一步提升了評判的準確性 。
經過優化,我們的世界狀態模型在性能上大幅縮小了與 GPT-4o 等商業模型的差距,為 SEAgent 框架提供了可靠、穩定的評判能力 。

圖 4:算法流程偽代碼
「專才 - 通才」 融合:超越個體極限的訓練策略
在單個智能體的進化之上,我們探索了如何構建一個能操作多種軟件的 「通才」 模型。我們發現,直接在多軟件環境中訓練一個 「通才」,效果并不理想,其性能甚至不如在單一軟件上訓練的 「專才」 模型 。
為此,我們提出了一套高效的 「專才到通才」(Specialist-to-Generalist)融合策略。該策略分為三步:
- 培養專才:首先,我們使用 SEAgent 框架,在五款不同的專業軟件上分別訓練出五個獨立的 「專才」 智能體。
- 知識蒸餾:然后,我們收集這些 「專才」 模型執行成功任務的 3500 條軌跡數據,通過監督式微調(SFT)的方式,將它們的綜合知識 「蒸餾」 到一個全新的通用模型中。
- 通才進化:最后,將這個已經具備了良好基礎的 「通才」 模型,再次置于 SEAgent 框架中,在所有五種軟件上進行最終的強化學習和進化。

圖 5:主要實驗結果與多輪訓練提升
實驗結果證明,這一策略取得了巨大的成功。最終得到的 「通才」 智能體,其綜合成功率達到了 34.5%,不僅遠超直接訓練的通才模型(30.6%),甚至超越了所有 「專才」 模型的性能總和(32.2%),展示了 「先專后通,融合進化」 的強大潛力。
系統賦能與實證
嚴謹的消融實驗證明了這套算法設計的必要性。結果顯示,高質量的 世界狀態模型 是有效學習的前提;基于探索的 強化學習(GRPO) 顯著優于單純模仿;而能夠從錯誤中學習的 對抗性模仿 機制則帶來了關鍵的性能提升。
這套核心算法被置于一個更大的系統框架中,由 課程生成器 提供循序漸進的任務,并通過 「從專家到通才」 的策略,將多個單一軟件的 「專家」能力融合成一個更強大的 「通才」 模型。最終,SEAgent 在 OSWorld 基準測試中取得了顯著的性能飛躍,將基線模型的成功率大幅提升,充分驗證了其算法框架的先進性與有效性。
本文第一作者是上海交通大學和上海人工智能實驗室的聯培博士生孫澤一,在 CVPR, ICCV, NeurIPS 上發表多篇論文,Google scholar citation 400 多次,目前的研究的興趣是 GUI-Agent,多模態學習和強化學習。























