Meta這兩篇最新Agent Learning論文,有些意思!
今天分享Meta SuperLabs最新發(fā)表的2篇關(guān)于Agent Learning的論文:
- 2025.11 《Scaling Agent Learning via Experience Synthesis》
- 2025.10 《Agent Learning via Early Experience》


兩篇文章從“如何低成本獲得高質(zhì)量經(jīng)驗(yàn)”出發(fā),形成一條完整技術(shù)鏈:離線專家數(shù)據(jù) → 早期經(jīng)驗(yàn)增廣 → 合成環(huán)境狂飆 → Sim-to-Real 微調(diào),為語(yǔ)言智能體進(jìn)入“規(guī)模化 RL 時(shí)代”提供可復(fù)現(xiàn)的路線圖。
1. Agent RL 的三座大山
- rollout 太貴WebArena 一次完整交互≈30 s,812 任務(wù)全跑一遍≈6.8 小時(shí),訓(xùn)練 GRPO 動(dòng)輒 80 k transitions。
- 獎(jiǎng)勵(lì)稀疏甚至缺失網(wǎng)頁(yè)場(chǎng)景無(wú) ground-truth 獎(jiǎng)勵(lì);form 提交成功≠字段全對(duì)。
- 任務(wù)多樣性不足手工寫 800 條指令已是天花板,難以支持課程化訓(xùn)練。

2. Early Experience:把“專家演示”變成“經(jīng)驗(yàn)海洋”
2.1 思想一句話
與其等環(huán)境給獎(jiǎng)勵(lì),不如讓 agent 自己“試一腳”——用產(chǎn)生的未來(lái)狀態(tài)當(dāng)監(jiān)督信號(hào)。
2.2 兩大技術(shù)路線
路線 | 輸入 | 輸出 | 目標(biāo) |
Implicit World Modeling (IWM) | (s, a’) | s’ | 學(xué)會(huì)“預(yù)測(cè)下一步世界” |
Self-Reflection (SR) | (s, a_expert, a’, s’) | 自然語(yǔ)言反思 c | 學(xué)會(huì)“為什么專家更好” |

圖 1:從人類數(shù)據(jù)時(shí)代 → 早期經(jīng)驗(yàn)時(shí)代 → 完全經(jīng)驗(yàn)時(shí)代
2.3 數(shù)據(jù)飛輪

- 從專家軌跡 Dexpert 中采樣狀態(tài) si
- 用初始策略 πθ 生成 K 個(gè)替代動(dòng)作 aji
- 在真實(shí)環(huán)境執(zhí)行,收集 (si, aji, sji) 構(gòu)成 Drollout
- 用 Drollout 做 IWM 或 SR 的增廣訓(xùn)練
- 微調(diào)后的 πθ 繼續(xù)產(chǎn)生更多 Drollout → 正向循環(huán)

2.4 結(jié)果速覽

Table2 8個(gè)benchmarks結(jié)果

OOD結(jié)果
結(jié)論:僅需 1/8 專家數(shù)據(jù)即可打平 IL 全量效果,且 OOD 泛化增益更大。

3. DreamGym:再往前一步,把“真實(shí)交互”直接省掉
3.1 核心洞察
Agent 訓(xùn)練不需要完美仿真,只需要“足夠多樣、因果一致、可解釋”的經(jīng)驗(yàn)。
于是作者用一個(gè) LLM 扮演 Experience Model,直接“推理”出下一狀態(tài)與獎(jiǎng)勵(lì),形成“零真實(shí) rollout”的 RL 訓(xùn)練場(chǎng)。

Fig-2 DreamGym 框架
圖 2:Experience Model 交替與 Agent 交互,Replay Buffer 持續(xù)更新,Task Generator 動(dòng)態(tài)產(chǎn)出高熵任務(wù)
3.2 三大組件
組件 | 作用 | 關(guān)鍵技巧 |
Reasoning Experience Model | 給定 (s, a, τ, 歷史, 相似軌跡) → (s’, r) + CoT 解釋 | 抽象文本狀態(tài)空間,過(guò)濾 HTML 噪聲 |
Experience Replay Buffer | 離線種子 + 在線新生成,top-k 相似檢索防幻覺(jué) | 持續(xù)與策略共進(jìn)化 |
Curriculum Task Generator | 選“成功率≈50%”的高熵任務(wù) → 產(chǎn)生變體 | 保證信息增益最大 |
3.3 實(shí)驗(yàn)亮點(diǎn)

DreamGym不同agnet訓(xùn)練算法結(jié)果
DreamGym 零真實(shí)交互即可打平甚至超越傳統(tǒng) RL;再疊加 5 k 真實(shí) rollout(DreamGym-S2R)直接 +8~10% 絕對(duì)增益。

case分析
4. 技術(shù)對(duì)比:Early Experience vs DreamGym
維度 | Early Experience | DreamGym |
是否觸碰真實(shí)環(huán)境 | ? 需要執(zhí)行替代動(dòng)作 | ? 完全合成 |
獎(jiǎng)勵(lì)信號(hào) | 無(wú)需獎(jiǎng)勵(lì),用 s’ 監(jiān)督 | 自產(chǎn)獎(jiǎng)勵(lì) r∈{0,1} |
數(shù)據(jù)效率 | 10× 專家數(shù)據(jù)壓縮 | 2 k-10 k 過(guò)渡即可訓(xùn)練 |
與 RL 銜接 | 提供熱啟動(dòng),后續(xù)接 GRPO | 直接內(nèi)置 PPO/GRPO |
最大瓶頸 | 仍需真實(shí) rollout 采集 | 依賴 LLM 推理能力,存在幻覺(jué)風(fēng)險(xiǎn) |
體驗(yàn)即數(shù)據(jù),推理即環(huán)境
從 Early Experience 到 DreamGym,兩條工作共同指向一個(gè)核心趨勢(shì)——
“經(jīng)驗(yàn)”不再是昂貴采集的稀缺品,而是可以靠大模型按需合成的數(shù)據(jù)原材料。
當(dāng)“體驗(yàn)”可以被無(wú)限生成、“獎(jiǎng)勵(lì)”可以被即時(shí)推理,語(yǔ)言智能體才真正邁入“ scalable RL ”的飛輪時(shí)代。對(duì)于工業(yè)界而言,這意味著“小樣本專家軌跡 + 大模型合成”將成為新的標(biāo)準(zhǔn)范式,而“真實(shí)環(huán)境”只用在最后 5% 的關(guān)頭做校準(zhǔn)——輕量、低成本、可擴(kuò)展,下一輪 agent 爆發(fā)或許就此開啟。
https://arxiv.org/pdf/2510.08558
https://arxiv.org/pdf/2511.03773本文轉(zhuǎn)載自??PaperAgent??

















