精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福7B智能體全面超越GPT-4o,推理流登頂HF

人工智能 新聞
傳統智能體系統難以兼顧穩定性和學習能力,斯坦福等學者提出AgentFlow框架,通過模塊化和實時強化學習,在推理中持續優化策略,并使小規模模型在多項任務中超越GPT-4o,為AI發展開辟新思路。

當前AI Agent的發展正陷入兩難的境地:

一方面,訓練「全能型」大模型讓其同時承擔推理、規劃與工具調用,雖具一體化優勢,但在長鏈推理中往往訓練不穩定、擴展性受限;

另一方面,基于prompt的智能體系統雖具靈活性,卻缺乏學習與自我優化能力,無法從交互中持續進化。

如何突破這一瓶頸?

斯坦福大學聯合德州農工大學(Texas A&M)、加州大學圣地亞哥分校(UC San Diego)和Lambda的研究團隊給出了新答案:讓智能體系統在推理「流」中進行在線強化學習,從而實現持續的自我提升與能力進化

論文地址: https://arxiv.org/abs/2510.05592

項目主頁: https://agentflow.stanford.edu/

開源代碼: https://github.com/lupantech/AgentFlow

在線展示:https://huggingface.co/spaces/AgentFlow/agentflow

視頻教程:https://www.youtube.com/watch?v=kIQbCQIH1SI

他們提出AgentFlow框架采用模塊化架構,通過4個專門化智能體協同工作,配合專門設計的Flow-GRPO算法,使系統能夠在真實交互環境中持續優化決策策略。

實驗結果顯示,僅7B參數的AgentFlow在搜索、數學、科學等多個任務上全面超越GPT-4o(約200B參數)和 Llama-3.1-405B。

團隊負責人在推特上分享了工作,獲得了極大的關注。

該工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 項目。

長鏈推理中的信用分配難題

訓練智能體系統面臨的核心挑戰是多輪信用分配(multi-turn credit assignment)問題:在長時跨度、獎勵稀疏的環境中,如何準確判斷每一步決策對最終結果的貢獻?

傳統的單一模型方法將所有功能集成在一個LLM中,通過特殊標簽(如 <tool_call>)一體化輸出思考、工具調用和回復。

這種方式在短鏈任務中有效,但在復雜場景下容易出現:推理鏈過長導致訓練不穩定、工具選擇錯誤難以追溯、無法根據環境反饋動態調整策略。

而現有的智能體系統(如 LangGraph、OWL、Pydantic、AutoGen)雖然實現了模塊化,但大多依賴固定的 prompt 工程,缺乏從經驗中學習的機制。

AgentFlow多模塊實時交互

在「流」中學習

AgentFlow的設計思路是:將復雜的推理任務分解給專門化的智能體模塊,同時讓核心決策模塊能夠在交互中持續學習

四模塊協同架構

系統由四個具備記憶能力的專門化智能體組成:

  • 規劃器(Action Planner):分析任務需求,制定執行策略,選擇最合適的工具。這是系統的核心決策模塊,也是唯一需要訓練的部分。
  • 執行器(Tool Executor):負責實際調用工具API,整合工具返回結果。
  • 驗證器(Verifier):基于系統累積的歷史記憶,評估中間結果是否符合任務目標和約束條件。
  • 生成器(Generator):整合所有信息和驗證反饋,生成最終答案或下一步行動建議。

關鍵創新在于:規劃器不是靜態的,而是通過在線(on-policy) 強化學習在推理流中實時優化

每輪交互后,系統會根據最終結果的成功或失敗,更新規劃器的決策策略,并將優化結果整合到系統記憶中,形成閉環的自適應學習過程。

Flow-GRPO算法

解決信用分配問題

團隊提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,專門針對多輪推理場景設計。核心思想是將軌跡最終的獎勵信號(成功/失敗)廣播到每一步動作,把復雜的多輪強化學習問題轉化為一系列單輪策略更新。

具體做法是:

1. 收集完整的推理軌跡(從初始任務到最終結果);

2. 根據最終結果計算 outcome reward;

3. 將這個 reward 分配給軌跡中每個規劃動作;

4. 使用相對優勢函數計算每個動作的優勢,進行策略梯度更新。

這種方法有效緩解了獎勵稀疏問題,同時保持了訓練的穩定性。

在線學習使系統能夠:快速糾正錯誤的工具調用、探索更優的子任務分解方式、根據環境反饋動態調整推理深度。

實驗結果:小模型的逆襲

研究團隊在10個跨領域基準上進行了系統評測,覆蓋知識檢索、智能體任務、數學推理和科學推理四大類。

性能對比

以Qwen-2.5-7B-Instruct為基座模型,AgentFlow 在所有類別中均顯著領先。

知識檢索:相比基線提升14.9%

智能體推理:提升14.0%

數學推理:提升14.5%

科學推理:提升4.1%

更令人驚訝的是跨規模對比結果:

  • 7B的AgentFlow在搜索任務上比GPT-4o(約200B)高8.2%
  • 在智能體任務上比Llama-3.1-405B高15.8%
  • 3B模型的AgentFlow也能在多項任務中超越405B的基線模型

消融實驗的關鍵發現

1. 在線學習 vs 離線學習

對比實驗顯示,如果用傳統SFT方式訓練規劃器,性能反而會平均下降19%。這證明在真實交互環境中的在線學習是實現高效推理的必要條件

2. 自主探索新策略

根據任務特點選擇合適的工具組合;同時,經過訓練的系統會自發探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search) 和特定網頁增強搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓練的推理流中出現。

3. 動態推理深度

在多跳搜索等密集推理任務中,訓練后的AgentFlow展現出「智能的懶惰」:對簡單任務保持較少的推理步數,對復雜任務才會增加推理深度。

隨著最大步數限制的提升,性能穩步上升但平均步數不會同比例增長。

4. 模塊協作的價值

雖然推理流本身就能帶來性能提升,但未經訓練的系統容易出現循環錯誤或卡頓。

通過強化學習訓練后,系統在工具調用準確性、子任務規劃精細度和全局性能上都有明顯改善。作者團隊提供過了一個例子來生動展示了在實驗中的有趣發現。

在這個例子中,在經過Flow-GRPO訓練前的推理系統,一旦遇到了諸如這里的python變量定義錯誤,便會反復輸出相同的子目標和工具調用,極大地浪費時間和推理效率。

在經過Flow-GRPO在線更新后,動作規劃器能夠根據之前的錯誤自動調整用更確切的子目標和任務描述來指導后續步驟,并且經過這樣的隨機應變后,一步成功。

這個例子也極大程度展現了,在智能體系統真實推理中進行強化學習的極大潛力。

技術意義與未來展望

AgentFlow的工作價值在于:

1.提供了新的訓練范式

證明了智能體系統可以通過在線強化學習獲得類似大模型的學習能力,且在特定任務上效率更高。

2.驗證了「小而精」的可行性

在合理的系統設計下,小模型通過模塊化協作和持續學習,可以在復雜推理任務中超越大規模通用模型。

3.為可擴展AI提供思路

模塊化架構使得系統可以靈活添加新工具、調整模塊功能。

AgentFlow至少讓我們看到:Agentic AI的發展不必完全依賴模型規模的堆砌,系統架構創新+高效訓練方法可能是更值得探索的方向。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-10-24 12:07:12

2025-03-12 10:38:05

2025-06-06 14:17:11

模型訓練AI

2025-08-14 10:25:11

2025-09-24 08:53:10

2024-12-20 12:30:00

模型AI數據

2025-01-03 10:55:22

2023-09-21 12:31:54

AI數據

2024-11-11 09:47:00

AI開源

2025-07-14 09:00:00

2025-06-10 09:07:00

2025-02-28 09:52:00

2024-08-15 15:45:00

AI訓練

2024-06-11 14:30:18

2023-03-15 10:35:16

GPTAI

2024-03-04 13:36:00

模型訓練

2025-04-16 15:28:31

模型AI數據

2025-04-11 09:10:00

模型開源AI

2025-02-17 12:24:43

2024-09-29 13:07:16

點贊
收藏

51CTO技術棧公眾號

午夜免费在线观看精品视频| 欧美在线一区二区三区| eeuss一区二区三区| 日本学生初尝黑人巨免费视频| 日韩中文av| 欧美日韩一卡二卡三卡| 无码人妻精品一区二区蜜桃网站| 视频午夜在线| 乱一区二区av| 91精品国产91久久久久久久久| 黄色三级生活片| 嗯用力啊快一点好舒服小柔久久| 在线视频观看一区| 欧美乱做爰xxxⅹ久久久| 韩国免费在线视频| 成人免费视频app| 国产日韩欧美影视| yjizz国产| 国产伊人精品| 日韩一区二区三区xxxx| 在线 丝袜 欧美 日韩 制服| 国产精品麻豆| 在线视频中文字幕一区二区| 成人av在线不卡| 理论片午午伦夜理片在线播放| 99国产精品久久久久| 91香蕉国产在线观看| 波多野结衣在线电影| 亚洲激情成人| 欧美成人黑人xx视频免费观看| 精品人妻无码一区二区三区| 91在线一区| 制服丝袜成人动漫| 在线观看的毛片| 忘忧草在线日韩www影院| 樱桃视频在线观看一区| 国产系列第一页| av二区在线| 久久久久免费观看| 久99久视频| 欧美综合视频在线| 国内精品视频666| 国产日韩在线精品av| 欧美一区二区三区久久久| 国产欧美大片| 97在线观看免费| 日本少妇激情舌吻| 亚洲性色视频| 午夜免费在线观看精品视频| 国产一级一片免费播放放a| 亚洲精品午夜av福利久久蜜桃| 在线观看国产精品淫| 成人黄色免费网址| 成人久久一区| 最近2019中文免费高清视频观看www99| 37p粉嫩大胆色噜噜噜| 日韩超碰人人爽人人做人人添| 亚洲电影免费观看高清完整版在线观看| 国产精品探花在线播放| 激情五月综合婷婷| 精品成人一区二区三区| 日本道中文字幕| 欧美精品中文| 亚洲欧美中文在线视频| 国产肥白大熟妇bbbb视频| 国产99久久| 在线看国产精品| 国产精品久久久免费看| 一本一道久久a久久精品蜜桃 | 欧美日韩小视频| 黄色三级视频在线| 在线观看欧美| 日韩精品一区二区三区视频| 俄罗斯黄色录像| 三级小说欧洲区亚洲区| 亚洲欧美中文在线视频| 青青青手机在线视频| 影视亚洲一区二区三区| 午夜精品在线观看| 中文字幕一区二区三区四区欧美| 免费看欧美美女黄的网站| 亚洲精品免费网站| 天天干天天草天天射| 国产三级精品三级| 一区二区三区四区免费观看| 超清av在线| 日本高清不卡一区| 免费看的av网站| 欧美日韩一区二区三区四区不卡| 亚洲欧美激情另类校园| 欧美风情第一页| 在线综合亚洲| 成人精品福利视频| 视频国产在线观看| 国产精品乱码久久久久久| 大胆欧美熟妇xx| 日韩制服诱惑| 日韩免费电影网站| 无码一区二区三区在线| 亚洲一区二区| 国产国语videosex另类| 国产日本精品视频| 久久久久久一二三区| 久久免费一级片| 国产日韩另类视频一区| 精品卡一卡二卡三卡四在线| a资源在线观看| 亚洲第一在线| 国产精品欧美一区二区| 无码国产精品一区二区色情男同| 国产精品久久久久久久久久久免费看 | zjzjzjzjzj亚洲女人| 日韩理论片av| 青草成人免费视频| 国产91绿帽单男绿奴| 国产精品国产馆在线真实露脸| 日韩国产一级片| 久久精品九色| 日韩在线www| 91黑人精品一区二区三区| 波多野结衣中文字幕一区二区三区| 亚洲成人第一| 欧美大片免费观看网址| 亚洲国产精品va在线观看黑人| 成人信息集中地| 日韩福利电影在线观看| 精品视频导航| 国产ktv在线视频| 日韩免费一区二区| wwwav国产| 韩国成人福利片在线播放| 日韩亚洲一区在线播放| 中老年在线免费视频| 337p日本欧洲亚洲大胆精品| 中文字幕人妻一区二| 久久福利视频一区二区| 色播亚洲视频在线观看| 欧美成人性网| 一区二区三区 在线观看视| 天堂中文在线网| 91麻豆免费视频| 精品久久一二三| 欧洲在线一区| 26uuu久久噜噜噜噜| 天天综合天天色| 精品国产91久久久久久| 在线视频 日韩| 亚洲精品123区| 精品999在线观看| 永久免费毛片在线播放| 精品一区二区电影| 男人天堂av在线播放| 国产亚洲精品7777| 中文字幕有码av| 欧美1级片网站| 成人中文字幕+乱码+中文字幕| 免费的黄网站在线观看| 日韩一卡二卡三卡四卡| 九九热这里有精品视频| 福利视频网站一区二区三区| av女优在线播放| 欧美一级三级| 国产精品高清在线观看| 在线a人片免费观看视频| 欧美久久久久久蜜桃| 日韩高清dvd碟片| 丰满少妇久久久久久久| 国产精品无码一区二区在线| 欧美禁忌电影网| 国产精品丝袜高跟| 最爽无遮挡行房视频在线| 亚洲国语精品自产拍在线观看| 好看的av在线| 亚洲欧洲美洲综合色网| 亚洲欧美高清在线| 久久国产精品亚洲77777| 亚洲欧美成人一区| **爰片久久毛片| 欧美在线观看日本一区| 免费在线看a| 精品久久久久久综合日本欧美| 中文字幕在线观看视频网站| 国产欧美一区在线| 性色av浪潮av| 午夜在线一区二区| 黄瓜视频免费观看在线观看www| 88久久精品| 国产z一区二区三区| 国产成人高清精品| 精品丝袜一区二区三区| 136福利视频导航| 精品国产户外野外| 国产精品三区在线观看| 91麻豆精品视频| 中文字幕第一页在线视频| 国产交换配乱淫视频免费| 亚洲成熟女性毛茸茸| 自拍偷拍亚洲欧美日韩| 亚洲精品在线视频免费观看| 蜜臀av性久久久久av蜜臀妖精| www.九色.com| 欧美日韩一区二区三区视频播放| 不卡视频一区二区| 91p九色成人| 91国产在线精品| a黄色片在线观看| 在线播放国产精品| 午夜成人免费影院| 日韩一区二区视频| 中国a一片一级一片| 亚洲高清免费视频| www.99re7| 国产欧美日韩综合精品一区二区| 韩国一区二区三区四区| 日本va欧美va精品| 成年人黄色片视频| 亚洲国产精品第一区二区三区| 一区二区精品在线观看| 国产精品入口久久| 精品高清视频| 亚洲三级av| 91精品中文在线| 狠狠久久伊人中文字幕| 日韩av电影国产| 在线播放高清视频www| 久久久亚洲天堂| 色综合999| 欧美精品少妇videofree| 欧美激情免费| 中文字幕亚洲欧美| 成年女人的天堂在线| 精品小视频在线| 五十路在线视频| 亚洲精品suv精品一区二区| 亚洲国产综合一区| 日韩欧美国产午夜精品| 国内精品国产成人国产三级| 欧美丰满一区二区免费视频| 在线观看亚洲国产| 欧美日韩中文字幕一区| 中文字幕在线观看精品| 欧洲亚洲国产日韩| 亚洲大尺度在线观看| 欧美午夜精品电影| 中文字幕在线2018| 欧美精品久久一区二区三区| 中文字幕二区三区| 7777精品伊人久久久大香线蕉完整版| 在线观看国产精品入口男同| 欧美色老头old∨ideo| 在线免费观看av片| 337p亚洲精品色噜噜狠狠| 国产女无套免费视频| 欧美一级生活片| 亚洲国产999| 亚洲精品国产精品久久清纯直播| 视频一区二区免费| 精品亚洲aⅴ在线观看| 成人综合影院| 久久亚洲国产精品成人av秋霞| 中文字幕资源网在线观看| 欧美丰满少妇xxxx| 老牛影视精品| 国产精品流白浆视频| va天堂va亚洲va影视| 成人av影视在线| 欧美18xxxx| 日韩电影免费观看高清完整| 久久国产中文字幕| 免费特级黄色片| 久久国产免费| 亚洲第一成肉网| 成人一区二区在线观看| 国产黄色网址在线观看| 亚洲欧美在线视频| 久久久久久久久久久网| 日韩欧美综合在线视频| 亚洲图片在线播放| 欧美va在线播放| 九色在线免费| 欧美成人第一页| 少妇一区视频| 国产激情一区二区三区在线观看| 妖精视频一区二区三区| 久久精品国产精品亚洲精品色| 国精品一区二区| 欧美午夜性生活| 国产成人8x视频一区二区| 日韩av在线看免费观看| 亚洲欧美偷拍三级| 在线能看的av| 日韩一区国产二区欧美三区| 九色国产在线观看| 欧美日韩国产第一页| 成人看片网页| 国产91亚洲精品一区二区三区| 成人国产精品一级毛片视频| 妺妺窝人体色www看人体| 热久久免费视频| 欧美深性狂猛ⅹxxx深喉| 中文字幕字幕中文在线中不卡视频| 国产又黄又猛又粗又爽| 日韩一区二区在线看片| av在线电影网| 欧美一区二粉嫩精品国产一线天| 精品国产亚洲一区二区三区大结局| 欧美凹凸一区二区三区视频| 韩国在线视频一区| 欧美日韩理论片| 国产欧美一区二区三区沐欲| 日本一区二区三区免费视频| 欧美精品成人一区二区三区四区| 日本国产在线| 992tv成人免费影院| 视频精品一区二区三区| 一本色道久久99精品综合| 久久国产欧美| 国产精品无码午夜福利| 午夜电影一区二区| 国内精品久久久久久久久久久| 日韩一区二区三区在线播放| 色成人免费网站| 欧洲精品久久| 欧美一级播放| 免费的av网站| 亚洲国产综合在线| 免费观看国产精品| 欧美成人精品在线视频| 成人av在线播放| 在线日韩av永久免费观看| 免费视频最近日韩| 波多野结衣一二三四区| 欧美午夜宅男影院| 国产在线高清| 国产精品视频资源| 亚洲视频分类| 91蝌蚪视频在线观看| 久久久91精品国产一区二区三区| 久久久久99精品成人片三人毛片| 亚洲国产女人aaa毛片在线| 91九色在线播放| 精品久久久久久中文字幕动漫| 亚洲国产激情| 免费看黄色aaaaaa 片| 欧美午夜性色大片在线观看| 日本精品久久久久| **欧美日韩vr在线| 岳的好大精品一区二区三区| 激情综合在线观看| 国产亚洲成av人在线观看导航| 国产成人麻豆免费观看| 日韩在线观看免费网站| 国产精品3区| 性高湖久久久久久久久aaaaa| 成人免费毛片片v| 西西44rtwww国产精品| 亚洲女人天堂成人av在线| 日本韩国欧美| 亚洲在线色站| 粉嫩在线一区二区三区视频| 久久99精品波多结衣一区| 国产一区二区激情| 亚洲欧洲二区| 国产午夜福利100集发布| 久久久久久久久久久久久夜| 中文字幕在线播放不卡| 欧美精品在线第一页| 大型av综合网站| 国内外免费激情视频| 亚洲欧洲日韩一区二区三区| www.国产视频| 日韩免费观看网站| 国产大片一区| 好吊色视频一区二区三区| 91国偷自产一区二区开放时间| 麻豆影院在线观看| 国产精品日韩一区二区三区| 久久久999| 午夜免费激情视频| 精品视频在线播放色网色视频| 黄色成人在线观看网站| 丁香花在线影院观看在线播放| 国产午夜精品美女毛片视频| 国产日本精品视频| 91精品国产91久久久久久久久| 欧美亚洲在线日韩| 国产免费一区二区三区最新6| 在线看一区二区| 欧美6一10sex性hd| 日本在线观看一区二区| 国产一区不卡在线| 黄色片免费观看视频| 欧美成人高清视频| 成人vr资源| 黄色一级视频片| 婷婷综合六月| 欧美卡1卡2卡| 日韩视频在线观看免费视频| 最新亚洲视频| 国产精选在线观看91|