精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI在線強化學習“邊做邊學”,斯坦福團隊讓7B小模型性能飆升,甚至超越GPT-4o

人工智能 新聞
AgentFlow,是一種能夠在線優化智能體系統的新范式,可以持續提升智能體系統對于復雜問題的推理能力。

斯坦福等新框架,用在線強化學習讓智能體系統“以小搏大”,領先GPT-4o——

AgentFlow,是一種能夠在線優化智能體系統的新范式,可以持續提升智能體系統對于復雜問題的推理能力。

它由規劃器、執行器、驗證器、生成器四個專業智能體組成的團隊通過共享內存進行協作,利用新方法Flow-GRPO,在系統內部直接對其規劃器智能體進行實時優化。

以Qwen-2.5-7B-Instruct為基座模型的AgentFlow在10個基準測試中表現突出:

搜索任務提升14.9%、智能體任務提升14.0%、數學任務提升14.5%、科學任務提升4.1%。

多項任務表現甚至超越比其大50倍的模型,超越GPT-4o、Llama3.1-405B。

AgentFlow發布后,受到業界不少廣泛關注與看好。

網友紛紛表示方向很棒:

多智能體流(multi-agent flow)給人的感覺就像“相位耦合推理”(phase-coupled reasoning)。很期待看到“協同能力”取代“規?!?,成為衡量智能的指標。

Flow-GRPO采用共享內存的多智能體架構設計精妙。其中驗證智能體對幻覺化工具調用的阻斷機制尤為關鍵——它能顯著減少智能體工作流中典型的多步推理鏈誤差傳播。

所以,AgentFlow究竟長啥樣?

工具集成的智能體系統+流中強化學習訓練

自“AI下半場”開啟以來,智能體(Agent)在垂直領域與通用場景中呈現出井噴式發展。然而,在復雜決策與持續優化能力方面,當前智能體仍存在一定局限。如何將智能體的推理能力與強化學習的自我進化機制深度融合,成為突破這一瓶頸的關鍵所在。

在今年早些時候,隨著DeepSeek-R1的發布,推理模型的訓練方式迎來了新的啟發。不久之后,伊利諾伊大學香檳分校(UIUC)發布Search-R1,系統揭示了如何通過強化學習,訓練能夠自主推理并調用外部工具的推理模型(Tool-Integrated Reasoning Models)。

而在此之前,智能體系統(Agentic System)的發展也從系統層面推動了智能體協作與可擴展性的提升,為后續相關研究奠定了堅實基礎。

例如,LangGraph、PydanticAI、OWL等框架在智能體通信、任務規劃與工具調用等方面進行了多樣化的探索,為智能體生態的快速演進提供了有力支撐。

而AgentFlow提出了一種新范式,其中由四個具備記憶能力的專門化智能體協同配合:

規劃器負責分析任務并選擇工具,執行器調用工具并整合結果,驗證器基于累積記憶評估中間結果,生成器整合信息生成最終答案。

對于每個新任務,規劃器在智能體交互的“流”中根據環境變化及其他智能體的反饋實時進行on-policy優化,各模塊在推理流中協同演化并不斷調整決策策略。這些優化隨后被整合到系統的記憶中,形成一個閉環的自適應推理過程,使整個智能體系統在復雜環境下實現魯棒的工具調用與持續進化。

其中,AgentFlow包含了以下幾個關鍵組件:

模塊化智能體結構。

AgentFlow采用了四個具備記憶能力的專門化智能體協同配合,共同完成復雜推理,從而實現“即時學習”:

(i)規劃器(Action Planner):分析任務、制定策略并選擇最合適的工具;

(ii)執行器(Tool Executor):調用工具集并整合工具執行結果;

(iii)驗證器(Verifier):基于系統維護的累積記憶評估中間結果是否滿足目標與約束;

(iv)生成器(Generator):整合所有信息與驗證反饋,生成最終答案或行動建議。

AgentFlow流中強化學習。

AgentFlow的關鍵創新在于:規劃器(Planner)并非固定不變,而是能夠在智能體交互的”流”(flow)中實時進行on-policy優化,使決策過程隨著環境變化及其他智能體的反饋不斷自適應進化。集成過程分為三個步驟:

(i)環境感知與記憶檢索;

(ii)動作規劃與工具選擇;

(iii)策略優化與記憶更新。

Flow-GRPO:流中強化學習優化算法。

實現智能體流中強化學習訓練的核心挑戰在于多輪信用分配(multi-turn credit assignment):即如何在長時跨度(long-horizon)且獎勵稀疏(sparse reward)的條件下,穩定且高效地訓練。為此團隊提出動作級別的(Action Level)的多輪推理優化目標。

如圖2所示,通過將軌跡最終結果的成功或失敗信號(outcome reward)廣播至每一步,將原本復雜的多輪強化學習問題轉化為一系列可處理的單輪策略更新。該方法不僅緩解了獎勵稀疏問題,還顯著提升了訓練效率,為智能體在復雜多輪推理中的穩定學習提供了基礎。

實驗結果

為了充分評估AgentFlow的泛化能力與高效性,研究團隊在10個跨各個領域的基準測試上進行了系統評測,涵蓋知識檢索、智能體任務、數學推理和科學推理四大類。

以Qwen-2.5-7B-Instruct為基座模型的AgentFlow在各項基準上均超越現有領先方法:

  • 知識檢索(Search):提升14.9%
  • 智能體推理(Agentic Reasoning):提升14.0%
  • 數學推理(Math):提升14.5%
  • 科學推理(Science):提升4.1%

值得注意的是,AgentFlow的表現甚至超過了大規模的專有模型,如GPT-4o(~200B)。

表1、2展示了AgentFlow在不同類型任務上的評估結果,表明了在有效性(相對提高高達14.9%)和效率(平均推理步數優化)上均優于基準方法。

研究團隊在10個基準測試上進行了評估,涵蓋知識檢索、智能體任務、數學推理和科學推理四大類。一些有趣的發現:

1、模型規模不是唯一答案

使用7B參數的AgentFlow在多個任務上超過了約200B參數的GPT-4o,Llama3.1-405B,在搜索任務上領先8.2%,在智能體任務上領先15.8%。這再一次展現了,合理的系統設計和訓練方法可能比單純堆砌參數訓練All in one的大模型更有效。

2、“在流中學習”至關重要

對比實驗顯示,若采用離線監督學習(SFT)方式訓練規劃器,性能反而顯著下降,平均降低19%。

這表明,智能體在真實交互環境“流”中進行在線學習是實現高效推理的必要條件。

此外,盡管AgentFlow的推理流本身能夠利用其強大的任務分解能力帶來顯著性能提升,但仍可能出現循環錯誤或卡頓問題。通過在真實環境中的訓練,智能體系統展現出快速修正錯誤的工具調用、更精細的子任務規劃,以及全局任務解決性能的提升。

這些結果進一步證明了模塊協作機制以及流中強化學習在提升多輪智能體系統穩定性與效率方面的顯著作用。

3、自主發現新的解決路徑

有意思的是,經過Flow-GRPO的強化訓練規劃器,系統學會了根據任務特點選擇合適的工具組合;同時,經過訓練的系統會自發探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search)和特定網頁增強搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓練的推理流中出現。

4、動態推理深度與性能提升

對于相同的數據集下的不同難度任務:譬如說多跳搜索(Multihop Search),智能體任務中的密集長鏈推理任務,AgentFlow在經過 FlowGRPO訓練后能夠隨著最大限制推理步數的上升穩步提升性能,同時又不會大幅提升平均推理步數——這表示對于長難任務會增加有效的推理步數來提升正確率,而不會一味地所有任務都隨著最大輪數限制而延長推理步數。

總之,AgentFlow為智能體訓練提供了一種全新的思路:

與其追求一個功能完備的單一大語言模型或“一次性完美”的智能體系統,不如讓智能體在系統中自我適應與持續學習。

通過將群體智能與“邊做邊學”的范式相結合,AgentFlow使智能體系統能夠在協同演化中不斷優化,從而高效應對復雜任務。

盡管從研究探索到實際應用仍有較長的距離,但這讓團隊看見Agentic AI依然蘊藏著巨大的潛力與想象空間。

論文地址:https://arxiv.org/abs/2510.05592

項目主頁:https://agentflow.stanford.edu/

Github倉庫:https://github.com/lupantech/AgentFlow

在線Demo:https://huggingface.co/spaces/AgentFlow/agentflow

YouTube視頻:https://www.youtube.com/watch?v=kIQbCQIH1SI

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-11-04 08:42:27

2025-09-24 08:53:10

2025-01-06 12:46:16

模型數據訓練

2025-10-24 17:29:54

2025-09-28 15:35:32

AI模型強化學習

2025-03-12 10:38:05

2024-12-20 12:30:00

模型AI數據

2025-02-25 12:30:00

2025-01-03 10:55:22

2025-07-14 09:00:00

2025-08-14 10:25:11

2025-06-10 09:07:00

2023-11-13 07:51:58

ChatGPT研究

2024-02-07 12:39:00

AI數據

2024-09-23 15:04:16

2025-03-11 13:07:58

2024-04-07 13:40:20

2023-03-14 13:45:14

模型AI

2025-04-25 13:34:53

R1DeepSeekAgent

2024-05-17 17:25:44

點贊
收藏

51CTO技術棧公眾號

一级做a爱片久久| 欧美激情影院| 国产精品久久久久aaaa| 97成人精品视频在线观看| 国产精品成人一区二区三区电影毛片 | 国产福利在线视频| 麻豆精品在线观看| 久久久久久久影院| 一二三区视频在线观看| 国产福利视频在线| 国模少妇一区二区三区| 91av中文字幕| 欧美日韩黄色网| 久久99视频| 亚洲精品在线免费观看视频| 亚洲xxxx2d动漫1| 国产精品蜜臀| 亚洲欧洲日韩在线| 久久精品午夜一区二区福利| 毛片视频网站在线观看| 偷窥自拍亚洲色图精选| 91精品国产aⅴ一区二区| 国产 福利 在线| av网址在线| 亚洲国产成人午夜在线一区| 国产精品爽爽爽| 一本一本久久a久久| 青青草这里只有精品| 日韩一区二区精品| 国产成人在线综合| 免费av毛片在线看| 亚洲中文一区二区| 伊人久久大香| 色婷婷综合五月| 欧美大片免费播放| 久久久久久精| 日本美女bbw| 欧美日韩一区二区三区在线电影 | 丰腴饱满的极品熟妇| 久久综合偷偷噜噜噜色| 欧美日韩亚洲丝袜制服| 国产免费视频传媒| 中文字幕人成乱码在线观看| 亚洲精品久久久蜜桃| 国产精品av免费| 粉嫩av一区二区夜夜嗨| 国产高清在线精品| 91视频国产高清| 国产美女免费视频| 中文国产一区| 欧美激情一区二区三区全黄| 亚洲一级影院| 欧美久久久久久久久| 美女喷白浆视频| 国产精品专区免费| av资源中文在线| 欧美91大片| 日韩小视频在线| 精品亚洲视频在线| 黑人精品视频| 中文字幕欧美国产| 亚洲精品电影在线一区| eeuss影院www在线播放| 亚洲欧洲一区二区在线播放| 亚洲精品天堂成人片av在线播放| 亚洲欧美日韩精品永久在线| 91在线国产福利| 欧美一区三区二区在线观看| 成人在线观看免费| 91在线看国产| 日韩中文字幕一区二区| 日本免费视频在线观看| 一区二区在线观看不卡| 亚洲 自拍 另类小说综合图区| 77777影视视频在线观看| 国产精品久久网站| 亚洲色图都市激情| 嗯啊主人调教在线播放视频| 一本一道久久a久久精品| 国产wwwxx| 丁香六月综合| 欧美日韩免费高清一区色橹橹| 大肉大捧一进一出好爽视频| 第四色日韩影片| 五月激情丁香一区二区三区| 国产精品无码av无码| 亚洲永久无码7777kkk| 国产巨乳在线观看| 粉嫩蜜臀av国产精品网站| 精品日产一区2区三区黄免费| 91久久国语露脸精品国产高跟| 羞羞答答国产精品www一本| 日韩电影一区二区三区四区| 粉嫩aⅴ一区二区三区四区 | 91精品国产色综合久久不卡98口| 国产suv精品一区二区68| 亚洲无中文字幕| 欧美性受xxxx白人性爽| 一二区在线观看| 99re热视频精品| 中文字幕日韩一区二区三区| a国产在线视频| 欧美人体做爰大胆视频| 人妻无码一区二区三区| 亚洲国产精品久久久天堂| 97色在线观看免费视频| 国产精品久久久久久免费| 北条麻妃国产九九精品视频| 亚洲一区二区三区精品视频| av在线播放网站| 一区二区三区**美女毛片| 日日碰狠狠丁香久燥| 97久久综合区小说区图片区| 精品久久久久久久久久久院品网| 2025中文字幕| 日韩精品永久网址| 欧美亚洲激情视频| 午夜久久久久久久久久| 成人精品亚洲人成在线| 影音先锋欧美资源| 成人性生交大片免费网站| 精品久久久久久久久久久院品网 | 在线永久看片免费的视频| 国产乱一区二区| 亚洲高清在线观看一区| 日韩脚交footjobhd| 日韩女优av电影| 污污内射在线观看一区二区少妇 | 国产精品亚洲视频| 亚洲一区二区三区在线观看视频| 黄色一级片在线看| 久久99欧美| 国产在线观看你懂的| 日本在线播放一区二区三区| 欧美日韩一卡二卡三卡| 干日本少妇首页| 成人午夜大片| 欧美日韩国产第一页| 国产精品探花视频| 中文字幕一区三区| 免费涩涩18网站入口| 国产一区二区三区探花| 日韩美女免费视频| 国产又粗又黄视频| 日韩欧美一起| 国产精品一级在线| 中文字幕日韩精品久久| 在线黄色网页| 欧美一区二区日韩| 在线免费观看亚洲视频| 先锋亚洲精品| 免费国产一区二区| 操你啦视频在线| 91精品国产色综合久久不卡蜜臀| 性欧美18—19sex性高清| 欧美午夜在线| 国产精品v欧美精品v日韩| а√天堂中文在线资源8| 亚洲成人动漫在线播放| 久久一二三四区| 99精品热视频| 成人三级视频在线播放 | 亚洲私人黄色宅男| 亚洲欧美日韩网站| 国产精品www.| 久久综合精品一区| 日本综合视频| 日韩精品一区二区视频| 黄色一级视频免费看| 亚洲国产精品t66y| 中文字幕国产高清| 国产一区日韩欧美| 蜜桃导航-精品导航| 久草综合在线| 欧美巨乳在线观看| 婷婷av一区二区三区| 欧美亚州韩日在线看免费版国语版| 丰满岳乱妇一区二区| 美女精品在线观看| 亚洲精品美女久久7777777| 国产情侣一区在线| 91国产视频在线播放| 福利小视频在线观看| 91精品国产手机| 午夜毛片在线观看| 亚洲欧美怡红院| 青青在线视频免费| 国产日韩视频在线| 91在线观看免费高清| 秋霞影院午夜丰满少妇在线视频| 在线观看91视频| 欧美人妻精品一区二区三区| 99精品国产91久久久久久| 色乱码一区二区三区在线| 欧美日韩福利| 亚洲成人在线视频网站| 成人av地址| 国产精品天天狠天天看| 1pondo在线播放免费| 欧美va日韩va| 在线视频播放大全| 黄网站色欧美视频| 26uuu成人网| 久久久国产精品不卡| 日本天堂在线播放| 捆绑变态av一区二区三区| 亚洲高清久久久久久| 日韩欧美亚洲日产国| 三级福利片在线观看| 亚洲色在线视频| 日本美女一级片| 欧美另类变人与禽xxxxx| wwwxxx亚洲| 一区二区三区自拍| 中文字幕在线永久| 国产精品一区二区视频| 在线视频日韩一区 | 一区二区欧美精品| 992tv在线成人免费观看| 蜜芽tv福利在线视频| 日韩免费福利电影在线观看| 国产九色91回来了| 91丝袜高跟美女视频| 亚洲欧美综合精品久久成人| 国产真实的和子乱拍在线观看| 国产一本一道久久香蕉| 日韩成人三级视频| 亚洲成在人线免费观看| 91国偷自产一区二区三区成为亚洲经典| 久久蜜桃av一区精品变态类天堂| 久久久久高清精品| 欧美日韩性生活| 8050国产精品久久久久久| 国产在线日韩在线| 精品欧美一区二区久久久伦| 亚洲成人天堂网| 久久这里只有精品免费| 国产超碰人人模人人爽人人添| 99久久综合狠狠综合久久aⅴ| 91在线播放国产| av在线视屏| 欧美黄色片免费观看| 亚洲大胆人体大胆做受1| 欧美日韩免费观看一区三区| 久久色精品视频| 卡通动漫亚洲综合| 中文字幕在线免费不卡| 亚洲一二三四五六区| 国产精品久久久久一区二区三区 | 国产欧美一级| 亚洲理论电影在线观看| 欧美男gay| 日韩.欧美.亚洲| 欧美精品久久久久久| 日韩一区二区电影在线观看| 风间由美性色一区二区三区四区| 国产精品自拍偷拍视频| 日韩三区四区| 91青青草免费在线看| 999国产精品一区| 精品中文字幕人| 精品一区二区三区在线| 正在播放91九色| 欧美欧美全黄| 一区二区三区|亚洲午夜| 羞羞色午夜精品一区二区三区| 久久资源av| 精品国产一区探花在线观看| 一区二区日本伦理| 黄色av成人| 国模吧无码一区二区三区| 另类亚洲自拍| 欧美一级特黄aaa| 成人av在线播放网站| 91精品人妻一区二区三区蜜桃欧美| 成人小视频免费观看| 精品黑人一区二区三区观看时间| 高清在线不卡av| 蜜桃精品成人影片| 国产精品成人免费| 日本在线视频中文字幕| 欧美伊人精品成人久久综合97 | 在线精品视频免费观看| 一级aaaa毛片| 亚洲国产精品成人一区二区| 国产美女视频一区二区三区 | 欧美电影免费播放| 日本福利视频一区| 51精品国产| 成人av网址在线| 亚洲成va人在线观看| www日韩av| 国产高清中文字幕在线| 一本久道中文字幕精品亚洲嫩| 亚洲一级av无码毛片精品| 国产亚洲欧美日韩俺去了| 污污的视频在线免费观看| 国产精品久久二区二区| 日本少妇性生活| 欧美精品 国产精品| 日韩a在线观看| 九色精品美女在线| 欧美videos另类精品| 国产精品99免视看9| 亚洲一区 二区| 一区二区三区精品国产| 国产亚洲午夜| 性高潮免费视频| 成人欧美一区二区三区| 一级做a爰片久久毛片| 欧美本精品男人aⅴ天堂| 亚洲国产精品欧美久久| 中文字幕一区二区三区电影| 国产在线二区| 国产国语刺激对白av不卡| 国产精品诱惑| 免费观看成人在线| 91影院成人| 无人在线观看的免费高清视频| 捆绑变态av一区二区三区| 国产手机在线观看| 亚洲成人福利片| 午夜精品久久久久久久99 | 日日摸夜夜添一区| 中文字幕在线中文字幕在线中三区| 国产精品电影在线观看| 久久综合社区| www.xxx麻豆| 国产白丝精品91爽爽久久| 国产老头老太做爰视频| 亚洲综合免费观看高清完整版在线 | 日韩一区在线看| 中文字幕+乱码+中文乱码91| 亚洲欧美第一页| 韩国久久久久久| 久久本道综合色狠狠五月| 1024日韩| 日本少妇xxxx| 国产精品欧美久久久久无广告| 美国黄色小视频| 狠狠做深爱婷婷久久综合一区| 97成人在线观看| 久久精品男人天堂| 另类视频一区二区三区| 粉嫩av一区二区三区天美传媒 | 精品久久久噜噜噜噜久久图片 | 亚洲久久久久久久| 日韩欧美高清在线视频| 巨骚激情综合| 国产精品亚洲视频在线观看| 欧美高清视频手机在在线| 日本精品一区在线| 久久久久久久久免费| 九九九在线视频| 精品对白一区国产伦| av免费不卡国产观看| 成人黄色在线观看| 自拍偷拍欧美| 老司机免费视频| 一区二区三区中文字幕电影 | 黄色工厂在线观看| 欧美性黄网官网| 成人影视在线播放| 国产免费一区二区三区在线能观看| 欧美综合精品| 日韩在线第三页| 国产精品久久久久影院亚瑟 | 91精品欧美福利在线观看| av网址在线播放| 精品视频免费观看| 日韩精品电影一区亚洲| 亚洲xxxx3d动漫| 日韩精品视频在线播放| 多野结衣av一区| 四虎永久在线精品免费一区二区| 性久久久久久| 国产人与禽zoz0性伦| 亚洲第一级黄色片| 搜成人激情视频| 蜜桃视频一区二区在线观看| a亚洲天堂av| 在线观看国产一区二区三区| 欧美日韩国产成人在线| 久久av中文| 在线成人精品视频| 色伊人久久综合中文字幕| 欧美激情视频在线播放| 国产三区精品| 久久精品国产精品亚洲综合| 国产无码精品久久久| 亚洲男人天堂九九视频| 日本亚洲视频| 国产免费视频传媒| 国产精品网曝门| 神马午夜电影一区二区三区在线观看| 久久久人成影片一区二区三区观看 | 欧美美女一区二区三区| f2c人成在线观看免费视频| 影音先锋欧美在线| 久久亚洲春色中文字幕久久久|