精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

成熟的編程智能體,已經學會升級自己的系統了

人工智能 新聞
來自布里斯托大學和 iGent AI 的研究者認為,完全自我參照式的元智能體編程方式在今天是可實現的,并提供了一種合理的替代方案。

編程智能體,幾乎成為了 2025 年最熱門的話題之一。不管是學術機構還是工業界,都在尋找更高效的落地路徑。

機器學習領域的歷史經驗表明,手工設計的解決方案最終會被學習到的解決方案所取代。我們好奇一個問題:智能體本身是否可以通過發現新的提示方案或工具,無需人工設計和實施,就自主修改和改進自己的代碼?

2024 年,《Automated Design of Agentic Systems》(Hu et al., 2024) 一文率先嘗試了使用元智能體來優化智能體實現,將智能體系統自動設計(ADAS)這一領域往前推了一步。不過,該研究并未探索「自我改進」,因為其中有兩個獨立的智能體:執行任務的目標智能體和改進目標智能體的元智能體。

而來自布里斯托大學和 iGent AI 的研究者認為,完全自我參照式的元智能體編程方式在今天是可實現的,并提供了一種合理的替代方案。

圖片

  • 論文標題:A SELF-IMPROVING CODING AGENT
  • 論文鏈接:https://arxiv.org/pdf/2504.15228
  • 代碼地址:https://github.com/MaximeRobeyns/self_improving_

具體來說,這項研究貢獻如下:

  • 自我改進編碼智能體(SICA)消除了元智能體和目標智能體之間的區別,能夠編輯自己的代碼庫,在成本、速度和基準性能方面進行自我改進。
  • 自我參照智能體可有效改進自身的實現。研究者發現,即使考慮到安全限制和資源效率,在 SWE Bench 驗證的隨機子集上,性能也能提高 17% 到 53%。
  • 研究者與社區分享了自我改進編碼智能體(SICA)的實現。SICA 是用標準 Python 實現的,沒有特定領域的語言,它為構建新的 SICA 系統提供了一個參考智能體框架,也為那些尋求在工具使用和其他智能體任務方面對 LLM 進行后訓練的人提供了一個參考智能體框架。

方法概覽

SICA 的主要運行循環類似于 Hu et al. (2024) 的 ADAS 循環。特別是,SICA 和 ADAS 都保留了以前智能體的檔案及其基準結果。

第一步,SICA 從存檔中選取到目前為止表現最好的智能體作為元智能體,指示元智能體查看存檔,確定改進方案并加以實施。

算法 1 展示了這一高級方案:

圖片

請注意,這與 ADAS 不同,ADAS 有一個固定的元智能體,因此不會從檔案中選擇元智能體(ADAS 中的檔案是目標智能體檔案,而不是元智能體檔案)。

其次,ADAS 和 SICA 都會在一組評估基準上對新智能體進行評估,并存儲評估結果。

研究者用一個效用函數來定義性能「最佳」的智能體,該函數包含了一個優秀智能體的共同期望值:標準化基準性能分數 p_score ∈ [0,1]、以秒為單位的掛鐘時間 p_time,以及美元成本 p_cost。基本效用的計算公式為

圖片

其中,研究者將系數設為 w_score = 0.5、w_cost = 0.25 和 w_time = 0.25。此處將每個問題的最差成本設定為 10 美元,并規定 300 秒的超時時間,超時后將取消智能體。為了對超時前所做的工作給予部分獎勵,按以下方法計算最終效用,超時懲罰為 τ = 0.5:

圖片

需要注意的是,由于不進行任何權重更新,這個數字分數只用于挑選下一個元智能體以及下一次迭代的基礎智能體。

首先介紹初始編碼智能體,然后介紹基準運行框架,以及該框架如何自然而然地允許我們創建一個自我參照任務(即改進編碼智能體)。

智能體上下文的結構至關重要,它包含打開的文件內容等,而不僅僅是提示。在初始編碼智能體中,上下文結構如圖 3 所示。

圖片

首先呈現的是包含智能體定義的系統提示,列出了智能體可用工具的定義以及可調用的子智能體。系統提示的最后是系統信息,例如如何跳出智能體循環并返回調用流程的說明。

接下來是「核心提示」,它被設置為聊天模板格式中的第一條用戶信息,包含呼叫者指定的要處理的問題陳述(呼叫者可能是調用智能體的用戶,也可能是呼叫子智能體的智能體)。在這里,研究者還插入了智能體已打開文件的視圖以及當前工作目錄的表示。

最后,LLM 智能體上下文的其余部分是運行助理信息。其中包含對問題的一連串推理、工具調用及其響應、子智能體調用及其響應,以及來自異步監督系統的任何通知或評論。

LLM 上下文以這種方式布局,允許添加新內容,從而保留 KV 緩存,以減少工具調用之間的延遲和成本。對于基礎智能體,此處采用了一種簡單的方案,即文件編輯內容以差異形式添加,并在累積到一定數量后定期重新合并到陳舊文件視圖中。智能體可以編寫更復雜的 KV 緩存保存方案,以降低成本。

實驗結果

研究者首先展示了在基準集中包含相對長周期任務的運行,選取了 SWE Bench Verified,包括測試問題分解、代碼導航以及快速高效的文件編輯,研究者從中選擇了 50 個問題的固定隨機子集;他們還從 LiveCodeBench 中隨機抽取了 50 個問題,這些問題類似于競技編程,通常包含更多理論推理。此外,研究者還選取了兩個「合成」基準任務示例,它們完全是在智能體的代碼庫中定義和策劃的。

大多數智能體中使用 Sonnet 3.5 (v2) (Anthropic) 運行智能體系統,只有一個「推理智能體」使用 o3 mini。結果如圖 3 所示,更詳細的迭代級性能數據見表 1。

圖片

結果數據顯示了令人鼓舞的進展。在文件編輯基準測試中,智能體最初只具備覆蓋文件的能力,這不僅速度慢,而且 token 效率低下,但它很快就實現了基于差異和范圍的自稱「智能」的編輯工具;在符號導航任務中,智能體在第 9 次迭代時實施了基于 AST 的簡單符號定位器(也許是利用了基準測試主要基于 Python 的事實),取得了良好的改進,這也反映在其他任務中。LiveCodeBench 的得分也有細微提高,但不如其他一些基準測試明顯。

研究者還評估了自我參照智能體系統在提高推理能力較強的領域的任務性能方面的有效性。他們使用基準集中的兩個問題解答任務進行了另一項實驗: 圖 4 顯示了實驗結果。這里的結果顯示改進較少,并突出了基礎模型和「腳手架系統」之間的重要相互作用。

圖 4 中迭代 0 的基礎智能體系統使用 Sonnet 3.5,「推理」子智能體使用 o3-mini。o3-mini 模型本身在 AIME 和 GPQA Diamond 上的得分分別為 87% 和 79%,具有「高」推理能力,而整個智能體系統在這兩個基準測試中的平均得分為 76%。

圖片

通過觀察軌跡,研究者發現,在許多運行中,主智能體只是將問題委托給基于 o3-mini 的推理智能體,并沒有充分利用智能體系統的全部能力。對于 o1、o3-mini 或 DeepSeek-R1 等「推理模型」,研究者懷疑加入旨在誘導推理行為的粗糙組件(如圖 4 中迭代 4 和 6 中的組件)實際上可能會打斷在智能體系統之外訓練的推理模型的推理思維鏈,從而導致性能下降。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-09-19 16:12:17

紅綠燈智能

2024-10-09 14:55:00

2025-10-09 11:36:57

2025-10-10 02:10:00

2023-04-26 07:27:36

ChatGPTSSLNginx

2023-10-30 16:00:33

元宇宙

2019-03-04 08:11:53

AIDeepFakes深度學習

2015-09-01 14:38:07

hadoop

2015-07-28 09:55:47

Hadoop

2015-03-13 15:36:54

Hadoop預期成熟度

2024-09-02 09:22:00

AI模型

2014-05-21 15:13:40

AppCanHybrid

2025-09-01 08:52:00

開源智能體AI

2020-11-05 14:07:09

華為智能體湖南

2025-05-20 08:00:45

2022-06-21 14:08:25

AIGitHub模仿人類

2025-05-28 18:04:20

2023-12-26 12:12:01

模型訓練

2019-12-24 09:31:55

機器人人工智能編程

2015-07-30 10:04:19

Windows 10升級
點贊
收藏

51CTO技術棧公眾號

日韩一区二区精品在线观看| 日韩欧美电影在线观看| 午夜激情在线| 日韩经典一区二区| 亚洲成a人片综合在线| 5278欧美一区二区三区| 日本一二三区在线| 亚洲天天综合网| 亚洲另类春色校园小说| 亚洲成人av福利| 日韩精品不卡| 亚洲精品成人在线视频| 试看120秒一区二区三区| 亚洲国产精品高清| 日韩av片永久免费网站| 亚洲调教欧美在线| 国产粉嫩在线观看| 成人高清免费观看| 国内偷自视频区视频综合 | 黑丝av在线播放| 黄色成人小视频| 久久久久久久综合日本| 555www成人网| 欧美另类videoxo高潮| 日韩午夜电影免费看| 欧美国产视频在线| 国产精品入口尤物| 黄色片网站在线播放| 亚洲综合资源| 亚洲资源在线观看| 国产伦精品一区二区三区高清| 久久网中文字幕| xxxxxhd亚洲人hd| 天天色综合天天| 欧美日韩国产精品一区二区| 黑人精品无码一区二区三区AV| 91久久电影| 欧美不卡一区二区三区四区| 日本xxxxxxxxxx75| 欧美一区二区少妇| 成人av资源在线| 2020国产精品久久精品不卡| 久久精品视频9| 天堂俺去俺来也www久久婷婷| 色天天综合色天天久久| 一区不卡视频| 高潮毛片7777777毛片| 午夜在线观看免费一区| 综合136福利视频在线| 男生和女生一起差差差视频| 国产极品人妖在线观看| 久久一夜天堂av一区二区三区| 国产精品成人v| 全网免费在线播放视频入口| 久久丝袜视频| 欧美色爱综合网| 四虎4hu永久免费入口| 视频在线不卡| 国产揄拍国内精品对白| 69久久夜色精品国产69| 国产成人在线网址| 色天天久久综合婷婷女18| 欧美日本韩国一区| 北条麻妃69av| 最新av在线播放| 久久久久久久久99精品| 六月婷婷久久| 99热这里只有精| 性欧美暴力猛交另类hd| 日本一区二区不卡| 国产一级片免费视频| 亚洲高清在线| 久久这里只有精品99| 日本黄色特级片| 精品视频在线播放一区二区三区 | 国产午夜性春猛交ⅹxxx| 欧美日韩老妇| 亚洲国产精品成人av| 奇米视频7777| 日韩在线影院| 午夜精品视频一区| 青青草原成人网| 91超碰碰碰碰久久久久久综合| 亚洲一区二区三区四区在线观看| 日本在线高清视频一区| 在线激情小视频| 国产日韩在线不卡| 久久亚洲国产精品日日av夜夜| 欧美男男激情freegay| 国产v综合v亚洲欧| 国产一区视频在线播放| 精品久久久久久久久久久久久久久久| 视频在线观看国产精品| 欧美性视频网站| 日韩不卡高清视频| 国产精品亚洲视频| 91视频国产高清| 亚洲视频一区在线播放| 国产丶欧美丶日本不卡视频| 成人欧美在线视频| 国产成人精品一区二区色戒| 噜噜噜久久亚洲精品国产品小说| 97久久精品国产| 日本天堂网在线观看| 欧美日韩精品| 久久中文字幕在线| 五月天婷婷久久| 香蕉av777xxx色综合一区| 国产精品日韩精品| 蜜桃视频污在线观看| 岛国一区二区三区| 国产日韩在线一区二区三区| 国产18精品乱码免费看| 亚洲国产精品精华液ab| 给我免费播放片在线观看| 国产成人免费| 精品小视频在线| 中文字幕狠狠干| 午夜久久福利| 欧美精品激情在线| 国产成人愉拍精品久久| 亚洲免费中文| 亚洲999一在线观看www| 亚洲av永久无码国产精品久久| 日本高清成人vr专区| 99久久综合国产精品二区| 日韩欧美一二三四区| 亚洲免费在线播放视频| 女厕嘘嘘一区二区在线播放 | 91av免费观看| 欧美影院三区| 久久天天躁狠狠躁夜夜爽蜜月| 亚洲s码欧洲m码国产av| av电影在线观看不卡| 欧美日韩三区四区| av小说在线播放| 黑人狂躁日本妞一区二区三区 | 国产99在线| 日韩亚洲电影在线| а天堂中文在线资源| 久热精品视频| 日本不卡一二三区| 黄视频在线观看网站| 亚洲免费av在线| 蜜臀av无码一区二区三区| 精品中文字幕一区二区三区| 中文字幕欧美在线| 中文字幕日本人妻久久久免费| 极品少妇xxxx偷拍精品少妇| 国产精品乱子乱xxxx| 成人在线观看免费网站| 亚洲福中文字幕伊人影院| 午夜免费一级片| 亚洲澳门在线| 91高清免费在线观看| 蜜桃在线一区二区| 亚洲午夜在线视频| 小毛片在线观看| 日韩欧美精品一区| 国产精品免费一区二区三区都可以| 男人天堂综合| 欧美在线制服丝袜| 久久久久久婷婷| 色喇叭免费久久综合| 国产免费一区二区三区在线能观看 | 欧美激情偷拍| 国产精品制服诱惑| 一区二区乱码| 日韩欧美中文字幕制服| 青青草手机在线观看| 日韩中文欧美在线| 性欧美videosex高清少妇| 岛国av免费在线观看| 日韩大片在线观看视频| 永久免费看片视频教学| 亚洲一区激情| 成人在线免费观看一区| 永久免费av片在线观看全网站| 亚洲18女电影在线观看| av网站有哪些| 亚洲网站视频| 亚洲一区二区三区毛片| 好看的中文字幕在线播放| 日韩成人高清在线| 男操女视频网站| 亚洲欧美日韩国产综合| 色婷婷综合网站| 国产欧美日韩| 欧美一级免费视频| 日韩精品黄色| 亚洲精品久久久久中文字幕欢迎你| 99久久99久久精品国产| av中文字幕一区| 麻豆一区二区三区视频| 综合伊思人在钱三区| 国产欧美欧洲在线观看| 成人免费高清观看| 国产一区二区三区中文| 午夜久久久久久久久久影院| 亚洲欧美韩国综合色| 蜜桃精品成人影片| 国内精品免费**视频| 妺妺窝人体色www在线小说| 成人福利免费在线观看| 国产精品99久久久久久人| 日韩亚洲视频在线观看| 91精品国产91综合久久蜜臀| 五月天色婷婷丁香| 91视频www| 成人一级片网站| 国产字幕视频一区二区| 一本一本a久久| 久久91麻豆精品一区| 亚洲综合在线中文字幕| yiren22亚洲综合| 91av在线视频观看| 欧美人与性动交α欧美精品济南到| 国产一区二区日韩| 艳妇乳肉豪妇荡乳av| 欧美日韩亚洲天堂| 精品视频在线观看免费| 亚洲欧洲av在线| 欧美视频亚洲图片| 日韩高清不卡一区二区三区| 精品无码一区二区三区在线| 一区二区三区四区在线看| 91久久精品一区二区别| 日韩第二十一页| 日韩女在线观看| 亚洲天堂av在线| 97视频在线播放| sm国产在线调教视频| 日韩性生活视频| 丁香六月天婷婷| 日韩精品一区二区三区在线播放| 亚洲在线视频播放| 欧美性生活一区| 久久免费精彩视频| 亚洲精品日日夜夜| 免费在线观看h片| 亚洲桃色在线一区| 天堂网avav| 亚洲精选一二三| 欧美日韩在线观看成人| 94色蜜桃网一区二区三区| 日本熟妇人妻中出| 一区二区三区四区电影| 国内一区二区在线视频观看 | 91精品久久久久久久91蜜桃| 国产无套内射又大又猛又粗又爽| 一区二区三区资源| 国产三级av在线播放 | 五月天丁香社区| 日韩av电影免费观看高清完整版| 福利在线小视频| 91成人国产| 欧美日韩中文字幕在线播放| 亚洲精品无吗| 日产中文字幕在线精品一区 | www.亚洲人| www.色多多| 国产欧美日韩在线看| 女人裸体性做爰全过| 不卡av在线免费观看| av网页在线观看| 久久亚洲捆绑美女| 男女做爰猛烈刺激| 欧美国产乱子伦| 超碰人人干人人| 国产福利一区二区三区视频在线 | 亚洲免费av一区二区三区| 91精品一区二区三区综合在线爱| 看一级黄色录像| 国产伦精品一区二区三区视频| 欧美日产一区二区三区在线观看| 波多野结衣在线观看一区二区| 在线免费观看成人| 色综合综合色| 最新不卡av| 亚洲三级国产| 久久观看最新视频| 亚洲每日更新| 亚洲国产成人va在线观看麻豆| 国产精品一品视频| 亚洲av无码一区二区二三区| 国产精品久久久久桃色tv| 无码国产69精品久久久久同性| av成人老司机| 少妇视频在线播放| 亚洲最色的网站| 波多野结衣二区三区| 91精品国产综合久久久蜜臀粉嫩| 国产成人三级在线观看视频| 亚洲一区二区精品| 国语对白在线刺激| 国产精品福利网| 国产香蕉精品| 国产丝袜不卡| 欧美一级精品| 国产精品12345| 久久国产精品无码网站| 中文字幕网av| 99精品在线观看视频| 日韩国产第一页| 91久久香蕉国产日韩欧美9色| 国产三级第一页| 日韩欧美亚洲国产另类| 国产一级在线| 这里只有精品丝袜| 绿色成人影院| 国产91色在线播放| 成人爽a毛片免费啪啪红桃视频| 亚洲aⅴ天堂av在线电影软件| 日韩一级不卡| 日韩 欧美 高清| 免费一级片91| 日本一二三区在线| 欧美国产禁国产网站cc| 久久久久亚洲av成人毛片韩| 日韩欧美中文字幕制服| 日本激情视频在线观看| 国产xxx69麻豆国语对白| 99re8这里有精品热视频免费| 中文字幕一区二区三区在线乱码| 久久亚洲美女| 国产一二三四五区| 精品女同一区二区三区在线播放| 性欧美18一19性猛交| 亚洲精品ady| 欧美寡妇性猛交xxx免费| 成人伊人精品色xxxx视频| 成人网18免费网站| 国产精品第12页| 91在线porny国产在线看| 国产午夜视频在线播放| 精品国产人成亚洲区| 美州a亚洲一视本频v色道| 性色av一区二区三区| 成人三级av在线| 久久精品国产sm调教网站演员| 国产成人午夜片在线观看高清观看| 国产精品99久久久久久成人| 欧美日韩久久不卡| 在线播放麻豆| 91丨九色丨国产在线| 国产精品国产一区| 亚洲精品无码久久久久久久| 97精品电影院| 日韩字幕在线观看| 日韩电影大全免费观看2023年上 | 66久久国产| www.欧美激情.com| 亚洲免费av在线| 丰满少妇一级片| 97碰碰碰免费色视频| 欧美一性一交| 中文字幕在线乱| 国产精一品亚洲二区在线视频| 九九视频在线免费观看| 精品对白一区国产伦| 成人免费观看在线观看| 玖玖玖精品中文字幕| 日韩电影免费在线看| 亚洲精品天堂网| 日韩一区二区电影| 第一av在线| 青娱乐一区二区| 精品一区二区三区日韩| 福利所第一导航| 日韩av在线看| 丁香婷婷久久| 成人在线观看毛片| 91麻豆成人久久精品二区三区| 懂色av蜜臀av粉嫩av分享吧最新章节| 在线播放国产精品| 日韩精品中文字幕吗一区二区| www.射射射| 国产农村妇女毛片精品久久麻豆 | 色999日韩自偷自拍美女| 久久草av在线| 日本中文字幕在线免费观看| 亚洲热线99精品视频| 狠狠操一区二区三区| 日本欧洲国产一区二区| 国产精品99久久久久久久vr| 欧美一区二区激情视频| 色偷偷av一区二区三区| 欧美国产日韩电影| 欧美一区少妇| 国产麻豆欧美日韩一区| 天堂中文在线网| 久久夜精品香蕉| 亚洲精品国产setv| xxxx视频在线观看| 一区二区三区在线观看网站| 性xxxx视频播放免费| 亚洲**2019国产| 久久麻豆精品| 三级性生活视频| 亚洲视频一区二区免费在线观看|