精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ReTool:AI工具使用的突破性進展,推理能力顯著提升

發(fā)布于 2025-4-22 06:38
瀏覽
0收藏

?1、AI終于學(xué)會了"工欲善其事,必先利其器"

ReTool:AI工具使用的突破性進展,推理能力顯著提升-AI.x社區(qū)圖片

你有沒有這樣的經(jīng)歷:面對復(fù)雜計算題,純靠腦力計算往往容易出錯,而借助計算器或編程工具卻能事半功倍?

人類在解決問題時懂得適時借助工具,而AI呢?當(dāng)前的大型語言模型(LLM)雖然在純文本推理方面表現(xiàn)出色,但在涉及精確計算、符號操作等領(lǐng)域,它們往往捉襟見肘。為何不讓AI也學(xué)會"工欲善其事,必先利其器"的智慧?

論文提出了一種創(chuàng)新方法,通過強化學(xué)習(xí)讓AI自主掌握何時、如何使用代碼解釋器(Code Interpreter)這一強大工具,顯著提升了模型在數(shù)學(xué)奧賽級別難題上的解題能力,甚至超越了OpenAI的頂尖模型!

2、ReTool:讓AI學(xué)會使用工具的方法

ReTool:AI工具使用的突破性進展,推理能力顯著提升-AI.x社區(qū)圖片

傳統(tǒng)上,研究人員通常通過有監(jiān)督微調(diào)(SFT)來教會AI使用工具,這相當(dāng)于給AI看例子讓它模仿。然而,這種方法存在明顯局限性——AI只會機械復(fù)制已見過的模式,難以靈活應(yīng)對多變的問題場景。

ReTool開創(chuàng)性地將強化學(xué)習(xí)(RL)引入工具使用訓(xùn)練,讓AI通過不斷嘗試、犯錯、修正來自主發(fā)現(xiàn)最佳工具使用策略。這一方法包含兩個關(guān)鍵創(chuàng)新:

(1)代碼執(zhí)行的動態(tài)交織:在推理過程中,AI可以隨時編寫代碼并獲取實時執(zhí)行結(jié)果,將這些信息無縫融入后續(xù)推理。這就像人類在解題過程中隨時拿起計算器進行驗證,然后繼續(xù)思考一樣自然。

(2)基于結(jié)果反饋的自動化強化學(xué)習(xí):系統(tǒng)根據(jù)最終答案正確與否給予獎勵,引導(dǎo)AI探索何時以及如何最有效地使用代碼解釋器。這種方法無需人工規(guī)定工具使用規(guī)則,而是讓AI自主發(fā)現(xiàn)最優(yōu)策略。

具體來說,ReTool的訓(xùn)練流程分為兩個階段:

(1)冷啟動階段:首先構(gòu)建高質(zhì)量的初始數(shù)據(jù)集,展示如何在推理過程中適時調(diào)用代碼解釋器。這相當(dāng)于給AI打基礎(chǔ),教會它基本的工具使用方法。

(2)強化學(xué)習(xí)階段:AI通過與代碼沙盒環(huán)境交互,嘗試不同的工具使用策略。系統(tǒng)僅根據(jù)最終答案正確與否給予簡單反饋(正確+1分,錯誤-1分),讓AI自主探索最優(yōu)工具使用模式。

3、驚人的實驗結(jié)果:數(shù)學(xué)奧賽水平大幅提升

ReTool:AI工具使用的突破性進展,推理能力顯著提升-AI.x社區(qū)圖片

研究團隊在美國數(shù)學(xué)邀請賽(AIME)這一高難度數(shù)學(xué)奧賽基準(zhǔn)測試上評估了ReTool的性能,結(jié)果令人振奮:    

(1)基于Qwen2.5-32B-Instruct的ReTool在AIME2024上達(dá)到了67.0%的準(zhǔn)確率,僅用了400步訓(xùn)練,大幅超越了基于相同模型但僅使用文本推理的強化學(xué)習(xí)基線(40.0%準(zhǔn)確率,用了1080步訓(xùn)練)。

(2)當(dāng)使用更強大的DeepSeek-R1-Distill-Qwen-32B作為基礎(chǔ)模型時,ReTool更是達(dá)到了72.5%的準(zhǔn)確率,遠(yuǎn)超OpenAI的o1-preview模型整整27.9個百分點!

這些結(jié)果清晰地表明,教會AI策略性地使用工具不僅能突破純文本推理的天花板,還能大幅提升訓(xùn)練效率。即使在冷啟動階段,ReTool基于Qwen2.5-32B-Instruct的模型就已達(dá)到40.9%的準(zhǔn)確率,與純文本強化學(xué)習(xí)方法相當(dāng),且大幅領(lǐng)先未經(jīng)訓(xùn)練的基礎(chǔ)模型(26.7%)。

ReTool:AI工具使用的突破性進展,推理能力顯著提升-AI.x社區(qū)圖片

4、"啊哈時刻":AI的工具使用能力自主進化

ReTool:AI工具使用的突破性進展,推理能力顯著提升-AI.x社區(qū)圖片

研究者對ReTool在強化學(xué)習(xí)過程中的行為進行了深入分析,發(fā)現(xiàn)了一系列令人著迷的現(xiàn)象:

(1)回答長度減少約40%:訓(xùn)練后的模型回答長度從平均約10k減少到6k,表明代碼輔助推理能夠更高效地解決問題。這就像專業(yè)人士用專業(yè)工具,往往比業(yè)余者用原始方法更簡潔高效。

(2)代碼使用能力顯著增強:

  • 包含代碼的回答比例穩(wěn)步上升,最終覆蓋近98%的問題
  • 平均代碼行數(shù)增長5倍,表明模型掌握了更復(fù)雜的代碼策略
  • 測試集上正確代碼總數(shù)從1k增至5k

(3)代碼調(diào)用時機前移:隨著訓(xùn)練進行,模型傾向于更早地在推理過程中調(diào)用代碼,表明它學(xué)會了更戰(zhàn)略性地規(guī)劃工具使用時機。    

最令人驚訝的是,模型展現(xiàn)出了代碼自我糾錯的能力。在沒有專門訓(xùn)練的情況下,模型能夠識別執(zhí)行失敗的代碼,理解錯誤原因,并生成修正版本!這種"啊哈時刻"標(biāo)志著AI自主掌握了適應(yīng)性工具使用能力,展現(xiàn)出元認(rèn)知能力的萌芽。

研究者還發(fā)現(xiàn),訓(xùn)練后的模型代碼用途變得更加多樣化,不僅能進行基本計算和驗證,還能執(zhí)行更復(fù)雜的任務(wù),這進一步增強了它在各類問題上的泛化能力。

5、解題案例:工具輔助vs純文本推理

ReTool:AI工具使用的突破性進展,推理能力顯著提升-AI.x社區(qū)圖片

論文中展示了一個生動的對比案例:同一個問題,經(jīng)ReTool訓(xùn)練的模型使用簡潔代碼替代了繁瑣的文本計算過程,不僅保證了計算準(zhǔn)確性,還能讓模型將更多注意力集中在整體解題策略上。這正如熟練的工程師知道何時使用計算器或編程工具,而不是陷入冗長的手算過程。

ReTool的成功不僅是在數(shù)學(xué)問題上的突破,更揭示了一條AI能力提升的新路徑——通過強化學(xué)習(xí)教會AI靈活運用外部工具。這種方法讓人想起人類智能的關(guān)鍵特征:不是單純依靠內(nèi)部知識和推理,而是善于識別何時以及如何利用外部工具來擴展自身能力邊界。

這項研究也為未來AI系統(tǒng)設(shè)計提供了重要啟示:與其努力將所有能力內(nèi)置于模型參數(shù)中,不如設(shè)計能夠靈活調(diào)用專業(yè)工具的架構(gòu)。就像專業(yè)人士依靠工具箱中的專用工具解決復(fù)雜問題,未來的AI可能會依靠一系列專門工具來處理各種任務(wù)。    

隨著ReTool這類技術(shù)的發(fā)展,我們或許很快就能看到更加智能的AI助手,它們不再局限于生成文本,而是能夠自主判斷何時調(diào)用計算、編程、繪圖等工具來解決實際問題,真正實現(xiàn)"AI+工具"的協(xié)同增強效應(yīng)。

你認(rèn)為未來的AI將如何進一步發(fā)展工具使用能力?歡迎在評論區(qū)分享你的觀點!

論文標(biāo)題:ReTool: Reinforcement Learning for Strategic Tool Use in LLMs 

論文鏈接https://arxiv.org/abs/2504.11536 

本文轉(zhuǎn)載自?????AI帝國?????,作者:無影寺

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
欧美伊人久久久久久午夜久久久久| 日韩成人一区二区三区在线观看| 日韩欧美国产wwwww| 国产精品成人久久电影| 男人的天堂在线| 久草这里只有精品视频| 久久久久亚洲精品成人网小说| www.色天使| 9999精品| 狠狠做深爱婷婷久久综合一区| 水蜜桃一区二区三区| 国内精品久久久久久久久久| 毛片一区二区| 萌白酱国产一区二区| 白白色免费视频| 亚洲va欧美va人人爽成人影院| 91久久免费观看| 青青草国产免费| 欧美激情二区| 久久久精品综合| 高清国产在线一区| 一区二区小视频| 久久久亚洲人| 91精品国产91久久久久| 中文字幕电影av| 精品国产网站| 亚洲激情自拍图| 无码人妻一区二区三区在线视频| 欧美人体一区二区三区| 亚洲一区在线观看视频| 亚洲欧洲精品一区| 精品影院一区| 97精品久久久午夜一区二区三区| 亚洲精品欧美日韩专区| 中文字幕在线一| 亚洲综合国产| 992tv成人免费视频| 91精品国产闺蜜国产在线闺蜜| 国产欧美日韩精品一区二区三区 | 久久亚洲精品国产亚洲老地址| 亚洲欧美日本一区| 国产ts一区| 欧美tickling网站挠脚心| 不用播放器的免费av| 高清av一区二区三区| 一本大道久久a久久综合婷婷| 青青草成人免费在线视频| www.在线视频| 亚洲男人的天堂在线aⅴ视频| 在线播放豆国产99亚洲| 欧洲日本在线| 中文字幕一区二区不卡| 一本一生久久a久久精品综合蜜| 最新国产在线观看| 中文在线一区二区| 一本久道久久综合| 黄av在线播放| 亚洲主播在线观看| 欧美国产视频一区| av小说在线播放| 亚洲国产人成综合网站| 欧美一级免费播放| 少妇在线看www| 一本大道久久a久久综合| 丁香婷婷激情网| 日韩综合久久| 欧美一级久久久| 久草免费资源站| 日韩大胆成人| 国产一区二区美女视频| 国产亚洲精品精品精品| 一级毛片免费高清中文字幕久久网| 久久国内精品一国内精品| 91人妻一区二区三区蜜臀| 欧美一区免费| 91禁外国网站| 亚洲大尺度在线观看| 精品一区二区三区影院在线午夜 | 久久影院资源站| 亚洲免费视频一区二区| 欧美激情久久久久久久| 一区二区三区在线观看免费| 国产最新精品视频| 国产91国语对白在线| 久久国产夜色精品鲁鲁99| 亚洲综合大片69999| 欧美一级特黄aaaaaa大片在线观看 | 亚洲欧洲精品一区二区三区| 99视频精品全部免费看| 黄色在线观看www| 欧美色综合网站| 亚洲综合中文网| 国产精品欧美在线观看| 俺去亚洲欧洲欧美日韩| 日韩高清免费av| 麻豆精品视频在线观看视频| 操人视频欧美| 超碰免费在线观看| 亚洲电影中文字幕在线观看| 能看的毛片网站| 色悠久久久久综合先锋影音下载| 日韩精品中文字幕在线| 国产色无码精品视频国产| 一区二区日韩免费看| 国产精品私拍pans大尺度在线| 丰满熟妇乱又伦| 国产视频不卡一区| 欧美一区二区激情| 视频欧美精品| 亚洲欧洲在线看| 久久久久久久久久综合| 美腿丝袜在线亚洲一区| 精品一区二区久久久久久久网站| 大地资源网3页在线观看| 欧美日韩人人澡狠狠躁视频| 欧美国产日韩在线视频| 精品国产aⅴ| 久久久人成影片一区二区三区| 亚洲图片小说视频| 国产午夜精品久久久久久免费视 | 成人动漫视频在线观看完整版| 成年人免费在线视频| 午夜精品久久久久久久久| xxx中文字幕| 久久在线视频免费观看| 日本不卡免费高清视频| 手机在线观看免费av| 中文字幕佐山爱一区二区免费| 国产欧美高清在线| 极品束缚调教一区二区网站 | 狠狠色丁香婷综合久久| 日韩理论片在线观看| 午夜影院在线播放| 亚洲精品91美女久久久久久久| 欧美黑人性猛交xxx| 久久国产日韩欧美精品| 日韩欧美亚洲v片| av日韩亚洲| 日韩精品免费观看| 在线观看亚洲天堂| 99精品视频在线观看| 国产一级爱c视频| 国产女人18毛片水真多18精品| 久久91精品国产91久久久| av网站在线免费看| 亚洲美女屁股眼交3| 免费黄频在线观看| 亚洲综合专区| 99九九视频| 精品精品导航| 亚洲高清av在线| 香蕉免费毛片视频| 91网站黄www| 少妇性饥渴无码a区免费| 最近国产精品视频| 国产成人精品视| 美女欧美视频在线观看免费| 欧美综合久久久| 超碰97av在线| 国产一区二区在线观看免费| 4444在线观看| 欧洲亚洲视频| 国产精品爱久久久久久久| 色影院视频在线| 91精品国产综合久久蜜臀| 麻豆一区产品精品蜜桃的特点| 成人综合在线视频| 99色精品视频| 久久人体视频| 成人免费视频观看视频| 日韩脚交footjobhd| 亚洲乱码国产乱码精品精天堂 | xxxx在线视频| 亚洲欧美三级伦理| 91亚洲国产成人精品一区| 亚洲精品日韩一| 亚洲国产精品成人综合久久久| 日韩黄色在线观看| 国产欧美综合一区| 日本中文字幕在线一区| 国产精品第七十二页| 69xxx在线| 亚洲欧美日韩另类| 国产三级视频在线播放| 精品国产户外野外| 99精品全国免费观看| 成人性生交大片免费看中文网站| 久久久久久久久久久福利| 四季av一区二区三区免费观看| 99国产在线视频| 电影一区二区三| 美女精品久久久| 黄色国产在线| 日韩美女一区二区三区四区| 久久久久久久久黄色| 亚洲三级电影全部在线观看高清| 黑丝av在线播放| 久久99精品久久久久久动态图| 日本中文字幕网址| 97视频热人人精品免费| 精品综合久久久| 国产精品一区二区三区av | av图片在线观看| 亚洲欧美日韩一区| 在线小视频你懂的| 不卡高清视频专区| 成人在线短视频| 欧美aa在线视频| 91精品91久久久中77777老牛| 欧美+日本+国产+在线a∨观看| 日本欧洲国产一区二区| 六月丁香久久丫| 亚洲综合一区二区不卡| 国产三级一区| 国产精品va在线| 精品三级久久| 国模精品视频一区二区| 福利视频在线| 久久精彩免费视频| 成人性生交大片免费看午夜 | 亚洲乱亚洲乱妇| 亚洲小视频在线观看| 天堂在线一二区| 欧美xxxxxxxx| av资源免费看| 91 com成人网| 国产又黄又猛又爽| 欧美日韩免费一区二区三区视频| 国产精品男女视频| 亚洲国产成人av| 精品欧美一区二区久久久久 | 中文字幕黄色大片| 欧美日韩一区二区三区视频播放| 久久99精品久久久久久青青日本| 99久久香蕉| 操一操视频一区| 91综合精品国产丝袜长腿久久| 91香蕉电影院| 狂野欧美xxxx韩国少妇| 91中文精品字幕在线视频| av成人在线播放| 国产免费亚洲高清| 亚洲一区有码| 成人精品一区二区三区电影黑人 | 国产亚洲一区在线| 欧美成人三级在线视频| 激情视频一区| 91视频 - 88av| 黄色成人av网站| 亚洲精品无码国产| 一区二区国产精品| 无码人妻丰满熟妇区五十路百度| 玖玖国产精品视频| 蜜臀视频一区二区三区| 免费看欧美女人艹b| 国内国产精品天干天干| 国产一区二区三区香蕉| 国产成人精品一区二区在线小狼| 丁香六月久久综合狠狠色| 国产人妻黑人一区二区三区| 91丨porny丨在线| 一区二区三区在线观看免费视频| 欧美国产日本韩| 一级片一级片一级片| 一区二区三区**美女毛片| 国产主播在线观看| 日本韩国欧美一区| 国产精品视频一二区| 日韩免费性生活视频播放| 免费激情视频网站| 亚洲一品av免费观看| 国产一二区在线| 欧美激情二区三区| 一区二区三区短视频| 国产精品青青在线观看爽香蕉 | 欧美日韩在线三区| 国产青青草视频| 亚洲精品久久久久久下一站| 成人在线二区| 欧美极品在线播放| 国产精品专区免费| 91在线网站视频| 久久精品色综合| 一区二区三区我不卡| 国产在线不卡| 一区二区三区入口| 国产电影精品久久禁18| 欧洲女同同性吃奶| 日韩毛片高清在线播放| 毛片视频网站在线观看| 欧美日韩国产中文| 全部免费毛片在线播放一个| 一区二区在线视频播放| 欧美hdxxxxx| 国产欧美日韩91| 精品自拍偷拍| 亚洲一区精品视频| 国产精品五区| 在线视频观看一区二区| 久久综合五月天婷婷伊人| 91嫩草丨国产丨精品| 色偷偷一区二区三区| 成人h动漫精品一区二区无码| 亚洲人午夜精品| 国产丝袜在线播放| 国产在线视频一区| 欧美国产极品| 成人在线免费观看网址| 奇米综合一区二区三区精品视频| 色哟哟视频在线| 亚洲欧美日韩国产一区二区三区| 极品国产91在线网站| 亚洲国产精彩中文乱码av在线播放| 欧美三级理伦电影| 国产精品91一区| 免费成人av| 欧美啪啪免费视频| 成人激情免费网站| 日韩国产第一页| 欧美性大战久久久久久久| 天堂影院在线| 久久久久国色av免费观看性色| 99re8精品视频在线观看| 日韩欧美精品一区二区三区经典| 亚洲久久在线| 日本在线不卡一区二区| 亚洲一区二区3| 99久久亚洲精品日本无码| www.日韩av.com| 国产成人精选| 色综合影院在线观看| 日韩精彩视频在线观看| 国产特黄级aaaaa片免| 性做久久久久久免费观看欧美| 国产成人毛毛毛片| 欧美超级免费视 在线| 欧美日韩中出| 成人国产在线看| 国产成人精品一区二区三区四区 | 亚洲综合伊人久久大杳蕉| 91精品视频免费看| 羞羞答答成人影院www| 欧美激情第一区| 亚洲猫色日本管| 亚洲av无码乱码国产麻豆 | 亚洲高清视频一区| 日本成人在线一区| 亚洲天堂精品一区| 欧美精品成人一区二区三区四区| 日本不卡视频| 亚洲一区二区三区在线免费观看| 888久久久| 中文字幕18页| 亚洲6080在线| 日韩精品系列| 国产精品久久久久久久久久久久久 | 奇米影视一区二区三区| 91无套直看片红桃在线观看| 7777精品伊人久久久大香线蕉的 | 污污视频在线观看网站| 9.1国产丝袜在线观看| 免费精品国产| 手机看片一级片| 亚洲欧洲中文日韩久久av乱码| 不卡的日韩av| 69影院欧美专区视频| 成人久久电影| 免费不卡av网站| 精品高清美女精品国产区| 大地资源中文在线观看免费版| 成人av在线天堂| 黑丝一区二区三区| 波多野结衣福利| 欧美精品123区| 成人在线高清免费| 日韩久久不卡| 风流少妇一区二区| 人人爽人人爽人人片av| 久久好看免费视频| 先锋影音国产精品| 亚洲视频一二三四| 欧美日韩国产一区二区三区| p色视频免费在线观看| 99视频网站| 三级欧美韩日大片在线看| 欧美丰满熟妇bbbbbb| 日韩成人av一区| 一区二区三区无毛| 精品这里只有精品| 亚洲欧美在线aaa| 日韩性xxxx| 成人有码视频在线播放| 国产精品五区| 欧美三级在线免费观看| 亚洲欧洲午夜一线一品| 91嫩草精品| 天天做天天干天天操| 日本道精品一区二区三区| 国产嫩草在线视频| 一区二区三区我不卡|