精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從思考到行動:大模型自主工具調用能力的深度實現

人工智能 新聞
GPT - 4o、Deepseek - R1 等高級模型已展現出令人驚嘆的「深度思考」能力:理解上下文關聯、拆解多步驟問題、甚至通過思維鏈(Chain - of - Thought)進行自我驗證、自我反思等推理過程。

本項目由復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員領導,博士生韓槿一,碩士生李廷云、熊程元、姜子上、王昕奕等同學共同參與完成。

GPT - 4o、Deepseek - R1 等高級模型已展現出令人驚嘆的「深度思考」能力:理解上下文關聯、拆解多步驟問題、甚至通過思維鏈(Chain - of - Thought)進行自我驗證、自我反思等推理過程。

但是,多數主流模型仍在基礎問題上犯錯,復雜四則運算計算失誤,簡單「兩個小數比大小」出錯、甚至連數清楚 strawberry 里有幾個「r」都能翻車……即使提示像 R1 這樣具備深度思考能力的大模型也要消耗大量的 token 才能勉強答對。

合適的工具調用能夠拓展大模型的能力邊界,但現有工具調用方式將大模型限制在預設的工具使用框架內,更像是一個被動的「提線木偶」,而非真正具備主動性的智能體。主要體現在以下幾個方面:

  •  淺層模仿而非深度理解:SFT 只是學會了特定場景下工具調用的表面模式,而非真正理解工具的功能邊界、適用場景和內部工作機制 
  • 上下文依賴性強:基于 Prompt 的工具調用方法高度依賴于提示的精確性和完整性。一旦用戶描述模糊或提示設計不當,模型就無法正確選擇和使用工具 
  • 工具組合能力受限:當需要多個工具協同解決復雜問題時,現有方法難以支持模型進行靈活的工具組合

復旦大學知識工場實驗室團隊在開源項目 SimpleGRPO 中開源實現了大模型自主工具調用機制,通過引入大模型的深度思考能力,從根本上重構了大模型工具調用的范式。該技術使大模型實現了從被動執行的「提線木偶」到具備自主決策能力的智能體的根本躍遷。

  • 項目開源地址為:https://github.com/lsdefine/simple_GRPO/tree/main/Auto_Program 

為什么大模型需要自主調用工具的能力?

  • 深度整合:大模型不僅是工具的「操控者」,而是能在推理過程中深度理解工具的功能,知道什么時候、如何使用工具才能更高效地解決問題。
  • 動態調整每次調用工具后,模型會根據新獲得的信息自動調整思路,不斷改進解決方案,讓每一次思考都更精確。
  • 連續性與靈活性:不同于傳統的單次工具調用,自主工具調用能力可以使得模型能夠在復雜任務中多次調用工具,通過連續的交互獲取最佳答案
  • 創新組合:當一個工具無法完成任務時,模型能創新性地將多個工具結合起來,解決更為復雜的挑戰。

圖片

表. 一般模型和融入思考進行自主工具調用的模型在工具調用上的能力表現的差異 

如何實現大模型的工具自主調用?

我們使用強化學習算法給 LLM 裝上「決策中樞」,實現兩種神仙模式: 

方案 1【邊想邊干】:LLM 思考到一半突然寫代碼輔助解決 → 編譯器運行 → 繼續思考完成后續的推理

當大模型在生成推理或解決問題的過程中,意識到某些步驟需要借助編程工具(如 Python)來完成時,它會直接生成相應的代碼片段,并通過編譯器執行這些代碼,執行結果會被捕獲并作為輸入重新融入到大模型的推理過程中。

這種即時反饋機制使得模型能夠動態調整后續的生成內容。這種方式類似于人類在解決問題時,發現某個計算或分析任務復雜到需要用程序來輔助,便動手編寫代碼并運行結果。 

方案 2【專業分工】:LLM 負責提需求,直接說「我需要計算 38 和 16 的最小公倍數」,專屬代碼小弟秒速響應!強強聯手更精準!

生成模型在推理過程中,當遇到需要編程工具協助的任務時,會明確描述出需求。例如,「我需要計算一組數據的標準差」或「請幫我實現一個排序算法」。這種需求描述通常以自然語言的形式表達,清晰且易于理解。接收到需求后,專門的代碼生成模型會根據描述生成對應的 Python 代碼。

該模型經過大量代碼訓練,擅長將自然語言需求轉化為準確的代碼實現。生成的代碼通過編譯器執行,執行結果被返回給生成模型。生成模型根據結果調整后續推理路徑,確保整個過程連貫一致。

大模型邊思考邊行動

大模型自主調用 Python 命令行

我們首先在簡單數學題上驗證模型能否通過強化學習學會調用工具計算器來輔助解決問題,并觀察其泛化性。我們設定模型可在回答中通過「>>>」調用 Python 命令行,檢測到需要調用 python 程序時,編譯執行并將代碼運行結果插入到先前的生成過程中。以 Qwen2.5 - 7B 為基礎模型,在 GSM8K 上訓練。

  • 模型執行復雜運算時會自主調用命令行來計算

圖片

  • 模型在訓練時只接觸數學題,但推理時能自主泛化到其他問題上
  • 3.11 和 3.9 誰大?

以前:瞎蒙(甚至理直氣壯答錯)

現在:秒寫代碼 print(3.11 > 3.9),輸出 False,鐵證如山!

圖片

  • strawberry 有幾個「r」?

以前:靠概率硬猜(結果常漏數)

現在:直接上代碼 "strawberry".count('r'),精準輸出 3!

圖片

模型調用 Python 程序

面對更難的問題時,我們發現命令行難以發揮作用。例如,模型使用 Python 來解方程時,需要導入相應的包,如果使用互相獨立的命令行難以完成,將多個命令行一起執行則模型容易在格式和代碼編寫上出錯。因此,我們嘗試讓模型自己寫整段的 python 程序。

  • 基礎模型:Qwen2.5 - Math - 7B - Base
  • 算法:Reinforce++ ? 數據集:MATH level3 - 5 上進行訓練
  • 訓練重要參數設置:temperature:0;學習率:4e - 7;batch_size: 32;
  • 獎勵設置:回答中包含 \boxed{} 且其中答案正確,則獎勵為 1,否則獎勵為 0

訓練結果如下:

圖片

  • 復雜一元三次方程求解借助編程解決

模型內心 OS:「這題手算會崩,看我召喚 Python!」

圖片

大模型主動提出調用工具需求

實驗細節

1、訓練數據集構建:

從 MATH、Numina、OpenThoughts 中篩選訓練問題時按照以下原則:

  • 使用 Qwen2.5 - 7B - Base 對問題生成多個答案,過濾掉對模型而言較為簡單的題(正確率為 100%)
  • 過濾掉選擇題、概念題等沒有標準答案的問題

2、測試數據集: 以 GSM8K 題目為原型,將其中的數值替換成超大(9~11 位)或者更加復雜(小數)的數值。 

數據集開源地址:https://huggingface.co/datasets/JinyiHan/big-value-gsm

3、算法:GRPO

4、訓練技巧:

  • 獎勵設置:我們注重對格式的獎懲,這樣可以保證在模型訓練前期能快速學習到格式,格式準確率能夠逐漸達到 95% 以上;從而在后期訓練階段模型能夠專注于提升回答的準確率。

圖片

  • 課程學習:按照模型正確回答的概率從大到小進行排列
  • 避免 GRPO 同組得分同質化:在訓練過程中,得分完全相同的樣本直接過濾掉

5、模型選擇:

生成模型:Qwen2.5 - 7B - Instruct

代碼模型:Qwen2.5 - 7B - Instruct

實驗結果

圖片


  • 模型反復多次提需求調用工具

以前:硬著頭皮硬算,強行編答案

現在:思考后主動使用工具輔助解決

圖片

圖片

其他有意思的觀察:

  • 模型能夠根據代碼編譯結果能進一步反思

當模型編寫的 python 代碼出現編譯報錯、沒有輸出或運行超時:

以前:出現錯誤后,后續生成的內容全部出錯

現在:模型會根據報錯信息繼續調整策略

圖片

  • 自主調用工具的能力能在未見的任務上進行泛化

以前:特定領域微調后并不會遷移到未見任務上

現在:掌握工具后可以在其他領域靈活使用

case1: Knight & Knave (Logic - RL)

圖片

case2: CountDown

圖片

  • 解鎖新能力,使用 python 來驗證生成答案的正確性

圖片

總結

我們探索了結合大模型的深度思考能力提升大模型自主工具調用的能力的兩種方式,包括讓大模型邊思考邊行動、以及讓大模型提出調用工具的需求。

我們發現,通過強化學習的訓練方式,邊想邊干和專業分工兩種方式都能夠使大模型靈活、自主地調用工具,并在生成過程中多次調用工具,將工具調用的結果無縫融入后續的推理與決策流程中。

更重要的是,這種自主工具調用能力展現出強大的泛化性,能夠成功應用于完全未見過的任務場景,表現出令人驚嘆的潛力。

這一研究成果為未來大模型深度思考能力的實際應用提供了重要的參考價值和技術基礎。我們計劃在不久后發布相關技術報告或論文,對這些方法進行更詳細的闡述和討論,敬請期待。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-09-05 14:43:15

2023-10-04 09:17:03

機器人AI

2025-05-08 02:02:02

2023-10-07 08:28:06

語言模型代碼技術

2015-05-11 13:11:16

華為

2025-10-10 09:25:09

2025-10-10 01:25:00

大模型訓練數據OpenAI

2025-04-02 01:25:00

2024-11-05 16:47:27

2025-11-13 08:00:00

大推理模型AI人工智能

2025-07-18 10:46:11

2024-12-18 08:33:01

2025-04-27 00:32:00

AIAgent智能體

2024-11-04 12:48:12

2025-08-21 15:48:16

2025-11-10 16:57:11

Kimi k2ClaudeGPT

2025-09-04 09:36:04

2025-03-21 09:35:29

點贊
收藏

51CTO技術棧公眾號

欧美精品在线免费| 日韩一区二区三区免费看| 欧美日韩一区综合| 亚洲一区二区人妻| 欧美在线高清| 日韩精品高清视频| 国产精品久久久毛片| 亚洲www色| 久久久不卡网国产精品二区| 国产欧美精品va在线观看| 久久丫精品久久丫| 第一社区sis001原创亚洲| 精品国产第一区二区三区观看体验| 国产日韩一区二区在线观看| 成人福利片网站| 91啪亚洲精品| 99精品在线直播| 亚洲天堂视频网| 欧美综合二区| 欧美高清不卡在线| 国产白丝一区二区三区| 奇米影视777在线欧美电影观看| 欧美日韩三级一区二区| 国产老熟妇精品观看| 91亚洲天堂| 国产精品日日摸夜夜摸av| 精品蜜桃传媒| 国内老熟妇对白xxxxhd| 日本亚洲天堂网| 992tv成人免费影院| 免费在线观看一级片| 成人区精品一区二区婷婷| 日韩精品中文字幕在线观看| av在线天堂网| 日本超碰一区二区| 欧美精品 日韩| 四季av一区二区| 韩国成人漫画| 欧美午夜激情在线| 亚洲色欲久久久综合网东京热| 日本不卡在线| 亚洲国产精品国自产拍av| 精品人伦一区二区三区| 亚洲国产精品久久久久久6q | 中文字幕一区二区三区在线播放| 久久精品二区| 婷婷视频在线观看| 成人免费视频免费观看| aa成人免费视频| 性一交一乱一色一视频麻豆| 精品午夜久久福利影院| 成人福利网站在线观看| 国产精品一区二区黑人巨大| 日本网站在线观看一区二区三区 | 国产精品第六页| 亚洲一区二区免费看| 性欧美xxxx| 日韩黄色三级视频| 激情久久久久| 国模私拍视频一区| 日韩欧美激情视频| 欧美中文日韩| 国产极品精品在线观看| 青青国产在线视频| 久久99精品网久久| 成人国产精品av| www.色呦呦| av成人免费在线观看| 久久久久资源| 国产在线观看免费| 国产精品福利一区| 国产高清不卡无码视频| 天堂av资源在线观看| 亚洲午夜激情av| 怡红院av亚洲一区二区三区h| 成人av观看| 欧美色成人综合| 日韩av福利在线观看| 成人av综合网| 亚洲香蕉成人av网站在线观看 | 欧美午夜精品伦理| 日本激情综合网| 日韩欧美另类中文字幕| 亚洲精品wwwww| 国产伦理片在线观看| 亚洲综合婷婷| 欧美一级bbbbb性bbbb喷潮片| 波多野结衣人妻| 国产在线一区观看| 精品无码久久久久国产| 337p日本欧洲亚洲大胆鲁鲁| 亚洲男女一区二区三区| 91免费视频网站在线观看| 成人精品高清在线视频| 91精品久久久久久久91蜜桃| 超碰97在线资源站| 色中色综合网| 午夜精品在线视频| 伊人网视频在线| 成人av在线看| 亚洲欧美一二三| 亚洲美女炮图| 91精品国产美女浴室洗澡无遮挡| 国产黄色三级网站| 欧美r级电影| 日本国产欧美一区二区三区| 国产人妻精品一区二区三区| 91老司机福利 在线| 中文字幕在线亚洲精品| 亚洲欧美se| 精品国产精品网麻豆系列 | 有码一区二区三区| 欧美黑人又粗又大又爽免费| 国产乱人伦精品一区| xxx欧美精品| 国产中文字幕视频| 成人免费观看视频| 欧美日韩在线免费观看视频| 网友自拍亚洲| 亚洲精品国产精品乱码不99按摩| 欧美xxxooo| 日本欧美在线观看| 九九九久久久| 欧美xxxx视频| 91精品国产综合久久精品图片| 无码一区二区三区在线| a91a精品视频在线观看| 99久久精品久久久久久ai换脸| 香蕉视频国产在线观看| 色噜噜狠狠成人中文综合| youjizz.com日本| 午夜久久99| 成人午夜高潮视频| 最新97超碰在线| 欧美亚洲动漫精品| 制服 丝袜 综合 日韩 欧美| 香蕉成人久久| 精品一卡二卡三卡四卡日本乱码| 超碰在线资源| 精品国产区一区| 国产一级片久久| 国产不卡视频在线观看| 中国成人在线视频| 日本黄色成人| 久久精品国产久精国产思思| 亚洲一区精品在线观看| 国产精品美女久久久久久2018| 一区二区三区国产免费| 精品久久久亚洲| 国产精品免费福利| 91亚洲精选| 911国产精品| 18岁成人毛片| 丁香另类激情小说| 老太脱裤子让老头玩xxxxx| 国产成人福利av| 欧美亚洲国产视频| 好男人免费精品视频| 在线视频亚洲一区| 欧美成人短视频| 激情综合亚洲精品| 欧美美女黄色网| 999在线精品| 97久久精品视频| 日本五码在线| 欧美视频完全免费看| 网爆门在线观看| 精品一区在线看| 欧美日韩一级在线| 中文字幕久久精品一区二区 | 中文字幕日韩一区二区三区不卡| 亚洲欧美综合久久久久久v动漫| 久久精品视频一| 亚洲精品无遮挡| 欧美日韩亚洲激情| 亚洲最大成人综合网| 国产综合色在线视频区| 亚洲理论电影在线观看| 中文字幕av一区二区三区人| 国产精品专区一| 欧美6一10sex性hd| 亚洲欧美日韩网| 国产精品热久久| 亚洲成人你懂的| 级毛片内射视频| 国产剧情一区二区| 波多野结衣家庭教师在线| 国产一区二区三区日韩精品 | 日韩精品社区| 国产美女精品视频免费观看| 肉体视频在线| 亚洲网站在线观看| 精品人妻无码一区二区色欲产成人 | 国产成人av电影在线播放| 国产二区视频在线播放| 天天射综合网视频| 狠狠色综合欧美激情| 国产精品99精品一区二区三区∴| 欧美激情视频在线| 波多野结衣一区二区| 精品成人在线观看| 久久精品99北条麻妃| 一区二区三区四区高清精品免费观看| 丰满圆润老女人hd| 国产福利一区二区三区在线视频| 日韩 欧美 高清| 亚洲国产日本| 只有这里有精品| 国产乱码精品一区二区三区四区| 99se婷婷在线视频观看| av成人在线观看| 欧洲午夜精品久久久| 日本伦理一区二区| 中文欧美日本在线资源| 亚洲色欧美另类| 日韩精品一区二区三区视频| 中文字幕第三页| 欧美性少妇18aaaa视频| 久操视频免费在线观看| 自拍偷拍亚洲欧美日韩| 欧美激情久久久久久久| 久久亚洲春色中文字幕久久久| 国产乱淫av片| 国产一区二区三区四区五区入口 | 麻豆中文字幕在线观看| 菠萝蜜一区二区| 乱色588欧美| 成人午夜网址| 99视频免费观看| 国产精品视频一区二区三区| 成人黄色激情网| 久久电影天堂| 国产精品久久久久久久久免费看| 英国三级经典在线观看| 538国产精品一区二区免费视频| 成人性生交大片免费看网站| 欧美成人免费全部| 久操视频在线观看| 日韩性xxxx爱| 欧美猛烈性xbxbxbxb| 色婷婷**av毛片一区| 91在线看黄| 久久精品成人欧美大片| 日本不卡视频| 久久精品国产一区| 国产网站在线免费观看| 久久精品国产一区二区电影| wwwav在线| 欧美成人黑人xx视频免费观看| 黄网站在线播放| 久久天天躁狠狠躁老女人| 国产鲁鲁视频在线观看特色| 久久国产精品久久国产精品| av在线网址观看| 久久久久久成人精品| av资源在线看片| 91国内精品久久| 综合在线影院| 国产这里只有精品| 日本高清精品| 国产精品自拍首页| 蜜桃一区二区三区| 日本午夜精品一区二区三区| 日韩精品中文字幕第1页| 影音先锋欧美资源| 欧美日本免费| 一女被多男玩喷潮视频| 日本午夜精品视频在线观看| 第一区免费在线观看| 国产呦精品一区二区三区网站| 秋霞午夜鲁丝一区二区| 国产不卡免费视频| 久久久久亚洲av无码专区桃色| 中文字幕第一区综合| 欧美成人黄色网| 欧美日韩人人澡狠狠躁视频| 一级片在线免费播放| 4438x成人网最大色成网站| www.xxxx国产| 亚洲色图校园春色| 黄色视屏免费在线观看| 国外成人在线视频| 国产精品蜜月aⅴ在线| 99www免费人成精品| av中文一区| 亚洲熟妇无码av在线播放| 新狼窝色av性久久久久久| 手机av在线网| 99国产精品99久久久久久| av免费播放网站| 亚洲国产另类精品专区| 亚洲无码精品一区二区三区| 日韩一区二区三区观看| 国产污视频在线| 欧美黄色片视频| 成人国产激情| 精品国产乱码久久久久久郑州公司 | 婷婷五月色综合| 亚洲电影在线| 亚洲欧美日韩网站| 国产视频一区二区三区在线观看| 国产精品嫩草影院俄罗斯| 色一情一伦一子一伦一区| 性猛交富婆╳xxx乱大交天津| 一区二区三区www| free性m.freesex欧美| 91在线播放国产| 国产一区二区三区四区二区| 免费的一级黄色片| 亚洲欧美久久久| 欧美色图校园春色| 国产精品美女www爽爽爽| 久久99精品波多结衣一区| 91精品国产综合久久精品| 91青青在线视频| 青青在线视频一区二区三区| 91成人午夜| 性做爰过程免费播放| 美女视频黄频大全不卡视频在线播放| 亚洲啪av永久无码精品放毛片 | www欧美在线观看| 日本免费高清一区二区| 一本一本久久| 国产精品熟妇一区二区三区四区| 亚洲欧洲中文日韩久久av乱码| 国产精品久久久久久久久夜色| 亚洲国内高清视频| 超碰在线97国产| 成人91视频| 黄色在线一区| 日批免费观看视频| 樱花草国产18久久久久| 国产成人精品一区二区无码呦| 日韩在线观看免费全集电视剧网站| 成人自拍av| 日本一区二区三区在线视频| 久久一区二区三区四区五区| 成人h动漫精品一区| 激情成人中文字幕| 少妇一区二区三区四区| 国内伊人久久久久久网站视频| 成人看片黄a免费看视频| 丝袜人妻一区二区三区| 成人一区二区视频| 日本a在线观看| 日韩av中文字幕在线播放| 正在播放日韩精品| 热re99久久精品国99热蜜月| 日韩av中文字幕一区二区| 亚洲ⅴ国产v天堂a无码二区| 欧美色网站导航| 黄色免费在线网站| 亚洲aⅴ男人的天堂在线观看| 欧美不卡在线| 久草免费资源站| 日韩欧美国产激情| 国产人成在线观看| 成人激情av在线| 欧美69视频| 800av在线播放| 色婷婷亚洲一区二区三区| 国产精品四虎| 成人欧美一区二区三区黑人孕妇| 影视一区二区| 一起草在线视频| 在线日韩一区二区| 日本在线看片免费人成视1000| 91免费国产网站| 99综合视频| www.4hu95.com四虎| 欧美一级片在线看| 91福利区在线观看| 四虎永久国产精品| 国产真实乱子伦精品视频| 国产手机在线视频| 国产小视频91| 亚洲精品黑牛一区二区三区| 干日本少妇首页| 日韩理论在线观看| 亚洲男人天堂久久| 日本伊人精品一区二区三区介绍| 日韩欧美高清| 日韩av手机在线播放| 欧美色综合久久| 爱草tv视频在线观看992| 亚洲精品一区国产精品| 国产一区二区不卡| 亚洲s码欧洲m码国产av| 日韩在线精品视频| 欧美亚洲国产日韩| 人人爽人人爽av| 一本色道久久综合狠狠躁的推荐| 快射视频在线观看| 久久国产精品久久精品国产| 久久国产精品色| 欧美啪啪小视频| 欧美黑人一区二区三区| 日韩欧美一区二区三区在线视频| 国产婷婷在线观看| 欧美日韩国产一级|