ICCV 2025 | 打造通用工具智能體的基石:北大提出ToolVQA數據集,引領多模態多步推理VQA新范式
本文第一作者是來自北京大學的本科生殷紹峰,合作者包含來自北京大學的博士生雷廷,通訊作者為北京大學王選計算機研究所研究員、助理教授劉洋。
本文主要介紹來自該團隊的最新論文:ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools。
本文提出了一個旨在提升基礎模型工具使用能力的大型多模態數據集 ——ToolVQA。現有研究已在工具增強的視覺問答(VQA)任務中展現出較強性能,但在真實世界中,多模態任務往往涉及多步驟推理與功能多樣的工具使用,現有模型在此方面仍存在顯著差距。
為彌補這一空缺,ToolVQA 共包含 2.3 萬條樣本,覆蓋真實圖像場景與隱式多步驟推理任務,更貼近真實用戶交互需求。我們提出了一種新穎的數據構建流程 ToolEngine,通過深度優先搜索(DFS)與動態上下文示例匹配機制,模擬人類工具使用過程中的推理鏈條。該數據集涵蓋 10 種多模態工具與 7 類任務領域,每條樣本平均涉及 2.78 步推理。在 ToolVQA 上微調后的 7B 模型不僅在測試集上表現優異,還在多個分布外(OOD)基準數據集上超越了閉源大模型 GPT-3.5-turbo,展現出良好的泛化能力和實際應用潛力。
目前該研究已被 ICCV 2025 正式接收,相關代碼與模型已全部開源。

- 論文標題:ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools
- 論文鏈接:https://arxiv.org/abs/2508.03284
- 代碼鏈接:https://github.com/Fugtemypt123/ToolVQA-release
- 項目主頁:https://fugtemypt123.github.io/ToolVQA-website/
打破合成范式:ToolVQA 開啟真實圖像下的多步工具問答新紀元
本文提出了一種全新的多模態視覺問答數據集 ——ToolVQA,通過真實世界任務與復雜工具鏈模擬,為大模型提供系統化、多步推理的訓練與評估基準。當前,將外部工具集成進大模型(Large Foundation Models, LFMs)已成為提升其復雜任務處理能力的重要方向。借助外部工具,模型可以將難題拆解為更小的子任務,交由特定功能的工具處理,從而實現更強的泛化與執行力。
雖然已有研究在視覺問答(VQA)中引入工具使用機制,并取得了一定成果,但最新的多個基準測試表明:當前模型在真實世界的多模態、多功能、多步驟任務中,工具使用能力仍存在明顯短板。例如,真實用戶在交互中往往提出語義隱含、信息模糊的問題,解決這類問題需要模型綜合使用多個工具,提取圖像、文本和外部知識中的多源信息,構建連貫的推理鏈,而這正是當前主流模型難以勝任的挑戰。
通過微調方法可以增強大模型的工具使用能力,但已有的數據集常存在兩類問題:
一是圖像場景大多為合成內容,缺乏真實世界背景的復雜性與不確定性;二是任務設計趨于模板化,問題過于簡單,或直接在指令中提示要使用哪種工具,難以覆蓋真實人類問題的隱式推理特性,進而限制了模型在實際應用中的遷移能力與評估效果。
針對這一問題,本文提出 ToolVQA 數據集,它由數據合成引擎 ToolEngine 生成,具有以下關鍵特性:
1. 全自動生成:僅需輸入一張圖片即可生成高質量 VQA 實例,不需要任何人工標注,顯著降低數據成本,具備規模化潛力;
2. 真實世界圖像與語境:覆蓋新聞圖片、電商場景、考試題圖等多源復雜圖像類型,任務語義貼近真實用戶行為;
3. 隱式多步推理鏈:每個問題都需模型自主規劃工具調用順序,通過多輪交互完成任務,而非顯式提示;
4. 豐富的工具種類與功能組合:涵蓋 10 類典型工具,支持從文本提取、圖像理解、數值計算到圖表繪制與搜索生成;
下面的圖 1 可視化了 ToolVQA 與先前數據集在真實世界設定下的差異。

圖 1 ToolVQA(右)的真實世界設定包括:(1) 具有真實世界語境的復雜視覺場景;(2) 具有隱式多步驟推理過程的挑戰性查詢。相比之下,現有數據集(左)無法滿足這些要求。
自動構建的擬人化推理流程:ToolEngine 重現類人的工具使用模式

圖 2 ToolEngine 數據合成框架
為克服現有 VQA 數據集 “模板化、靜態化、淺層化” 的構建弊端,ToolVQA 背后的關鍵技術支撐 ——ToolEngine,提出了一種模擬人類問題解決流程的自動數據構建框架,使得每一條數據不僅貼合真實視覺任務,還具備可解釋的多步工具使用路徑。
ToolEngine 從無標注圖像出發,圍繞 “如何合理調用工具解決復雜問題” 這一核心展開,依托以下三個關鍵機制完成數據合成:
1. 圖像引導的深度優先搜索(Image-guided DFS)
ToolEngine 首先將圖像輸入構建為推理圖搜索的起點。在多模態工具圖上,系統通過深度優先策略依次選擇調用工具,并執行實際推理操作。每個步驟不僅包括工具名稱的選擇,還包含參數構造與調用結果解析,從而生成邏輯連貫、目標導向的推理軌跡。與以往 “單步調用 + 答案附加” 的方式不同,ToolEngine 要求每一工具步驟都必須對后續任務產生實質性影響,確保推理鏈條具有嚴密的因果邏輯。
2. LCS 動態示例匹配機制(Longest Common Subsequence Matching)
為克服模板方法在生成路徑組合上的局限,ToolEngine 引入一種基于最長公共子序列的動態匹配機制。它從專家構建的人類多步驟工具調用與推理的示例中,選出當前軌跡最相關的多個參考示例,并據此指導下一個工具的選擇與參數生成。該機制避免了以往固定模板中 “匹配不上就失敗” 的問題,使得系統能夠自動調整路徑、靈活組合操作,展現出更接近人類直覺的思維遷移能力。
3. 問題構造與答案提煉機制
在完成完整的工具軌跡后,ToolEngine 使用語言模型生成最終的問題 - 答案對。為了確保查詢具備 “隱式多步性” 和 “真實場景相關性”,ToolEngine 強制要求問題不能直接暴露推理線索,例如不能出現 “請使用 OCR 識別” 等顯性提示;同時,答案必須來自最后一步工具調用結果,而非任意圖像描述或常識補全。此外,系統還會嘗試將部分答案轉化為圖像(如圖表、繪圖等),進一步豐富數據的模態多樣性。
為確保數據質量,ToolVQA 的訓練集通過人工抽檢驗證,結果達到了 90.8% 的準確率。測試集由專家重標,綜合考慮圖文對齊性、工具路徑有效性與答案合理性等多個維度。
兼具真實復雜性與可量化評估:ToolVQA 樹立多步工具智能體新標桿
ToolVQA 數據集共包含 23,655 個任務樣本,每條樣本由五元組構成,包括圖像、工具集、自然語言查詢、最終答案及完整的工具調用軌跡,支持文本與圖像雙模態輸入輸出。具體統計如下:
- 平均每個問題包含 2.78 步工具調用,體現出顯著的多步推理深度;
- 涵蓋 10 類代表性工具,包括 OCR、圖像字幕生成、區域描述、繪圖、計算器、圖像生成等,廣泛適配真實應用場景;
- 查詢平均長度為 15.7 個詞,答案長度控制在 2.7 個詞內,避免語言冗余;
- 工具使用分布符合人類真實使用頻率,確保其實用性與必要性。

圖 3 ToolVQA 統計數據
在實驗評估中,ToolVQA 涵蓋三種模型設定(VLM、VLM+tool、LLM+tool)與兩種評估模式(端到端解答與逐步執行),系統測試了包括 GPT-4o、GPT-3.5、Claude-3.5、Qwen2、LLaVA 在內的主流大模型,以及在 ToolVQA 訓練集上微調的 LLaVA-7B 模型。性能表現總結如下:
1. 在 ToolVQA 測試集上,微調后的 LLaVA-7B 性能顯著超越 baseline,在五項重要評估指標中領先閉源大模型 GPT-3.5-Turbo;
2. 微調后模型在分布外(out-of-distribution)數據集(TextVQA、TallyQA、InfoSeek、GTA、TEMPLAMA)上也展現出出色的泛化能力,在多個數據集上超越 GPT-3.5-Turbo;

表 1 ToolVQA 實驗結果。每列指標分別表示模型在 ToolVQA 測試集下的表現:Acc. 為最終答案準確率,Inst. 為工具調用成功率,Tool. 為工具選擇準確率,Arg. 為參數生成準確率,Summ. 為最終答案整合準確率。圖中對比不同模型(開源與閉源)在三種推理設定(VLM、VLM+tool、LLM+tool)下的能力。

表 2 分布外數據集實驗結果。展示模型在五個分布外數據集(TextVQA、TallyQA、InfoSeek、GTA、TEMPLAMA)上的準確率表現。各數據集代表不同類型的跨模態任務場景,用于衡量模型的泛化能力。
此外,Few-shot 上下文學習實驗顯示,ToolVQA 上的微調模型依然能從小樣本示例中獲益,表明該數據集兼具 訓練適應性 與 評估擴展性,可同時服務于監督學習和指令微調等多種研究范式。

表 3 小樣本上下文學習實驗結果。展示四個模型(GPT-4o、GPT-3.5-Turbo、LLaVA-7B 及微調后的 LLaVA)在不同 shot 數(0-shot、1-shot、5-shot、10-shot)下的準確率變化。shot 數表示在模型回答問題前,輸入上下文中提供的示例個數。
盡管微調后的模型在 ToolVQA 上表現出較強能力,但對錯誤樣本的分析顯示,當前模型在多步推理中仍存在關鍵瓶頸。我們對 100 個失敗案例進行了分類統計,發現主要錯誤集中于以下兩個方面:
1. 參數預測錯誤:模型在調用工具時常常遺漏關鍵信息,如在搜索 “馬匹年齡” 問題中未包含關鍵詞 “age”,導致工具返回無關內容。這表明模型在提取任務目標中的顯式要素方面仍不穩定。
2. 答案整合錯誤:即使工具已返回正確內容,模型也可能錯誤地選擇信息。例如,面對 “每日攝入量” 類問題,模型錯誤地將體重 “1,300 磅” 當作答案,而忽視了上下文中 “25 磅 / 天” 的正確數值。
進一步分析表明,多步推理任務中一旦早期出現失誤(如工具選擇或參數錯誤),后續步驟將受到累積干擾,最終導致整體推理失敗。這類 “誤差累積效應” 也是當前工具智能體設計中的一大挑戰。
這些發現揭示出:當前大模型在面對動態反饋和中間信息整合時,尚不具備足夠的魯棒性,而 ToolVQA 提供了評估與改進此類能力的理想基準。

圖 4 微調后模型的錯誤可視化
總結:VQA 與工具智能體的融合范式
ToolVQA 是一個面向真實場景工具增強推理任務的大規模多模態數據集,涵蓋 10 種典型工具和 7 個應用領域,包含 23K 條具備隱式多步推理鏈的任務樣本。基于自動化數據生成引擎 ToolEngine,ToolVQA 構建了結構化的工具使用軌跡與高質量問題答案對,為模型的推理能力與工具理解能力提供了系統性訓練與評估平臺。
實驗結果表明,ToolVQA 顯著提升了微調后模型在復雜推理任務中的表現,不僅在測試集上超越 GPT-3.5,還在多個分布外數據集上展現出強泛化能力。進一步的錯誤分析指出,參數預測與答案整合仍是當前模型在工具使用任務中的關鍵瓶頸。
ToolVQA 不僅是一個數據集,更為多模態工具智能體的研究設立了評估標準和任務框架,為未來推動具備更強推理能力與泛化能力的通用智能體提供了堅實基礎。





































