小紅書提出DeepEyesV2，從“看圖思考”到“工具協同”，探索多模態智能新維度

2025-11-13 10:02:35

人工智能新聞

DeepEyesV2不僅延續了DeepEyes的視覺推理優勢，更突破性地實現了「代碼執行+網頁搜索+圖像操作」的全工具協同，從「會看細節」進化為「能主動解決復雜問題的智能體」。

還記得今年上半年小紅書團隊推出的DeepEyes嗎？

是的，就是那款能像人一樣「放大圖片細節找線索」，基本實現了類似o3「用圖像思考」的多模態模型。

如今，更強大的版本——DeepEyesV2，重磅發布。

先說結論：DeepEyesV2不僅延續了DeepEyes的視覺推理優勢，更突破性地實現了「代碼執行+網頁搜索+圖像操作」的全工具協同，從「會看細節」進化為「能主動解決復雜問題的智能體」。

下面詳細展開——

多工具協同的多模態推理

現有的多模態大模型雖然能夠理解文本和圖像等多種信息，但是這些模型更像「信息解讀器」——只能被動感知信息，卻不能主動調用外部工具來解決問題。

因此，受限于兩大痛點：

痛點1：工具調用能力薄弱。

當你對著一張陌生植物的照片詢問AI——「這是什么花？」

傳統多模態模型要么完全不具備工具調用能力，只能依賴內部知識庫進行基礎理解；

要么，只能單一調用某類工具，無法形成組合策略。

比如，DeepEyes雖能通過裁剪工具實現圖像細粒度感知，卻因缺乏信息檢索能力，無法僅憑內部知識確定花朵品種；

相比之下，MMSearchR1雖支持搜索，卻因沒有細粒度感知能力，常因「看不清圖像細節」導致檢索失敗。

這種「單工具依賴」，讓模型在面對復雜任務時束手無策。

痛點2：多能力協同缺失。

人類解決問題時，會自然串聯「觀察（感知）→查資料（搜索）→算結果（推理）」等步驟，但傳統多模態模型卻難以實現這種協同。

感知、搜索和推理往往是「各自為戰」，只能完成其中1-2個步驟，難以像人類一樣串聯成完整解決方案。

DeepEyesV2如何解決這些痛點？

相比于之前的模型，DeepEyesV2通過多工具協同推理，可以解決真實場景中的復雜問題。

比如，當面對「根據圖中股票走勢圖，計算該公司2024年4月4日9:30-16:00的跌幅，并對比同期Tootsie Roll Industries（TR）的跌幅。

而涉及到「判斷誰更大」這一復雜問題時，DeepEyesV2則展現出強大的推理能力。

整體過程可以分為三步：

第一步：圖像搜索，獲取更多信息。

DeepEyesV2首先調用圖像搜索，嘗試獲取關于股價的更多信息。

第二步：文本搜索，嘗試獲取股價。

由于圖像搜索無法提供有效的信息，DeepEyesV2轉而進行文本搜索，查詢股價數據。

第三步：代碼執行，API訪問并計算。

文本搜索也無法提供當時的股價數據，DeepEyesV2選擇生成代碼，通過API訪問雅虎金融獲取股價數據，并進行數值計算，得到最后的結果。

通過多次搜索、代碼執行以及復雜推理，DeepEyesV2最終成功解答這一復雜問題。

值得注意的是，通過代碼訪問API的行為在團隊的訓練數據中并不存在，但是DeepEyesV2通過強化學習自主獲得了這一技能。

DeepEyesV2

模型細節

與DeepEyes類似，DeepEyesV2是一個具有智能體特性的多模態模型，但它的工具使用能力得到了巨大擴展，不止于簡單的裁剪操作。

在DeepEyesV2中，程序化代碼執行和網絡檢索作為外部工具可以在推理過程中被交互調用，并結合工具結果進行進一步推理。

給定圖像輸入及相應的用戶查詢后，DeepEyesV2首先會生成初步的推理計劃，并明確判斷該問題是可以通過內部推理直接解決，還是需要調用工具。

如果有必要使用工具，DeepEyesV2會生成可執行的Python代碼或發出網絡搜索查詢。

代碼執行在沙箱環境中進行，能夠產生結構化輸出，如經過處理的圖像、數值測量結果、計算數組、圖表或執行日志。

圖像查詢通過SerpAPI提交，返回排名前五的視覺匹配網頁；文本查詢返回五個最相關的網頁，以及標題和片段……所有工具輸出都會被添加到模型的上下文當中。

之后，DeepEyesV2會根據這些觀察結果進一步思考，并可能計劃進一步調用工具，重復這種推理—工具—整合循環，直至得出準確的答案。

簡單來說，DeepEyesV2能夠動態選擇、組合和使用工具。

這種整合帶來了三個主要優勢：

1、通過可執行代碼，拓展并增強了分析能力；

2、能夠從網絡檢索多模態證據，實現主動且實時的知識獲取；

3、在推理過程中，代碼執行和搜索可以在單一軌跡中動態結合，而非作為孤立的模塊存在，提高了工具調用的靈活性。

這些特性共同使DeepEyesV2成為一個更通用、可靠且可擴展的多模態推理框架。

探索實驗

DeepEyes通過強化學習，就可以激發出模型的圖像思考能力，因此團隊參考DeepEyes的方式，在Qwen2.5-VL-7B上進行了探索實驗。

通過研究是否可以通過強化學習讓模型直接獲得更加復雜的工具使用能力，團隊觀察到兩個關鍵問題。

問題1：早期工具探索「有心無力」，代碼執行率低。

在訓練初期，模型雖會生成Python代碼調用圖像裁剪、數值計算工具，但輸出的代碼大多存在語法錯誤或邏輯漏洞，導致代碼執行成功率低。

隨著訓練進行，模型逐漸放棄代碼生成，最終只收斂到生成簡短的推理鏈，繞過了工具使用。

問題2：「獎勵黑客」現象，模型用「無效操作」騙取獎勵。

為了改善工具調用效果，團隊引入DeepEyes中驗證有效的「工具使用獎勵機制」，只要模型生成代碼，就額外給予獎勵。

初期確實看到了效果，代碼執行成功率一度提升。

但在訓練后期，模型開始「投機取巧」，只輸出一個只有無意義注釋的代碼塊，從而來騙取額外的獎勵，陷入「獎勵黑客」（Reward Hacking）的陷阱。

通過探索實驗，團隊發現，現有的多模態大模型由于自身能力的不足，無法僅通過直接的強化學習來可靠地學習到復雜的工具使用，也說明了冷啟動的重要性。

兩階段訓練

因此，團隊采用了「冷啟動+強化學習」兩階段訓練策略，讓模型從「會用工具」穩步升級到「善用工具」。

階段一：冷啟動—打基礎

通過高質量數據集為模型打基礎」，讓其掌握工具調用的基本邏輯。團隊精心篩選了四類數據：

感知類數據：需用圖像裁剪、標記工具解決的問題。
推理類數據：需用代碼計算工具解決的數學問題。
搜索類數據：需用聯網工具解決的問題。
CoT數據：純文本的推理CoT數據。

同時，數據還經過兩層嚴格過濾：

1、難度過濾，只保留基礎模型無法解決的問題；

2、工具收益過濾，確保工具調用能顯著提升答案準確率。

階段二：強化學習—精優化

在冷啟動基礎上，通過「準確率+格式規范」雙獎勵機制優化工具調用策略。

與傳統復雜獎勵設計不同，DeepEyesV2僅用兩個簡單獎勵：

1、準確率獎勵，根據最終答案與標準答案的匹配度打分；

2、格式獎勵，對代碼報錯、搜索關鍵詞無效等格式問題進行懲罰。

RealX-Bench

現有的評測集，往往只能測試模型的單一能力（比如看圖識物、數學計算），但真實世界的問題需要「多能力協同」。

為此，團隊構建了全新基準RealX-Bench，包含300個真實場景問題，覆蓋日常生活、媒體、體育、知識、游戲五大領域。

團隊從真實場景中收集問題并改寫，使得問題符合真實場景的需求，且很多問題都需要多個能力的結合才能解決。

準確率遠超開源模型

團隊首先在RealX-Bench上對現有模型和DeepEyesV2，進行了評估。

測試顯示，即使是最先進的通用模型，在RealX-Bench上的準確率也不足50%，而DeepEyesV2憑借工具協同能力，準確率上表現遠超開源模型，尤其是在需要多能力整合的任務上不表現突出。

此外，團隊還在真實世界理解、數學推理、搜索任務上進行了評估。

結果顯示：和現有的模型相比，DeepEyesV2取得了巨大的性能提升，這證明了工具調用的重要性。

深度剖析：數據消融與工具偏好

在這之后，團隊進一步通過多組消融實驗，系統探究了不同數據類型對模型工具使用能力的影響。

先來看看冷啟動數據。這一部分的核心目標是讓模型掌握「基礎工具使用邏輯」。

團隊將冷啟動數據分為三類——感知型、推理型、CoT型，并通過消融實驗驗證各類數據的作用。

僅用感知型數據，模型在真實世界感知任務上準確率有明顯提升，但在數學推理上準確率幾乎無提升。

這說明感知數據能讓模型熟練掌握「圖像裁剪、區域標記」等視覺工具，但無法遷移到需要代碼計算的推理任務，就像學會用放大鏡看細節，卻不會用計算器算數值。

僅用推理型數據，模型在數學推理任務上準確率有所提升，但在真實世界感知任務上準確率有所下降。

團隊分析發現，推理任務需要「代碼生成+邏輯驗證」的復雜工具使用模式，單一推理數據缺乏「視覺感知→工具調用」的銜接訓練，導致模型丟失了感知能力。

相比之下，當在感知+推理數據基礎上加入「CoT數據」后，模型在理解和推理任務上都有明顯提升。

這是因為，CoT數據強化了模型的推理能力，從而促進了模型的復雜工具調用能力。

因此最優的組合，還是——「感知+推理+CoT」。

三類數據結合后，模型在感知和推理測試集上均實現最優表現，這證明多樣化且包含復雜推理的冷啟動數據才能為模型打下「多工具協同」的基礎。

此后，團隊進一步探究強化學習數據的影響，發現只有多樣化的數據，才能有效地提高模型的工具調用能力。

冷啟動讓模型「知道用什么工具」，而強化學習則讓模型「懂得何時用工具」。

團隊通過對比冷啟動后與RL后的工具使用行為，發現RL不僅優化了工具調用的「準確性」，更讓模型形成了任務自適應的工具使用模式——

這種「按需調用」智能，正是DeepEyesV2區別于傳統模型的核心特征。

團隊分析了模型在不同任務上的工具使用分布，發現冷啟動后模型已具備初步的「任務-工具匹配」邏輯，而RL進一步強化了這種關聯，并推動「跨工具組合」。

DeepEyesV2對于不同的任務，體現出明顯的工具偏好。

對于真實世界感知任務，模型偏向使用裁剪來獲取細粒度的視覺細節，對于OCR任務，DeepEyesV2還會執行標記和數值計算，在圖表相關的任務中，模型會涉及更多的算數計算。

然而在數學推理任務上，數學計算占主導地位，在搜索相關任務中，模型主要使用搜索工具。

此外，團隊通過比較強化學習前后的行為，團隊觀察到明顯的變化。

在強化學習之后，模型開始傾向于執行更多的數值運算，并在搜索任務中也開始將圖像處理工具與搜索相結合，表明強化學習有助于模型強化了跨工具的協同。

冷啟動階段，模型存在過度調用工具的問題，90%以上的任務都會調用工具，導致推理效率低下。

而強化學習后，工具調用率顯著下降，表明模型學會了自適應推理，只有當使用工具更加有利時，才會調用工具，這有效提高了推理的效率。

此外，團隊還追蹤了強化學習訓練過程中工具調用次數、響應長度、獎勵值的動態變化。

團隊發現，輸出長度在不斷下降，且工具調用的平均次數也在逐步下降，但是工具調用的方差仍然很大。

這說明，模型并不是簡單地收斂到固定的工具調用次數（比如，每個問題調用一次工具）。

相反，模型學會了自適應思考，只在必要的時候有選擇地調用工具。

在面對復雜問題時，工具調用次數仍然很高，說明DeepEyesV2能夠根據任務難度動態調整工具調用策略，體現出真正的自適應推理能力。

結語

綜上所述，團隊從訓練、數據集設計和評估的角度，探索了如何構建能夠主動調用工具并將其融入推理過程的智能體多模態模型。

團隊的分析揭示了DeepEyesV2具有任務相關的工具使用行為，而強化學習，則讓模型學會更復雜、具有上下文感知的工具組合。

在感知、推理和搜索基準上進行的大量實驗，則進一步證明了DeepEyesV2強大的推理能力，凸顯了將工具調用與推理相結合的優勢。

論文地址：https://arxiv.org/pdf/2511.05271

項目主頁：https://visual-agent.github.io/

GitHub：https://github.com/Visual-Agent/DeepEyesV2

責任編輯：張燕妮來源：量子位

AI 模型工具