在開源模型上復現類似OpenAI o3的“thinking-with-image”能力：Mini-o3淺嘗原創

大模型自然語言處理

發布于 2025-9-11 09:13

瀏覽

0收藏

VLMs已具備調用圖像中心工具的能力，稱為“thinking-with-image”（以圖思考），通過支持細粒度推理提升模型對復雜視覺場景的理解能力。然而，開源VLMs在“需要試錯探索的復雜視覺搜索任務”中存在顯著短板，表現兩大問題：

復雜任務上準確率極低
高難度視覺搜索數據集熵（如DeepEyes）的準確率遠低于實際應用需求。
推理模式單一 + 交互輪次有限
現有開源模型（如DeepEyes）無法生成靈活的推理策略，僅能進行“單次定位-觀察”的簡單流程，而無法像OpenAI o3（閉源模型）那樣，采用“深度優先搜索”“試錯探索”“自我反思”等多樣化策略。例如，在尋找圖像中隱藏的小目標時，開源模型往往“一次裁剪錯誤即終止”，而o3會“回溯至原始圖像、嘗試其他區域、交叉驗證觀察結果”。
不同交互回合數下正確軌跡的分布情況。Mini-o3 展現出更深層次的思考路徑和更強的性能表現。盡管在訓練階段上限較小（即 6 回合），其仍表現出測試時回合數的縮放特性：當最大回合數從 4 增加到 32 時，準確率持續上升。

下面看下這份“復現OpenAI o3風格行為”的技術食譜，包括數據集構建、數據收集 pipeline、強化學習優化策略三部分。

方法

Mini-o3 的交互遵循 “Thought（思考）-Action（動作）-Observation（觀察） ” 循環，直到輸出最終答案或達到上下文 / 輪次限制。

在開源模型上復現類似OpenAI o3的“thinking-with-image”能力：Mini-o3淺嘗-AI.x社區

多輪 Agentic 圖像工具調用框架：在每一輪中，模型基于前一次的觀察（或輸入問題和圖像）迭代生成思考和動作。每一輪的觀察結果是根據相應動作所指示的參數獲取的。

Thought（T?）：模型基于歷史交互記錄（含輸入圖像、問題、過往觀察）生成的內部推理過程，用于指導下一步動作。核心目標是鼓勵“試錯探索”“回溯驗證”等多樣化推理模式，而非單一路徑。
Action（A?）：模型執行的具體操作，分為兩類：

a.??bbox_2d??：歸一化邊界框（范圍[0,1]2），指定裁剪區域；

b.??source??：操作對象，可選擇“原始圖像”或“歷史觀察結果”（支持跨輪次回溯）。

（1）Grounding：通過參數化指令調用圖像工具，裁剪特定區域。參數包括：

（2）輸出最終答案：當模型判斷已獲取足夠信息時，直接返回結果。

Observation（O?）：執行Action后得到的環境反饋，即工具裁剪后的圖像 patch。該結果會被追加到交互歷史中，作為下一輪推理的輸入。

因此得出循環邏輯：用戶輸入（圖像+問題）→ 模型生成Thought→ 執行Action→ 獲得Observation→ 基于新歷史再次生成Thought→ …→ 輸出答案/終止。

兩階段訓練范式

為平衡“基礎能力初始化”與“復雜推理優化”，Mini-o3分階段訓練：

階段1：SFT：讓模型掌握“合法的多輪交互軌跡生成能力”，即學會根據問題和圖像，生成符合邏輯的Thought-Action-Observation序列，避免無意義的工具調用或過早終止。
階段2：帶可驗證獎勵的強化學習(RLVR)：在SFT基礎上，通過強化學習優化模型的推理策略，提升復雜任務的成功率（如需要10+輪交互的視覺搜索）。

訓練數據構建

為解決現有視覺數據集任務簡單、無法激發復雜推理的痛點，構建兩類數據：“挑戰性任務數據集”與“多樣化交互軌跡數據集”。

設計邏輯：

現有開源模型推理能力薄弱的關鍵原因之一是：訓練數據多為“目標易定位、無需試錯”的簡單任務（如HR-Bench），模型僅需“單次圖像觀察”即可輸出答案，無需發展多輪推理策略。因此，Mini-o3的訓練數據構建圍繞兩大需求展開：

任務層面：提供“必須通過試錯探索才能完成”的高難度視覺搜索任務，迫使模型主動調用圖像工具進行多輪交互；
軌跡層面：提供“覆蓋多樣化推理策略”的多輪交互范例，幫助基座模型（Qwen2.5-VL-7B-Instruct）初始化“Thought-Action-Observation”循環能力。

兩類數據集情況

視覺探針數據集

在開源模型上復現類似OpenAI o3的“thinking-with-image”能力：Mini-o3淺嘗-AI.x社區

為強化學習RL提供“需要試錯探索的挑戰性任務”，避免模型在簡單任務上形成“shortcut學習”（如直接定位目標，無需多輪推理），強制模型發展深度推理能力。任務形式：每條樣本為“高分辨率圖像+視覺搜索問題+標準答案”，例如：

圖像：包含密集干擾物的集裝箱場景（分辨率7952×5304）；
問題：“‘67.200’下方的數字是什么？”；
標準答案：“22G1”。

作用：為后續訓練提供需要復雜推理的任務基礎，確保強化學習階段模型能學到“試錯探索”“回溯驗證”等高級策略，而非簡單的“目標定位”能力。

多樣化冷啟動數據集

在開源模型上復現類似OpenAI o3的“thinking-with-image”能力：Mini-o3淺嘗-AI.x社區

冷啟動數據采集pipline

解決基座模型（Qwen2.5-VL-7B-Instruct）的“能力初始化”問題：該模型未接觸過多輪圖像工具交互數據，直接用強化學習訓練會導致“軌跡過短”“推理模式單一”（如平均僅1輪交互）。因此，需通過冷啟動數據教會模型“如何生成合法、多樣的多輪交互軌跡”。

軌跡形式：每條軌跡為“輸入圖像+問題+多輪Thought-Action-Observation序列+最終答案”，例如：

問題：“‘CINKER PICTURES’下方的文本是什么？”；
軌跡：11輪交互，包含“裁剪A區域（未找到）→ 回溯原始圖像→ 裁剪B區域（未找到）→ 重新檢查A區域細節→ 定位目標”等步驟，每輪均附帶推理Thought（如“當前區域未發現目標，需嘗試右側區域”）。

強化學習策略

降低單圖像最大像素數

基座模型上下文長度固定為32K tokens，而高分辨率圖像（默認12M像素）會占用大量tokens，導致單輪圖像輸入后，剩余tokens僅能支持1-2輪交互，無法滿足復雜任務“多輪試錯”的需求。

將單圖像的最大像素數從12M降至2M。這一調整在不損失關鍵細節的前提下，大幅減少單輪圖像的token占用，使得32K上下文可支持6+輪交互，為試錯探索提供足夠的軌跡長度。

在開源模型上復現類似OpenAI o3的“thinking-with-image”能力：Mini-o3淺嘗-AI.x社區

VisualProbe-Hard數據集準確率從36.1%（12M像素）提升至48.0%（2M像素），驗證了“更多有效交互輪次”對復雜任務的價值

翻轉掩碼策略

在標準GRPO中，若模型生成的軌跡“超過訓練輪次上限（6輪）”或“超出上下文長度”（即“超輪次軌跡”），會被標記為“無效軌跡”，獎勵設為0。經過獎勵歸一化后，這類軌跡會產生Negative Advantage，導致模型在訓練中被“懲罰”，進而傾向于“過早終止交互”（如3-4輪就輸出答案），抑制深度推理能力。

通過引入“Completion Mask”，對超輪次軌跡的損失進行“掩碼屏蔽”，避免其產生負向學習信號：

在開源模型上復現類似OpenAI o3的“thinking-with-image”能力：Mini-o3淺嘗-AI.x社區