在開源模型上復現類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗 原創
VLMs已具備調用圖像中心工具的能力,稱為“thinking-with-image”(以圖思考),通過支持細粒度推理提升模型對復雜視覺場景的理解能力。然而,開源VLMs在“需要試錯探索的復雜視覺搜索任務”中存在顯著短板,表現兩大問題:
- 復雜任務上準確率極低
高難度視覺搜索數據集熵(如DeepEyes)的準確率遠低于實際應用需求。 - 推理模式單一 + 交互輪次有限
現有開源模型(如DeepEyes)無法生成靈活的推理策略,僅能進行“單次定位-觀察”的簡單流程,而無法像OpenAI o3(閉源模型)那樣,采用“深度優先搜索”“試錯探索”“自我反思”等多樣化策略。例如,在尋找圖像中隱藏的小目標時,開源模型往往“一次裁剪錯誤即終止”,而o3會“回溯至原始圖像、嘗試其他區域、交叉驗證觀察結果”。
- 不同交互回合數下正確軌跡的分布情況。Mini-o3 展現出更深層次的思考路徑和更強的性能表現。盡管在訓練階段上限較小(即 6 回合),其仍表現出測試時回合數的縮放特性:當最大回合數從 4 增加到 32 時,準確率持續上升。
下面看下這份“復現OpenAI o3風格行為”的技術食譜,包括數據集構建、數據收集 pipeline、強化學習優化策略三部分。
方法
Mini-o3 的交互遵循 “Thought(思考)-Action(動作)-Observation(觀察) ” 循環,直到輸出最終答案或達到上下文 / 輪次限制。

多輪 Agentic 圖像工具調用框架:在每一輪中,模型基于前一次的觀察(或輸入問題和圖像)迭代生成思考和動作。每一輪的觀察結果是根據相應動作所指示的參數獲取的。
- Thought(T?) :模型基于歷史交互記錄(含輸入圖像、問題、過往觀察)生成的內部推理過程,用于指導下一步動作。核心目標是鼓勵“試錯探索”“回溯驗證”等多樣化推理模式,而非單一路徑。
- Action(A?) : 模型執行的具體操作,分為兩類:
a.??bbox_2d??:歸一化邊界框(范圍[0,1]2),指定裁剪區域;
b.??source??:操作對象,可選擇“原始圖像”或“歷史觀察結果”(支持跨輪次回溯)。
(1)Grounding:通過參數化指令調用圖像工具,裁剪特定區域。參數包括:
(2)輸出最終答案:當模型判斷已獲取足夠信息時,直接返回結果。
- Observation(O?) : 執行Action后得到的環境反饋,即工具裁剪后的圖像 patch。該結果會被追加到交互歷史中,作為下一輪推理的輸入。
因此得出循環邏輯:用戶輸入(圖像+問題)→ 模型生成Thought→ 執行Action→ 獲得Observation→ 基于新歷史再次生成Thought→ …→ 輸出答案/終止。
兩階段訓練范式
為平衡“基礎能力初始化”與“復雜推理優化”,Mini-o3分階段訓練:
- 階段1:SFT:讓模型掌握“合法的多輪交互軌跡生成能力”,即學會根據問題和圖像,生成符合邏輯的Thought-Action-Observation序列,避免無意義的工具調用或過早終止。
- 階段2:帶可驗證獎勵的強化學習(RLVR):在SFT基礎上,通過強化學習優化模型的推理策略,提升復雜任務的成功率(如需要10+輪交互的視覺搜索)。
訓練數據構建
為解決現有視覺數據集任務簡單、無法激發復雜推理的痛點,構建兩類數據:“挑戰性任務數據集”與“多樣化交互軌跡數據集”。
設計邏輯:
現有開源模型推理能力薄弱的關鍵原因之一是:訓練數據多為“目標易定位、無需試錯”的簡單任務(如HR-Bench),模型僅需“單次圖像觀察”即可輸出答案,無需發展多輪推理策略。因此,Mini-o3的訓練數據構建圍繞兩大需求展開:
- 任務層面:提供“必須通過試錯探索才能完成”的高難度視覺搜索任務,迫使模型主動調用圖像工具進行多輪交互;
- 軌跡層面:提供“覆蓋多樣化推理策略”的多輪交互范例,幫助基座模型(Qwen2.5-VL-7B-Instruct)初始化“Thought-Action-Observation”循環能力。
兩類數據集情況
- 視覺探針數據集

為強化學習RL提供“需要試錯探索的挑戰性任務”,避免模型在簡單任務上形成“shortcut學習”(如直接定位目標,無需多輪推理),強制模型發展深度推理能力。任務形式:每條樣本為“高分辨率圖像+視覺搜索問題+標準答案”,例如:
- 圖像:包含密集干擾物的集裝箱場景(分辨率7952×5304);
- 問題:“‘67.200’下方的數字是什么?”;
- 標準答案:“22G1”。
作用:為后續訓練提供需要復雜推理的任務基礎,確保強化學習階段模型能學到“試錯探索”“回溯驗證”等高級策略,而非簡單的“目標定位”能力。
- 多樣化冷啟動數據集

冷啟動數據采集pipline
解決基座模型(Qwen2.5-VL-7B-Instruct)的“能力初始化”問題:該模型未接觸過多輪圖像工具交互數據,直接用強化學習訓練會導致“軌跡過短”“推理模式單一”(如平均僅1輪交互)。因此,需通過冷啟動數據教會模型“如何生成合法、多樣的多輪交互軌跡”。
軌跡形式:每條軌跡為“輸入圖像+問題+多輪Thought-Action-Observation序列+最終答案”,例如:
- 問題:“‘CINKER PICTURES’下方的文本是什么?”;
- 軌跡:11輪交互,包含“裁剪A區域(未找到)→ 回溯原始圖像→ 裁剪B區域(未找到)→ 重新檢查A區域細節→ 定位目標”等步驟,每輪均附帶推理Thought(如“當前區域未發現目標,需嘗試右側區域”)。
強化學習策略
- 降低單圖像最大像素數
基座模型上下文長度固定為32K tokens,而高分辨率圖像(默認12M像素)會占用大量tokens,導致單輪圖像輸入后,剩余tokens僅能支持1-2輪交互,無法滿足復雜任務“多輪試錯”的需求。
將單圖像的最大像素數從12M降至2M。這一調整在不損失關鍵細節的前提下,大幅減少單輪圖像的token占用,使得32K上下文可支持6+輪交互,為試錯探索提供足夠的軌跡長度。

VisualProbe-Hard數據集準確率從36.1%(12M像素)提升至48.0%(2M像素),驗證了“更多有效交互輪次”對復雜任務的價值
- 翻轉掩碼策略
在標準GRPO中,若模型生成的軌跡“超過訓練輪次上限(6輪)”或“超出上下文長度”(即“超輪次軌跡”),會被標記為“無效軌跡”,獎勵設為0。經過獎勵歸一化后,這類軌跡會產生Negative Advantage,導致模型在訓練中被“懲罰”,進而傾向于“過早終止交互”(如3-4輪就輸出答案),抑制深度推理能力。
通過引入“Completion Mask”,對超輪次軌跡的損失進行“掩碼屏蔽”,避免其產生負向學習信號:

翻轉掩碼技術示意圖。不完整響應指的是超出交互輪次或上下文長度最大限制的響應

如上圖,引入“Completion Mask”效果:訓練時僅限制6輪,但測試時模型可自然擴展至32輪,且準確率隨輪次增加而提升。
性能



參考文獻:Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search,https://arxiv.org/pdf/2509.07969v1
本文轉載自??大模型自然語言處理?? 作者:llmnlp

















