開源復現o3圖像思考!快手讓AI不再被動看圖,模型自主生成代碼調用工具
在Openai 發布o3后,think with image功能得到了業界和學術界的廣泛關注。
Kwai Keye團隊提出Thyme (Think Beyond Images)的新范式,并圍繞它構建了一整套技術方案。旨在突破現有方法的限制,賦予開源模型一種更強大、更自主、功能更全面的“超越圖像思考”的能力。

其主要貢獻可以概括為以下幾點:

提出了一個全新的多模態交互范式Thyme:
核心思想:讓多模態大模型不再局限于被動地“看圖”,而是能夠主動地通過生成并執行代碼,來調用各種工具完成復雜的圖像處理和數學計算。
功能豐富:模型可以即時進行裁剪、旋轉、縮放、對比度增強等多種圖像操作,還能處理復雜的數學問題。
高度自主:模型能自主判斷何時需要使用工具、使用何種工具,并動態生成代碼來執行,無需人工為特定任務進行干預。
設計了一套高效的兩階段訓練策略 SFT + RL:
監督微調 (SFT) 階段:利用精心構建的約 50 萬條高質量樣本數據集,快速教會模型生成代碼來執行各種操作。這個階段僅需約 200 GPU 小時,性價比極高。
強化學習 (RL) 階段:在 SFT 的基礎上,通過 RL 進一步優化模型的決策能力。為了解決 RL 階段的挑戰,研究者還:構建了高質量 RL 數據集:手動收集和標注了 1 萬張高分辨率、高難度的圖像問答對,以增強模型在復雜場景下的感知能力。
提出了創新的RL算法GRPO-ATS:該算法能為文本生成和代碼生成設置不同的采樣溫度(temperature)。具體來說,為文本使用較高的溫度以鼓勵探索和創造性,為代碼使用極低的溫度(0.0)以確保生成代碼的精確性和可執行性,巧妙地平衡了推理的靈活性和代碼的穩定性。
構建并開源了完整的配套資源:
高質量數據集:開源了用于 SFT 和 RL 階段的全部數據集,包括超過 400 萬的原始數據源和精心篩選標注的數據。
安全的沙箱環境:開發了一個可以安全執行模型生成的代碼并返回結果的沙箱。這個沙箱還簡化了代碼生成的難度,能自動處理格式、變量定義等問題,提高了代碼的可用性。
完整的代碼庫:將所有訓練代碼、模型和工具鏈全部開源,旨在推動整個社區在該方向上的發展和應用。

總言,Thyme 通過賦予模型“代碼生成與執行”的能力,極大地擴展了多模態模型的工具使用范圍和自主決策水平,并在近 20 個基準測試中取得了顯著且穩定的性能提升,尤其在處理高分辨率圖像和復雜推理任務上表現出色。
Thyme推理樣本展示
裁剪+放大
Thyme首先評估了標志的大小和距離,判斷出裁剪并放大對應區域可以提高可見性。接著,它編寫代碼來裁剪并放大包含標志的區域。最后準確地定位了標志的位置,成功地裁剪并放大了該區域,并正確地回答了問題。

對比度增強
在OCR任務中,Thyme會適時的增強圖像對比度,讓需要識別的文字更加清晰。

圖像旋轉
Thyme意識到輸入圖像的方向不正確,因此它使用Python代碼執行旋轉操作來調整輸入圖像的角度,最后進行讀取。

復雜計算
Thyme可以將復雜計算操作,轉化為代碼,避免模型直接預測計算結果。

Thyme工作流程
1 模型接收用戶輸入問題,輸出推理思路。2 模型判斷問題復雜度,決定是否生成Python代碼執行圖像處理或計算任務。3 若無需代碼(簡單問題或先前代碼已解決),直接輸出答案。4 生成代碼后,交付給外部沙箱安全執行,沙箱負責格式校驗、參數調整、錯誤修正等處理。5 沙箱返回執行結果(圖像或數值),模型基于結果繼續推理,多輪交互直至輸出最終答案。
在這里作者強調了MLLM的外部沙盒需要做的一些事情,主要包括一些自動糾錯機制,來盡量保證代碼的可用性。
- 使用autopep8模塊格式化代碼,統一縮進和風格。
- 利用ast解析代碼變量,自動調整圖像裁剪坐標邊界,避免越界錯誤。
- 預置必要變量及模塊導入(如cv2、image_path),保證環境一致。
- 記錄代碼分段變量依賴,解決多段代碼執行時上下文丟失問題。
Thyme-SFT
訓練數據
SFT主要構造了三類任務:
- 無需代碼直接答復:簡單問題直接回答,訓練模型判定是否需要代碼生成。
- 基于代碼的圖像操作和計算:包含裁剪、旋轉、對比度增強、數學計算等。
- 多輪交互數據:針對圖像操作失敗的錯誤修正、連續增強等多輪迭代任務。

對代碼生成樣本進行嚴格執行與語義審核,剔除不執行或執行結果錯誤的代碼片段,提高訓練樣本有效性。
手工構建多輪對話數據,教會模型基于上一輪代碼執行結果調整策略,具備錯誤糾正能力。

訓練策略
訓練過程模型基于輸入圖片(I)和問題(Q)生成推理流程(T)及可選代碼(C),通過沙箱執行代碼獲得結果(S),多輪循環迭代直到生成最終答案(a):[X = { (I, Q); ([T_0, C_0, S_0], …, [T_t, a]) }]
使用了一些SFT策略保證多種功能能被成功激活:
- 強制模型僅學習輸出最終一輪的有效推理和代碼,早期輸出輪次內容被遮蔽,避免模型過度依賴第二輪糾正。
- 訓練時排除沙箱執行輸出標簽,防止模型直接模仿沙箱結果,提高推理過程質量。
- 對數學計算數據采用退火訓練策略:初始階段訓練圖像操作數據,再用較低學習率微調數學推理數據,避免數據不均衡問題。
Thyme-RL
數據構造
出了從開源數據進行搜集和篩選外,額外補充了10k的人工標注數據,標注的任務包括OCR識別、屬性識別、數量識別等多種任務,這些任務要求模型能夠從高分辨率圖像中提取細節信息并正確回答相關問題,增強感知難度。

訓練策略 GRPO-ATS
采用on policy的GRPO。獎勵函數包括:
- 結果獎勵:比較模型輸出與地面真值答案的匹配程度,確保模型輸出的正確性。
- 一致性獎勵:檢查推理過程是否與最終答案一致,以確保推理步驟的合理性。
- 格式獎勵:確保輸出符合嚴格的結構規范,增強推理過程的可解釋性。
適應性溫度采樣:
溫度調整:對于代碼生成任務,如圖像處理和計算任務,使用低溫度(τ = 0)進行采樣,以確保代碼生成過程的準確性和一致性。對于推理過程,使用較高的溫度(τ = 1)來鼓勵模型探索更多的解決方案。
這一策略有效避免了模型在生成代碼時的過度多樣化問題,提高了代碼生成的穩定性,并使得推理過程更加靈活多樣。
采樣優化:
為了減少計算資源浪費,運用Rabin-Karp滾動哈希算法檢測過多重復內容;當重復子串長度超過輸出長度50%,立即判定為重復并提前終止當前軌跡采樣,有效避免資源浪費。
在訓練中還強制限制了最大對話輪次,避免模型陷入無意義的循環,從而提高了訓練效率。
實驗效果
感知,推理,通用任務全面提升
訓練基于32塊NVIDIA H800 GPU,強化學習階段耗時超1200 GPU小時。

在多個基準任務上,Thyme表現出相較于其他多模態模型的優勢,尤其是在感知任務上,Thyme即使在與更大規模的模型Qwen-2.5-VL-32B對比時,也依然顯示出了顯著的優勢。這表明,僅僅通過增加模型的規模并不能有效解決感知任務中的挑戰,相反,Thyme在測試時的擴展策略對感知任務十分有效。
在推理任務中,通過將復雜的計算轉化為可執行代碼,Thyme在推理能力上取得了顯著的提升。然而,在這一領域,模型規模的擴展帶來的優勢更為顯著,表明推理和邏輯推理能力主要依賴于模型本身的知識量。
由于感知與推理能力的提升,Thyme在許多通用任務中取得了顯著的進展,尤其是在減少幻覺現象(hallucination)方面。
深入探討感知任務
以MME-RealWorld為例,它包括許多現實場景中的高分辨率感知任務。表4展示了Thyme與基線模型在不同任務上的表現。
可以看到,對于基線模型已表現良好的任務,如OCR、圖表和表格(準確率超過60%,甚至接近90%),Thyme的提升相對較小。然而,對于更困難的任務,如監控與自動駕駛,在這些任務上Qwen-2.5-VL-7B的感知能力較弱時,Thyme的感知和推理任務的提升超過了25%,尤其是在推理任務中,提升更為顯著。

論文鏈接:https://arxiv.org/abs/2508.11630



































