中國(guó)團(tuán)隊(duì)讓AI擁有「視覺(jué)想象力」，像人類(lèi)一樣腦補(bǔ)畫(huà)面來(lái)思考

2025-05-30 09:10:00

上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab（GAIR）的團(tuán)隊(duì)提出?Thinking with Generated Images，讓大模型能夠自發(fā)生成視覺(jué)中間步驟，像人類(lèi)一樣用「腦內(nèi)圖像」進(jìn)行跨模態(tài)推理。

在人類(lèi)的認(rèn)知過(guò)程中，視覺(jué)思維（Visual Thinking）扮演著不可替代的核心角色，這一現(xiàn)象貫穿于各個(gè)專(zhuān)業(yè)領(lǐng)域和日常生活的方方面面。

圖 1：需要借助「腦補(bǔ)」圖像進(jìn)行思考的真實(shí)世界任務(wù)。這些任務(wù)通常需要視覺(jué)預(yù)見(jiàn)性和想象力，僅憑基于文本的思考無(wú)法完全實(shí)現(xiàn)

生物化學(xué)家在探索新的治療途徑時(shí)，會(huì)在腦海中構(gòu)建蛋白質(zhì)的三維立體結(jié)構(gòu)，通過(guò)視覺(jué)化的分子間相互作用來(lái)理解復(fù)雜的生化過(guò)程；法醫(yī)分析師在破解疑難案件時(shí)，需要在心中重建犯罪現(xiàn)場(chǎng)的空間布局，通過(guò)視覺(jué)推理來(lái)驗(yàn)證證據(jù)之間的邏輯連接；建筑師在設(shè)計(jì)創(chuàng)新建筑時(shí)，會(huì)在腦海中不斷勾勒和修正建筑草圖，通過(guò)視覺(jué)想象來(lái)優(yōu)化空間配置和光照效果；籃球運(yùn)動(dòng)員在制定戰(zhàn)術(shù)策略時(shí)，需要在腦海中構(gòu)想隊(duì)友的跑位路線、防守陣型的變化以及關(guān)鍵時(shí)刻的戰(zhàn)術(shù)配合，通過(guò)視覺(jué)化的場(chǎng)景想象來(lái)設(shè)計(jì)最佳的進(jìn)攻方案；在日常決策中，一般人也會(huì)通過(guò)「腦補(bǔ)」各種可能的場(chǎng)景圖像來(lái)輔助判斷和選擇，用腦海中自發(fā)生成的圖像作為認(rèn)知媒介。

這種視覺(jué)思維能力的獨(dú)特之處在于，它能夠創(chuàng)造概念間的獨(dú)特組合和新穎連接，幫助我們發(fā)現(xiàn)僅通過(guò)純文本推理無(wú)法獲得的洞察和創(chuàng)意。而在現(xiàn)代認(rèn)知科學(xué)中，這種「深思熟慮」往往需要多模態(tài)的思維過(guò)程來(lái)支撐。

如今，AI 也邁出了這一步：上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab（GAIR）的團(tuán)隊(duì)提出 Thinking with Generated Images，讓大模型能夠自發(fā)生成視覺(jué)中間步驟，像人類(lèi)一樣用「腦內(nèi)圖像」進(jìn)行跨模態(tài)推理。

論文鏈接：https://arxiv.org/abs/2505.22525
代碼鏈接：https://github.com/GAIR-NLP/thinking-with-generated-images
模型鏈接 1：https://huggingface.co/GAIR/twgi-critique-anole-7b
模型鏈接 2：https://huggingface.co/GAIR/twgi-subgoal-anole-7b

突破性理念：

從「看圖像」到「腦補(bǔ)圖像」— 視覺(jué)思維的遞進(jìn)進(jìn)化

如何讓模型自發(fā)性地通過(guò)視覺(jué)進(jìn)行「思考」仍屬于早期探索階段。此前的一些工作嘗試通過(guò)空間搜索任務(wù)（如迷宮導(dǎo)航）進(jìn)行早期探索，但這些任務(wù)的局限性在于它們往往可以直接通過(guò)文本思考或「對(duì)著」圖像思考（Thinking with Images）來(lái)解決，而不需要真正的「腦補(bǔ)」圖像思考（Thinking with Generated Images）。

Thinking with Generated Images 系統(tǒng)性地整理并比較了三個(gè)核心概念的本質(zhì)區(qū)別及其適用任務(wù)的差異：

「看」圖像（Seeing with Images）：模型僅在單次前向傳播中處理用戶提供的固定圖像，主要適用于基礎(chǔ)的視覺(jué)識(shí)別任務(wù)，如物體檢測(cè)、圖像分類(lèi)等。這種模式下，模型只是被動(dòng)地「觀察」圖像內(nèi)容。在這個(gè)過(guò)程中，整個(gè) AI 的思維過(guò)程完全發(fā)生在文本模態(tài)中，圖像僅僅作為一個(gè)固定的先驗(yàn)條件，無(wú)法參與到動(dòng)態(tài)的推理過(guò)程中。這也是大多數(shù)現(xiàn)有的大型多模態(tài)模型（Large Multimodal Models, LMMs）或視覺(jué)語(yǔ)言模型（Vision-Language Models, VLMs）的預(yù)設(shè)模式。
「對(duì)著」圖像思考（Thinking with Images）：模型能夠多次訪問(wèn)或?qū)ΜF(xiàn)有圖像進(jìn)行有限變換（如裁剪、旋轉(zhuǎn)、代碼執(zhí)行器、OCR、圖像處理工具），適用于需要多步視覺(jué)推理的任務(wù)，如視覺(jué)問(wèn)答、圖表解讀、空間推理等。「對(duì)著」圖像思考雖然在一定程度上改善了模型的視覺(jué)推理能力，但仍然受到一個(gè)核心約束：它們只能處理用戶預(yù)先提供的固定圖像或?qū)@些圖像進(jìn)行簡(jiǎn)單變換，被動(dòng)處理用戶提供的圖像，無(wú)法真正做到從零開(kāi)始構(gòu)建新的視覺(jué)概念。
「腦補(bǔ)」圖像思考（Thinking with Generated Images）：模型能夠主動(dòng)生成中間視覺(jué)步驟作為推理過(guò)程的一部分，適用于需要視覺(jué)想象、創(chuàng)造性設(shè)計(jì)、空間規(guī)劃、以及與物理世界環(huán)境交互感知的復(fù)雜任務(wù)。這種模式在需要視覺(jué)預(yù)見(jiàn)性（visual foresight）和創(chuàng)造性想象的任務(wù)上具有最大優(yōu)勢(shì)，因?yàn)榧兾谋就评頍o(wú)法充分表達(dá)這些任務(wù)所需的空間和視覺(jué)信息。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)，「腦補(bǔ)」圖像思考在需要空間想象、動(dòng)態(tài)規(guī)劃和創(chuàng)造性視覺(jué)構(gòu)建的任務(wù)上相比于純文本推理具有根本性優(yōu)勢(shì)，這正是人類(lèi)視覺(jué)思維的核心價(jià)值所在。

圖 2：區(qū)分「看」圖像、「對(duì)著」圖像思考、「腦補(bǔ)」圖像思考的例子。

技術(shù)實(shí)現(xiàn)方案：

自發(fā)原生多模態(tài)長(zhǎng)思維鏈

研究團(tuán)隊(duì)創(chuàng)新性地提出了「原生多模態(tài)長(zhǎng)思維過(guò)程」（the native long-multimodal thought process）這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。原生多模態(tài)長(zhǎng)思維過(guò)程由交錯(cuò)的多模態(tài) token 組成：包括文本的詞匯或子詞（words/subwords）、視覺(jué)的圖像塊（patches）等。

未來(lái)有更通用的基座模型后也能推廣到音頻的幀（frames），以及其他模態(tài)領(lǐng)域特定的表示形式（domain-specific representations）。原生多模態(tài)長(zhǎng)思維過(guò)程不僅能夠讓模型在思維過(guò)程中自然地自發(fā)生成圖像，還能夠原生地執(zhí)行測(cè)試時(shí)擴(kuò)展（test-time scaling）以獲得更好的模型能力。透過(guò)原生多模態(tài)長(zhǎng)思維過(guò)程實(shí)現(xiàn) Thinking with Generated Images 有四大主要優(yōu)勢(shì)：

跨模態(tài)原生思維能力：通過(guò)單次推理過(guò)程即可「原生」地生成多模態(tài)的 tokens，使模型能夠自然無(wú)縫地跨模態(tài)進(jìn)行「思考」。
統(tǒng)一生成式任務(wù)執(zhí)行：通過(guò)生成式范式原生地執(zhí)行多樣化的多模態(tài)任務(wù)。
自然測(cè)試時(shí)擴(kuò)展機(jī)制：通過(guò)生成的「長(zhǎng)」思維過(guò)程提供自然跨模態(tài)的測(cè)試時(shí)擴(kuò)展，使模型能夠通過(guò)生成更長(zhǎng)、更詳細(xì)的多模態(tài)長(zhǎng)思維過(guò)程，在推理時(shí)投入更多計(jì)算來(lái)提升性能質(zhì)量。
未來(lái)技術(shù)集成兼容性和可擴(kuò)展性：?jiǎn)我荒Ｐ图傻募軜?gòu)便于未來(lái)與強(qiáng)化學(xué)習(xí)等訓(xùn)練后擴(kuò)展技術(shù)的集成，簡(jiǎn)化了訓(xùn)練和推理持續(xù)擴(kuò)展的復(fù)雜度。

兩種自發(fā)原生多模態(tài)長(zhǎng)思維鏈模式

研究團(tuán)隊(duì)深入分析人類(lèi)多模態(tài)長(zhǎng)思維的認(rèn)知模式，據(jù)此設(shè)計(jì)并提出了兩種原生多模態(tài)長(zhǎng)思維鏈模式，應(yīng)用于視覺(jué)生成任務(wù)上，最大的體現(xiàn) Thinking with Generated Images 的優(yōu)勢(shì)：

視覺(jué)子目標(biāo)分解（Vision Generation with Intermediate Visual Subgoals）：視覺(jué)子目標(biāo)分解模擬了人類(lèi)在處理復(fù)雜視覺(jué)任務(wù)時(shí)的分而治之策略。面對(duì)較為復(fù)雜或多物體的視覺(jué)生成任務(wù)（如「一張沙發(fā)和一個(gè)酒杯」），模型首先進(jìn)行整體性的分析，將大的視覺(jué)任務(wù)拆解成小的目標(biāo)，分步生成沙發(fā)和酒杯的獨(dú)立圖像，再組合成最終結(jié)果。每個(gè)中間圖像都承載了特定的子目標(biāo)語(yǔ)義，不僅是視覺(jué)內(nèi)容的載體，更是推理過(guò)程中的「思維節(jié)點(diǎn)」。視覺(jué)子目標(biāo)分解允許模型在處理復(fù)雜視覺(jué)生成任務(wù)時(shí)保持對(duì)細(xì)節(jié)的精確控制，避免了直接生成復(fù)雜圖像時(shí)可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問(wèn)題。

圖 3：原生多模態(tài)長(zhǎng)思維鏈在GenEval上的例子。

提出視覺(jué)假設(shè)并自我反思迭代（Vision Generation with Self-Critique）：提出視覺(jué)假設(shè)并自我反思迭代體現(xiàn)了人類(lèi)創(chuàng)作過(guò)程中的「草稿-修改-完善」循環(huán)機(jī)制。模型首先基于輸入提示生成一個(gè)初始的視覺(jué)假設(shè)圖像，這個(gè)假設(shè)通常包含了對(duì)任務(wù)的基本理解但可能存在各種不完善之處。模型隨后以文本反思形式對(duì)自己生成的圖像進(jìn)行深入的多角度分析，包括內(nèi)容完整性檢查（如「圖像缺乏雨傘」）、視覺(jué)質(zhì)量評(píng)估（如「更清晰的海景化」）、語(yǔ)義一致性驗(yàn)證（如「更清楚的展示冰淇淋的融化」）、構(gòu)圖合理性判斷（如「增強(qiáng)圖像對(duì)比度」）等等。模型通過(guò)建立視覺(jué)假設(shè)、批判性分析、策略性改進(jìn)的迭代過(guò)程來(lái)逐步優(yōu)化生成結(jié)果，實(shí)現(xiàn)了視覺(jué)和文本模態(tài)之間的深度協(xié)同，形成了一個(gè)有效的自我改進(jìn)反饋循環(huán)，顯著提升了生成圖像的質(zhì)量和準(zhǔn)確性。

圖 4：原生多模態(tài)長(zhǎng)思維鏈在DPG-Bench上的例子。

自發(fā)原生多模態(tài)長(zhǎng)思維鏈在多模態(tài)統(tǒng)一理解生成模型的實(shí)現(xiàn)

研究團(tuán)隊(duì)選擇在自回歸 next-token-prediction 的多模態(tài)統(tǒng)一理解生成模型上開(kāi)發(fā)原生多模態(tài)長(zhǎng)思維鏈，這一決策基于幾個(gè)層次的技術(shù)考慮：

自回歸架構(gòu)與人類(lèi)思維過(guò)程的天然契合性。人類(lèi)的思維過(guò)程本質(zhì)上是序列化的——我們?cè)谒伎紡?fù)雜問(wèn)題時(shí)，會(huì)逐步構(gòu)建想法，從一個(gè)概念過(guò)渡到另一個(gè)概念，在文本思考和視覺(jué)想象之間自然切換。自回歸模型通過(guò)逐 token 生成的方式，能夠最自然地模擬這種漸進(jìn)式、序列化的思維展開(kāi)過(guò)程。
統(tǒng)一架構(gòu)的簡(jiǎn)潔性和可擴(kuò)展性優(yōu)勢(shì)。相比于需要協(xié)調(diào)多個(gè)獨(dú)立組件的復(fù)雜系統(tǒng)架構(gòu)，自回歸統(tǒng)一模型提供了一個(gè)優(yōu)雅的解決方案。在這種架構(gòu)下，文本推理、視覺(jué)生成、自我批判等所有能力都統(tǒng)一在同一個(gè)模型中，避免了多組件系統(tǒng)中常見(jiàn)的信息傳遞損失、同步協(xié)調(diào)復(fù)雜性等問(wèn)題。
與現(xiàn)有技術(shù)生態(tài)的深度兼容性。當(dāng)前大語(yǔ)言模型領(lǐng)域已經(jīng)在自回歸架構(gòu)上積累了豐富的訓(xùn)練技巧、優(yōu)化方法和推理技術(shù)。選擇這一架構(gòu)使得研究團(tuán)隊(duì)能夠直接繼承和利用這些成熟的技術(shù)成果，而不需要從零開(kāi)始構(gòu)建全新的技術(shù)棧。
未來(lái)發(fā)展的技術(shù)路徑一致性。隨著計(jì)算能力的不斷提升和算法的持續(xù)優(yōu)化，自回歸架構(gòu)展現(xiàn)出了強(qiáng)大的擴(kuò)展?jié)摿Α＿x擇這一技術(shù)路徑確保了研究成果能夠與未來(lái)的技術(shù)發(fā)展趨勢(shì)保持一致，具備長(zhǎng)期的技術(shù)價(jià)值。

在確定了自回歸架構(gòu)的技術(shù)路線后，團(tuán)隊(duì)選擇 Anole 作為基礎(chǔ)模型。目前大多數(shù)模型都缺乏真正的交錯(cuò)多模態(tài)生成能力，而這正是實(shí)現(xiàn)「原生多模態(tài)長(zhǎng)思維過(guò)程」的關(guān)鍵技術(shù)瓶頸。Anole 相比其他多模態(tài)模型具有兩個(gè)關(guān)鍵優(yōu)勢(shì)：

原生交錯(cuò)生成能力：Anole 直接在交錯(cuò)的文本-圖像 token 上進(jìn)行預(yù)訓(xùn)練和后訓(xùn)練，具備了交錯(cuò)生成多模態(tài) token 的固有能力，這是實(shí)現(xiàn)本研究目標(biāo)的基礎(chǔ)前提。
高效的視覺(jué)表示機(jī)制：Anole 采用相對(duì)高效的圖像表示方案，使得基于原生多模態(tài)長(zhǎng)思維過(guò)程的測(cè)試時(shí)擴(kuò)展在合理的推理預(yù)算內(nèi)成為可能。

搭配原生多模態(tài)長(zhǎng)思維過(guò)程解決了視覺(jué)推理的五大局限

研究團(tuán)隊(duì)提出的「原生多模態(tài)長(zhǎng)思維過(guò)程 (the native long-multimodal thought process)」這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。與現(xiàn)有方案對(duì)比，該提出方案解決了五大局限：

擺脫用戶輸入依賴(lài)：過(guò)去的方法（如 OpenAI 的 o3 thinking with images）需用戶提供圖像作為推理起點(diǎn)，而原生多模態(tài)長(zhǎng)思維過(guò)程能從零構(gòu)建視覺(jué)上下文，讓模型在無(wú)圖場(chǎng)景下也能自發(fā)地做多模態(tài)思考。
超越靜態(tài)圖像處理：目前的工具增強(qiáng)型模型通常只能裁剪、標(biāo)注或輕度編輯給定圖像；原生多模態(tài)長(zhǎng)思維過(guò)程在推理鏈中動(dòng)態(tài)生成全新的視覺(jué)假設(shè)，為創(chuàng)造性規(guī)劃與空間推演打開(kāi)更大搜索空間。
端到端統(tǒng)一架構(gòu)：無(wú)需多模型協(xié)作或外部工具鏈，單一模型即可完成「生成-推理-反思-迭代」的全流程，部署與調(diào)用更加輕量。
可擴(kuò)展的測(cè)試時(shí)擴(kuò)展和未來(lái)后訓(xùn)練擴(kuò)展：原生多模態(tài)長(zhǎng)思維過(guò)程天然支持測(cè)試時(shí)擴(kuò)展（test-time scaling），通過(guò)生成更長(zhǎng)、更詳細(xì)的多模態(tài)長(zhǎng)思維序列來(lái)提升性能。此外，該架構(gòu)為未來(lái)與強(qiáng)化學(xué)習(xí)、自我改進(jìn)等后訓(xùn)練技術(shù)的集成預(yù)留了充分空間。
實(shí)際落地的應(yīng)用場(chǎng)景：過(guò)去的相關(guān)研究往往專(zhuān)注于相對(duì)局限任務(wù)場(chǎng)景，如數(shù)學(xué)（幾何）題求解、迷宮導(dǎo)航、簡(jiǎn)單的空間推理等。這些任務(wù)雖然在技術(shù)驗(yàn)證上有一定價(jià)值，但存在一個(gè)根本性問(wèn)題：它們大多可以通過(guò)純文本描述和邏輯推理來(lái)充分表達(dá)和解決。例如，迷宮問(wèn)題可以用坐標(biāo)和路徑描述完全編碼，幾何題可以通過(guò)形式化語(yǔ)言和邏輯步驟來(lái)求解，這些任務(wù)并未真正發(fā)揮視覺(jué)思維的獨(dú)特優(yōu)勢(shì)。研究團(tuán)隊(duì)專(zhuān)注于解決那些無(wú)法通過(guò)純文本充分表達(dá)的復(fù)雜視覺(jué)推理任務(wù)，實(shí)現(xiàn)了從「專(zhuān)注于能用文本充分解決的視覺(jué)任務(wù)」到「專(zhuān)注于必須依賴(lài)視覺(jué)想象的復(fù)雜創(chuàng)造性任務(wù)」的認(rèn)知躍升。

Thinking with Generated Images 帶來(lái)的能力屬于全新維度，可與現(xiàn)有技術(shù)疊加協(xié)同。該研究著重提升的是「內(nèi)部想象-反思」的深度推理能力，而檢索增強(qiáng)、外部工具調(diào)用等技術(shù)，仍然在引入外部知識(shí)、擴(kuò)展功能等方面具備優(yōu)勢(shì)。

未來(lái)，當(dāng)這些能力并行疊加時(shí)，既能利用 Thinking with Generated Images 提出的「腦內(nèi)草圖」，也能借助現(xiàn)有檢索增強(qiáng)、外部工具調(diào)用等技術(shù)，形成 1+1>2 的整體效果。

圖 5：多模態(tài)認(rèn)知領(lǐng)域相關(guān)工作的對(duì)比

實(shí)驗(yàn)設(shè)計(jì)

為了在多模態(tài)理解生成模型上實(shí)現(xiàn) Thinking with Generated Images 的自發(fā)原生多模態(tài)長(zhǎng)思維鏈，研究團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)、訓(xùn)練策略、以及推理策略上都有深入的探索。

訓(xùn)練數(shù)據(jù)

研究團(tuán)隊(duì)精心設(shè)計(jì)了一套合成數(shù)據(jù)構(gòu)建流程，專(zhuān)門(mén)用于訓(xùn)練模型生成兩種類(lèi)型的多模態(tài)長(zhǎng)思維鏈。由于目前沒(méi)有現(xiàn)成的 LMM 模型支持多模態(tài)生成的測(cè)試時(shí)擴(kuò)展 (test-time scaling)，傳統(tǒng)蒸餾技術(shù)并不適用，團(tuán)隊(duì)創(chuàng)新性地開(kāi)發(fā)了完整的數(shù)據(jù)構(gòu)建管線（如圖 6 所示）。

數(shù)據(jù)收集三大黃金法則：

高質(zhì)量圖像生成提示詞：采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 頂尖模型生成復(fù)雜提示詞，通過(guò)規(guī)則過(guò)濾確保質(zhì)量，并借助 Qwen3-32B 將復(fù)雜視覺(jué)任務(wù)拆解成小的目標(biāo)。
高質(zhì)量反思推理鏈：借助 QVQ-72B-Preview 的強(qiáng)大長(zhǎng)鏈推理能力，對(duì)每個(gè)提示-圖像對(duì)進(jìn)行準(zhǔn)確性評(píng)估、差異識(shí)別和改進(jìn)建議，并實(shí)現(xiàn)模型通過(guò)迭代分解獲得最終圖像的過(guò)程。
高質(zhì)量中間視覺(jué)思維：

初始生成： 使用 Anole-7b（自我批判）或 Flux1-dev（子目標(biāo)分解）。
精修階段： Flux1-Redux 結(jié)合原始提示、首輪圖像和批判反饋進(jìn)行優(yōu)化。
最終生成： 基于前幾輪圖像及思考過(guò)程來(lái)生成最終結(jié)果。

最后通過(guò) QVQ-72B-Preview 進(jìn)行嚴(yán)格的質(zhì)量控制，過(guò)濾與提示嚴(yán)重偏離的樣本。

技術(shù)亮點(diǎn)解析：

突破性數(shù)據(jù)架構(gòu)：專(zhuān)門(mén)為「視覺(jué)思維」范式優(yōu)化的統(tǒng)一數(shù)據(jù)結(jié)構(gòu)。
多模型協(xié)同：充分發(fā)揮各領(lǐng)域頂尖模型的專(zhuān)長(zhǎng)，構(gòu)建訓(xùn)練樣本。
嚴(yán)格質(zhì)量把控：從提示詞到最終圖像的全流程質(zhì)量控制機(jī)制。

這一創(chuàng)新性的訓(xùn)練策略使得 LMM 模型能夠生成端到端的多模態(tài)長(zhǎng)思維鏈，為「Thinking with Generated Images」的實(shí)現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。這套方法論不僅適用于當(dāng)前研究，也將為未來(lái)多模態(tài)推理系統(tǒng)的開(kāi)發(fā)提供重要參考。

圖 6：數(shù)據(jù)收集流水線示例

訓(xùn)練策略

在使用統(tǒng)一多模態(tài)模型進(jìn)行視覺(jué)生成任務(wù)的訓(xùn)練時(shí)，大多僅依賴(lài)交叉熵訓(xùn)練沒(méi)有完整的考慮圖像 token 之間的關(guān)系。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)引入了視覺(jué)特征級(jí)別的重建損失，將生成圖像的隱狀態(tài)投影回視覺(jué)特征空間，并計(jì)算與 ground-truth 圖像對(duì)應(yīng)特征之間的均方誤差 (MSE) 損失。這種設(shè)計(jì)鼓勵(lì)模型產(chǎn)生具有更強(qiáng)視覺(jué)連貫性和結(jié)構(gòu)完整性的輸出。基于優(yōu)化后損失函數(shù)，研究團(tuán)隊(duì)設(shè)計(jì)了系統(tǒng)性的兩階段訓(xùn)練流程：

基礎(chǔ)能力強(qiáng)化：使用 JourneyDB 圖文對(duì)數(shù)據(jù)集對(duì) Anole-7b 進(jìn)行持續(xù)訓(xùn)練，增強(qiáng)模型的基礎(chǔ)視覺(jué)生成能力。這一階段為后續(xù)的專(zhuān)門(mén)化訓(xùn)練奠定了堅(jiān)實(shí)的多模態(tài)基礎(chǔ)。
專(zhuān)門(mén)化微調(diào)：基于上述的合成數(shù)據(jù)集進(jìn)行模型訓(xùn)練，精細(xì)化調(diào)整兩個(gè)專(zhuān)門(mén)化模型：

TwGI-Anole-7b-Obj.：使用視覺(jué)子目標(biāo)分解數(shù)據(jù)集進(jìn)行微調(diào)，使其具備生成視覺(jué)中間子目標(biāo)的能力。

TwGI-Anole-7b-Crit.：使用視覺(jué)自我批判數(shù)據(jù)集進(jìn)行微調(diào)，使其具備自我批判視覺(jué)假設(shè)的能力。

這種分階段訓(xùn)練策略確保了模型既具備扎實(shí)的基礎(chǔ)多模態(tài)能力，又能在特定的思維模式上表現(xiàn)出色。

推理策略

與標(biāo)準(zhǔn)的視覺(jué)語(yǔ)言模型或大語(yǔ)言模型不同，統(tǒng)一多模態(tài)模型在進(jìn)行視覺(jué)生成任務(wù)時(shí)面臨著獨(dú)特的推理挑戰(zhàn)。為了充分發(fā)揮模型的性能潛力，無(wú)分類(lèi)器引導(dǎo) (Classifier-Free Guidance, CFG) 技術(shù)成為提升視覺(jué)生成性能的關(guān)鍵。在傳統(tǒng)的完整條件 (full conditions)、無(wú)條件 (unconditions) 和圖像條件 (image conditions) 基礎(chǔ)上，研究團(tuán)隊(duì)增加了：

「原始提示條件」(Original Prompt Conditions)：確保生成過(guò)程始終與用戶的原始意圖保持一致。
「負(fù)面條件」(Negative Conditions)：避免生成不當(dāng)或無(wú)關(guān)的視覺(jué)內(nèi)容。

這種多條件設(shè)計(jì)的核心目標(biāo)是促使中間視覺(jué)步驟更加忠實(shí)于原始意圖，同時(shí)避免被生成的長(zhǎng)文本思維過(guò)度干擾。通過(guò)在這些條件之間進(jìn)行精細(xì)化平衡，模型能夠：

充分利用長(zhǎng)文本思維的指導(dǎo)作用：從詳細(xì)的文本推理中獲得有價(jià)值的語(yǔ)義信息和邏輯指導(dǎo)。
有效過(guò)濾思維過(guò)程中的潛在噪聲：避免被長(zhǎng)思維序列中可能存在的無(wú)關(guān)信息或錯(cuò)誤推理分散注意力。
保持視覺(jué)生成的一致性和質(zhì)量：確保最終輸出既符合原始提示要求，又體現(xiàn)了深度推理的成果。

在視覺(jué)生成任務(wù)上的結(jié)果分析

研究團(tuán)隊(duì)在 GenEval 和 DPGBench 兩個(gè)圖像生成基準(zhǔn)上對(duì) TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 進(jìn)行了全面的性能評(píng)估。

視覺(jué)子目標(biāo)分解模式的評(píng)估：視覺(jué)子目標(biāo)分解模擬了人類(lèi)在處理復(fù)雜視覺(jué)任務(wù)時(shí)的分而治之策略。面對(duì)較為復(fù)雜或多物體的視覺(jué)生成任務(wù)（如「一張沙發(fā)和一個(gè)酒杯」），模型首先進(jìn)行整體性的分析，將大的視覺(jué)任務(wù)拆解成小的目標(biāo)，分步生成沙發(fā)和酒杯的獨(dú)立圖像，再組合成最終結(jié)果。每個(gè)中間圖像都承載了特定的子目標(biāo)語(yǔ)義，不僅是視覺(jué)內(nèi)容的載體，更是推理過(guò)程中的「思維節(jié)點(diǎn)」。視覺(jué)子目標(biāo)分解允許模型在處理復(fù)雜視覺(jué)生成任務(wù)時(shí)保持對(duì)細(xì)節(jié)的精確控制，避免了直接生成復(fù)雜圖像時(shí)可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問(wèn)題。
視覺(jué)自我批判模式的評(píng)估：測(cè)試 TwGI-Anole-7b-Crit. 模型是否能夠糾正其初始視覺(jué)假設(shè)（圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)），并生成更好的圖像生成結(jié)果（圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (final)）。

圖7: 在GenEval上的表現(xiàn)

圖8: 在DPG-Bench上的表現(xiàn)

中間視覺(jué)思維生成對(duì)視覺(jué)生成任務(wù)的顯著效益

實(shí)驗(yàn)結(jié)果表明，TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 兩個(gè)基準(zhǔn)上都始終優(yōu)于基線模型 Anole-7b。在 GenEval 上，TwGI-Anole-7b-Obj 在「雙對(duì)象」類(lèi)別中取得了顯著提升（0.57 vs. 0.38，相對(duì)提升 50%），表明其在處理涉及多個(gè)實(shí)體的復(fù)雜提示時(shí)具備了更強(qiáng)的能力。在位置和顏色屬性對(duì)齊方面也顯示出顯著改進(jìn)，體現(xiàn)了在精確空間和視覺(jué)構(gòu)圖推理方面的更強(qiáng)能力。

在 DPGBench 上，TwGI-Anole-7b-Obj 在「實(shí)體」、「屬性」和「關(guān)系」類(lèi)別中都取得了實(shí)質(zhì)性進(jìn)步，總體分?jǐn)?shù)從 58.32 提升至 68.44（相對(duì)提升 17.3%），反映出其在細(xì)粒度視覺(jué)語(yǔ)義理解方面的增強(qiáng)能力。這些改進(jìn)驗(yàn)證了我們的假設(shè)：將視覺(jué)任務(wù)分解為中間子目標(biāo)使得大語(yǔ)言模型能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。

原生多模態(tài)長(zhǎng)思維過(guò)程使模型能夠糾正和完善自身的視覺(jué)假設(shè)

視覺(jué)思維自我批判的實(shí)驗(yàn)結(jié)果證明了讓模型反思和修正自身視覺(jué)輸出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步驟后性能顯著提升：GenEval 總分從 0.45 提升至 0.48，DPGBench 分?jǐn)?shù)從 62.83 提升至 67.14。這表明模型具備了內(nèi)省分析生成圖像的能力——通過(guò)基于視覺(jué)反饋的文本推理鏈，能夠識(shí)別不匹配、幻覺(jué)或遺漏的元素，并隨后進(jìn)行糾正。這種視覺(jué)反饋循環(huán)的有效性反映了一種模態(tài)間協(xié)同效應(yīng)，其中視覺(jué)和文本模態(tài)相互迭代指導(dǎo)，形成了真正的多模態(tài)智能推理機(jī)制。

這些結(jié)果共同驗(yàn)證：在推理鏈中主動(dòng)「畫(huà)草圖」或「打草稿」，不僅讓模型生成質(zhì)量更高、更可控，也帶來(lái)了深度理解與糾錯(cuò)能力。

未來(lái)展望

Thinking with Generated Images 的能力未來(lái)有望推動(dòng) AI 在需要空間想象和動(dòng)態(tài)規(guī)劃的領(lǐng)域?qū)崿F(xiàn)突破：

創(chuàng)造性設(shè)計(jì)：模型可逐步生成并迭代建筑草圖，同時(shí)用文本記錄調(diào)整理由（如「將窗戶東移以優(yōu)化采光」）。
科學(xué)發(fā)現(xiàn)：通過(guò)生成分子結(jié)構(gòu)的中間假設(shè)圖像，輔助生物學(xué)家驗(yàn)證藥物結(jié)合路徑。
戰(zhàn)術(shù)規(guī)劃：讓 AI 籃球員「腦補(bǔ)」生成不同戰(zhàn)術(shù)配合的場(chǎng)上演示圖像，可視化球員跑位路線和防守破解策略。

《孫子兵法》說(shuō)：「多算勝，少算不勝，而況于無(wú)算乎？」在文本時(shí)代，深思靠文字組成的思維鏈；在多模態(tài)時(shí)代，深思就需要通過(guò)多模態(tài)內(nèi)容的耦合，不僅要會(huì)觀察、調(diào)用工具，還要學(xué)會(huì)想象、反思、腦補(bǔ)。Thinking with Generated Images 正在把這種能力「寫(xiě)進(jìn)」模型本身，讓 AI 獲得人類(lèi)的視覺(jué)想象力。