精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

中國(guó)團(tuán)隊(duì)讓AI擁有「視覺(jué)想象力」,像人類(lèi)一樣腦補(bǔ)畫(huà)面來(lái)思考

人工智能 新聞
上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab(GAIR)的團(tuán)隊(duì)提出?Thinking with Generated Images,讓大模型能夠自發(fā)生成視覺(jué)中間步驟,像人類(lèi)一樣用「腦內(nèi)圖像」進(jìn)行跨模態(tài)推理。

在人類(lèi)的認(rèn)知過(guò)程中,視覺(jué)思維(Visual Thinking)扮演著不可替代的核心角色,這一現(xiàn)象貫穿于各個(gè)專(zhuān)業(yè)領(lǐng)域和日常生活的方方面面。

圖片

圖 1:需要借助「腦補(bǔ)」圖像進(jìn)行思考的真實(shí)世界任務(wù)。這些任務(wù)通常需要視覺(jué)預(yù)見(jiàn)性和想象力,僅憑基于文本的思考無(wú)法完全實(shí)現(xiàn)

生物化學(xué)家在探索新的治療途徑時(shí),會(huì)在腦海中構(gòu)建蛋白質(zhì)的三維立體結(jié)構(gòu),通過(guò)視覺(jué)化的分子間相互作用來(lái)理解復(fù)雜的生化過(guò)程;法醫(yī)分析師在破解疑難案件時(shí),需要在心中重建犯罪現(xiàn)場(chǎng)的空間布局,通過(guò)視覺(jué)推理來(lái)驗(yàn)證證據(jù)之間的邏輯連接;建筑師在設(shè)計(jì)創(chuàng)新建筑時(shí),會(huì)在腦海中不斷勾勒和修正建筑草圖,通過(guò)視覺(jué)想象來(lái)優(yōu)化空間配置和光照效果;籃球運(yùn)動(dòng)員在制定戰(zhàn)術(shù)策略時(shí),需要在腦海中構(gòu)想隊(duì)友的跑位路線、防守陣型的變化以及關(guān)鍵時(shí)刻的戰(zhàn)術(shù)配合,通過(guò)視覺(jué)化的場(chǎng)景想象來(lái)設(shè)計(jì)最佳的進(jìn)攻方案;在日常決策中,一般人也會(huì)通過(guò)「腦補(bǔ)」各種可能的場(chǎng)景圖像來(lái)輔助判斷和選擇,用腦海中自發(fā)生成的圖像作為認(rèn)知媒介。

這種視覺(jué)思維能力的獨(dú)特之處在于,它能夠創(chuàng)造概念間的獨(dú)特組合和新穎連接,幫助我們發(fā)現(xiàn)僅通過(guò)純文本推理無(wú)法獲得的洞察和創(chuàng)意。而在現(xiàn)代認(rèn)知科學(xué)中,這種「深思熟慮」往往需要多模態(tài)的思維過(guò)程來(lái)支撐。

如今,AI 也邁出了這一步:上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab(GAIR)的團(tuán)隊(duì)提出 Thinking with Generated Images,讓大模型能夠自發(fā)生成視覺(jué)中間步驟,像人類(lèi)一樣用「腦內(nèi)圖像」進(jìn)行跨模態(tài)推理。

圖片

  • 論文鏈接:https://arxiv.org/abs/2505.22525
  • 代碼鏈接:https://github.com/GAIR-NLP/thinking-with-generated-images
  • 模型鏈接 1:https://huggingface.co/GAIR/twgi-critique-anole-7b
  • 模型鏈接 2:https://huggingface.co/GAIR/twgi-subgoal-anole-7b

突破性理念:

從「看圖像」到「腦補(bǔ)圖像」— 視覺(jué)思維的遞進(jìn)進(jìn)化

如何讓模型自發(fā)性地通過(guò)視覺(jué)進(jìn)行「思考」仍屬于早期探索階段。此前的一些工作嘗試通過(guò)空間搜索任務(wù)(如迷宮導(dǎo)航)進(jìn)行早期探索,但這些任務(wù)的局限性在于它們往往可以直接通過(guò)文本思考或「對(duì)著」圖像思考(Thinking with Images)來(lái)解決,而不需要真正的「腦補(bǔ)」圖像思考(Thinking with Generated Images)。

Thinking with Generated Images 系統(tǒng)性地整理并比較了三個(gè)核心概念的本質(zhì)區(qū)別及其適用任務(wù)的差異:

  • 「看」圖像(Seeing with Images):模型僅在單次前向傳播中處理用戶提供的固定圖像,主要適用于基礎(chǔ)的視覺(jué)識(shí)別任務(wù),如物體檢測(cè)、圖像分類(lèi)等。這種模式下,模型只是被動(dòng)地「觀察」圖像內(nèi)容。在這個(gè)過(guò)程中,整個(gè) AI 的思維過(guò)程完全發(fā)生在文本模態(tài)中,圖像僅僅作為一個(gè)固定的先驗(yàn)條件,無(wú)法參與到動(dòng)態(tài)的推理過(guò)程中。這也是大多數(shù)現(xiàn)有的大型多模態(tài)模型(Large Multimodal Models, LMMs)或視覺(jué)語(yǔ)言模型(Vision-Language Models, VLMs)的預(yù)設(shè)模式。
  • 「對(duì)著」圖像思考(Thinking with Images):模型能夠多次訪問(wèn)或?qū)ΜF(xiàn)有圖像進(jìn)行有限變換(如裁剪、旋轉(zhuǎn)、代碼執(zhí)行器、OCR、圖像處理工具),適用于需要多步視覺(jué)推理的任務(wù),如視覺(jué)問(wèn)答、圖表解讀、空間推理等。「對(duì)著」圖像思考雖然在一定程度上改善了模型的視覺(jué)推理能力,但仍然受到一個(gè)核心約束:它們只能處理用戶預(yù)先提供的固定圖像或?qū)@些圖像進(jìn)行簡(jiǎn)單變換,被動(dòng)處理用戶提供的圖像,無(wú)法真正做到從零開(kāi)始構(gòu)建新的視覺(jué)概念。
  • 「腦補(bǔ)」圖像思考(Thinking with Generated Images):模型能夠主動(dòng)生成中間視覺(jué)步驟作為推理過(guò)程的一部分,適用于需要視覺(jué)想象、創(chuàng)造性設(shè)計(jì)、空間規(guī)劃、以及與物理世界環(huán)境交互感知的復(fù)雜任務(wù)。這種模式在需要視覺(jué)預(yù)見(jiàn)性(visual foresight)和創(chuàng)造性想象的任務(wù)上具有最大優(yōu)勢(shì),因?yàn)榧兾谋就评頍o(wú)法充分表達(dá)這些任務(wù)所需的空間和視覺(jué)信息。

研究團(tuán)隊(duì)特別強(qiáng)調(diào),「腦補(bǔ)」圖像思考在需要空間想象、動(dòng)態(tài)規(guī)劃和創(chuàng)造性視覺(jué)構(gòu)建的任務(wù)上相比于純文本推理具有根本性優(yōu)勢(shì),這正是人類(lèi)視覺(jué)思維的核心價(jià)值所在。

圖片

圖 2:區(qū)分「看」圖像、「對(duì)著」圖像思考、「腦補(bǔ)」圖像思考的例子。

技術(shù)實(shí)現(xiàn)方案:

自發(fā)原生多模態(tài)長(zhǎng)思維鏈

研究團(tuán)隊(duì)創(chuàng)新性地提出了「原生多模態(tài)長(zhǎng)思維過(guò)程」(the native long-multimodal thought process)這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。原生多模態(tài)長(zhǎng)思維過(guò)程由交錯(cuò)的多模態(tài) token 組成:包括文本的詞匯或子詞(words/subwords)、視覺(jué)的圖像塊(patches)等。

未來(lái)有更通用的基座模型后也能推廣到音頻的幀(frames),以及其他模態(tài)領(lǐng)域特定的表示形式(domain-specific representations)。原生多模態(tài)長(zhǎng)思維過(guò)程不僅能夠讓模型在思維過(guò)程中自然地自發(fā)生成圖像,還能夠原生地執(zhí)行測(cè)試時(shí)擴(kuò)展(test-time scaling)以獲得更好的模型能力。透過(guò)原生多模態(tài)長(zhǎng)思維過(guò)程實(shí)現(xiàn) Thinking with Generated Images 有四大主要優(yōu)勢(shì):

  • 跨模態(tài)原生思維能力:通過(guò)單次推理過(guò)程即可「原生」地生成多模態(tài)的 tokens,使模型能夠自然無(wú)縫地跨模態(tài)進(jìn)行「思考」。
  • 統(tǒng)一生成式任務(wù)執(zhí)行:通過(guò)生成式范式原生地執(zhí)行多樣化的多模態(tài)任務(wù)。
  • 自然測(cè)試時(shí)擴(kuò)展機(jī)制:通過(guò)生成的「長(zhǎng)」思維過(guò)程提供自然跨模態(tài)的測(cè)試時(shí)擴(kuò)展,使模型能夠通過(guò)生成更長(zhǎng)、更詳細(xì)的多模態(tài)長(zhǎng)思維過(guò)程,在推理時(shí)投入更多計(jì)算來(lái)提升性能質(zhì)量。
  • 未來(lái)技術(shù)集成兼容性和可擴(kuò)展性:?jiǎn)我荒P图傻募軜?gòu)便于未來(lái)與強(qiáng)化學(xué)習(xí)等訓(xùn)練后擴(kuò)展技術(shù)的集成,簡(jiǎn)化了訓(xùn)練和推理持續(xù)擴(kuò)展的復(fù)雜度。

兩種自發(fā)原生多模態(tài)長(zhǎng)思維鏈模式

研究團(tuán)隊(duì)深入分析人類(lèi)多模態(tài)長(zhǎng)思維的認(rèn)知模式,據(jù)此設(shè)計(jì)并提出了兩種原生多模態(tài)長(zhǎng)思維鏈模式,應(yīng)用于視覺(jué)生成任務(wù)上,最大的體現(xiàn) Thinking with Generated Images 的優(yōu)勢(shì):

  • 視覺(jué)子目標(biāo)分解(Vision Generation with Intermediate Visual Subgoals):視覺(jué)子目標(biāo)分解模擬了人類(lèi)在處理復(fù)雜視覺(jué)任務(wù)時(shí)的分而治之策略。面對(duì)較為復(fù)雜或多物體的視覺(jué)生成任務(wù)(如「一張沙發(fā)和一個(gè)酒杯」),模型首先進(jìn)行整體性的分析,將大的視覺(jué)任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨(dú)立圖像,再組合成最終結(jié)果。每個(gè)中間圖像都承載了特定的子目標(biāo)語(yǔ)義,不僅是視覺(jué)內(nèi)容的載體,更是推理過(guò)程中的「思維節(jié)點(diǎn)」。視覺(jué)子目標(biāo)分解允許模型在處理復(fù)雜視覺(jué)生成任務(wù)時(shí)保持對(duì)細(xì)節(jié)的精確控制,避免了直接生成復(fù)雜圖像時(shí)可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問(wèn)題。

圖片

圖片

圖 3:原生多模態(tài)長(zhǎng)思維鏈在GenEval上的例子。

  • 提出視覺(jué)假設(shè)并自我反思迭代(Vision Generation with Self-Critique):提出視覺(jué)假設(shè)并自我反思迭代體現(xiàn)了人類(lèi)創(chuàng)作過(guò)程中的「草稿-修改-完善」循環(huán)機(jī)制。模型首先基于輸入提示生成一個(gè)初始的視覺(jué)假設(shè)圖像,這個(gè)假設(shè)通常包含了對(duì)任務(wù)的基本理解但可能存在各種不完善之處。模型隨后以文本反思形式對(duì)自己生成的圖像進(jìn)行深入的多角度分析,包括內(nèi)容完整性檢查(如「圖像缺乏雨傘」)、視覺(jué)質(zhì)量評(píng)估(如「更清晰的海景化」)、語(yǔ)義一致性驗(yàn)證(如「更清楚的展示冰淇淋的融化」)、構(gòu)圖合理性判斷(如「增強(qiáng)圖像對(duì)比度」)等等。模型通過(guò)建立視覺(jué)假設(shè)、批判性分析、策略性改進(jìn)的迭代過(guò)程來(lái)逐步優(yōu)化生成結(jié)果,實(shí)現(xiàn)了視覺(jué)和文本模態(tài)之間的深度協(xié)同,形成了一個(gè)有效的自我改進(jìn)反饋循環(huán),顯著提升了生成圖像的質(zhì)量和準(zhǔn)確性。

圖片

圖片

圖 4:原生多模態(tài)長(zhǎng)思維鏈在DPG-Bench上的例子。

自發(fā)原生多模態(tài)長(zhǎng)思維鏈在多模態(tài)統(tǒng)一理解生成模型的實(shí)現(xiàn)

研究團(tuán)隊(duì)選擇在自回歸 next-token-prediction 的多模態(tài)統(tǒng)一理解生成模型上開(kāi)發(fā)原生多模態(tài)長(zhǎng)思維鏈,這一決策基于幾個(gè)層次的技術(shù)考慮:

  • 自回歸架構(gòu)與人類(lèi)思維過(guò)程的天然契合性。人類(lèi)的思維過(guò)程本質(zhì)上是序列化的——我們?cè)谒伎紡?fù)雜問(wèn)題時(shí),會(huì)逐步構(gòu)建想法,從一個(gè)概念過(guò)渡到另一個(gè)概念,在文本思考和視覺(jué)想象之間自然切換。自回歸模型通過(guò)逐 token 生成的方式,能夠最自然地模擬這種漸進(jìn)式、序列化的思維展開(kāi)過(guò)程。
  • 統(tǒng)一架構(gòu)的簡(jiǎn)潔性和可擴(kuò)展性優(yōu)勢(shì)。相比于需要協(xié)調(diào)多個(gè)獨(dú)立組件的復(fù)雜系統(tǒng)架構(gòu),自回歸統(tǒng)一模型提供了一個(gè)優(yōu)雅的解決方案。在這種架構(gòu)下,文本推理、視覺(jué)生成、自我批判等所有能力都統(tǒng)一在同一個(gè)模型中,避免了多組件系統(tǒng)中常見(jiàn)的信息傳遞損失、同步協(xié)調(diào)復(fù)雜性等問(wèn)題。
  • 與現(xiàn)有技術(shù)生態(tài)的深度兼容性。當(dāng)前大語(yǔ)言模型領(lǐng)域已經(jīng)在自回歸架構(gòu)上積累了豐富的訓(xùn)練技巧、優(yōu)化方法和推理技術(shù)。選擇這一架構(gòu)使得研究團(tuán)隊(duì)能夠直接繼承和利用這些成熟的技術(shù)成果,而不需要從零開(kāi)始構(gòu)建全新的技術(shù)棧。
  • 未來(lái)發(fā)展的技術(shù)路徑一致性。隨著計(jì)算能力的不斷提升和算法的持續(xù)優(yōu)化,自回歸架構(gòu)展現(xiàn)出了強(qiáng)大的擴(kuò)展?jié)摿Α_x擇這一技術(shù)路徑確保了研究成果能夠與未來(lái)的技術(shù)發(fā)展趨勢(shì)保持一致,具備長(zhǎng)期的技術(shù)價(jià)值。

在確定了自回歸架構(gòu)的技術(shù)路線后,團(tuán)隊(duì)選擇 Anole 作為基礎(chǔ)模型。目前大多數(shù)模型都缺乏真正的交錯(cuò)多模態(tài)生成能力,而這正是實(shí)現(xiàn)「原生多模態(tài)長(zhǎng)思維過(guò)程」的關(guān)鍵技術(shù)瓶頸。Anole 相比其他多模態(tài)模型具有兩個(gè)關(guān)鍵優(yōu)勢(shì):

  • 原生交錯(cuò)生成能力:Anole 直接在交錯(cuò)的文本-圖像 token 上進(jìn)行預(yù)訓(xùn)練和后訓(xùn)練,具備了交錯(cuò)生成多模態(tài) token 的固有能力,這是實(shí)現(xiàn)本研究目標(biāo)的基礎(chǔ)前提。
  • 高效的視覺(jué)表示機(jī)制:Anole 采用相對(duì)高效的圖像表示方案,使得基于原生多模態(tài)長(zhǎng)思維過(guò)程的測(cè)試時(shí)擴(kuò)展在合理的推理預(yù)算內(nèi)成為可能。

搭配原生多模態(tài)長(zhǎng)思維過(guò)程解決了視覺(jué)推理的五大局限

研究團(tuán)隊(duì)提出的「原生多模態(tài)長(zhǎng)思維過(guò)程 (the native long-multimodal thought process)」這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。與現(xiàn)有方案對(duì)比,該提出方案解決了五大局限:

  • 擺脫用戶輸入依賴(lài):過(guò)去的方法(如 OpenAI 的 o3 thinking with images)需用戶提供圖像作為推理起點(diǎn),而原生多模態(tài)長(zhǎng)思維過(guò)程能從零構(gòu)建視覺(jué)上下文,讓模型在無(wú)圖場(chǎng)景下也能自發(fā)地做多模態(tài)思考。
  • 超越靜態(tài)圖像處理:目前的工具增強(qiáng)型模型通常只能裁剪、標(biāo)注或輕度編輯給定圖像;原生多模態(tài)長(zhǎng)思維過(guò)程在推理鏈中動(dòng)態(tài)生成全新的視覺(jué)假設(shè),為創(chuàng)造性規(guī)劃與空間推演打開(kāi)更大搜索空間。
  • 端到端統(tǒng)一架構(gòu):無(wú)需多模型協(xié)作或外部工具鏈,單一模型即可完成「生成-推理-反思-迭代」的全流程,部署與調(diào)用更加輕量。
  • 可擴(kuò)展的測(cè)試時(shí)擴(kuò)展和未來(lái)后訓(xùn)練擴(kuò)展:原生多模態(tài)長(zhǎng)思維過(guò)程天然支持測(cè)試時(shí)擴(kuò)展(test-time scaling),通過(guò)生成更長(zhǎng)、更詳細(xì)的多模態(tài)長(zhǎng)思維序列來(lái)提升性能。此外,該架構(gòu)為未來(lái)與強(qiáng)化學(xué)習(xí)、自我改進(jìn)等后訓(xùn)練技術(shù)的集成預(yù)留了充分空間。
  • 實(shí)際落地的應(yīng)用場(chǎng)景:過(guò)去的相關(guān)研究往往專(zhuān)注于相對(duì)局限任務(wù)場(chǎng)景,如數(shù)學(xué)(幾何)題求解、迷宮導(dǎo)航、簡(jiǎn)單的空間推理等。這些任務(wù)雖然在技術(shù)驗(yàn)證上有一定價(jià)值,但存在一個(gè)根本性問(wèn)題:它們大多可以通過(guò)純文本描述和邏輯推理來(lái)充分表達(dá)和解決。例如,迷宮問(wèn)題可以用坐標(biāo)和路徑描述完全編碼,幾何題可以通過(guò)形式化語(yǔ)言和邏輯步驟來(lái)求解,這些任務(wù)并未真正發(fā)揮視覺(jué)思維的獨(dú)特優(yōu)勢(shì)。研究團(tuán)隊(duì)專(zhuān)注于解決那些無(wú)法通過(guò)純文本充分表達(dá)的復(fù)雜視覺(jué)推理任務(wù),實(shí)現(xiàn)了從「專(zhuān)注于能用文本充分解決的視覺(jué)任務(wù)」到「專(zhuān)注于必須依賴(lài)視覺(jué)想象的復(fù)雜創(chuàng)造性任務(wù)」的認(rèn)知躍升。

Thinking with Generated Images 帶來(lái)的能力屬于全新維度,可與現(xiàn)有技術(shù)疊加協(xié)同。該研究著重提升的是「內(nèi)部想象-反思」的深度推理能力,而檢索增強(qiáng)、外部工具調(diào)用等技術(shù),仍然在引入外部知識(shí)、擴(kuò)展功能等方面具備優(yōu)勢(shì)。

未來(lái),當(dāng)這些能力并行疊加時(shí),既能利用 Thinking with Generated Images 提出的「腦內(nèi)草圖」,也能借助現(xiàn)有檢索增強(qiáng)、外部工具調(diào)用等技術(shù),形成 1+1>2 的整體效果。

圖片

圖 5:多模態(tài)認(rèn)知領(lǐng)域相關(guān)工作的對(duì)比

實(shí)驗(yàn)設(shè)計(jì)

為了在多模態(tài)理解生成模型上實(shí)現(xiàn) Thinking with Generated Images 的自發(fā)原生多模態(tài)長(zhǎng)思維鏈,研究團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)、訓(xùn)練策略、以及推理策略上都有深入的探索。

訓(xùn)練數(shù)據(jù)

研究團(tuán)隊(duì)精心設(shè)計(jì)了一套合成數(shù)據(jù)構(gòu)建流程,專(zhuān)門(mén)用于訓(xùn)練模型生成兩種類(lèi)型的多模態(tài)長(zhǎng)思維鏈。由于目前沒(méi)有現(xiàn)成的 LMM 模型支持多模態(tài)生成的測(cè)試時(shí)擴(kuò)展 (test-time scaling),傳統(tǒng)蒸餾技術(shù)并不適用,團(tuán)隊(duì)創(chuàng)新性地開(kāi)發(fā)了完整的數(shù)據(jù)構(gòu)建管線(如圖 6 所示)。

數(shù)據(jù)收集三大黃金法則:

  • 高質(zhì)量圖像生成提示詞:采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 頂尖模型生成復(fù)雜提示詞,通過(guò)規(guī)則過(guò)濾確保質(zhì)量,并借助 Qwen3-32B 將復(fù)雜視覺(jué)任務(wù)拆解成小的目標(biāo)。
  • 高質(zhì)量反思推理鏈:借助 QVQ-72B-Preview 的強(qiáng)大長(zhǎng)鏈推理能力,對(duì)每個(gè)提示-圖像對(duì)進(jìn)行準(zhǔn)確性評(píng)估、差異識(shí)別和改進(jìn)建議,并實(shí)現(xiàn)模型通過(guò)迭代分解獲得最終圖像的過(guò)程。
  • 高質(zhì)量中間視覺(jué)思維:
  • 初始生成: 使用 Anole-7b(自我批判)或 Flux1-dev(子目標(biāo)分解)。
  • 精修階段: Flux1-Redux 結(jié)合原始提示、首輪圖像和批判反饋進(jìn)行優(yōu)化。
  • 最終生成: 基于前幾輪圖像及思考過(guò)程來(lái)生成最終結(jié)果。

最后通過(guò) QVQ-72B-Preview 進(jìn)行嚴(yán)格的質(zhì)量控制,過(guò)濾與提示嚴(yán)重偏離的樣本。

技術(shù)亮點(diǎn)解析:

  • 突破性數(shù)據(jù)架構(gòu):專(zhuān)門(mén)為「視覺(jué)思維」范式優(yōu)化的統(tǒng)一數(shù)據(jù)結(jié)構(gòu)。
  • 多模型協(xié)同:充分發(fā)揮各領(lǐng)域頂尖模型的專(zhuān)長(zhǎng),構(gòu)建訓(xùn)練樣本。
  • 嚴(yán)格質(zhì)量把控:從提示詞到最終圖像的全流程質(zhì)量控制機(jī)制。

這一創(chuàng)新性的訓(xùn)練策略使得 LMM 模型能夠生成端到端的多模態(tài)長(zhǎng)思維鏈,為「Thinking with Generated Images」的實(shí)現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。這套方法論不僅適用于當(dāng)前研究,也將為未來(lái)多模態(tài)推理系統(tǒng)的開(kāi)發(fā)提供重要參考。

圖片

圖 6:數(shù)據(jù)收集流水線示例

訓(xùn)練策略

在使用統(tǒng)一多模態(tài)模型進(jìn)行視覺(jué)生成任務(wù)的訓(xùn)練時(shí),大多僅依賴(lài)交叉熵訓(xùn)練沒(méi)有完整的考慮圖像 token 之間的關(guān)系。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)引入了視覺(jué)特征級(jí)別的重建損失,將生成圖像的隱狀態(tài)投影回視覺(jué)特征空間,并計(jì)算與 ground-truth 圖像對(duì)應(yīng)特征之間的均方誤差 (MSE) 損失。這種設(shè)計(jì)鼓勵(lì)模型產(chǎn)生具有更強(qiáng)視覺(jué)連貫性和結(jié)構(gòu)完整性的輸出。基于優(yōu)化后損失函數(shù),研究團(tuán)隊(duì)設(shè)計(jì)了系統(tǒng)性的兩階段訓(xùn)練流程:

  • 基礎(chǔ)能力強(qiáng)化:使用 JourneyDB 圖文對(duì)數(shù)據(jù)集對(duì) Anole-7b 進(jìn)行持續(xù)訓(xùn)練,增強(qiáng)模型的基礎(chǔ)視覺(jué)生成能力。這一階段為后續(xù)的專(zhuān)門(mén)化訓(xùn)練奠定了堅(jiān)實(shí)的多模態(tài)基礎(chǔ)。
  • 專(zhuān)門(mén)化微調(diào):基于上述的合成數(shù)據(jù)集進(jìn)行模型訓(xùn)練,精細(xì)化調(diào)整兩個(gè)專(zhuān)門(mén)化模型:
  • TwGI-Anole-7b-Obj.:使用視覺(jué)子目標(biāo)分解數(shù)據(jù)集進(jìn)行微調(diào),使其具備生成視覺(jué)中間子目標(biāo)的能力。
  • TwGI-Anole-7b-Crit.:使用視覺(jué)自我批判數(shù)據(jù)集進(jìn)行微調(diào),使其具備自我批判視覺(jué)假設(shè)的能力。

這種分階段訓(xùn)練策略確保了模型既具備扎實(shí)的基礎(chǔ)多模態(tài)能力,又能在特定的思維模式上表現(xiàn)出色。

推理策略

與標(biāo)準(zhǔn)的視覺(jué)語(yǔ)言模型或大語(yǔ)言模型不同,統(tǒng)一多模態(tài)模型在進(jìn)行視覺(jué)生成任務(wù)時(shí)面臨著獨(dú)特的推理挑戰(zhàn)。為了充分發(fā)揮模型的性能潛力,無(wú)分類(lèi)器引導(dǎo) (Classifier-Free Guidance, CFG) 技術(shù)成為提升視覺(jué)生成性能的關(guān)鍵。在傳統(tǒng)的完整條件 (full conditions)、無(wú)條件 (unconditions) 和圖像條件 (image conditions) 基礎(chǔ)上,研究團(tuán)隊(duì)增加了:

  • 「原始提示條件」(Original Prompt Conditions):確保生成過(guò)程始終與用戶的原始意圖保持一致。
  • 「負(fù)面條件」(Negative Conditions):避免生成不當(dāng)或無(wú)關(guān)的視覺(jué)內(nèi)容。

這種多條件設(shè)計(jì)的核心目標(biāo)是促使中間視覺(jué)步驟更加忠實(shí)于原始意圖,同時(shí)避免被生成的長(zhǎng)文本思維過(guò)度干擾。通過(guò)在這些條件之間進(jìn)行精細(xì)化平衡,模型能夠:

  • 充分利用長(zhǎng)文本思維的指導(dǎo)作用:從詳細(xì)的文本推理中獲得有價(jià)值的語(yǔ)義信息和邏輯指導(dǎo)。
  • 有效過(guò)濾思維過(guò)程中的潛在噪聲:避免被長(zhǎng)思維序列中可能存在的無(wú)關(guān)信息或錯(cuò)誤推理分散注意力。
  • 保持視覺(jué)生成的一致性和質(zhì)量:確保最終輸出既符合原始提示要求,又體現(xiàn)了深度推理的成果。

在視覺(jué)生成任務(wù)上的結(jié)果分析

研究團(tuán)隊(duì)在 GenEval 和 DPGBench 兩個(gè)圖像生成基準(zhǔn)上對(duì) TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 進(jìn)行了全面的性能評(píng)估。

  • 視覺(jué)子目標(biāo)分解模式的評(píng)估:視覺(jué)子目標(biāo)分解模擬了人類(lèi)在處理復(fù)雜視覺(jué)任務(wù)時(shí)的分而治之策略。面對(duì)較為復(fù)雜或多物體的視覺(jué)生成任務(wù)(如「一張沙發(fā)和一個(gè)酒杯」),模型首先進(jìn)行整體性的分析,將大的視覺(jué)任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨(dú)立圖像,再組合成最終結(jié)果。每個(gè)中間圖像都承載了特定的子目標(biāo)語(yǔ)義,不僅是視覺(jué)內(nèi)容的載體,更是推理過(guò)程中的「思維節(jié)點(diǎn)」。視覺(jué)子目標(biāo)分解允許模型在處理復(fù)雜視覺(jué)生成任務(wù)時(shí)保持對(duì)細(xì)節(jié)的精確控制,避免了直接生成復(fù)雜圖像時(shí)可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問(wèn)題。
  • 視覺(jué)自我批判模式的評(píng)估:測(cè)試 TwGI-Anole-7b-Crit. 模型是否能夠糾正其初始視覺(jué)假設(shè)(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)),并生成更好的圖像生成結(jié)果(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (final))。

圖片

圖7: 在GenEval上的表現(xiàn)

圖片

圖8: 在DPG-Bench上的表現(xiàn)

中間視覺(jué)思維生成對(duì)視覺(jué)生成任務(wù)的顯著效益

實(shí)驗(yàn)結(jié)果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 兩個(gè)基準(zhǔn)上都始終優(yōu)于基線模型 Anole-7b。在 GenEval 上,TwGI-Anole-7b-Obj 在「雙對(duì)象」類(lèi)別中取得了顯著提升(0.57 vs. 0.38,相對(duì)提升 50%),表明其在處理涉及多個(gè)實(shí)體的復(fù)雜提示時(shí)具備了更強(qiáng)的能力。在位置和顏色屬性對(duì)齊方面也顯示出顯著改進(jìn),體現(xiàn)了在精確空間和視覺(jué)構(gòu)圖推理方面的更強(qiáng)能力。

在 DPGBench 上,TwGI-Anole-7b-Obj 在「實(shí)體」、「屬性」和「關(guān)系」類(lèi)別中都取得了實(shí)質(zhì)性進(jìn)步,總體分?jǐn)?shù)從 58.32 提升至 68.44(相對(duì)提升 17.3%),反映出其在細(xì)粒度視覺(jué)語(yǔ)義理解方面的增強(qiáng)能力。這些改進(jìn)驗(yàn)證了我們的假設(shè):將視覺(jué)任務(wù)分解為中間子目標(biāo)使得大語(yǔ)言模型能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。

原生多模態(tài)長(zhǎng)思維過(guò)程使模型能夠糾正和完善自身的視覺(jué)假設(shè)

視覺(jué)思維自我批判的實(shí)驗(yàn)結(jié)果證明了讓模型反思和修正自身視覺(jué)輸出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步驟后性能顯著提升:GenEval 總分從 0.45 提升至 0.48,DPGBench 分?jǐn)?shù)從 62.83 提升至 67.14。這表明模型具備了內(nèi)省分析生成圖像的能力——通過(guò)基于視覺(jué)反饋的文本推理鏈,能夠識(shí)別不匹配、幻覺(jué)或遺漏的元素,并隨后進(jìn)行糾正。這種視覺(jué)反饋循環(huán)的有效性反映了一種模態(tài)間協(xié)同效應(yīng),其中視覺(jué)和文本模態(tài)相互迭代指導(dǎo),形成了真正的多模態(tài)智能推理機(jī)制。

這些結(jié)果共同驗(yàn)證:在推理鏈中主動(dòng)「畫(huà)草圖」或「打草稿」,不僅讓模型生成質(zhì)量更高、更可控,也帶來(lái)了深度理解與糾錯(cuò)能力。

未來(lái)展望

Thinking with Generated Images 的能力未來(lái)有望推動(dòng) AI 在需要空間想象和動(dòng)態(tài)規(guī)劃的領(lǐng)域?qū)崿F(xiàn)突破:

  • 創(chuàng)造性設(shè)計(jì):模型可逐步生成并迭代建筑草圖,同時(shí)用文本記錄調(diào)整理由(如「將窗戶東移以優(yōu)化采光」)。
  • 科學(xué)發(fā)現(xiàn):通過(guò)生成分子結(jié)構(gòu)的中間假設(shè)圖像,輔助生物學(xué)家驗(yàn)證藥物結(jié)合路徑。
  • 戰(zhàn)術(shù)規(guī)劃:讓 AI 籃球員「腦補(bǔ)」生成不同戰(zhàn)術(shù)配合的場(chǎng)上演示圖像,可視化球員跑位路線和防守破解策略。

《孫子兵法》說(shuō):「多算勝,少算不勝,而況于無(wú)算乎?」在文本時(shí)代,深思靠文字組成的思維鏈;在多模態(tài)時(shí)代,深思就需要通過(guò)多模態(tài)內(nèi)容的耦合,不僅要會(huì)觀察、調(diào)用工具,還要學(xué)會(huì)想象、反思、腦補(bǔ)。Thinking with Generated Images 正在把這種能力「寫(xiě)進(jìn)」模型本身,讓 AI 獲得人類(lèi)的視覺(jué)想象力。

  • 它不只是性能指標(biāo)的上漲,而是推理范式的突破; 
  • 它不只是會(huì)畫(huà)畫(huà),而是把「畫(huà)畫(huà)」變成了思考的肌肉記憶; 
  • 它不只是一次概念驗(yàn)證,更是給未來(lái)「多模態(tài) AGI」鋪了條高速公路。

當(dāng)機(jī)器從「看圖說(shuō)話」升級(jí)到「無(wú)圖腦補(bǔ)」,真正的多模態(tài)推理時(shí)代,已敲響開(kāi)場(chǎng)鑼鼓,讓我們拭目以待。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2019-11-19 10:56:16

AI 視覺(jué)想象力框架

2021-07-19 14:37:04

AI 數(shù)據(jù)人工智能

2024-01-05 07:36:54

人工智能創(chuàng)造力模型

2023-08-31 22:24:18

Vega擴(kuò)散模型圖像

2021-12-21 15:28:30

廣義形狀GSE自動(dòng)駕駛

2025-07-10 15:29:10

2020-10-11 21:39:35

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2024-08-14 14:43:00

2020-09-30 17:12:09

人工智能技術(shù)數(shù)據(jù)

2021-12-06 08:03:24

AI訓(xùn)練架構(gòu)

2022-07-12 14:56:30

AI模型研究

2023-09-22 11:56:57

模型駕駛

2021-04-23 15:13:16

算法模型技術(shù)

2015-04-09 11:27:34

2021-10-19 10:08:39

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-05-26 01:00:00

MCP平臺(tái)AI

2022-07-28 14:46:01

人工智能機(jī)器人計(jì)算機(jī)科學(xué)

2020-01-09 17:03:29

人工智能技術(shù)算法

2024-03-07 10:35:12

人工智能物聯(lián)網(wǎng)

2022-11-24 12:22:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

av无码久久久久久不卡网站| 99re在线观看| 小泽玛利亚一区| 亚洲精品18| 欧美性xxxxx| 在线码字幕一区| 欧美77777| 青青青爽久久午夜综合久久午夜| 另类图片亚洲另类| 日本japanese极品少妇| 亚洲影视资源| 欧美日韩中文字幕在线视频| 一区国产精品| 秋霞av在线| 国产真实乱偷精品视频免| 青青青国产精品一区二区| 无码人妻精品一区二区三区夜夜嗨| 欧美日韩夜夜| 日韩一区二区三| 午夜免费一区二区| 爱啪啪综合导航| 亚洲精品视频一区| 亚洲在线色站| 日本ー区在线视频| 国产高清久久久久| 91精品啪aⅴ在线观看国产| 国产精品久久久久久久久久久久久久久久久 | 在线精品在线| 精品国产拍在线观看| 美女脱光内衣内裤| 欧美精品国产白浆久久久久| 日韩欧美在线网站| 中文字幕1234区| 99热播精品免费| 色婷婷综合视频在线观看| 国产一区二区三区小说| 在线中文字幕第一页| 中文字幕在线观看不卡视频| 少妇精品久久久久久久久久| 日本一区二区三区在线观看视频| 成人网男人的天堂| 97人人做人人人难人人做| 亚洲午夜激情视频| 蜜臀va亚洲va欧美va天堂| 国产成人一区二区三区| 成年人视频在线免费看| 欧美亚洲网站| 国产成人精品网站| 欧美特级黄色片| 日本欧美一区二区三区乱码| 国产成人精品免费久久久久| 国产免费一级视频| 爽好久久久欧美精品| 国产成人精品免高潮在线观看| 国产99免费视频| 日韩avvvv在线播放| 国产精品免费看久久久香蕉| 波多野结衣视频网址| 免费一级片91| 国产欧美精品在线| 99国产精品欲| 成人精品鲁一区一区二区| 国产精品免费在线| 四虎永久在线精品免费网址| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 久久久国产精品麻豆| 日韩久久在线| 蜜芽在线免费观看| 亚洲一二三四区不卡| 91专区在线观看| 日韩高清中文字幕一区二区| 欧美色老头old∨ideo| 在线视频观看一区二区| 日韩欧美中文在线观看| 亚洲精品国精品久久99热| 亚洲第一成人网站| 国产精品88久久久久久| 久久免费精品日本久久中文字幕| 国产精品美女久久久久av爽| 麻豆精品视频在线观看免费| 97免费资源站| 蜜桃视频在线免费| 亚洲图片激情小说| 男人日女人下面视频| www.26天天久久天堂| 日韩欧美黄色影院| 黄色在线观看av| 欧美激情偷拍自拍| 97在线视频免费看| 亚洲自拍偷拍另类| 成人精品gif动图一区| 涩涩涩999| 国产后进白嫩翘臀在线观看视频| 色8久久精品久久久久久蜜 | 不卡区在线中文字幕| 日本成人三级| 性直播体位视频在线观看| 日韩人体视频一二区| 波多野结衣网页| 综合国产视频| 久久久久国产精品免费| 国产情侣免费视频| 成年人网站91| 国产又粗又硬又长| 91大神在线观看线路一区| 精品奇米国产一区二区三区| 国产探花视频在线| 最新日韩欧美| 91国产丝袜在线放| 日韩毛片久久久| 欧美午夜精品在线| 日韩高清一二三区| 99久久婷婷| 国产不卡视频在线| 日本一区高清| 亚洲6080在线| 在线播放国产视频| jvid福利在线一区二区| 欧美在线精品免播放器视频| www.好吊色| 国产精品久久久99| 中文字幕第36页| 中文字幕亚洲影视| 69久久夜色精品国产69| 不卡视频免费在线观看| 亚洲欧洲日韩综合一区二区| jizz欧美激情18| 亚洲专区视频| 45www国产精品网站| 天堂在线视频观看| 洋洋av久久久久久久一区| 中文字幕一区二区在线观看视频 | 99久久精品免费看国产交换| 国产精品久久久久桃色tv| 成人亚洲视频在线观看| 国内精品偷拍| 97精品免费视频| 蜜臀av午夜精品| 亚洲国产精品久久不卡毛片| 成人一区二区三区仙踪林| 女人香蕉久久**毛片精品| 成人a级免费视频| 97最新国自产拍视频在线完整在线看| 色老汉av一区二区三区| 中文字幕5566| 久久中文在线| 亚州欧美一区三区三区在线| 日韩毛片一区| 日韩在线不卡视频| 国产精品欧美亚洲| 亚洲永久精品大片| 亚洲午夜久久久久久久久| 亚洲国内欧美| 久久久久久久久久久久久久一区| 色资源二区在线视频| 亚洲欧洲日韩国产| 亚洲av综合一区| 国产精品久久久久久户外露出| 蜜桃福利午夜精品一区| 午夜精品亚洲| 精品综合久久久| 欧美日韩成人影院| www高清在线视频日韩欧美| 国产欧美日韩成人| 亚洲一区在线免费观看| 亚洲av无码一区二区三区网址 | 情事1991在线| 日本在线免费网| 日韩欧美在线影院| 久热这里只有精品6| 中文成人综合网| 亚欧精品在线视频| 在线一区欧美| 亚洲精品一区二区三| 国产亚洲高清一区| 91av视频在线| 在线免费观看黄| 欧美va亚洲va香蕉在线| 日产精品久久久| 国产精品传媒在线| 先锋资源av在线| 男男视频亚洲欧美| 日本中文字幕亚洲| av永久不卡| 国产精选在线观看91| 欧美精品高清| 久久久亚洲精品视频| 韩国三级在线观看久| 日韩欧美国产不卡| 在线观看亚洲黄色| 亚洲午夜久久久| 在线观看天堂av| 99久久精品免费精品国产| 久久人人爽av| 欧美亚洲自偷自偷| 国产一级不卡视频| 波多野结衣的一区二区三区| 国产精品国产一区二区| 国产精品99| 欧美夜福利tv在线| 亚洲精品白浆| 三级精品视频久久久久| 色欲av永久无码精品无码蜜桃| 欧美另类高清zo欧美| 亚洲图片在线视频| 亚洲国产日日夜夜| 天天天天天天天天操| 国产欧美日韩另类一区| 日韩精品人妻中文字幕有码| 国产米奇在线777精品观看| 国产三级日本三级在线播放| 日韩一级在线| 黄色片免费在线观看视频| 成人3d精品动漫精品一二三| 国产视频一区二区不卡| 秋霞一区二区| 亚洲xxxxx电影| 久久久久毛片| 国产精品免费久久久| 日韩毛片免费观看| 91精品国产91久久久久久久久| a视频在线观看| 日韩中文在线不卡| 成人免费黄色网页| 亚洲欧美日韩精品| 午夜成人鲁丝片午夜精品| 日韩免费视频一区| 国产高清第一页| 欧美精品一二三四| 一区二区三区在线免费观看视频| 91精品91久久久中77777| 欧美日韩一二三四区| 五月激情丁香一区二区三区| 亚洲精品在线观看av| 亚洲一区中文日韩| 精品无码黑人又粗又大又长| 亚洲综合成人在线| 久久久久久久极品内射| 亚洲电影在线播放| 国产精品99re| 午夜激情久久久| 国产免费av一区二区| 日韩欧美有码在线| 欧美男人亚洲天堂| 在线观看91精品国产入口| 免费黄色片视频| 欧美日韩亚洲综合一区二区三区| 91丨九色丨海角社区| 欧美另类高清zo欧美| 国产91视频在线| 精品欧美一区二区久久| 免费av一级片| 精品调教chinesegay| 国产精品一区在线看| 日韩亚洲欧美中文在线| 高清全集视频免费在线| 欧美丰满老妇厨房牲生活| 欧美精品videosex| 91成人福利在线| 成人va天堂| 成人黄色av网站| 亚洲一二av| 欧美一区二区在线| 国产精品不卡| 97干在线视频| 久久久久久9| 老司机久久精品| 成人午夜视频网站| 成人午夜福利一区二区| 成人欧美一区二区三区白人 | 黄色在线观看网站| 欧美激情伊人电影| 免费电影日韩网站| 国产精品欧美风情| 亚洲一区二区三区中文字幕在线观看 | 精品人妻一区二区三区蜜桃| 亚洲电影第1页| gogogo高清在线观看免费完整版| 久久久999精品免费| gogo久久| 国产欧美日韩精品在线观看| aiai久久| 亚洲高清视频一区二区| 亚洲网址在线| 一区二区三区视频在线观看免费| 国产黄色91视频| 日本一级免费视频| 一区二区在线观看视频在线观看| 国产成人在线视频观看| 欧美美女直播网站| 天堂中文资源在线| 久久精品亚洲热| 国产精品粉嫩| 91丨九色丨国产| 成人vr资源| 国产91xxx| 国产伦精品一区二区三区免费迷| 亚洲欧美色图视频| 亚洲永久免费av| 7777久久亚洲中文字幕| 亚洲乱码av中文一区二区| 亚洲丝袜精品| 国产精品一区二区三区毛片淫片| 精品av导航| 成年人视频大全| 美腿丝袜亚洲综合| 中国毛片在线观看| 亚洲国产sm捆绑调教视频| 国产又黄又大又爽| 国产亚洲激情视频在线| 成人黄色动漫| 91九色蝌蚪嫩草| 欧美电影免费播放| 免费看污黄网站| 久久午夜羞羞影院免费观看| 国产精品日日夜夜| 日韩一区二区三区在线观看| 在线免费观看的av网站| 国产精品免费久久久久久| 你微笑时很美电视剧整集高清不卡| 精品成在人线av无码免费看| 国产在线精品视频| 91av手机在线| 欧美日韩免费一区二区三区视频| 久久精品a一级国产免视看成人| 午夜精品在线视频| 狠狠一区二区三区| 欧美日韩激情四射| 国产传媒日韩欧美成人| 在线看的片片片免费| 欧美美女一区二区在线观看| 成人77777| 国产精品爽黄69| 欧美综合视频| 99re精彩视频| 国产精品国产三级国产aⅴ原创| 免费在线不卡av| 一二美女精品欧洲| 国产精品久久久久久久久久齐齐| 欧美日韩一区在线视频| 久久一日本道色综合久久| 亚洲av综合一区二区| 色噜噜狠狠色综合中国| 黄色的视频在线免费观看| 国产91精品在线播放| 国产中文精品久高清在线不| 中文字幕欧美人妻精品一区| 中文字幕精品一区二区精品绿巨人| 波多野结衣av无码| 伊人亚洲福利一区二区三区| 国产精品亚洲成在人线| 在线看视频不卡| 国产成人高清视频| 国产成人无码一区二区三区在线 | 日韩精品卡通动漫网站| 色哟哟在线观看一区二区三区| 国产在线观看黄| 国产拍精品一二三| 亚洲午夜精品一区 二区 三区| 欧美日韩一区二区区别是什么| 一区二区三区精品视频| 色婷婷综合视频| 国产91久久婷婷一区二区| 成人一区而且| 青娱乐国产精品视频| 亚洲aaa精品| 高清日韩av电影| 91沈先生作品| 国产视频一区免费看| 少妇精品无码一区二区免费视频| 欧美精品乱码久久久久久| 天堂av资源在线观看| 欧美日韩系列| 国产麻豆精品一区二区| 日产精品久久久久久久| 一区二区三区无码高清视频| 精品久久亚洲| 国产男女在线观看| 国产精品欧美一区二区三区| 亚洲a视频在线| 国产精品69av| 欧美日本国产| 久久久久久久毛片| 精品美女在线观看| 在线一区视频观看| 成品人视频ww入口| 中日韩av电影| 日韩在线免费看| 91在线高清视频| 乱码第一页成人| 免费一级片视频| 最近2019中文字幕大全第二页| 成人看片爽爽爽| 亚洲精品免费一区亚洲精品免费精品一区 | 欧美日韩综合一区二区三区| 久久亚洲电影天堂| 免费一区二区| 激情综合激情五月| 欧美福利一区二区| 欧美国产大片|