國產(chǎn)SOTA新模型精準(zhǔn)get“畫(3+6)條命的動物” | 開源

2025-06-20 14:37:59

人工智能新聞

清華大學(xué)、騰訊ARC Lab、香港中文大學(xué)和香港大學(xué)聯(lián)手提出了一個新大模型——MindOmni，顯著增強了AI的“推理生成能力”。

生成圖像這件事，會推理的AI才是好AI。

舉個例子，以往要是給AI一句這樣的Prompt：

（3+6）條命的動物。

我們?nèi)祟惪隙ㄒ谎劬椭朗秦堖洌獳I的思考過程卻是這樣的：

△雖然生成了貓，但思考過程不對

思考的過程還是把“（3+6）”里的數(shù)字分開來處理，并沒有真正get到其背后“九條命的動物=貓”的本意。

以及像ChatGPT，還是執(zhí)著于在圖片里面展示數(shù)字：

究其原因，是因為當(dāng)前主流的基于文本進行圖像生成的方法往往依賴固定的文本編碼器，僅能處理“純文本”輸入，難以自然接入圖像、音頻等模態(tài)的信息。

同時，這類系統(tǒng)在應(yīng)對“復(fù)雜世界知識”和“多步驟邏輯推理”方面表現(xiàn)乏力。

但就在最近，清華大學(xué)、騰訊ARC Lab、香港中文大學(xué)和香港大學(xué)聯(lián)手提出了一個新大模型——MindOmni，顯著增強了AI的“推理生成能力”。

它不僅能理解復(fù)雜指令，還能基于圖文內(nèi)容展開連貫而可信的“思維鏈”（Chain-of-Thought, CoT），生成具備邏輯性與語義一致性的圖像或文本輸出：

△推理圖像生成可視化結(jié)果對比

△對基于多模態(tài)用戶輸入的推理感知圖像生成可視化結(jié)果對比

那么MindOmni又是如何做到的呢？

深挖MindOmni模型架構(gòu)

MindOmni的架構(gòu)設(shè)計的目的比較清晰，就是為了高效融合視覺理解和生成能力。

其大模型部分基于Qwen2.5-VL構(gòu)建，這是一個先進的視覺語言模型，能夠處理圖像和文本輸入。

它通過預(yù)訓(xùn)練的ViT（Vision Transformer）提取圖像特征，并將文本編碼為離散的標(biāo)記序列。這種設(shè)計使得模型能夠理解圖像內(nèi)容并生成與之相關(guān)的文本描述。

擴散解碼器是MindOmni生成圖像的核心模塊。

它基于OmniGen構(gòu)建，通過去噪過程將潛在的噪聲信號逐步轉(zhuǎn)化為真實的圖像。與傳統(tǒng)的生成模型相比，OmniGen具有更高的靈活性和生成質(zhì)量。

在生成過程中，模型會將視覺和文本特征與噪聲標(biāo)記在序列維度進行合并，并通過多次去噪循環(huán)生成最終的圖像。

為了將視覺語言模型與生成模塊有效連接，MindOmni使用一個包含兩個標(biāo)準(zhǔn)Transformer層的連接器來連接兩個模塊，并用于對齊VLM輸出的特征與生成模塊的輸入維度。

△推理框架概述：MindOmni在統(tǒng)一的大型模型中完成視覺理解、多模態(tài)推理生成和視覺編輯任務(wù)

三階段訓(xùn)練流程：從理解到生成的飛躍

MindOmni采用了三階段訓(xùn)練策略，以逐步提升模型的性能和推理生成能力。

第一階段：基礎(chǔ)預(yù)訓(xùn)練

在預(yù)訓(xùn)練階段，MindOmni主要利用開源圖像-文本對和X2I數(shù)據(jù)對來訓(xùn)練連接器。這一階段的目標(biāo)是讓模型初步具備基本的文本到圖像生成能力。

通過擴散損失和基于KL散度的蒸餾損失作為優(yōu)化目標(biāo)，模型能夠?qū)W習(xí)到圖像和文本之間的語義對齊關(guān)系。

具體來說，模型會通過采樣噪聲數(shù)據(jù)并計算擴散損失來優(yōu)化生成過程，同時利用KL散度來保持與教師模型的一致性。

第二階段：CoT監(jiān)督微調(diào)

在第二階段，研究人員收集了不同粒度的描述性文本，構(gòu)建了推理生成指令數(shù)據(jù)。

這些數(shù)據(jù)包括粗粒度的描述作為答案內(nèi)容，以及細粒度的描述作為推理內(nèi)容。

通過監(jiān)督微調(diào)，模型能夠?qū)W習(xí)到如何根據(jù)指令生成具有邏輯推理的文本內(nèi)容。

這一階段的訓(xùn)練數(shù)據(jù)還包括通過高性能文生圖模型生成的高質(zhì)量圖像，以提升模型的生成質(zhì)量。

第三階段：推理生成策略優(yōu)化（RGPO）

在第三階段，MindOmni引入了推理生成策略優(yōu)化（RGPO）算法。

這一算法的核心思想是通過強化學(xué)習(xí)，讓模型能夠顯式地生成邏輯推理鏈。研究人員構(gòu)建了一個包含用戶指令、目標(biāo)提示和對應(yīng)解釋的純文本訓(xùn)練數(shù)據(jù)集，并設(shè)計了一個推理生成導(dǎo)向的系統(tǒng)提示，引導(dǎo)模型生成推理內(nèi)容。

RGPO強化學(xué)習(xí)算法

受DeepSeek-R1啟發(fā)，研究人員提出了RGPO強化學(xué)習(xí)算法，通過明確生成邏輯思路鏈來增強模型的推理生成能力。

在部署過程中，策略模型 π_Θ首先為每個請求q采樣G組結(jié)果{o_i}^G_i=1 ，每組結(jié)果包含一個推理鏈o_i^T和一個對應(yīng)的圖像o_i^I。

為了提高生成推理過程的質(zhì)量，研究者引入了兩種獎勵函數(shù)來引導(dǎo)策略模型生成連貫有效的輸出：

格式獎勵評估思路鏈?zhǔn)欠穹项A(yù)期結(jié)構(gòu)，如果內(nèi)容包含在對應(yīng)標(biāo)簽中，則返回1，否則返回0。
一致性獎勵使用來自CLIP圖像和文本編碼器的余弦相似度來衡量生成圖像與參考真實提示之間的語義對齊情況。然后，通過所有獎勵值計算第i個輸出的優(yōu)勢A_i，公式如下：