AI 圖像生成新寵!StepFun 開(kāi)源 14B 參數(shù)自回歸模型 NextStep - 1,圖像生成與圖像編輯一鍵搞定!
在科技飛速發(fā)展的當(dāng)下,AI 圖像生成領(lǐng)域正經(jīng)歷著翻天覆地的變化。StepFun 推出的 NextStep - 1 模型堪稱(chēng)行業(yè)“黑馬”,它打破傳統(tǒng),為自回歸模型在圖像生成領(lǐng)域開(kāi)辟全新道路。這一擁有 140 億參數(shù)的純自回歸模型,不僅實(shí)現(xiàn)了堪比頂尖擴(kuò)散系統(tǒng)的圖像生成質(zhì)量,還具備強(qiáng)大的圖像編輯能力,能輕松應(yīng)對(duì)各種日常自然語(yǔ)言指令下的編輯操作。下面就讓我們一起深入了解這款突破性模型。
NextStep-1 突破了基于文本創(chuàng)建和編輯圖像的極限。NextStep-1 的突出之處在于它為自回歸 (AR) 模型開(kāi)辟了一條新道路,實(shí)現(xiàn)了堪比最強(qiáng)大的基于擴(kuò)散的系統(tǒng)的最先進(jìn)成果。

NextStep-1 不僅提供高保真文本轉(zhuǎn)圖像生成功能,還提供強(qiáng)大的圖像編輯功能。它支持各種編輯操作,例如添加/刪除對(duì)象、修改背景、更改操作和風(fēng)格轉(zhuǎn)換,并且能夠理解日常自然語(yǔ)言指令,從而實(shí)現(xiàn)靈活且自由形式的圖像編輯。

圖像生成的新方法
長(zhǎng)期以來(lái),自回歸模型在語(yǔ)言任務(wù)中取得了顯著的成功,但在圖像生成方面卻舉步維艱。之前的模型要么必須添加繁重的外部擴(kuò)散模塊,要么通過(guò)矢量量化 (VQ) 將圖像轉(zhuǎn)換為離散的(通常是有損的)標(biāo)記。
NextStep-1 開(kāi)辟了一條新道路。這個(gè)擁有 14B 參數(shù)的純自回歸模型,憑借極其輕量級(jí)的流匹配頭,實(shí)現(xiàn)了最先進(jìn)的圖像生成質(zhì)量,并直接處理連續(xù)圖像標(biāo)記,從而保留了視覺(jué)數(shù)據(jù)的全部豐富性,而不是將其壓縮成有限的離散視覺(jué)詞匯集。

NextStep-1 的底層架構(gòu)采用經(jīng)過(guò)特殊調(diào)優(yōu)的自動(dòng)編碼器,將圖像分詞為連續(xù)的、逐塊的潛在標(biāo)記,并將它們與文本標(biāo)記一起進(jìn)行序列化。因果 Transformer 主干網(wǎng)絡(luò)統(tǒng)一處理此序列,而 157M 參數(shù)的流匹配 [14] 頭則直接預(yù)測(cè)視覺(jué)位置的下一個(gè)連續(xù)圖像標(biāo)記。我們發(fā)現(xiàn)這種統(tǒng)一的下一個(gè)標(biāo)記范式簡(jiǎn)單易懂、可擴(kuò)展,并且足以提供高保真、細(xì)節(jié)豐富的圖像。
模型效率
關(guān)鍵見(jiàn)解和發(fā)現(xiàn)
構(gòu)建一個(gè)純粹的圖像自回歸模型絕非易事。正因如此,我們不僅要為社區(qū)發(fā)布一個(gè)強(qiáng)大的基礎(chǔ)模型,還要分享我們?cè)诖诉^(guò)程中獲得的關(guān)鍵洞見(jiàn)。我們希望這些經(jīng)驗(yàn)?zāi)軌蜿U明自回歸在圖像生成中的真正工作原理。
因果變換器可以成為真正的藝術(shù)家
長(zhǎng)期以來(lái),研究人員一直質(zhì)疑因果變換器是否能夠真正獨(dú)立處理自回歸圖像生成——無(wú)需依賴(lài)矢量量化或?qū)⒋蟛糠稚蛇^(guò)程轉(zhuǎn)移給重量級(jí)的外部擴(kuò)散器。通過(guò) NextStep-1,我們證明,只要采用正確的圖像標(biāo)記和訓(xùn)練策略,LLM 風(fēng)格的變換器就可以成為主要的創(chuàng)意引擎。

為了探究這一點(diǎn),論文測(cè)試了參數(shù)規(guī)模差異顯著的流匹配頭(40M、157M 和 528M),發(fā)現(xiàn)圖像質(zhì)量基本不受頭尺寸的影響。這一令人著迷的發(fā)現(xiàn)有力地表明,Transformer 主干正在承擔(dān)重任,驅(qū)動(dòng)核心生成模型和高級(jí)推理。在 NextStep-1 中,流匹配頭的功能更像是一個(gè)輕量級(jí)采樣器,將 Transformer 豐富的上下文預(yù)測(cè)轉(zhuǎn)換為最終的圖像塊。
Tokenizer 是穩(wěn)定性和質(zhì)量的關(guān)鍵
在處理連續(xù)圖像標(biāo)記時(shí),標(biāo)記器是自回歸流程中穩(wěn)定性和視覺(jué)保真度的核心。在使 NextStep-1 如此高效的“秘訣”中,有兩個(gè)關(guān)鍵見(jiàn)解尤為突出:
通道級(jí)歸一化帶來(lái)穩(wěn)定性:將無(wú)分類(lèi)器引導(dǎo) (CFG) 規(guī)模推得足夠高時(shí),許多模型開(kāi)始出現(xiàn)奇怪的偽影——紋理扭曲、鬼影和顏色不一致。我們的研究結(jié)果表明,罪魁禍?zhǔn)自谟谏傻臉?biāo)記中的統(tǒng)計(jì)漂移。解決方法簡(jiǎn)單而有效:在標(biāo)記生成器內(nèi)部應(yīng)用通道級(jí)歸一化。這可以在高 CFG 下保持標(biāo)記統(tǒng)計(jì)數(shù)據(jù)的穩(wěn)定,即使引導(dǎo)旋鈕調(diào)到最高,NextStep-1 也能生成清晰、無(wú)偽影的圖像。

噪聲越多,質(zhì)量越高:與直覺(jué)相反,我們發(fā)現(xiàn),在標(biāo)記器訓(xùn)練過(guò)程中添加更多噪聲(即使會(huì)增加重建誤差)最終會(huì)提高自回歸模型生成的圖像質(zhì)量。我們認(rèn)為,此操作可以使?jié)撛诳臻g更加穩(wěn)健且分布均勻,從而為自回歸模型提供一個(gè)更清晰、更易于學(xué)習(xí)的起點(diǎn)。
基準(zhǔn)性能
NextStep-1 在具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中表現(xiàn)出色,涵蓋了廣泛的功能。
提示跟蹤:在GenEval上,NextStep-1 取得了0.63(不使用 self-CoT)和0.73(使用 self-CoT)的競(jìng)爭(zhēng)分?jǐn)?shù)。在測(cè)試組合能力的基準(zhǔn)GenAI-Bench上,NextStep-1在高級(jí)提示上的得分為0.67 ,在基本提示上的得分為0.88,展示了其強(qiáng)大的理解和渲染復(fù)雜場(chǎng)景的能力。在使用長(zhǎng)而詳細(xì)的提示的DPG-Bench上,NextStep-1 獲得了85.28分,證實(shí)了其在處理復(fù)雜用戶請(qǐng)求方面的可靠性。

世界知識(shí):在WISE[18]基準(zhǔn)測(cè)試中,該基準(zhǔn)評(píng)估了模型將現(xiàn)實(shí)世界知識(shí)整合到圖像中的能力,NextStep-1 的總得分為0.54,優(yōu)于大多數(shù)擴(kuò)散模型和所有其他自回歸模型。

相關(guān)鏈接

- 主頁(yè):https://stepfun.ai/research/en/nextstep1
- 論文:https://arxiv.org/pdf/2508.10711
- 代碼:https://github.com/stepfun-ai/NextStep-1
- 模型:https://huggingface.co/collections/stepfun-ai/nextstep-1
本文轉(zhuǎn)載自??AIGC Studio??,作者:AIGC Studio

















