斯坦福與Adobe新研究,模仿蒸餾技術輕松讓200億參數圖像生成高質量大模型
高質量圖像生成又加速了!
斯坦福大學和 Adobe 研究院聯手,用 pi-Flow(基于策略的流模型)技術,讓 200 億參數的文本到圖像大模型,在 4 步之內就生成了媲美教師模型的高質量、高多樣性圖片。

讓圖像生成模型少走幾步
所有玩過 AI 繪畫的人都有一個共同的體驗,未蒸餾的原版大模型,點擊生成,看著進度條一點點爬升,從一個模糊的噪聲,慢慢變得清晰。這個過程短則十幾秒,長則幾分鐘。
模型拿到一團純粹的隨機噪聲,然后一步一步地猜,“如果我想得到一張貓的圖片,這一步應該把噪聲變成什么樣?”。這個過程叫“去噪”。它需要猜幾十步甚至上百步,才能把一個隨機的東西,變成一張有意義的畫。
每一步,模型都要完整地運行一次,消耗巨大的計算資源。
于是有人想,能不能少走幾步?比如原來要走 100 步,現在我走 10 步、5 步,甚至 1 步,行不行?
這就是所謂的“少步采樣”(Few-Step Generation)。
但當你強行減少步數,問題就來了。步子邁得太大,容易扯著。專業點說,這叫“離散化誤差”。
模型本來是基于一個連續的、平滑的變換過程設計的,你非要讓它大踏步地跳著走,中間的細節就全丟了。結果就是生成的圖片質量急劇下降,要么模糊不清,要么出現各種奇怪的偽影。
還有“質量-多樣性權衡”問題。
少步生成要想圖片質量高,生成的多樣性就得犧牲。出來的圖來來回回就那幾個樣子,失去了創作的驚喜感。反過來,如果想讓圖片風格多變,質量又會變得很差。就像一個學畫畫的學生,如果只讓他快速畫幾筆,他要么只能畫出他最熟練的那一個東西,要么就畫得亂七八糟。
為了解決這個問題,大家想了很多辦法,比如“模型蒸餾”。就是讓一個已經訓練好的知識淵博的“教師模型”,手把手教一個“學生模型”怎么快速拿到好結果。
但這個過程很復雜,有時候需要引入額外的判別器(GAN, 生成對抗網絡),或者計算復雜的雅可比向量積(JVP, Jacobian-Vector Product),工程上非常麻煩,效果也常常不盡如人意。
GMFlow 說,世界不是非黑即白
斯坦福大學和 Adobe 研究院聯手搞的一個項目 LakonLab,決定從根子上解決問題。他們首先推出的 GMFlow,在 2025 年的 ICML(國際機器學習大會)上亮相,直接挑戰了傳統擴散模型和流匹配模型(Flow Matching Models)的一個基本假設。
傳統模型在去噪的每一步,都假設像素下一步應該變成的樣子,符合一個簡單的高斯分布。也就是說,模型會預測一個最可能的目標均值,然后朝著那個方向走。
但真實世界復雜得多。一個像素點在去噪過程中,完全可以有多種同樣合理的可能性。比如,一塊區域既可以是藍天,也可以是白云。傳統模型強行讓它選一個,就可能導致最終結果很僵硬,缺乏細節和真實感。
GMFlow 想:為什么只能有一個選項?
它不再預測一個單一的高斯均值,而是預測一個高斯混合分布(Gaussian Mixture, GM)。模型在每一步都會說:“這個像素點,有 40% 的可能應該變成這個樣子(第一個高斯分布),有 30% 的可能應該變成那個樣子(第二個高斯分布),還有 30% 的可能……”
它為像素的演化提供了多個備選項,并且給出了每個選項的概率。這一下就把模型的表達能力打開了。它能更好地捕捉真實世界中那種模棱兩可、充滿多種可能性的狀態。這對于生成細節豐富、紋理復雜的圖像至關重要。
為了配合這個新的輸出形式,GMFlow 還設計了一套專屬的 GM-SDE(隨機微分方程)和 GM-ODE(常微分方程)求解器。這套求解器能夠精確地利用模型給出的高斯混合信息,進行更準確的采樣。即使在很少的步數下,也能有效地減少離散化誤差。
GWMFlow 還改進了引導方式。傳統的分類器自由引導(Classifier-Free Guidance, CFG)是通過加強文本提示的影響力來提升圖像質量,很容易用力過猛,導致圖像色彩過飽和、細節失真。GMFlow 提出了概率引導(Probabilistic Guidance),這種方式更溫和、更智能,它利用高斯混合分布的概率信息來做引導,既提升了質量,又避免了過飽和問題。
GMFlow 的效果立竿見影。在 ImageNet 256×256 這個標準數據集上,只用 6 步采樣,它的精度(Precision)就達到了 0.942,明顯超過了之前的流匹配基線模型。
pi-Flow 把老師傅的心法學會了
如果說 GMFlow 是對模型“看世界”的方式做了升級,那么 pi-Flow,就是對模型“行動”的方式進行了一場徹頭徹尾的革命。
pi-Flow 的全稱是“基于策略的流模型”(Policy-Based Flow Models)。它的核心思想,來自于一個非常聰明的類比:模仿蒸餾(Imitation Distillation)。
我們繼續用教師和學生的例子。以前的蒸餾方法,好比是教師模型(走的慢但畫得好)在每個關鍵節點,告訴學生模型(想走的快):“你應該走到這里”。學生模型就拼命學習,記住每個節點的位置。但當步數變得極少,比如從 100 步壓縮到 4 步,節點之間間隔巨大,學生就懵了,因為它不知道兩點之間該怎么走才是最優路徑,只能硬著頭皮走直線,結果自然很差。
pi-Flow 換了個思路。它不讓學生模型去死記硬背那幾個關鍵節點的位置。
它讓學生模型學習老師傅的“心法”。
這個“心法”,在 pi-Flow 里被稱為“策略”(Policy)。

具體來說,學生模型的網絡不再直接輸出一個最終的去噪結果,而是輸出一個“策略”。這個策略是一個小型的、不依賴于大模型本身的計算規則。拿到這個策略后,你可以在當前的一大步(比如從第 1 步到第 2 步)之內,再進行多次微小的子步驟計算。
關鍵點在于,這些子步驟的計算,完全由這個“策略”來指導,不需要再反復調用那個龐大、笨重的學生網絡。
這就像老師傅教徒弟功夫,不是教他一招一式的死套路,而是教他一套內功心法。徒弟學會心法后,就可以根據實際情況,在一次交手中瞬息萬變地使出無數招式,而不需要每次都停下來問師傅“這下該怎么辦”。
這個教學過程,pi-Flow 稱之為“策略模仿蒸餾”(pi-ID)。它通過一個簡單的 L2 流匹配損失函數,讓學生模型生成的“策略”,在執行完一系列子步驟后的最終軌跡,與教師模型慢悠悠走出來的精確軌跡,盡可能地對齊。

整個過程異常干凈利落。沒有花里胡哨的輔助網絡,沒有不穩定的對抗訓練(GAN),也不需要計算復雜的 JVP。就是一個簡單的 L2 損失,直指問題核心。
pi-Flow 的這個設計,直接打破了前面提到的“質量-多樣性”的魔咒。
因為它學習的不是一個僵化的結果,而是一個動態生成路徑的“方法論”。這個方法論本身就蘊含了教師模型對于多樣性的理解。因此,學生模型在快速生成時,既能保持教師級別的圖像質量和風格一致性,又能產生豐富的多樣性。
在 ImageNet 256×256 數據集上,它用 DiT(一種流行的視覺 Transformer 架構)做學生模型,僅需 1 次網絡功能評估(1-NFE),也就是模型主體只跑一次,就能達到 2.85 的 FID(一個衡量生成圖像質量和多樣性的核心指標,越低越好)。

LakonLab 把它用在了 FLUX.1(120 億參數)和 Qwen-Image(通義千問-Image,200 億參數)這種巨無霸模型上。結果,在僅僅 4 次網絡評估(4 NFEs)下,pi-Flow 生成圖像的多樣性,顯著超過了當時市面上其他的少步生成方案,比如 SenseFlow 和 Qwen-Image Lightning,同時圖像質量幾乎和需要走很多步的教師模型看不出差別。

GMFlow 是理論基礎,為 pi-Flow 的策略輸出提供了靈感;pi-Flow 則是將這個理論發揮到極致的工程杰作,它把教師的“知識”高效地壓縮到了學生的“策略”里。
LakonLab 基石
LakonLab 連續推出 GMFlow 和 pi-Flow,背后是斯坦福大學和 Adobe 研究院強大的工程能力和產學研協同體系。
LakonLab 本身就是一個為大規模擴散模型實驗而生的高性能代碼庫。它的設計目標是要能支撐得起百億甚至千億參數級別模型的訓練和推理。
這里面有幾個關鍵特性:
- 分布式訓練優化:訓練 200 億參數的模型,單張顯卡是天方夜譚。LakonLab 深度整合了多種分布式訓練方案,如 DDP(分布式數據處理)、FSDP(完全分片數據并行)等。這些技術能將一個巨大的模型和海量的數據,拆分到成百上千張 GPU(圖形處理器)上進行協同訓練,極大地提高了訓練效率。
- 權重綁定(Weight Tying):在超大模型中,通過在不同部分共享參數,可以有效減少模型的總參數量和顯存占用,讓更大模型的訓練成為可能。
- 高級流求解器:它內置了為 GMFlow 和 pi-Flow 量身定制的求解器,如 FlowSDEScheduler 和 FlowAdapterScheduler,保證了算法能高效、精確地運行。
- 多存儲后端支持:支持從本地文件系統、AWS S3 到 HuggingFace 的多種數據存儲和模型加載方式,方便研究人員在不同環境下進行實驗。
- 與 Diffusers 的深度集成:Diffusers 是 HuggingFace 推出的一個流行的擴散模型庫。LakonLab 與它的集成,意味著這些前沿的技術可以很方便地被更廣泛的社區使用和驗證。
這個強大的工程底座,是 GMFlow 和 pi-Flow 從理論走向現實的橋梁。
來看看生成效果:


pi-Flow 和 GMFlow 的出現,為圖像生成領域,帶來了里程碑式的影響。




































