1.5B參數撬動“吉卜力級”全能體驗,國產開源之光多模態統一模型,來了
聽說了嗎,GPT-5這兩天那叫一個瘋狂造勢,奧特曼怕不是真有些急了(doge)。
但有一說一,回顧上半年最火AI事件,GPT-4o帶來的“吉卜力”風暴,還是熱度TOP。
△數據來自微信指數
不僅由“萬物皆可吉卜力”為始,GPT-4o生圖功能被網友們瘋玩至今,更重要的是,還引發了更深的技術思考:
AIGC的范式,已經被悄然改變。
從割裂地處理文本、圖像、聲音,到現在,大眾在應用領域的反饋已經證明,AI需要以更接近人類認知的方式,融合多模態信息。
新的技術趨勢值得關注,也有人第一時間開源了對新范式的深入思考:
昆侖萬維已開源多模態統一模型Skywork UniPic,和GPT-4o呈現出類似的圖像一體化能力,在單一模型里實現圖像理解、文本到圖像生成、圖像編輯三大核心能力的深度融合。
對生圖提示詞的理解力,是這樣的:

提示詞:兩位壽司師傅在江戶時代熙攘的街市投擲彩虹壽司。他們頭頂的紙燈籠明滅閃爍。整個場景呈現出像素化的復古游戲畫風。
把圖片轉換成吉卜力風格,也很有內味兒:

并且相比狂卷大參數量的同類模型,Skywork UniPic主打一個高“性能密度”:
1.5B參數模型效果就能接近甚至超越上百億參數專用模型,可以在消費級顯卡上流暢運行。
開源還很全套:
完整模型權重、詳細技術報告、配套全流程代碼,通通開源。
想要學習借鑒增長姿勢知識的小伙伴,值得馬克一波。
1.5B模型效果逼近大型專用模型
一句話總結一下Skywork UniPic的模型特點,就是既可以像視覺模型(VLM)一樣理解圖像,也可以像擴散模型一樣生成圖片,用戶還只需“動動嘴”,就可以指導模型完成圖像編輯。
在不同任務上,1.5B的Skywork UniPic都有不錯的指令理解和生成效果。
比如文本到圖像生成:
修女的鉛筆肖像畫

一幅身著絲絨長裙的貴婦人油畫

圖像編輯方面,換個背景:

調整表情:

換個風格:

效果上看都不遜色于一些商業閉源模型。

更定量地來看,Skywork UniPic以1.5B的緊湊參數規模,在四大核心評估維度上均展現出了卓越表現。
在GenEval指令遵循評估中,Skywork UniPic取得0.86的優異成績,超越了絕大多數同類統一模型,在無CoT的情況下取得了SOTA分數,逼近較大模型BAGEL(7B+7B*)帶CoT的0.88分。
在DPG-Bench復雜指令生圖基準上,Skywork UniPic達到85.5分的行業SOTA水平,與14B參數的BAGEL(85.07分)不相上下。
在圖像編輯能力方面,Skywork UniPic在GEditBench-EN獲得5.83分,ImgEdit-Bench達到3.49分,展現出一定的編輯執行能力。
值得一提的是,1.5B的參數量,使得Skywork UniPic可以在RTX 4090這樣的消費級顯卡上流暢運行,提供了一套真正可落地的統一模型解決方案。
技術細節大揭秘
而Skywork UniPic具體是如何做到,昆侖萬維此次也給出了非常詳細的技術報告。
自回歸模型架構
首先在架構方面,Skywork UniPic采用自回歸模型(Autoregressive Model)架構,這是其實現多模態統一能力的核心技術基礎,與GPT-4o的技術路線一脈相承,顯著區別于主流的擴散模型(Diffusion Model)。
該架構的核心優勢在于將圖像生成深度整合到多模態框架中,而非作為一個獨立模塊存在,從而能讓圖像理解、文本到圖像生成、圖像編輯三大核心能力在單一模型中實現完美融合。
△文生圖prompt:一只紋理鮮明的綠色鬣蜥靜臥在飽經風霜的樹干上,倚靠著一堵幽暗墻壁。
整體框架借鑒了Harmon的設計思路,在表征方式和結構上做出關鍵調整——
采用解耦的視覺編碼器設計,分別用于不同路徑:
- 圖像生成路徑采用MAR編碼器作為視覺表征基礎;
- 圖像理解路徑采用SigLIP2編碼器作為主干。
MAR編碼器與SigLIP2都天然契合自回歸的統一訓練范式,有助于實現跨任務、跨模態的一體化建模。

MAR(Autoregressive Image Generation without Vector Quantization)本身具有連續空間自回歸的特性,通過采用Diffusion Loss替代傳統的VQ離散化處理,天然具備高質量圖像生成、低延遲響應以及自回歸可控的優勢。MAR編碼器還展現了極強的語義理解能力,linear probing精度出色,能有效支持圖像概念抽取。
此外,昆侖萬維Skywork天工大模型團隊,通過大規模預訓練對模型進行升級:
基于億級高質量圖像-文本對進行獨立預訓練,使其從單純的“圖像生成”能力,躍升為兼具“高質量生成”與“強大語義表征”的綜合視覺基座,能夠有效支持圖像概念的精準抽取。

通過這一自回歸框架的構建,Skywork UniPic成功實現了:
- 圖像與文本的統一表征學習
- 跨模態的上下文理解與推理
- 生成與編輯的端到端流程優化
精煉高質量數據體系
另外值得一提的是,Skywork UniPic的卓越性能并非依賴于海量數據的簡單堆砌,而是源于一套高度精煉、系統優化的高質量數據構建體系。
團隊突破了“數據量越大模型性能越強”的傳統認知,通過億級精選預訓練語料與數百萬級任務精調(SFT)樣本,構建了一套面向圖像理解、文本到圖像生成與圖像編輯三大核心任務的高效能多模態訓練語料庫。
該數據體系在數量上遠低于當前行業內普遍依賴的數億至百億級數據規模,卻實現了與主流大模型相當的性能表現,充分驗證了高質量小規模數據訓練多模態模型的可行性與高效性。
在數據構建階段,團隊實施了三大關鍵優化策略,以“提純”為核心目標:
- 嚴格控制任務類型的均衡分布,確保模型在各領域的泛化能力;
- 精心設計多樣化的指令模板,覆蓋不同應用場景的表達需求;
- 建立多層質檢機制,包括自動過濾、人工復核和交叉驗證,保證數據純凈度。
這種精細化的數據管理方法不僅顯著提升了數據的利用效率,降低了訓練資源消耗,更促進了模型在跨模態任務中的知識遷移與協同學習能力。
自研專用獎勵模型
數據質量如何把控,官方技術報告中也給出了詳細說明。
為確保Skywork UniPic在圖像生成與編輯任務中性能卓越,昆侖萬維天工大模型團隊意識到高質量訓練數據的關鍵作用。
為此,研究團隊針對性設計了兩套專用獎勵模型,構建起覆蓋生成與編輯數據質量的智能評估體系。
其一,是專用圖像生成Reward Model。
Skywork-ImgReward是基于強化學習訓練的Reward Model,相比于其他T2I Reward Model,Skywork-ImgReward在多個文生圖場景下的偏好選擇表現都更接近人類偏好。它不僅被用來作為文生圖數據質量的篩選,也可以在后續被用于圖像生成能力強化學習訓練中的獎勵信號,以及作為生成圖像的質量評估指標。
△文生圖prompt:一幅老式廚房場景,鑄鐵水壺與陶瓷茶壺置于粗削木桌上。
其二,是專用圖像編輯Reward Model。
面對圖像編輯這一核心挑戰,團隊創新性地構建了具有針對性的Skywork-EditReward,其被用作數據質量評估時可以自動剔除超過30%的低質量編輯樣本,在GEditBench-EN和ImgEdit-Bench基準測試中表現明顯改善。后續同樣也可以被用作圖像編輯強化學習訓練中的獎勵信號,以及作為圖像編輯的質量評估指標。
經其篩選數據訓練的Skywork UniPic,編輯性能明顯改善,充分驗證了對編輯任務的強效賦能。
例如,當指令要求“Remove the birds from the image.(將圖中的鳥移除)”時,即便鳥橫跨草甸、湖面、石頭等多個區域,Skywork UniPic仍能精準移除。對于湖面被遮擋的倒影,模型也能依據場景的光影邏輯與物體關聯性,進行自然且連貫的補全,最終呈現出毫無編輯痕跡的畫面效果。

漸進式多任務訓練策略
接下來,訓練策略方面,Skywork UniPic是如何讓模型在圖像理解能力、圖像生成質量與圖像編輯精度這三大核心任務上實現均衡發展,避免出現“一強兩弱”或“全而不精”的局面?
Skywork UniPic團隊的做法是:創新性引入漸進式多任務訓練機制,并結合了MAR訓練優化體系與Harmon訓練優化體系的精髓,實現了模型能力的有序、高效提升。
1、MAR訓練優化體系
基于ImageNet-1M訓練的MAR基線模型存在表征能力弱、語義層次淺的問題,百萬級數據限制了視覺特征泛化能力,256×256低分辨率輸入制約細節建模。
為此,團隊采取兩項關鍵優化:
- 數據層面引入覆蓋更廣場景與類別的億級專有圖像數據,拓展學習空間;
- 訓練中采用漸進式分辨率提升策略,先在256×256下建立穩定底層特征抽取能力,再逐步遷移至512×512,增強語義理解與細粒度建模能力。
2、Harmon訓練優化體系
為進一步提升性能并兼顧效率,團隊設計多階段分層分辨率訓練:
第一階段在512×512分辨率下微調,聚焦基礎特征提取的穩定性與收斂性;隨后逐步提升至1024×1024,強化對紋理、邊緣等高精度細節的捕捉。
同時采用分階段參數解凍策略,初始階段僅訓練Projector模塊以對齊視覺與語言特征,凍結主干網絡和LLM參數;接著在保持LLM編碼器凍結的前提下優化視覺主干;最終全量解凍,進行端到端聯合優化,實現多模態協同增強。
3、漸進式多任務訓練策略
為解決理解、生成和編輯三類任務難以兼得的問題,團隊提出漸進式多任務訓練機制。
訓練初期聚焦單一任務(如文本到圖像生成),待其穩定收斂后,再按難度遞增順序引入理解與編輯任務,避免早期任務間的相互干擾。
精細化調優階段,通過獎勵模型篩選構建高質量訓練數據,結合動態閾值與多樣性采樣策略,確保樣本既具備高置信度,又覆蓋豐富的語義場景。
整體而言,這些策略在訓練過程中實現了能力的有序釋放與任務的逐步適配,顯著提升了模型在理解、生成和編輯任務上的綜合表現,真正達成“一專多能”的效果。

為什么原生多模態統一模型值得關注
說回到技術趨勢上,原生多模態統一模型,本身正在受到技術圈越來越多的關注。
為什么原生多模態統一模型如此受研究者們重視?
首先,在落地層面上,GPT-4o“吉卜力風”的成功出圈已經證明,相比于割裂的視覺大模型(VLM)的“讀圖”、擴散模型的“生圖”,真正在統一模型中集成“看圖”+“生圖”+“改圖”等全能多模態能力,才更能切實滿足用戶的使用體驗。
簡而言之,就是把多模態AI的使用門檻給打下來了,真的人人可用了。
其次,在技術層面上,原生多模態統一模型把跨模態表征、上下文推理、內容生成全部鎖進同一組參數,帶來了“一次訓練,處處生效”的范式升級,為AIGC從“拼規模”走向“拼效率、拼體驗”指明了發展方向。
Skywork UniPic就證明了,高質量小數據+統一自回歸框架,也能逼近甚至超越大型專用模型的性能極限。
在這個技術方向上,好消息是,像昆侖萬維這樣全面開放核心資源,一方面,技術社區能夠在開放的氛圍里持續推動底層技術的演進。
另一方面,小而可靠的統一模型架構,代表了技術平民化的重要方向,也有助于開發者們探索AI應用的更多可能性。
值得一提的是,自2023年8月23日,昆侖萬維發布國內第一款AI搜索產品“天工AI搜索”以來,其一直保持著持續開源的狀態。
2023年10月,開源百億級大語言模型“天工”Skywork-13B系列,并配套開源了600GB、150B Tokens的超大高質量開源中文數據集。
從2024年開始,又陸續開源數字智能體全流程研發工具包AgentStudio、“天工大模型3.0”4000億參數MoE超級模型、2千億稀疏大模型Skywork-MoE、Skywork-o1-Open等模型。
今年初,昆侖萬維還一次性開源了兩大視頻模型——國內首個面向AI短劇創作的視頻生成模型SkyReels-V1,和國內首個SOTA級別基于視頻基座模型的表情動作可控算法SkyReels-A1。
可以說,從ChatGPT掀起大模型風暴以來,昆侖萬維一直是國內重要的開源力量。也在中國開源越來越被世界關注的過程中,從基礎模型,到音頻,到視頻,多模態全方位覆蓋。

正如“吉卜力現象”的本質所示,是更易用的工具打開了普通人利用AI突破想象力邊界的窗口,而昆侖萬維這樣的開源力量,正在推動著我們更快迎來創意大爆炸時代。
更令人期待的是,這一次,Made in China引領風潮。
模型權重:https://huggingface.co/Skywork/Skywork-UniPic-1.5B技術報告:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf代碼倉庫:https://github.com/SkyworkAI/UniPic







































