多模態大模型統一布局生成方法微調數據集設計及模型架構統一訓練思路 原創
現有布局生成方法多針對特定任務(如海報設計、文檔布局等),缺乏跨任務的靈活性和通用性,難以統一處理不同場景下的布局需求。

布局生成任務的分類,多樣的布局生成任務可分為四類:(a) BFEF(無背景與無元素), (b) BCEF(背景約束與無元素), (c) BFEC(無背景且元素約束) 和 (d)BCEC(背景約束與元素約束)。不同任務需要不同的模型,這缺乏靈活性。在每個任務內部,存在指標性能與人類感知之間的差異:(“生成布局 1”)指標較好但人類感知布局較差,與(“生成布局 2”)指標較差但人類偏好布局形成對比。
現在來看一個使用多模態大模型的方法,統一生成布局。
Layout-HF100k 數據集概述


所提出的 Layout-HF100k 示例。前兩行展示的是合格樣本,其余則為不合格樣本,不合格部分以紅色虛線標出
數據規模:總計10萬樣本(9.6萬訓練+0.4萬測試),分布如下:
任務類型 | 樣本量(訓練/測試) | 核心約束 | 場景 |
BFEF | 1.9萬/0.1萬 | 無背景/元素內容 | 文檔排版 |
BCEF | 3.1萬/0.1萬 | 給定背景,自由元素 | 固定背景海報 |
BFEC | 1.9萬/0.1萬 | 自由背景,給定元素(產品+文案) | 電商海報 |
BCEC | 2.7萬/0.1萬 | 給定背景+元素 | 復雜營銷海報 |
數據來源:整合公開數據集(CGL-Dataset、PubLayNet)+ 自研EP-Layout(電商場景),確保多樣性。
方法

- 輸入:多模態輸入(背景圖/元素圖 + 文本指令 )。
- 輸出:符合人類審美的布局 (坐標+類型),附帶評估分數和推理過程(CoT)。
Uni-Layout 由統一布局生成器、人類模擬評估器、動態邊際對齊機制(DMPO) 三大模塊,系統性解決布局生成的通用性、評估的人類對齊性,以及生成-評估閉環優化問題。本文僅看一下統一布局生成器設計:
1.1 統一指令設計

指令設計結構

任務描述(T) + 背景屬性(b_a) + 背景內容(b_c) + 元素屬性(e_a^m) + 元素內容(e_c^n) + 輸出格式(O)

指令示例
1.2 模型結構與訓練
基于 LLaVA 的多模態大模型(MLLM),通過 next-token 預測生成布局序列 。目標最小化布局 token 生成的負對數似然,支持跨任務(BFEF/BCEF/BFEC/BCEC)的統一訓練。損失函數:

實驗性能


對齊前后效果對比

針對背景無關與元素無關任務的不同布局生成 Model 對比

不同布局生成 Model 在背景約束與元素約束任務(左)、背景約束與元素自由任務(右)中的對比

針對背景自由與元素約束任務的不同布局生成 Model 對比

對齊前后效果對比。不合格部分以紅色虛線標注。

Uni-Layout 生成的布局示例
Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation,
本文轉載自??大模型自然語言處理?? 作者:llmnlp

















