JooYoung Jang

AI Research Scientist

[LG] LayoutDM: Transformer-based Diffusion Model for Layout Generation

less than 1 minute read

[LG] LayoutDM: Transformer-based Diffusion Model for Layout Generation

paper: https://arxiv.org/pdf/2305.02567
github: X
CVPR 2023 accepted (인용수: 22회, ‘24-05-27 기준)
Downstream task: Layout Generation

1. Motivation

Diffusion model의 근래 성공에 영감을 얻어 high-quality layout을 Transformer 기반의 encoder로 생성해보면 좋을 것 같다는 생각이 듬

2. Contribution

User-specified attribute기반의 주어진 element를 Transformer + Diffusion 기반으로 layout을 생성하는 LayoutDM을 제안
- high-quality generation, better diversity, faithful distribution coverage, stationary training등 Diffusion Model의 특성을 반영함
Backbone을 U-Net에서 Transformer로 바꾼 cLayoutDenoiser를 제안함
5가지 benchmark에서 SOTA

3. LayoutDM

Overall Architecture
Preliminaries
- Layout generation
  - N개의 layout element
  - $g_1$: 1번째 layout geometry (x,y,w,h)
  - $f_1$: 1번째 layout attribute
- Forward process
- Reverse process
- Reparameterized
Conditional Layout Denoiser
- layout geometry g, layout attribute f와 time step t를 입력받아 noise $e_{\theta}(g_t, t, f)$ 를 예측
  - element order는 상관이 없으므로, positional encoding를 제외함
  - Geometric embedding은 4차원 (x,y,w,h)에서 더 의미 있는 embedding을 생성하기 위해 fixed length로 embedding 수행
  - TE: Sinusoidal time embedding
  - Element Embedding: 주어진 hidden vectors $h_f, h_g$,TE(t)를 concat하여 FC통과 시켜 fusion 수행
Transformer Layer
Training
- Loss
Inference

4. Experiments

Quantitative Result
Extended results for PubLayNet
Qualitative Result
Ablation
- Transformer Layer vs. FC Layer로 대체
  - Quantitative Result
  - Qualitative Result
  - Diversity Comparison
Rendered Result

Share on

Twitter Facebook LinkedIn

You may also enjoy

2 minute read

1 minute read

Ui2code

5 minute read

[UI2Code] UI2Code_N: A Visual Language Model For Test-Time Scalable Interactive UI-To-Code Generation

[Layer] LayerD: Decomposing Raster Graphic Designs into Layers

3 minute read

[Layer] LayerD: Decomposing Raster Graphic Designs into Layers