JooYoung Jang

AI Research Scientist

[LG] CGL-LO: Constrained Graphic Layout Generation via Latent Optimization

1 minute read

[LG] CGL-LO: Constrained Graphic Layout Generation via Latent Optimization

paper: https://arxiv.org/pdf/2108.00871
github: https://github.com/ktrk115/const_layout
ACM MM 2021 accepted (인용수: 69회, 2024-06-18 기준)
downstream task: content-agnostic layout generation (constrained & unconstrained)

1. Motivation

Pretrained Unconstrained Layout Generation 모델에 constraint를 집어넣기 위해서는 해당 constrain을 목적함수로 재학습해야 하는 비효율성이 존재함

$\to$ 생성된 Layout의 Latent space에서 optimization을 iterative하게 수행하면 어떨까?

$\to$ 즉, constrained layout generation 문제를 constrained optimization 문제로 바라보자!

2. Contribution

Latent code를 optimize하여 주어진 constraints를 만족하는 framework인 CLG-LO (Constrained Layout Generation with Latent Optimization)을 제안함
LayoutGAN을 기반으로하여 self-supervised learning (reconstruction losS)을 추가한 형태인 LayoutGAN++를 제안
Constrained & Unconstrained layout generation task 3개의 benchmark에서 SOTA

3. CGL-LO

3.1 LayoutGAN++ architecture

baseline: LayoutGAN
task: unconditional layout generation
- Generator
  - input: random layout elements
  - output: generated bounding boxes
  - $f_{enc}, f_{dec}$: MLP로 구성
  - Transformer: LayoutGAN과 동일하나, residual connection은 배제
  \[G: (Z,L) \to B\]
  - Z: Randomly-generated codes $Z={z_i}_{i=1}^N$
  - L: conditional multiset of labels $L={l_i}_{i=1}^N$
  - B: Generated Bounding boxes $B={b_i}_{i=1}^N$
- Discriminator
  - input: generated bbox & labels
  - output: realism of layout에 대한 probability score
- Auxiliary Decoder
  - 목적: document과 같이 layout이 alignment가 잘되어 있는 경우, 해당 layout content보다 alignment에 집중하여 학습하다 보니 위치에 대한 inductive bias를 잘 학습하지 못함.
  - Reconstruction loss를 regularization term으로 추가한 self-supervised loss를 추가함으로써 이를 해결
- Training objective

3.2 Constrained Layout Generation via Latent Optimization (CGL-LO)

user-specified constraints를 추가할 때마다 모델을 새로 학습하는 건 비효율적 $\to$ Generated layout latent space에서 iterative하게 optimization을 수행해보자
- $c_n$: user-constraints for n element
- $\hat{D}$: Discriminator output
- $\hat{G}$: Generator output
- Z: Layout latent code
- L: labels for layout
$\to$ optimized latent code $Z^*$를 통해 bounding box를 생성
Lagrangian method를 활용

$\lambda_n, \mu$: Lagrangian terms

$\to$ iterative하게 점진적으로 증가시킴
Algorithm

4. Experiments

datasets
Evaluation metrics
- FID
  - 기존 Discriminator (binary classification)에 reconstruction loss를 추가한 형태가 가장 두 분포 (real/fake)를 sensitive하게 판별
- MaxIoU
  - Generated / ground truth layout간에 optimal matching이 끝난 set에 대해 layout별 같은 class에 속한 두 분포별로 max IoU를 산정
Results
- Unconstrained layout generation
  - 정량적
  - 정성적
Constrainted Layout Generation
- Align
- Size : j번째 element가 i번째 element보다 큰 제약조건 예시
- Location: j번째 element가 i번째 element보다 위에 와야 하는 제약조건 예시
결과
- 정량적
- 정성적

Share on

Twitter Facebook LinkedIn

You may also enjoy

1 minute read

[Agent] PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

4 minute read

[Agent] PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

[Agent] BannerAgency: Advertising Banner Design with Multimodal LLM Agents

3 minute read

[Agent] BannerAgency: Advertising Banner Design with Multimodal LLM Agents

[MM] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

7 minute read

[MM] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning