[LG] Composition-aware Graphic Layout GAN for Visual-textual Presentation Designs

2 minute read

[LG] CGL-GAN: Composition-aware Graphic Layout GAN for Visual-textual Presentation Designs

paper: https://arxiv.org/pdf/2205.00303
github: https://github.com/minzhouGithub/CGL-GAN (깡통)
IJCAI 2022 accepted (인용수: 31회, ‘24-05-29 기준)
Downstream task: Layout Generation

1. Motivation

Layout Geneartion 분야에서 image contents를 무시하고 (agnostic) graphic relationships만 고려한 연구가 진행되고 있음
하지만 poster등과 같은 layout design을 하기 위해서는 image composition도 매우 중요함

$\to$ Image composition을 고려하여 user-constrain을 만족하는 latyout generation을 수행해보자!
- 용어 정리
  - Images: Layout이 없는 background에 들어갈 순수 이미지
  - Posters: Layout이 있는 이미지+layout

2. Contribution

Visual-Textural poster용 composition-aware graphic layout을 생성하는 CGL-GAN을 제안함
- Domain Alignment Module (DAM)을 사용하여 image-poster-annotation pair없이 poster-annotation pair만 가지고 학습할 수 있게됨. 이를 위해 두 pretrained net을 활용하여 Image를 생성
  - Pretrained SalNet (Salient Detection Net)
  - Pretrained InpNet (Inpainting Net)
- Large layout dataset을 제안함 (Poster, human labeled)
- Image-composition-aware layout generation 문제를 해결하여 제안한 데이터셋에서 SOTA를 달성

3. CGL-GAN

3.1. Dataset

e-commerce platform에서 광고용 poster를 crawling하여 Human annotated dataset을 생성함
Train: 60,548장의 poster-layout pair
Test: 1,000 pure images
Layout annotation : c$_i$ (category), b$_i$ (bounding box)로 라벨링 수행

3.2. Composition-aware Graphic Layout GAN

overall diagram
- Domain Alignment Module: Train (poster) / Test (image)간의 간극을 줄여주기 위해 image-composition을 생성하는 모듈
- Composition-aware Layout Generator: composition image를 기반으로 user constrained과 cross-attention을 수행하여 layout을 generation
- Composition-aware Layout Discriminator : Image와 layout이 matching이 positive한지 negative한지 binary classification 수행.

Domain Alignment Module (DAM)

학습할 때는 Poster를 입력받고, 검증할 때는 Image를 입력받기 때문에, 두 domain 간의 gap이 발생 $\to$ Domain alignment를 수행
InpNet (Inpaintint Network)
- 학습 시, Layout GT를 기반으로 masking된 poster를 입력받아 (pure) image를 생성
SalNet (Salience detection Network)
- 학습 시, image에 대해 binary salient mask를 생성하여 뒷단 (generator)에서 image를 잘 이해하도록 salient 정보를 제공하는 역할
추론 시에는 image만 입력받아 salience map과 concat하여 generator에 제공

Composition-aware Layout Generation

CNN : multi-scale feature를 이미지에서 추출 (Non-autoregressive)
- FPN구조이며, single feature에서 개별적으로 layout을 생성하지 않고, concat하여 한번에 예측
transformer: layout generating rule을 implicit하게 학습 (w/ user constrain)
FC layer: Layout의 class, bounding box 예측 수행
Loss : DETR에서 영감을 받아 Optimal Transport기반 Bipartite matching기반으로 layout reconstruction loss로 학습
- Dynamic layout 갯수를 고려하여 non-objects도 별도로 출력

Composition-aware Layout Discriminator

Generator와 유사한 구조
Task가 generator보다 쉽기 때문에 encoder / decoder의 갯수를 줄이고 (8 $\to$ 4), backbone도 줄임 (Res50 $\to$ Res18)
Loss: Hinge Loss
- Image와 layout (user constrained + G.T. or predicted layout)이 matching pair이면 positive, 아니면 negative

4. Experiments

Metrics

기존 메트릭은 graphic relation만 고려하는 메트릭이기 때문에, visual balance of poster, overlap of elements, product presentation등을 고려하기 위해 새로운 메트릭을 제안함
- User study : Human이 위 사항을 고려하여 점수를 메김
  - $P_{best}$: 개별 layout 중 제일 좋은 layout으로 선택되었는지 안되었는지 체크
  - $P_{qs}$: 개별 layout이 eligible한지 안한지 체크
- Composition-relevanct measures :Content-relevant 한 layout인지 아닌지 체크
  - Readability and visual balance $R_{com}$: designer들이 flat region에 text-only element들을 place하는 현상을 발견함. 이를 기반으로 text-only element가 놓인 위치에서 sobel을 적용해 gradient값이 낮은지 체크
    - (뇌피셜) text-only element가 놓인 영역은 edge (색, 모양이 급히 변하는 것)이 없는 곳이라는 가정
  - Presentation of subjects $R_{sub}, R_{shm}$: 매력적인 포스터는 해당 product를 highlight해야함.
    - $R_{sub}$: clip기반으로 해당 category tag에 대한 attention map을 생성하여 layout region에 속하는 attention value를 sum을 취함
      - (뇌피셜) 해당 product 사진 영역과 layout이 겹치지 않기에, layout의 attention value가 낮아야 한다고 생각하는 듯
    - $R_{shm}$: Layout 유/무에 따른 salient image를 VGG16에 입력하여 출력된 output logit의 $L_2$ distance를 메김.
    - (뇌피셜) 해당 product 사진 영역과 layout이 겹치지 않기에, layout의 attention value가 낮아야 한다고 생각하는 듯

Results

Qualitative Result
Quantitative Result with content-aware SOTA
Quantitative Result with content-agnostic SOTA
Ablation study
- DAM의 출력값에 따른 성능 비교
- Generator design에 따른 성능 비교 (vs. CGD)
  - Ours가 content에 따라 다른 layout을 생성함
  - User constrain에 따른 layout generation