2 minute read

[LG][CA] PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout

  • paper: https://arxiv.org/pdf/2303.15937
  • github: https://github.com/PKU-ICST-MIPL/PosterLayout-CVPR2023
  • CVPR 2023 accepted (인용수: 16회, “24-06-21 기준)
  • downstream task: Content-aware Layout Generation

1. Motivation

  • Element간 관계 (inter-element)뿐만 아니라 canvas와 layer간의 관계 (inter-layer)도 파악해야 함

  • 기존엔 layer간의 관계를 파악하지 않아, 중요한 영역을 overlap하는 문제 종종 발생함

    $\to$ content-aware layout generation을 위한 데이터 & 모델을 제안해보자!

2. Contribution

  • Content-aware layout generation을 위한 challenging dataset인 “PKU PosterLayout” dataset을 제안함

    • 9개의 주제 (category) 별로 고른 분포를 갖도록 데이터셋을 구성
      • food/drinks, cosmetics/accessories, electronics/office supplies, toys/instruments, clothing, sports/transportation, groceries, appliances/decor, fresh produce
    • 데이터 뿐만 아니라 새로운 검증 메트릭 (utilization, non-occlusion, aesthetics, 등)을 제안
  • Human Designer들의 desgin process를 흉내낸 Design Sequence Formation (DSF) 알고리즘을 제안함

    • 중요한 요소들을 우선 배치하고, 덜 중요한 요소들은 후순위 배치하는게 핵심
  • CNN-LSTM기반의 DSF와 연동한 DS-GAN (Design Sequence GAN)을 제안함

    • Design sequence를 학습하여 content-aware layout generation task를 수행 $\to$ SOTA

3. PosterLayout

  • 기존 Content-aware layout dataset은 NDN, ICVT, CGL-GAN이 있었음

    • NDN, ICVT는 publicly available하지 않음
    • CGL-GAN은 데이터셋이 충분하나, single source에서 얻어 diversity가 취약하고, imbalance 비율의 데이터셋으로 이루어졌으며, 10개 element 이하 layout만 다룸
  • PosterLayout dataset

    • 통계 분포

    • 예시

    • 요소
      • Text: 말 그래도 text 요소
      • Logos: 브랜드명, 홍보활동 등 이미지 요소 $\to$ 미리캔버스의 SVG
      • Underlays: overlay 요소 (Text, Logos)를 덧대어 데코레이션하는 역할의 요소 $\to$ 미리캔버스의 투명도 0 초과하는 요소들
    • 라벨링
      • Object Detector를 거치고, Human 검수자를 거쳐 최종 label 생성하여 poster, label pair를 구축
        • poster = 미리대의 skin image
      • poster의 경우, Fourier-convolution-based inpainting 기법을 사용하여 구축
  • DS-GAN overall architecture

    • Generator, Discriminator 모두 CNN+LSTM기반으로 설계

      • CNN+LSTM을 쓰는 이유는 time-series forcasting에 유용하기 때문

      • Generator : 2 FC layer로 fixed length 요소들의 box + category 예측
      • Discriminator: 1 FC layer로 real / fake layout을 분류
    • Loss

      • NLL loss, GIoU loss, Reconstruction loss, L1 loss, adversarial loss (hingle lossㅏ)
  • Design Sequence Formulation (DSF)

    • 가설: Human designer들의 디자인 행동을 모델링하는 것은 content-aware layout generation에 중요하다
    • logo > text > underlay 순으로 design sequence를 생성
      • logo는 좌상단부터 우하단 순서로 sequence 생성
      • text는 area가 넓은순서로 sequence 생성

  • Design sequence 예시

4. Experiments

  • Evaluation Metrics

    • Gaphic Metrics

      • Validity (↑): 전체 요소 중 유효한 요소의 비율. 유효의 기준은 캔버스 이미지 크기 대비 0.1% 이상 area

      • Overlay(↓): Underlay 제외하고 요소간의 overlap되는 IoU의 평균값.

      • Non-Alignment(↓): 요소간의 non-alignment 정도

      • Underlay(↑): Underlay 요소 중 유효한 요소의 비율. 유효의 기준은 underlay 요소가 최소 1개 이상의 다른 요소를 포함할 것

        • Loose: IoU를 기준으로 점수화

          • u: underlay element
          • Inst: 기타 underlay 외 element
        • Strict: 100% 포함할때 만 1, 아니면 0

    • Content-aware Metrics

      • Utility (↑) : Salient하지 않은 영역 중 element가 차지하는 넓이
      • Occlusion (↓): Salient 영역 중 element가 차지하는 넓이
      • Readability(↓): text element가 속한 배경의 non-flatness
  • 정량적 분석

    • SmartText: Saliency-aware region proposal이다 보니, Content-aware Metrics가 좋음 (upper-bound)

      • (b) TextSmart vs. Ours: Textsmart결과가 occlusion, readability가 좋음
      • (c), (d): Salient 영역이 가득한 경우 Textsmart 성능은 급하락.
  • Ablation study

    • CNN-LSTM 유무

    • DSF vs. Random vs. Geometric (좌상단 ~ 우하단)

Updated: