JooYoung Jang

AI Research Scientist

[LG] LayoutTransformer: Layout Generation and Completion with Self-attention

1 minute read

[LG] LayoutTransformer: Layout Generation and Completion with Self-attention

paper: https://arxiv.org/pdf/2006.14615
github: https://github.com/kampta/DeepLayout
ICCV 2021 accepted (인용수: 115회, ‘24-05-25 기준)
downstream task: Layout Generation

1. Motivation

원시단계의 element가 주어졌을 때, 요소간의 관계를 모델링하여 layout generation을 하면 좋겠다. $\to$ Transformer를 이용해보자!

2. Contribution

Self-attention 기반으로 이루어져 있어, next category를 예측하는데 중요한 부분이 무엇이었는지 쉽게 visualize할 수 있는 Auto-Regresstive 모델 LayoutTransformer를 제안함
중요한 attribute에 집중적으로 attention할 수 있게 하여 내재적인 대칭구조가 많은 document 나 app 개발 등에 중요한 기능을 수행할 수 있게 설계하기 위해 Layout element의 서로 다른 attributes를 개별적으로 모델링하였음
Layout generation task를 학습했을때 학습된 feature가 object의 semantic relationship을 학습하는 신기한 현상을 발견함
다양한 domain에서 좋은 성능을 나타냄

3. LayoutTransformer

preliminaries
- Layout은 graph로 모델랑하며, layout의 category, geometry (x,y,w,h)를 각각 d-dim으로 embedding하고 모든 layout을 concat하여 표현한다.
- chain rule에 의해 conditional distribution을 구하는 task로 정의할 수 있다.
overall diagram
- input sequence: 초기 K개의 주어진 layout (primitives)들로 random permutation으로 구성됨.
  - 총 attributes는 d-dimension의 로 구성
- 모델 구조는 Transformer구조와 비슷
  - 이전 token들만 attention 수행하도록 masking
- Loss
  - Over confidence를 방지하고자 Cross Entropy대신 KL Divergence를 활용

4. Experiments

3D shape synthesis using PartNet dataset
Natural scene layout generation with MS-coc
- qualitative result
- layout2Img
- Distribution of layout attributes (real vs. generated)
  - person, car등 major class에 경우 biased되어 center값이 real과 다른 경향
- Quantitative result
- T-SNE plot of categorical embeddings
  - 유사 category끼리 clsutering된걸로 보아, layout generation task는 layout간 semantic relation을 학습함을 확인
- Document & App
  - RICO
    - Initial primitive에 따른 complete layout
    - 동일 initial layout에 따른 multiple generated results
    - LayoutVAE vs. Ours
    - Quantitative results

Share on

Twitter Facebook LinkedIn

You may also enjoy

1 minute read

[Agent] PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

4 minute read

[Agent] PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

[Agent] BannerAgency: Advertising Banner Design with Multimodal LLM Agents

3 minute read

[Agent] BannerAgency: Advertising Banner Design with Multimodal LLM Agents

[MM] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

7 minute read

[MM] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning