1 minute read

[GM][OD] DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception

  • paper: https://arxiv.org/pdf/2403.13304
  • github: x
  • CVPR 2024 accpeted (인용수: 4회, ‘24-05-04 기준)
  • downstream task: GM for OD

1. Motivation

  • 기존 연구에서는 Perception model과 generation model을 구별하여 따로 성능 향상을 시켜왔음

    $\to$ Perceptive model의 signal을 통해 generative model간의 synergy를 내는 방향으로 성능 향상을 시켜보자!

2. Contribution

  • Generative model과 perceptive model간의 synergy를 처음으로 제안한 DetDiffusion framework를 제안

    • Generation quality 향상을 위해 segmentation head를 기반한 Perception loss를 추가함

    • Perceptive model의 Trainability 향상을 위해 perceptive attribute 을 제안

  • Layout-guided generation에서 SOTA 뿐만 아니라 다른 object detector에서도 boosting

3. DetDiffusion

  • overall diagram

    • pretrained object detector의 perceptive attribute를 generation model 학습에 활용함으로써, perceptive model과 generation model간의 align을 효율적으로 할 수 있게 됨
  • Perceptive-aware attribute

    • probability score가 $\gamma$ threshold를 넘는 confident bbox를 기준으로 G.T. box와 IoU threshold $\beta$를 넘는 bbox를 easy, 그렇지 않은 것들을 hard로 분류

      • $d_i$: i번째 predicted bbox의 perceptive attribute [hard or easy]
  • Perceptive-aware attribute as prompt token

    • “An Image with {objects}”의 objects는 다음과 같이 구성

      • m: m개의 g.t. box
      • $c, l, d$: class attribute, bbox attribute (discretized), perceptive attribute
  • Perceptive Loss as supervision

    • 기존 LDM의 VQ-VAE는 freeze하고, text encoder부분을 학습함

    • U-Net의 feature가 class, localization task 수행에 효과적이라는 기존 연구에 착안하여 기존 LDM loss과 함께 multi-feature map에 segmentation head를 붙여 만든 instance mask를 사용하여 perceptive loss를 부여

      • Multi-Feature

      • Perceptive Loss

        • $\bar{\alpha}$: DDPM의 time-step별 가중치. Noise가 작은 time-step에 가중치를 크게 부여하기 위해 사용
      • Total Loss

        • $\lambda$: 0.01 사용

4. Experiments

  • MS-COCO dataset

    • Image에서 object area가 2% 미만 차지하는 이미지는 fitering
  • Fine-tuning

    • VQ-VAE는 freeze
    • text encoder만 학습
    • text prompt의 10%는 null text로 replace해서 unconditional generation 수행
  • DetDiffusion concept

    • origin: hard, easy 모두 사용
    • hard: 모두 hard 적용
    • easy: 모두 easy 적용
  • Fidelity

    • 정성적 분석

    • 정량적 분석

  • Trainability

    • 정량적 분석

    • Learning curve

    • Rare class에서 효과적인지 검증

  • Easy and hard

    • 단순히 easy를 hard로 변경하면, perceptive model이 맞추기 어려운 형태로 (색이 변한다던지, occlusion이 생긴다던지) 변화됨

  • Ablation Study

    • 다른 Detector에도 범용적인가?

    • Perceptive-aware attribute를 다른 Detector에서 사용하면?

      • Optimize는 같은 detector를 사용할것!

Updated: