JooYoung Jang

AI Research Scientist

[UDA][GM][OD] BlenDA: DOMAIN ADAPTIVE OBJECT DETECTION THROUGH DIFFUSION-BASED BLENDING

1 minute read

[UDA][GM][OD] BlenDA: DOMAIN ADAPTIVE OBJECT DETECTION THROUGH DIFFUSION-BASED BLENDING

paper: https://arxiv.org/pdf/2401.09921.pdf
github: x
archived. (인용수: 0회, ‘24-01-21 기준)
downstream task: UDA for OD

1. Motivation

Off-the-Shelf text-to-Image Foundataion 모델을 사용하여 domain adaptation for OD 성능을 높여보고 싶다.

2. Contribution

Off-the-Shelf pretrained text-to-Image model (InstructPix2Pix)이 출력한 Intermediate image를 활용하여 soft domain label로 adversarial learning을 수행하는 BlenDA를 제안함
- Intermidate domain : Source domain과 Translated domain (Target-like domain)을 mixed한 domain.

3. BlenDA

Overall Diagram
- baseline: AQT (Adversarial Query Transformer)
- Blended domain Image를 활용함으로써 Source domain과 Target domain 간의 간극을 줄여주는 bridge 역할을 수행함
  - Blended domain Image를 source image처럼 superivsed learning을 수행함
3.1. Intermediate Domain
- Translated image를 학습에 활용하게 되면, forground 객체가 잘 안보일 수가 있으므로, 두 domain간의 비율을 조정해준다.
  - Mixed-domain Adversarial Loss
    - $l$: spatial, channel, instance
    - $\tilde{d}$: domain soft label $\tilde{d}=\delta$
      - domain-soft label을 사용하여 학습함으로써 다양한 (intermediate) domain을 분류하도록 discriminator를 학습함으로써 domain 간의 분류 성능을 향상시킬 수 있음
    - Dynamic weighting of Intermediate Domain (Blended)
      - $\delta$: 생성된 이미지와 source 이미지간의 비율 (1에 가까울수록 생성된 이미지만 사용.)
    - source, target blending image 를 target domain 대신 사용 $\to$ soft-domain-label을 가지고 adversarial traning
Total Loss
Optimization of DETR

4. Experiments

Cityscapes2Foggy
- text prompt : “Add some Fog”
Cityscapes2BDD
- text prompt: “Driving scene at night”
Ablation Study
- $\delta$, With and W/O Mixed-domain Adversarial Loss

Share on

Twitter Facebook LinkedIn

You may also enjoy

1 minute read

[Agent] Magma: A Foundation Model for Multimodal AI Agents

3 minute read

[Agent] Magma: A Foundation Model for Multimodal AI Agents

[Agent] Mind2Web: Towards a Generalist Agent for the Web

2 minute read

[Agent] Mind2Web: Towards a Generalist Agent for the Web

[Agent] WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents

3 minute read

[Agent] WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents