[UDA][MM][CLS] AD-CLIP: Adapting Domains in Prompt Space Using CLIP
[UDA][MM][CLS] AD-CLIP: Adapting Domains in Prompt Space Using CLIP
- paper: https://arxiv.org/pdf/2308.05659.pdf
- github: x
- ICCV 2023 Workshop accepted (인용수: 4회, ‘24-01-03기준)
- downstream task: UDA for CLS
1. Motivation
- 
    vision backbone만 사용하는 Domain Adaptation(DA)은 semantic richness가 부족하다. 
- 
    vision-language foundation model인 CLIP의 effectiveness가 DA 적용하는 연구가 부족했다. $\to$ Foundation model 을 활용해서 CLIP의 prompt learning 기반으로 DA를 해보자! 
2. Contribution
- 
    prompt learning 기반의 domain-agnostic prompt learning startegy인 AD-CLIP을 제안함 - 
        text prompt = domain token + Image-specific token + Class label   - domain token : multi scale CLIP’s image encoder 출력의 평균과 분산으로 domain style을 정의하고, source domain style과 style projector의 출력 결과가 같아지도록 style projector를 학습
- image-specific token : multi scale CLIP’s image encoder의 출력을 한번 더 추상화하기 위해 content projector를 통과함
- class label token : class label
 
- 
        prompt와 함께 learnable projector network 기반으로 entropy minimization기반의 domain alignment를 사용함 
- 
        domain의 style을 source와 target간에 같아지도록하는 style-mapping loss를 사용 $\to$ domain-agnostic token 
 
- 
        
- 
    DA benchmark에서 SOTA  
3. AD-CLIP
- 
    overall diagram  
- 
    목적: domain-agnostic & (classwise) discriminative한 domain-aglined semantic embedding space를 학습하고자 함 - 
        discriminative: - 
            text-prompt를 prototype로 바라보고, source image embedding과 target image embedding vector를 각각의 text-prompt와의 유사도를 통해 계산한 similarity-based prediction을 구하여 supervised-contrastic learning과 entropy minimization loss를 기반으로 학습함으로써 달성함  - source : supervised contrastic loss
 
 
- 
            
- 
        domain-aligned: - 
            (prompt space) alignment loss : text-prompt를 prototype로 바라보고, target image embedding vector에 대해서는 entropy minimization loss 기반으로 학습을 수행 (em : entropy minimization loss) $\to$ source와 text prompt와 aliign 된 target text prompt를 prototype로 당기게 학습함으로 align이 됨  
- 
            source mapping network loss : prompt space에 대해 source와 target의 text-prompt간의 style를 mapping하고자 source style-mapping network $p_v$의 출력 $D_s$와 target style-mapping network $f_{smn}$의 출력간의 L2 loss를 가지고 학습  
- 
            뿐만 아니라, learnable text prompt에 대해서도 source와 target을 KLD로 align 시킴 
 
- 
            
- 
        total loss  
 
- 
        
4. Experiments
- 
    Office Home result  
- 
    VisDA2017  
- 
    Mini-DomainNet  
- 
    Ablation Study  
- 
    Ablation for Image Length (L)  
- 
    Ablation for number of multi-scale features  
- 
    Computational Cost vs. SOTA 