[DG][SS] Rein: Harnessing Vision Foundation Models

1 minute read

[DG][SS] Rein: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

paper: https://arxiv.org/pdf/2312.04265v3.pdf
github: https://github.com/w1oves/Rein
‘23.12 archived (인용수: 0회, ‘24-02-17 기준)
downstream task: DG for SS

1. Motivation

DiNOv2, SAM, CLIP, EVA02 등 Vision Foundation Model (VFM)이 각종 downstream task에서 좋은 성과를 발휘함
하지만, Domain Generalized Semantic Segmentation (DGSS) downstream task에 대해서는 unexplored.

$\to$ 이 분야로 연구를 해보자!

2. Contribution

Stronger: VFM을 frozen시키고 decoder (SAM)을 붙이는 것만으로도 previous backbone들에 비해 우월한 성능 향상을 보임을 확인
Fewer: learnable-parameter token을 가지고, 각 token이 object와 link되게끔 backbone feature을 refine함으로써 적은 학습 가능한 parameter만 가지고, pretrained knowledge을 보존하는 Rein이라는 학습 기법을 제아함
Superior: DGSS downstream task에서 SOTA

3. Rein

Overall Digram
Core Concept
- MLP layer ($L_1, .. , L_i$)의 weight는 건들지 않고, 출력되는 feature map을 refine하는 것
  - $\Delta f_N$: N번째 Rein에 의해 출력된 feature-map의 변화량
  - $\Delta f_i$: i번째 Rein에 의해 출력된 feature-map의 변화량
  - Embed: Image 를 image token으로 바꾸는 Tokenizer
  - n, c: patch의 갯수, token의 dimension
- Adapting difference of dataset (ImageNet vs. Cityscapes) + difference of task (Classification vs. Semantic Segmentation)을 위해 Learnable Token을 사용
- Token과 feature map간의 attention-map을 만듦
  - $T_i, f_i, S_i$: i번째 layer의 token, feature map, similarity map
  - c: token dimension
- Refined feature : 해당 token이 attention 하고자 하는 부분이 없을 수 도 있으므로, 이를 고려하고자 1st column은 제외한 채로 refined feature를 생성
Mapping tokens to instances
- DETR의 query에서 영감을 받아 learnable query를 token으로 생성하고자 함
  - $Q_i, T_i, W_{Q_i}, b_{Q_i}$: i번째 layer의 query, token, weight, and bias
- 매 layer마다 query를 만들면 계산량이 많아지므로, token들의 평균, max, 그리고 마지막 layer 값만 사용
Shared weights for MLP
- token to embedding space로 linear transform하는 MLP를 모든 layer마다 shared하여 학습할 parameter의 수를 줄임
Low rank token sequence
- redundunt한 정보를 학습하는 특성을 고려하여 Token의 dimension (c)에 비해 적은 rank r의 두 metric 곱으로 token을 설계함
  - ex. bicycle의 head-light vs. car의 head-light
Overall Loss
- $\Phi_M$: VFM의 frozen parameter
- $\theta_R$: Decoder head의 parameter
- $\theta_r$: Rein의 learnable tokens
- F: forward process of VFM using Rein
- $N_d$: Dataset의 전체 이미지 수

4. Experiments

Multiple backbone별 Synthetic to Real 성능 비교
SOTA PEFT (Parameter-Efficient Fine Tuning) 와 Synthetic to Real 성능 비교
SOTA DGSS와 성능 비교
- Synthetic to Real
  - Quantitative Result
- Qualtitative Result
Cityscapes 2 BDD100k
Ablation Studies
m length에 따른 ablation
LoRA dimension r에 따른 ablation
Training Time & GPU memory & Storage