[DG][CLS] SPARSE MIXTURE-OF-EXPERTS ARE DOMAIN GENERALIZABLE LEARNERS

1 minute read

1. Motivation

기존에 DG 방법들은 loss fucntion 설계에 집중하였음
본 논문에서는 convolution 계열에 비해 Transformer계열로 단순히 모델 구조를 변경한 것만으로도 최신 DG보다 좋은 성능을 내는 점을 발견함
모델 architecture가 DG에 적합한 domain invarinant한 특성을 추출할 수 있지 않을까?

DG의 새로운 관점 (algorithmic alignment)을 제시: model architecture가 invariant correlation과 align이 잘 되었다면 DG에 적합한 backbone임
- 반대로, spurious correlation과 align된 backgone은 distribution shift에 less robust함
DG의 새로운 모델 (Generalizable Mixture-of-Experts) 을 제시
DG benchmark에서 SOTA

preliminaries
- label y는 multiple attributes (1~k)에 종속되어 generative process와 비슷하게 도출할 수 있다
  - $a^{1:K}$: K개의 attribute
  - z: latent variable
  - x: features
- distribution shift: 서로 다른 marginal distribution을 가지지만, 동일한 conditional generative process를 공유
  - $p_{train,test}$: marginal distribution
  - $p_{train,test}(a^{1:K}, x)$: conditional distribution
Algorithmic alignment
- Model f가 y=g(x) function을 학습하기 위한 target function을 $f_1, …, f_n$로 decompose한다고 했을 때, N개의 module ${N_i}_{i=1}^N$로 구성된 model f의 alignment는 아래처럼 정의된다.
  - Alignment$(N,f,\epsilon, \delta)$: $N_i$모듈이 $f_i$ function을 $\epsilon$의 accuracy와 $\delta$의 failure probability로 replace할 수 있음을 의미한다.
  - n: number of modules for Model

Multi-Source DG result (GMoE with ERM loss)
GMoE with other DG losses
Single Source DG result
Expert selection
- 같은 visual attributes (예: 다른 class의 새 부리, left&right legs)는 같은 expert로 할당됨