1 minute read

[TTA][CLS] SoTTA: Robust Test-Time Adaptation on Noisy Data Streams

  • paper: https://arxiv.org/pdf/2310.10074.pdf
  • github: https://github.com/taeckyung/SoTTA
  • downstream task: TTA for CLS
  • NeurIPS 2023 accpeted (인용수:0회, ‘23.12.12 기준)

1. Contribution

  • noisy label이 있다 가정하여 현실에 적합한 TTA 셋팅을 제안하고, 기존 SOTA TTA는 이에 적응하지 못함을 발견

  • noisy image가 있는 상황에서도 강인한 Screening-Out TTA (SoTTA)를 제안함

    • Noise를 4가지로 정의함

      • Near : domain이 다른 데이터 (ex. ImageNet vs. CiFAR-100)지만, 유사한 semantic을 지닌 데이터
      • Far : 완전 다른 데이터 (ex. CiFAR-100 vs. MNist)
      • Adversairal Attack : model이 헷갈리도록 attack한 데이터
      • Noise : white noise
    • 2가지 방식으로 구성됨

      • Input-wise : High-confident sample을 memory bank에 저장함
      • Parameter-wise : entropy sharpness minimization을 기반으로하여 sharp minima에 빠지는 것을 방지함
  • SoTTA가 기존 noisy dataset에서 우수함을 보임

2. SoTTA

  • Overview

2.1 Input-wise robustness via high-confidence uniform-class sampling

  • noisy sample에 대해서 confidence가 benign (original clean image)에 비해 낮다는 특징을 관찰함

  • 또한, noisy sample에 대해서는 attack case를 제외하고는 label distribution이 skewed되는 현상을 발견함

  • uniform하게 clean한 데이터에 대해서만 adaptation을 수행하고자 HUS (High-confidence Uniform class Sampling)을 제안함

    • $M$: Memory bank

    • $C(x, \theta)$: class score

    • $C_0$: conifdence threshold

  • 기존 TTA 방식 차용

    • BN affine parameter만 업데이트

    • EMA로 $\mu, \sigma$ 업데이트

2.2 Parameter-wise robustness via entropy-sharpness minimization

  • 그럼에도 불구하고, 모델이 noisy sample로 학습될 수 있음

  • 위 현상에 대해 robust하고자, entropy-sharpness minimzation을 도입함

    • (a)는 noisy sample을 학습에 활용함에 따라 over-fitting되어 gradient norm은 줄어드나, accuracy가 감소함

    • (b)는 noisy sample을 학습함에도 entropy-sharpness minimization을 통해 sharp한 minima에 빠지지 않음으로써 robust 하게 학습함

    • ESM (Entropy-Sharpness Minimization) Loss

      • $\rho$: model parameter perturbation. hyperparameter
    • Gradient of ESM : Tayler series 1차로 approximation.

    • Dual Norm 문제로 approximate

      • $p+q=1$

3. Experiment

  • CiFAR10-C

  • CiFAR-100C & ImageNet-C

  • Ablation Studies

  • Noisy data 수에 따른 성능 변화

Updated: