2 minute read

[VI-Re-ID] FMCNet: Feature-Level Modality Compensation for Visible-Infrared Person Re-Identification

  • paper: https://openaccess.thecvf.com/content/CVPR2022/papers/Zhang_FMCNet_Feature-Level_Modality_Compensation_for_Visible-Infrared_Person_Re-Identification_CVPR_2022_paper.pdf
  • github: X
  • CVPR 2022 accepted (인용수: 96회, ‘24-03-05 기준)
  • downstream task: Visible-Infrared Person Re-ID

1. Motivation

  • 기존의 VI-ReID 방식들은 Image를 기반으로 missing modality를 생성하였음 $\to$ RGB & IR의 이미지 domain discrepancy가 커서, 생성된 이미지는 iterfering information을 발생하곤 함 (ex. color-inconsistency, etc)

  • 다른 방식은, Visible-Infrared domain간의 shared feature만 학습하여 Person-ReID에 사용하곤 함 $\to$ 해당 modality specific feature를 버리게 되므로 성능이 하락함

  • Semantic meaning을 포함한 feature-level에서 missing modality information을 생성하는 것은 어떨까?

    $\to$ RGB&IR을 함께 사용하여, 부족한 IR domain의 정보를 RGB로부터 추출할 수 있을까?

2. Contribution

  • Feature-level modality specific information을 Compensation하는 FMCNet을 제안함
  • End-to-end framework로 세 가지 module을 제안함
    • unimodal feature decomposition : modality-specific, modality-shared feature를 분리
    • modality-specific feature를 compensation함 (generation을 통해서)
    • feature fusion for re-id
  • VI-ReID에서 SOTA를 찍음

3. FMCNet : Feature-level Modality Compensation Network

  • Overall Architecture

    • Single-modality Feature Decomposition (SFD) Module : modality-specific, modality-shared feature를 분리
    • Feature-level Modality Compensation (FMC) Module: modality-shared feature를 사용해서 modality-specific feature를 생성 (V2I, I2V)
    • Shared-specific Feature Fusion (SFF) Module: modality shared, modality-specific, generated-modality specific feature를 활용해서 Re-ID

3.1 SFD Module

  • Network

    • feature

      • $E_{sp}^V$: Visible-specific encoder
      • $E_{sp}^I$: Infrared-specific encoder
      • F$_V$: Visible feature
      • $E_{sh}$: modality-shared encoder
    • output

      • $S_{sp,V}$: visible-specific identity score
      • $S_{sh,V}$: visible-shared identity score
  • Modality Decomposition Loss (MD Loss)

    • Unimodal (visible or infrared) data에서 shared / specific feature 를 분리하는 모듈

      • $C_{sp,m}^p$ : p번째 identity가 갖는 modality-specific feature (m: infrared or visible)
      • $C_{sh,m}^p$ : p번째 identity가 갖는 modality-shared feature (m: infrared or visible)
      • K: p번째 identity의 sample 갯수

      • Modality shared feature: Modality간 (Visible/Infrared)의 같은 사람 (identity)에 대해 같은 feature로 mapping되도록 유도학습된 feature ($E_{sh}$의 출력)

        • $L_{shs}$: modality-shared feature separation loss

          $\to$ 위 그림에서 $l_4$는 가까워지고, $l_3$이 멀어지도록 학습

      • Modality specific feature: Modality간 (Visible/Infrared)의 다른 사람 (identity)에 대해 멀어지도록 유도학습된 feature ($E_{sp}^V, E_{sp}^I$의 출력)

        • $L_{sps}$: modality-specific feature separation loss

          $\to$ 위 그림에서 $l_1$이 멀어지도록 학습

      • Decorrelation loss : 다른 identity에 대해 modality-specific feature간의 maximum 거리가 다른 identity에 대해 modality specific feature와 modality shared feature의 minimum 거리보다 가깝도록 학습을 유도하는 Loss $\to$ modality-specific, modality-shared feature간의 decorrelation이 목적

      • MD Loss

  • Identity Classification Loss

    • Person identity를 분류하는 Loss

      • $Y_I, Y_V$: Infrared, Visible image가 어떤 identity(어떤 사람)인지 해당 id의 정답

  • SFD Loss

  • MD Loss 적용 전/후 비교

    • (a) modality shared / specific feature가 뒤섞여 있는데 반해
    • (b) modality shared / specific feature가 분리되어 있음

3.2 FMC Module

  • SFD Module에서 unimodality 내에 modality-shared / specific feature로 분리한 것을 활용함

  • Input : modality-shared feature

  • Output: (missing) modality-specific feature

  • How? Adversarial Training

    • Generator

      • Missing specific feature가 Infrared 일 경우, $G_{V-I}$가 visible shared feature (F${sh,V}$)를 활용해서 F$’{sp,I}$를 생성
      • Vice versa로 $G_{I-V}$는 Missing specific feature가 Visible일경우 F$’_{sp,V}$를 생성함
      • 3-MLP layer로 구성
    • Discriminator

      • 1-MLP + Sigmoid로 구성
    • Adversarial Loss

    • Feature consistency Loss

      • generated specific feature가 해당 modality의 specific feature centroid와 가까워지도록 학습

    • Identity Consistency Loss

      • generated specific feature로 identity classification loss를 계산

3.3 SFF Module

  • modality specific / shared feature와 generated specific feature를 사용하여 person-reid를 수행

  • specific fusion feature

    • $w_1, w_2$ : learnable parameter
    • F${sp,V}$, F$’{sp,V}$: modality specific feature, generated modality specific feature for Visible
    • F$_{fu,V}$: fused modality specific feature for Visible
  • final fusion feature

  • Identity classification Loss

    • 위의 final fusion feature를 identity classifier $P_{fp}$에 통과시켜 학습
  • 최종적으로 사용하는 Loss

4. Experiments

  • Compared to SOTA

  • Ablation

    • Module에 따른 ablation

    • MD Loss ablation

  • Loss ablation

Updated: