[AR] VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
[AR] VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
- paper: https://arxiv.org/pdf/2303.16727.pdf
- github: https://github.com/OpenGVLab/VideoMAEv2
- CVPR 2023 accpeted (인용수: 135회, ‘24-04-12 기준)
- downstream task: video action classification, spatial action detection, temporal action detection
1. Motivation
-
10억 (billion) parameter의 Video foundation model을 학습하는 것은 challenging 하다.
-
Efficient 한 video pretraining (VideoMAE)에서는 encoder는 high ratio로 masking하지만, decoder는 여전히 계산량이 많이든다.
$\to$이를 해결할 수 있지 않을까?
2. Contribution
- dual masking: VideoMAE의 decoder 부분에서도 video의 redunduncy를 활용해서 masking을 통한 computational cost를 줄임으로써 성능하락 없이 3배의 학습 속도를 향상시키고, batch size를 키우며, model & data scalability를 향상시켜주는 VideoMAEv2를 제안
- dataset mixing: billion-paramter의 모델을 학습하기 위한 Video data가 부족한 상황에서, 심플하게 multi-source video data를 mixing하는 것이 효율적임을 밝힘
- progressive learning: Image pretraining에서 영감을 얻어, large-scale pretraining dataset과 small-scale finetuning dataset 사이에 multiple labeled dataset으로 intermediate dataset으로 post-pretraining을 거치는 것이 효율적임을 보임
3. VideoMAEv2
-
preliminary : videoMAE
-
Input: video frames
-
autoencoder: ($\Phi_{enc}, \Phi_{dec}$)
-
Cube embedding: $\Phi_{emb}$
- Token embedding:
- token added with positional embedding
- Token embedding:
-
joint space-time attention
-
T$^u$: unmasked tokens
$\to$ model & data를 scale-up했을 때, computation & memory consumption이 bottleneck이 됨
-
-
reconstructed image
-
Loss
-
-
overall diagram
-
Dual masking
-
$\mathbb{M}_e$: tube masking으로 VideoMAE와 동일하게 high-ratio masking
- tube masking: information leakage을 극복하기 위한 masking
-
$\mathbb{M}_d$: running cell masking으로 computation 감소를 위해 information leakage를 만들어 최소한의 정보만 가지고 information complement하는게 목적
- decoder의 visible 영역만 reconstruction 수행
-
Decoder input
- Z: encoder output
- M$_i$: encoder의 안보이는 영역에서 masking된 영역
-
Loss
-
Encoder, Decoder 모두 visible 영역에 대해서만 supervision 수행
-
-
-
-
Scaling
- Model : ViT-g
- 10억개 이상의 parameter가 있는 최초의 video-domain large model
- dataset
- unlabeled hybrid video dataset (1.35M)
- General Webs, Youtube, Instagram, Movies, Manual Recodings 등으로 취득
- labeled hybrid video dataset (0.66M)
- Kinetics-family dataset (K-710)로 구성
- unlabeled hybrid video dataset (1.35M)
- Model : ViT-g
-
Progressive Training
- Direct adaptation보다 post-pretraining step을 통해 gradually fintuning으로 adapt하는게 효과적임
- Labeled hybrid video dataset을 통해 구현
4. Experiments
-
ablation
-
Decoder masking type에 따른 분석
-
Dual masking의 분석
-
Progressive Pretraining 분석
-
Hybrid data에 따른 분석
-
-
Downstream task 결과