Geine1

2 minute read

[World Model] Genie: Generative Interactive Environments

Genie 3: 실시간으로 탐색할 수 있는 역동적인 세계 만들기
기존에 (Genie 1 당시에) World Model들은 Frame-level / Video-level로 controllable한 video를 생성하기 위해서는 video + action / video + text pair가 있어야 했음

$\to$ Internet video만 단독으로 사용하여 unsupervised training을 통해 frame-level로 controllable한 video를 만들어보자!

ST-transformer architecture를 도입 $\to$ frame 수에 따라 제곱에 비례하는 기존 transformers 구조에 비해, 선형으로 증가함 $\to$ 메모리 효율성 증대
- Spatial attention : $ 1 \times H \times W$
- Temporal attention : $T \times 1 \times 1$

300M parameters / patch-size 16 / codebook embedding 32 / 8 unique codebooks

vocabulary size

=8개의 VQ codebook으로 구성된 VQ-VAE로 학습

사람의 playability (up

right

left

down

jump

no-op

etc..)

Decoder는 previous frames ($x_{1:t}$)와 latent action $a_t$만 보고 next frame $x_{t+1}$을 예측해야 하므로, latent action $a_t$는 next frame로 변환하기 위해 유의미한 정보를 저장하도록 훈련됨

마찬가지로 VQ-VAE + ST-Transformer구조 $\to$ frame수에 linear하게 computation이 증가하므로, 메모리 효율이 좋음 (vs. ST-ViViT)
200M parameters / patch-size 4 / codebook embedding 32 / 1024 unique codebooks
- input
  - input frames $x_{1:T}$
- output
  - descrete encoding $z_{1:T}$

overview
input
- prompt로 사용할 single frame image $x_1$
- user의 action $a_1$
  - VQ codebook의 index가 각각 어떤 action을 의미하는지는 처음에는 user가 모르므로, next frame을 보고 추측하여 알수 있음
  - 일관된 결과를 제공함
output
- video frames

Datasets
- 2D Platformer games (55M 16s video clips / 10 FPS / 160x90 resolutions)
Models
- 11B param.
Metrics
- Frechet Video Distance (FVD)
- PSNR
3D scene understanding
- 멀리있는 물체는 적게 움직이고, vice-versa
정성적 결과
- OOD sample 결과
- Robotic-trained model (2.5B)
Training Agents
- Ginie가 예측한 frame에 대한 action trajectory를 모아서 small dataset을 생성
- policy 모델을 학습
- Upper-bound: 생성한 정답
- Lower-bound: Random action prediction
Ablation Studies
- Model parameter & batch-size scale에 따른 분석
- LAM의 input별 성능 분석
  - input이 pixel일떄 controllability가 우수함 (PSNR)
- Tokenizer architecture별 성능 분석