[MM] InternVL-2.5-MPO: Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization
[MM] InternVL-2.5-MPO: Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization
- paper: https://arxiv.org/pdf/2411.10442
- github: https://github.com/OpenGVLab/InternVL/tree/main
- Archived (인용수: 4회, ‘25-01-15 기준)
- downstream task: VQA
1. Motivation
-
Chaint-of-Thoung (CoT) 기반의 “Reasoning”이 Direct Answer에 비해 모든 opensource MLLM에서 성능 하락을 야기함 $\to$ 이는 Train & Inference의 distribution shift 때문
-
Distribution Shift?
-
MLLM의 STF (Supervised Fine Tuning) 방식은 GT token이 주어지고, Next Token을 예측하는 방식임 (teacher forcing)
-
반면, inference는 이전 step의 “prediction”된 token을 입력받아 Next Token을 예측하는 방식임
$\to$ Simple한 answer만 예측하는 “Direct Answer” 방식이 더 많은 token을 생성해야 하는 CoT방식보다 더 우수함
-
-
-
Reasoning의 문제를 해결하기 위해 필요한 RLHF (Reinforcement Learning with Human Feedback) benchmark를 annotation하는 cost가 많이 발생해 해결하지 못하는 상황
$\to$ 이를 저렴한 cost로 annotation하는 방법은 없을까?
2. Contribution
-
자동으로 Preference data를 취득하는 data construction pipeline과, 이를 통해 고품질 대용량 preference benchmark인 MMPR을 제안함
-
DropoutNTP
-
50%의 token을 truncate하고, 나머지 절반 (50%)를 이미지 없이 생성하여 negative sample (rejected sample)을 생성
-
-
Correctness-based pipeline
-
Clear GT가 있는 경우, GT와 matching된 prediction 결과를 “chosen”, matching되지 않은 prediction 결과를 “rejected”로 두고 Preference Optimization
-
-
MMPR (3M set)
-
-
SFT loss와 더불어 다양한 Preference Optimization (PO) loss를 혼합한 MPO (Mixed Preference Optimization)을 제안함
-
SOTA를 보임
3. InterVL-2.5-MPO
3.1 Scalable Multimodal Preference Dataset Generation
-
정의
-
image I
-
instruction x
-
chosen response $y_c$
-
rejected response $y_r$
-
Initial model $M_o$
- y: MPO이전 model의 prediction response
-
-
DropNTP (Next Token Prediction)
-
$\tilde{y}$: j번째 token 이후로 이미지 없이 생성한 text token
-
Ablation study 결과 50%로 주는게 제일 좋음
- 너무 많이 제거 (25%)하면? 너무 많이 틀린 negative sample이 생겨서, preference optimization하기에 불충분 (easy-negative)
- 너무 많이 살려(75%)두면? 정답과 거의 유사해서 positive에 가까우므로 오히려 정답을 오답으로 학습하게되어 성능이 안좋음
- 적당히 제거(50%)하면? Hard-negative response가 알맞게 생성되어 Preference Optimization이 가능해짐
-
이전 방법들과 효율성 비교
- 이전 (RLAIF-V)방식은 평균 992.7 token이 preference token pair 생성에 필요했음
- 우리 것은 571.2 token만으로 되므로 약 57.5% 효과적임
-
3.2 Multimodal Preference Dataset
- Statistics
- clear ground truth: 2.5M
- No clear ground truth: 750K
- Correctness-based pipeline에서 기존의 질문은 사용하지 않음 $\to$ 틀린 CoT 오답 (prediction)이 학습성능에 악영향 끼치게 되므로
3.3 Improved MLLM with PO
-
SFT + MPO (Mixed Preference Optimization)이 제일 좋은 성능
-
MPO
-
Relative Preference b/w pairs of response $L_p$
-
목적: Chosen/Rejected sample간의 상대적인 score를 크게 벌려놓겠다. (일종의 contrastive learning)
-
Chosen / Rejected pair간의 KL Divergence 를 loss로 구현 (DPO와 동일)
- $\pi_{\theta}$: PO로 optimize되고 있는 MLLM
- $\pi_0$: PO로 otimize되지 않은 freezed MLLM
-
-
Absolute Quality of individual response $L_q$
-
목적: 각 response별 절대적인 quality를 측정하여 loss에 반영하겠다.
-
학습된 Binary classifier의 score가 reward로 사용 (chosen: 1, rejected: 0)
- $\delta$: 이전 reward의 moving average score. 목적은 stablize training
-
Generated Response (NTP) $L_g$
-
-
Chain-of-Thought 구조: 아래 3개를 reasoning에 포함하도록 instruction set을 구축
- Background Konwledge CoT
- Visual Content CoT
- Grounded CoT
4. Experiments
-
정량적 결과
-
Ablation study
-
SFT vs. MPO
- SFT: SFT ($L_g$)만으로 학습한 모델. Direct방식보다 CoT방식이 오히려 성과가 안좋음
- MPO: Direct방식보다 CoT방식이 모든 면에서 좋음 $\to$ SFT+PO 방식이 제일 좋다
-
기존 Rejection set (RLAIF-V) vs. MPO의 Rejection set (DropoutNTP) 생성방법에 따른 비교
-
다양한 PO+SFT 방식별 CoT vs. Direct 성능비교
-
SFT dataset scale / hyperparameters에 따른 성능 비교
-
-
Text-onle dataset 성능에서도 좋다.