Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
[MM] Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
- paper: https://arxiv.org/pdf/2403.16999
- github: https://github.com/deepcs233/Visual-CoT
- NeurIPS 2024 accepted (SpotLight) (인용수: 0회, ‘24-11-18 기준)
- downstream task: OCR, VQA
1. Motivation
-
Chain-of-Though reasonoing은 LLM에서 이점을 보이나, MLLM에 적용한 연구는 드물었음
-
인간의 시각적 이해와 비슷하게, 협소한 영역에 집중하며, MLLM을 black-box가 아닌, 해석 가능한 수단으로 만들 고 싶음.
$\to$ Multi-turn & Dynamic focused visual 입력을 주어 해결해보자!
2. Contribution
- Visual CoT dataset 438K를 공개함
- VQA, detailed reasoning step 추가 (98K)
- 5개의 domain (차트 / 문서 / 일반 VQA / 세밀한 이해 / 관계 이해)
- 새로운 multi-turn processing pipeline을 제안함
- Visual Chain-of-Toughts benchmark을 제안함
- 답을 하기 위해 작은 영역을 봐야 하는 경우가 많음 (캔버스 크기 대비 1%보다 작음, 247.8$^2$ pixel)
3. Visual CoT
-
Dataset: 데이터셋 생성을 위해 chatGPT(언어) / PaddleOCR(시각) 사용
-
구성
- Text/doc: OCR 및 맥락 이해
- Finegrained Understanding: ex. 새의 부분 라벨링
- General VQA: 일반적 능력 향상
- Charts: 고해상도 이미지가 특징. OCR 적용하여 정답 영역을 인지하고 CoT bbox 생성
- Relation Reasoning: 이미지 내 물체간의 공간적 관계가 복잡함. scene graph of objects를 구성함 (GQA)
-
Reasoning step 예시
-
데이터 분석
-
-
VisCoT
- 학습 중에는 CoT bbox로 ground truth를 사용
-
Visual Sampler
-
Vision Encoder와 동일
-
crop하는 공식
- $res_{half}$: 224 $\to$ 112, 336 $\to$ 168
- 영역이 이미지를 벗어나는 경우엔 이미지 중심으로 이동후 crop
-
-
학습
-
pretraining: LLM & vision encoder는 freeze하고 projector만 학습 (32 Hours@A100)
- Table 2. 참고
-
finetuning: 전체 학습 (512 Hours@A100)
-
4. Experiments
-
Visual CoT benchmark
-
Ablation study
-
CoT 유/무
-
Visual sampler: crop을 어떻게 할 건가에 따른 성능 비교
-
Token Efficiency
-
2번 inference함에 따라 resolution을 4배 줄여도 기존보다 좋은지 체크
-
-
-
정성정 결과