Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
[MM] Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
- paper: https://arxiv.org/pdf/2403.16999
 - github: https://github.com/deepcs233/Visual-CoT
 - NeurIPS 2024 accepted (SpotLight) (인용수: 0회, ‘24-11-18 기준)
 - downstream task: OCR, VQA
 
1. Motivation
- 
    
Chain-of-Though reasonoing은 LLM에서 이점을 보이나, MLLM에 적용한 연구는 드물었음
 - 
    
인간의 시각적 이해와 비슷하게, 협소한 영역에 집중하며, MLLM을 black-box가 아닌, 해석 가능한 수단으로 만들 고 싶음.
$\to$ Multi-turn & Dynamic focused visual 입력을 주어 해결해보자!

 
2. Contribution
- Visual CoT dataset 438K를 공개함
    
- VQA, detailed reasoning step 추가 (98K)
 - 5개의 domain (차트 / 문서 / 일반 VQA / 세밀한 이해 / 관계 이해)
 
 - 새로운 multi-turn processing pipeline을 제안함
 - Visual Chain-of-Toughts benchmark을 제안함
    
- 답을 하기 위해 작은 영역을 봐야 하는 경우가 많음 (캔버스 크기 대비 1%보다 작음, 247.8$^2$ pixel)
 
 
3. Visual CoT
- 
    
Dataset: 데이터셋 생성을 위해 chatGPT(언어) / PaddleOCR(시각) 사용
- 
        
구성

- Text/doc: OCR 및 맥락 이해
 - Finegrained Understanding: ex. 새의 부분 라벨링
 - General VQA: 일반적 능력 향상
 - Charts: 고해상도 이미지가 특징. OCR 적용하여 정답 영역을 인지하고 CoT bbox 생성
 - Relation Reasoning: 이미지 내 물체간의 공간적 관계가 복잡함. scene graph of objects를 구성함 (GQA)
 
 - 
        
Reasoning step 예시

 - 
        
데이터 분석

 
 - 
        
 - 
    
VisCoT
- 학습 중에는 CoT bbox로 ground truth를 사용
 

- 
        
Visual Sampler
- 
            
Vision Encoder와 동일
 - 
            
crop하는 공식

- $res_{half}$: 224 $\to$ 112, 336 $\to$ 168
 - 영역이 이미지를 벗어나는 경우엔 이미지 중심으로 이동후 crop
 
 
 - 
            
 
 - 
    
학습
- 
        
pretraining: LLM & vision encoder는 freeze하고 projector만 학습 (32 Hours@A100)
- Table 2. 참고
 
 - 
        
finetuning: 전체 학습 (512 Hours@A100)

 
 - 
        
 
4. Experiments
- 
    
Visual CoT benchmark

 - 
    
Ablation study
- 
        
CoT 유/무

 - 
        
Visual sampler: crop을 어떻게 할 건가에 따른 성능 비교

 - 
        
Token Efficiency
- 
            
2번 inference함에 따라 resolution을 4배 줄여도 기존보다 좋은지 체크

 
 - 
            
 
 - 
        
 - 
    
정성정 결과
