[Chart] Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

2 minute read

1. Motivation

Code-as-Thought가 Chart Understanding에서 Silver-Bullet인가?
- ChartX: High programability 데이터셋으로 구성된 경우, CoT보다 성능이 향상됨
- ChartXiv: Low programmability데이터셋으로 구성된 경우, CoT보다 열등함
$\to$ No!
모델의 능력치의 문제가 아니라 전략을 선택 적용하는 문제임 $\to$ 최적의 전략은 task-dependent함 (Fig.4(c) 참고)

Visual Programmability?
- task(query)에 종속된 속성으로, learnable하며, chart-question pair를 code로 reasoning가능한지 판별함
- chart의 구조적 명료성 (strutural clarity), 시각적 복잡성 (visual complexity), 그리고 본연의 query에 영향을 받음
High vs Low Programmability
- High programmability: (a)
- Low programmability: (b)
- query에 따라 High or Low: (c)
  
  ex. High programmability: “How many distinct data series are plotted?”
  
  ex. Low programmability: “What is the approximate value of the orange line (h/a = 1000) when d = 7?”

$y$: complete response
$I$: Image
$Q$: Query
$s$: selected strategy token $\in {, \}$
- Code based Path (): chart를 parse하기 위한 코드를 작성 (ex. DataFrame)하여 answer를 계산
- Direct Path(): natural language COT기반으로 전반적인 visual perception을 수행.

outcome-based reward를 적용
GRPO
- $\pi_{old}$: previous version policy
- $\pi_{\theta}$: current version policy
- $\pi_{ref}$: sft된 policy
reward
- accuracy reward: 최종 정답과 일치하면 1.0, 아니면 0.0
- decision reward
  - strategy를 올바르게 선택 + 정답이 올바르면 full reward
  - strategy는 올바른데 + 정답이 틀리면 partial reward
  - strategy가 틀리면 0.0
- data accuracy reward
  - Code-path일 경우만 적용하여 hallunication을 해결하고자 도입
  - code로 생성한 DataFrame과 csv ground-truth 정답으로부터 추출한 table의 값을 비교 (row 갯수, column 갯수, value일치여부 종합적으로 평가)
    - 알고리즘
- format reward
  - 정답이 \boxed{} 형태로 출력되면 1.0, 아니면 0.0

Data
- Training
  - CaT: ChartMimic dataset (4.8K)
  - CoT: Gemini-2.5-Flash로 생성한 question-answer pairs
- Evaluation
  - ChartX: high-programmability dataset
  - ChartBench
  - ChartQA
  - CharXiv: low-programmability dataset (과학수업 자료, etc)
Model
- Qwen2.5-VL-7B
정량적 결과
Ablation Study
- Visual Programmability vs. Fixed Strategy
  - 성능 비교
  - Code-as-Thought 사용정도 비교
- 모델 크기별 성능 분석
Reward 별 성능 기여도 분석
- 성능 비교
- Code-as-Thought 사용율
reasoning의 수치적 정확도가 얼마나 중요한지 추가 실험
- 수치 fidelity (정확도) 가 높은 경우, 최종 정답이 맞는 확률이 올라감
- data accuracy reward는 수치 정확도가 낮은 경우를 “unlearn”하도록 함 (결과적으로 (a) 전체 accuracy가 상승하므로.)