Pptarena
[Agent] PPTArena: A Benchmark for Agentic PowerPoint Editing
- paper: https://arxiv.org/pdf/2512.03042
- github: https://github.com/michaelofengend/PPTArena
- archived (인용수: 0회, ‘25-12-22 기준)
- downstream task: PPT Agent benchmark
- Motivation
- Image/PDF 기반의 task는 템플릿(deck)의 semantics(formats, placeholders, shape trees?)을 고려하지 않음 $\to$ 편집기반의 태생적 차이가 from scratch에서 시작하는것과 존재함
- 최신 Multimodal agents가 고품질로 instruction-following & visual quality의 창작물을 생성할 수 있을까?
2. Contribution
- PPT editing을 템플릿 내의 구조적 & 인과관계로 정의한 최초의 benchmark인 PPTArena를 제안함
- 최초의 ppt 템플릿 기반의 benchmark (Target 템플릿별 정답을 제공)
- single/multi edit tasks로 구성됨. (ex. cross-slide consistency, structural grounding, etc) (Error 지시문을 제공)
- element-level의 정답지를 제공 && Dual VLM-as-a-judge 활용
- Instruction Following (IF) checker
- Visual Quality (VQ) checker
- Structure-aware Robust & Fine-grained PPT agent인 PPT-Pillot를 제안함
- Structure-aware?
- 전체 템플릿 내 정보들 (ex. 슬라이드 마스터, placeholder, shape trees, texts, etc)을 파싱하고, 이를 고려하여 계획을 세움
- 대상을 식별하여 instruction (“subtitle을 xxx로 바꿔줘”)을 이해함
- 전체 템플릿 내 정보들 (ex. 슬라이드 마스터, placeholder, shape trees, texts, etc)을 파싱하고, 이를 고려하여 계획을 세움
- Robust?
- 반복적인 plan-edit-refine loop
- Fine-grained?
- dual operations(tools)를 사용 $\to$ user의 instruction에 따라 알맞은 tool이 호출
- high-level APIs (
python-pptx): global한 편집에 적합 (ex. 번역, 일괄 정규화) - direct XML patching: local한 편집에 적합 (ex. font, color, theme color, position)
- high-level APIs (
- dual operations(tools)를 사용 $\to$ user의 instruction에 따라 알맞은 tool이 호출
- Structure-aware?
- 다양한 상용 모델들 & ppt-agent들로 경험적인 실험을 진행함
3. PPTArena
3.1 Benchmark Composition & Difficulty
-
2,125개의 slides에서 추출한 100개의 real-world editing task로 구성
-
15K powerpoint (SlidesCarnival, Zenodo, SlideShare, etc)로부터 pptx파일을 다운
-
structured JSON형태로 layout, styling, content metadata를 추출
-
다양한 유형의 멀티모달 assets (ex. tables, etc)이 있고, 다양한 주제를 커버하도록 수동으로 리뷰

-
단순한 text 수정부터 multi-edit, multimodal reasoning까지 다룸

- multi step reasoning depth
- cross-slide dependecies
- semantic understanding requirements
- Long-horizon planning complexity

3.2 Comparison with Prior Benchmarks

-
human-created + synthetically generated 템플릿으로 구성됨.
-
GT를 제공함
-
cross platform compatibility를 유지해야함

3.3 VLM-as-Judge Evaluation Protocol
- Instruction Following
- agent가 user prompt를 얼마나 논리적으로 따르는지 평가함
- Visual Quality
- 심미적 아름다움을 평가함 (layout, alignment, typography, color harmony, 전반적 visual appeal)
3.3.1 Per-sample Rubric: style target
- PPT는 각각의 개성이 뚜렷해서 일관된 정답을 제공하지 못함 $\to$ sample별 target GT를 제공해야함.
- auto generation + exhaustive human verification(노가다)을 통해 target을 완성함.
3.3.2 Dual-Judge Pipeline for Reliable Evaluation
- Insturction Follwoing Judge
- input: structured data diffs (Json / XML Summaries) b/w original & prediction slides $\to$ Judge가 content level의 차이에 집중하도록 함
- Visual Quality Judge
- input: screenshot image of predicted & GT slides $\to$ 시각적 심미성(style, alignment, layout, etc)를 평가하기 위함
4. An Effective PPT Editing Agent: PPTPilot
-
Dual path Architecture

- Skill Routing
- user instruction, screenshot, content를 고려하여 Direct XML edit/programmic tool중 1개를 선별
- 경량 모델 활용 (ex. GPT-5 nano, Gemini-2.5-flash)
-
Direct XML editing
-
raw OOXML를 기반으로 read/parse/re-write 작업 수행
-
장점: fine-grained 속성 변경 가능
ex. speific position 변경
-
단점: long context & strict format이 precise edit하는데 어려움이 있음
-
-
programmatic tools
-
python-pptxlibrary를 활용-
장점: 전체 slide에 동일한 행위 적용하는데 유리
ex. “find-and-replace”
-
단점: fine-grained 속성 변경에 어려움
-
-
-
Self-correction with Reflection
- output PPT를 instruction기반으로 평가하여 failures에 대해 feeback를 제공함
- 강력학 상용모델 활용 (GPT-5, Gemini 2.5 Pro)
- Skill Routing
5. Experiments
-
Subset Evaluation
- 전체 100개를 평가하는데 비용이 많이 들어 25개만 가지고 간이 평가 (20개: hardest task + 5개 수동 선택 $\to$ 다양성)
-
정량적 결과
-
ChatGPT agent

- 내용 수정, 가벼운 styling adjustment는 잘했으나, visual-text alignment 요구하거나, cross-slide reasoning, 그리고 템플릿 내 구조 제약을 유지하는데 취약
- 단순한
python-pptx기능 이상의 시나리오에서 30분 이상 멈춤
-
-
정성적 결과
-
Failure case

-
-
Ablation Studies

- XML-only:
python-pptxlibrary 미사용 python-pptx-only: XML 수정 불가- Hybrid (no-refinement): 수정과정 없이.
- XML-only: