[Agent] DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

3 minute read

paper: https://arxiv.org/pdf/2510.16872
github: https://github.com/ruc-datalab/DeepAnalyze
archived (인용수: 0회, ‘25-10-23 기준)
downstream task: Deep Research, Data Scientist workflow 자동화 (autonomous data science)

1. Motivation

Raw data sources로부터 분석가 수준의 Deep research report를 자동화하는 “autonomous data science” 분야는 높은 기준으로 인해 도전적인 task이다.
- Data preparation
- analysis
- modeling
- visualization
- report generation
기존에는 domain specific LLM / workflow-based agents로 성능이 많이 향상되었으나, 이는 아래 두 가지 능력에 있어 완전 자동화에 한계가 있고, predefined workflow에 의존적이다.
- autonomous orchestration: 유저의 의도를 이해하고, 상호 종속적인 action sequences를 조율하는 능력
- adaptive optimization: real-world environment과 상호작용하며 action을 반복적으로 수정하는 과정
Search domain에 있어 agentic training에 성공사례 (search-R1, DeepResearcher)가 있음. 이를 Data science에도 적용해보면 어떨까?

$\to$ end-to-end autonomous data science를 수행하기 위한 agentic LLM 를 제안해보자!

Agentic Model: 자동으로 data science task를 수행하는 Trainable agentic model인 DeepAnalyze를 제안함
Agentic Training: 두 가지 해결 과제를 해결하기 위해 새로운 전략을 제안함
- 문제 1. reward sparsity: long-chain (problem-solving) trajectory의 결과로 reward를 주기 때문에, 중간 중간 guidance signal이 부족함 (ORM: Output Reward Model의 전형적 한계) $\to$ 중간 중간 의미있는 supervision없이 불충분한 데이터 기반 trial-and-error exploration을 수행
  - 해결책 1. curriculum-based agentic training paradigm: 인간 data scientist가 분석 능력을 배우는 과정을 motivation으로, 개별 skills (data preparation, data anaysis, data modeling, data visualization, etc)부터 학습하여 점차 open-ended data research까지 순차적으로 학습(easy-to-difficult)하는 패러다임.
- 문제 2. trajectory scarcity: 문제를 해결하는 전 과정 (trajectory) 데이터셋이 매우 부족함
  - 해결 2. data-grounded trajectory synthesis framework를 통해 고품질의 reasoning & 상호작용 trajectory 를 자동으로 수집
Strong performance: 12개의 benchmark에서 8B치고는 매우 훌륭한 결과

단순한 QA task와 다른점: reasoning, structured data understanding, code generation등 개별 task를 통합하는 능력(composite ability)

human data scientist들이 개별 능력을 키우고, 분석능력을 키우듯 Curruculum기반 학습을 수행

Stage 2. Multi-ability Agentic Training

Hybrid Reward Modeling

정답이 주어진 경우, rule-based reward + LLM-as-a-judge reward를 혼합하여 reward를 모델링
- $\mathbb{I}_{acc}$: 0 혹은 1. 최종 결과가 정답인지 여부로 reward
- $S_{interaction}$: 전체 trajectory의 quality에 따라 0~1사이 값 표현. 정확히 어떻게 계산했다고 명시되어 있진 않음

open-ended question의 경우, 최종 report quality를 5가지 축에 따라 LLM-as-a-judge로 점수 부여 후 Reward를 모델링

$S_{report}$ 5가지 축: usefulness, richness, soundness, interpretability, readability

T	: 환경과 상화작용한 turn 횟수

Benchmark
- DataSciBench: data preparation, data analysis, data modeling, data visualizatoin, and data insight 전과정을 포함
- DSBench: ModelOFF & Kaggle competion 기반으로 540-real-world task를 구축
- DABStep: data agent benchmark (450-real-world data)
- DABStep-Research: DABStep에 data science report generation을 추가하여 해당 논문저자들이 만듦
- DS-100: code-generation benchmark
- TableQA Benchmark: structured data (tables, etc)에 대한 benchmark
Model
- DeepSeek-R1-0528-Qwen3-8B를 backbone으로 DeepAnayze-8B를 구축
- NVIDIA A800 gpu를 활용
정량적 결과
- DataSciBench
- DSBench-data analysis
- DSBench-data modeling
  - DABStep-Research
  - TableQA benchmark
  - DS-100
- Ablation Study
  - Understand action 유무에 따른 결과
  - Curriculum-baased agentic training 유무에 따른 결과
  - CoT Distillation + (keyword-based) Refine 유무에 따른 분석