3 minute read

[WebAgent] WEBAGENT-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

  • paper: https://arxiv.org/pdf/2505.16421
  • github: https://github.com/weizhepei/WebAgent-R1 (깡통)
  • archived (인용수: 1회, ‘25-06-03 기준)
  • downstream task: Multi-turn Web Automation

1. Motivation

  • RL이 LLM의 reasoning 성능 향상에 기여한다는 최근 연구가 나타났다. (DeepSeek-R1)

  • 하지만 이는 math reasoning과 같은 non-interactive reasoning 분야에 대해서 single turn interaction을 위주로 연구되었다.

  • web agent연구는 multi-turn interaction을 학습하는 것이 challenging했기에 web browsing과 같은 분야에 적용이 어려웠다.

    $\to$ WebAgent를 위한 end-to-end multi-turn RL framework를 제안해보자!

2. Contribution

  • Dynamic Content Compression & Asynchronous Trajectory Roll-out mechanism을 반영한 end-to-end multi-turn RL framework for Webagent, Webagent-R1을 제안함

  • Baseline Qwen-2.5-3B를 success-rate 등 각종 수치에서 성능 boosting (WebArena-Lite) 및 SOTA

  • Behavior cloning, thinking-based-prompting, test-time scaling등 long-CoT reasoning의 유효성을 입증

3. WebAgent-R1

3.1 Problem Formulation

  • Web task를 Partially Observable Markov Decision Process (POMDP)로 재정의함
    • POMDP의 arguments
      • $(S, A, T, R)$
        • $S$: State (상태). web의 content로, text-only HTML을 의미
        • $A$: Action space를 의미. web에서 자주 사용하는 operation의 집합.
        • $T(s_{s+1} s_t,a_t)$: Environment dynamics. web page가 action에 따라 변화한 tracking history
        • $R$: Reward function. {0,1} 이진값을 가짐
  • Dataset
    • WebArena-Lite를 따름

3.2 Behavior Cloning

  • Expert의 demonstration을 paired dataset로 저장하여 행동을 모방하도록 Web Agent를 학습하여 초기 policy model을 훈련시킴

  • Fixed dataset of expert demonstration

    • $h_t$: t step에서 full interaction history

    • $a_t$: t step에서 예측한 action

  • policy $\pi_{\theta}$ 모델은 SFT (Supervised-Fine-Tuning)하기 위해 아래 loss를 이용

    • SFT 수행의 목적: Web Agent가 action space에 정의된 기초적인 web interaction skill를 학습시킴

3.3 End-to-End Multi-Turn Reinforcement Learning

  • Overall framework

  • Dynamic Context Compression

    • 문제상황

      • multi-turn으로 누적된 action, state를 다음 step에 누적하는 과정에서 observed된 web task는 수천 token을 수반한다.
      • 이를 raw data 그대로 넣으면 memory issue가 발생한다.
    • 해결안

      • 새로운 observation이 도착하면, 이전의 history들은 단순화되어 context length를 줄임과 동시에 완벽한 action history를 갖도록 dynamic context compression 전략을 활용한다.

        • $s_i’$: i번째 simplified HTML
      • loss mask update

        • 실시간으로 history가 업데이트 되기 때문에, action token에 대해서만 loss가 반영되도록 loss mask도 따라서 업데이트 해준다.
  • Multi-turn GRPO

    • Group of trajectories

      • $\tau_i$: i번째 trajectory. trajectory는 전체 과정에 대한 action을 저장한다.
    • Loss

      • $\tilde{A}{i,j,t}$: t번째 token에 대한 $a{i,j}$ action의 advantage

        • $r_{i,j,t}$: importance sampling tem

        • $\epsilon, \beta$: ;hyperparameters

        • $A_{i,j}$: group relative advantage

        • $\bold{r}$: reward. rule-based reward function으로부터 계산됨

  • Asynchronous Trajectory Rollout

    • 문제상황: Group trajectory를 얻기 위해서는 environment과 반복된 interaction이 수반되어야 한다. 이는 많은 시간을 요구한다.
    • 해결안
      • asynchronous rollout 전략을 활용하여 독립된 여러개의 browser instance ${\Epsilon_1, \Epsilon_2, …, \Epsilon_G}$를 초기화한다.
      • 개별 browser instance는 개별 cookies를 관리한다.
      • agent는 개별 browser와 독립적으로 interaction을 비동기적으로 수행함으로써 다양한 history & trajectories를 효율적으로 쌓는다.
  • Reweard Design

    • Rule-based reward
      • task-specific criteria (ex. reaching target page)를 binary reward (0 or 1)로 제공한다.

4. Experiments

  • Web Environment

    • Self-hostable & realisitic web 환경을 제공하는 WebArena를 활용한다.
      • 범위: social forums(Reddit), collaborative coding (GitLab), e-commerce content management system (CMS), open streetmaps (Map), online shopping (Shopping)
  • Dataset & Evaluation Metrics

    • WebArena-Lite
      • 9,460 trajectories + behavior cloning dataset
      • WebArena 중, human verified 버전.
      • Train/Val = 647/165 tasks
    • Success rate
      • built-in rule-based rubrics 활용
  • Baselines

    • (pretrained): Qwen2.5, Llama3.1, GPT-4
    • (reasoning-based) QwQ, OpenAIo3
    • (finetuning): Qwen2.5-3B / Llama3.1-8B
  • Main Results

    • 정량적 결과

      • OpenAI GPT-o3의 succeess rate가 39.4%로, web task를 수행하기엔 역부족이다.

      • finetuned (BC-only) 3B 역시 20%이다. 이는 GPT-4o를 능가하는데, 이는 GTP-4o의 모델의 크기가 작아서가 아니라, 모델이 HTML과 web-specific behaviors를 이해하지 못해서라고 가설을 세웠다.

        $\to$ domain-specific finetuning이 절실함을 알 수 있다.

      • Reasoning models가 general LLM보다 성능이 좋은것(OpenAI-o3 > GPT-4o)을 미루어 보아, web task와 같은 복잡한 task를 푸는데 thinking process가 필수적임을 깨닫는다.

      • RL process가 BC-SFT 이후에 추가로 수행되면, 성능이 비약적으로 향상된다. 이는 RL 학습 과정에서 dynamic web interactions을 수행하는 과정에서 모델이 trial-and-error를 겪으면서 long-horizon decision-making 능력을 배우기 때문이다.

      • 이전 RL(WebRL, DigiRL) 역시 성능향상이 있었으나, 우리의 방식이 더 좋은 성능인걸 미루어보아, end-to-end multi-turn RL이 효과적임을 입증한다.

  • Training Dynamics

    $\to$ vertical line을 기점으로 3 phase로 나눌 수 있다. (1) 초기 skill 획득 (2) policy refinement를 위한 탐험 (3) 안정화 단계

    • reward
      • phase 1: 빠른 reward 증가하는 단계. agent가 basic skill을 배우고, simpler task를 성공적으로 수행하는 단계.
      • phase 2: reward가 수렴하는 단계. 다른 전략을 취하면서 policy를 수정하는 단계.
      • phase 3: reward가 다시 증가하는 단계. 안전성을 향상하는 단계.
    • trajectory length (Number of tokens across all multi-turn interactions)
      • phase 1: trajectory length가 증가하는 단계.
      • phase 2: 안정화되는 단계.
      • phase 3: length가 다시 증가하는 단계. 더 구체적인 출력을 의미한다.
    • number of interactions
      • phase 1: interaction 횟수가 증가하는 단계. agent가 더 proactive해짐.
      • phase 2: interaciton 횟수가 줄어듦. 효율적으로 interaction을 수행하는 단계.
      • phase 3: 안정화 단계.
  • Ablation Study

    • Qwen2.5-3B 기반으로 실험 진행

    • BC-SFT 유무에 따른 성능 비교 (WebAgent-R1-Zero (no BC-SFT) / WebAgent-R1-CoT (BC-SFT + M-GRPO))

      • 시사점
        • BC-SFT는 꼭 필요하다. 없으면 M-GRPO하면 오히려 성능이 하락한다. (6.1% $\to$ 4.8%)
        • long-CoT data를 BC에 추가하는것은 성능 향상된다. CoT-SFT 방식으로 학습한 모델이 더욱 성능이 좋다. (24.5% vs 20.0%)
          • CoT data는 QwQ-32B를 통해 추출한다.
        • RL학습시 long-CoT는 제한적 성능 향상됨. 가설은 CoT-SFT가 RL에서 탐험해야할 space를 제약하기 때문일 것이다. (30.3% vs 33.9%)
    • Thinking format 유무에 따른 성능 비교

      • thinking format이 있을때 비약적으로 성능이 향상됨 (3.2%/4.8%/15.9% vs. 6.1%/8.5%/36.9%)

      • 전체 trajectory length는 비슷함 (139 vs. 142)

      • # of interactions가 증가함 (6 vs. 17)

      • 인위적으로 interaction 수를 늘리는 test-time scaling 기법을 실험해보니, 실제로 좋아진다.

Updated: