11 분 소요

0. Introduction

Paper link

PivotRL은 “SFT trajectory를 그냥 local RL로 바꾸면 되지 않나?”라는 자연스러운 생각이 왜 쉽게 실패하는지부터 설명하는 논문이다. long-horizon agentic task에서는 두 가지가 계속 충돌한다. supervised fine-tuning(SFT)은 싸고 빠르지만 out-of-domain(OOD) 성능을 자주 망가뜨리고, end-to-end reinforcement learning(E2E RL)은 OOD를 더 잘 보존하지만 full trajectory rollout 비용이 너무 크다. 이 논문은 그 사이를 메우기 위해, trajectory 전체를 다 굴리는 대신 “정말 gradient signal이 남아 있는 turn”에만 rollout budget을 쓰는 방법을 제안한다.

한 줄 요약: PivotRL은 SFT trajectory의 중간 assistant turn을 offline으로 profile해서 mixed-outcome pivot만 남기고, exact-match 대신 verifier-based functional reward로 local GRPO를 돌려 SFT의 효율과 E2E RL의 OOD retention을 동시에 노리는 turn-level agentic RL 방법이다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

  • agentic post-training이 길어지고 비싸질수록, “무엇을 RL할 것인가”보다 “어디에 rollout budget을 쓸 것인가”가 더 중요해지고 있기 때문이다.
  • same-data SFT와 PivotRL을 같은 base model, 같은 prompts, 같은 expert trajectories 위에서 비교해서 방법 자체의 차이를 보기 좋다.
  • 이론, ablation, E2E RL comparison, Nemotron-3-Super integration까지 이어져 있어서 아이디어가 논문 안에만 머물지 않는다.

내가 보기엔 이 논문의 진짜 포인트는 “SFT 데이터를 RL에 재사용했다”가 아니다. 오히려 long-horizon trajectory 전체 중에서 어느 turn이 policy를 실제로 바꾸는가를 selection problem으로 바꿔버렸다는 데 있다.

1. Problem Setting

1-1. Problem definition

  • 이 논문이 겨냥하는 대상은 conversational tool use, software engineering, terminal control, web browsing처럼 모델이 여러 turn에 걸쳐 환경과 상호작용해야 하는 long-horizon agentic task다.
  • 이 setting에서는 action이 token 하나가 아니라 model-call boundary에서의 full assistant completion이다. 즉, 다음 tool call 전체, 다음 bash command 전체, 다음 browsing step 전체가 하나의 action이 된다.
  • SFT는 이런 task를 학습하기에 계산량이 상대적으로 작고 pipeline도 단순하다. 하지만 training distribution 바깥으로 조금만 벗어나도 generalization이 흔들리고, non-agentic capability가 같이 무너질 수 있다.
  • E2E RL은 on-policy interaction을 통해 이런 OOD regression을 덜 일으키지만, 매 update마다 긴 multi-turn rollout이 필요하므로 compute cost가 크다.
  • 따라서 핵심 문제는 단순히 “RL을 할지 말지”가 아니라, full trajectory rollout 없이도 on-policy signal을 유지하면서 long-horizon agentic capability를 post-train할 수 있는가다.

1-2. Why previous approaches are insufficient

  • 가장 단순한 아이디어는 expert trajectory의 중간 turn을 뽑아서 local RL을 돌리고, sampled action이 demonstration과 exact match일 때만 reward를 주는 것이다.
  • 하지만 논문은 이 naive local RL이 same-data SFT보다도 크게 낫지 않음을 보여준다. τ²-Bench에서 strict reward를 쓰는 local RL은 57.34이고, 같은 데이터로 학습한 SFT는 58.44다.
  • 왜 실패하느냐를 저자들은 두 가지 bottleneck으로 정리한다.
    1. Uninformative turn problem: randomly selected turn은 이미 너무 쉽거나, 반대로 모두 실패하는 경우가 많다. 이런 turn에서는 group-normalized RL에서 reward variance가 0에 가까워져 gradient signal이 사라진다.
    2. Overly strict local credit problem: generative action space에서는 demonstration 문자열과 정확히 다르더라도 locally acceptable한 action이 많다. exact match만 reward하면 이런 합리적인 대안을 전부 놓친다.
  • 즉, 기존 방식의 한계는 “SFT보다 RL이 더 강하다” 같은 추상적 얘기가 아니다. 더 직접적으로는 rollout budget allocationlocal credit assignment가 잘못되어 있다는 점이다.

2. Core Idea

2-1. Main contribution

  • Offline pivot filtering: frozen reference policy 아래에서 각 intermediate turn을 미리 profile하고, reward variance가 남아 있는 mixed-outcome turn만 남긴다.
  • Verifier-based functional reward: demonstration과 exact string match가 아니라, 현재 state에서 locally acceptable한 action이면 reward를 준다.
  • Turn-level local GRPO: full trajectory rollout 대신 선택된 pivot state에서만 짧은 local rollout을 수행하고, 그 결과로 GRPO-style objective를 최적화한다.
  • Theoretical support: 왜 mixed-outcome turn이 중요한지, 왜 functional reward가 OOD retention에 유리한지에 대해 가벼운 이론적 근거를 붙인다.

2-2. Design intuition

이 논문의 설계 직관은 꽤 분명하다.

  1. long-horizon trajectory의 모든 turn이 equally useful하지 않다.
    어떤 turn은 이미 policy가 거의 항상 맞추고, 어떤 turn은 아직 거의 항상 틀린다. 이런 turn은 RL update를 위해 rollout budget을 써도 얻는 것이 적다.

  2. 진짜 중요한 turn은 mixed-outcome 상태다.
    sampled action 중 어떤 것은 성공하고 어떤 것은 실패하는 turn이라면, 바로 그 지점이 policy가 바뀌면 outcome이 달라질 수 있는 decision boundary다.

  3. expert demonstration은 정답의 한 예시일 뿐이다.
    특히 tool use, shell command, search action 같은 공간에서는 서로 다른 action이 locally equivalent할 수 있다. exact match만 허용하면 RL이 exploration을 해도 reward를 받기 어렵다.

  4. OOD retention은 “더 세게 RL했다”가 아니라 “불필요한 policy mass reordering을 덜 했다”로 볼 수 있다.
    논문은 functional reward가 acceptable action 쪽으로 probability mass를 옮기되, task-unrelated action의 상대적 ordering은 최대한 유지하는 방향이라고 해석한다.

내가 보기엔 PivotRL의 핵심은 새 loss 함수보다도, 어떤 turn에서 local RL을 해야 signal이 살아남는가를 전면에 세운 데 있다.

3. Architecture / Method

3-1. Overview

Item Description
Goal full trajectory rollout 없이 long-horizon agentic task를 post-train하면서 in-domain accuracy와 OOD retention을 동시에 확보
Training unit token이 아니라 model-call boundary에서의 full assistant completion
Key module offline pivot filtering + verifier-based functional reward + local GRPO
Difference from naive local RL random intermediate turn 대신 informative turn만 선택하고, exact-match reward 대신 functional reward를 사용
Difference from E2E RL full trajectory를 끝까지 굴리지 않고, 선택된 pivot state에서만 짧은 on-policy rollout을 수행

3-2. Module breakdown

1) Turn-level reformulation

  • 논문은 먼저 agentic trajectory를 assistant decision boundary 기준으로 분해한다.
  • 이때 각 state는 “해당 assistant turn 직전까지의 전체 interaction history”이고, action은 그 state에서의 full assistant completion이다.
  • 이 formulation의 장점은 SFT dataset을 그대로 RL 출발점으로 재활용할 수 있다는 점이다. full environment initialization부터 다시 하지 않고, 이미 존재하는 expert trace의 중간 state로 바로 들어갈 수 있다.
  • 즉, PivotRL은 SFT와 RL을 서로 대체재로 보지 않고, SFT trajectory를 RL state distribution의 seed로 사용한다.

2) Offline pivot selection

  • 모든 extracted assistant turn을 먼저 pivot candidate로 모은다.
  • 그런 다음 frozen reference policy 아래에서 각 turn마다 local rollout을 여러 번 샘플링해 verifier reward의 empirical mean과 variance를 측정한다.
  • 이후 두 조건을 만족하는 turn만 남긴다.
    • reward variance가 0보다 큰 turn
    • reward mean이 낮아서 아직 충분히 어려운 turn
  • 첫 번째 조건은 이미 uniformly solved / uniformly failed인 turn을 제거한다.
  • 두 번째 조건은 mixed-outcome turn 중에서도 policy가 아직 개선 여지가 있는 turn에 rollout budget을 집중하게 만든다.
  • 논문은 이 filtered subset을 pivot set으로 두고, 특별히 low-reward-mean filtering이 들어간 D_adv가 random turn set D_cand보다 더 강하다고 보여준다.

이 단계는 생각보다 중요하다. 보통 RL 논문은 update rule에 초점을 맞추지만, PivotRL은 update 전에 sample selection을 먼저 설계한다.

3) Verifier-based local reward

  • strict reward에서는 sampled action이 demonstration과 정확히 같을 때만 reward 1을 준다.
  • PivotRL은 대신 현재 state에서 locally acceptable한 action 집합 M(s)를 상정하고, 그 안에 들어가면 reward 1을 준다.
  • verifier는 domain마다 다르다.
    • 어떤 곳은 schema / normalized string similarity를 쓴다.
    • 어떤 곳은 task-specific equivalence rule을 쓴다.
    • 어떤 곳은 lightweight LLM judge를 쓴다.
  • 특히 terminal domain은 output-schema validation, normalized string similarity, equivalence-based LLM-as-judge를 조합한다.
  • SWE domain은 더 거칠다. local verifier가 tool-call name만 맞는지 본다. 즉, search / open / edit / run 같은 operation type이 맞는지만 보고, tool arguments나 patch quality는 local step에서는 보지 않는다.

이 부분이 굉장히 실전성이 높다. reward model을 새로 크게 학습하지 않고도, domain-specific verifier stack만 있으면 local RL을 구성할 수 있기 때문이다.

4) Local GRPO objective and theoretical lens

  • pivot set이 정해지면, 각 selected state에서 group of on-policy actions를 샘플링하고 local verifier reward를 계산한 뒤 GRPO-style objective로 업데이트한다.
  • E2E RL과의 가장 큰 차이는, training 중 온라인 interaction이 full multi-turn rollout이 아니라 현재 sampled turn을 score하기 위한 짧은 local rollout이라는 점이다.
  • 이론적으로는 세 가지 메시지가 핵심이다.
    1. Proposition 3.1: reward가 전부 같으면 group-normalized update는 0이다. 즉 mixed-outcome turn만이 의미 있는 update를 만든다.
    2. Theorem 3.2: reward variance가 local natural-gradient signal의 크기를 결정한다. 따라서 reward variance는 단순 heuristic이 아니라 learning signal의 크기와 직접 연결된다.
    3. Theorem 3.3: functional reward는 acceptable action 쪽으로 mass를 옮기되, KL 관점에서 reference policy에 가장 보수적인 방식으로 움직인다. 저자들은 이 성질이 OOD retention에 유리하다고 본다.

내가 보기엔, 이 논문의 theory는 “완전한 설명”이라기보다 design choice를 정당화하는 lens에 가깝다. 하지만 mixed-outcome filtering과 OOD retention 이야기를 억지로 붙인 것이 아니라, 최소한의 일관된 설명 틀은 제공한다.

4. Training / Data / Recipe

4-1. Data

  • 모든 실험은 Qwen3-30B-A3B-Thinking-2507에서 시작한다.
  • single-domain 실험은 네 개의 agentic vertical을 각각 따로 학습한다.
    • τ²-Bench / conversational tool use: 281,774 trajectories, 838 domains. synthetic data-generation pipeline을 사용한다.
    • SWE-Bench Verified: OpenHands, OpenCode, Codex로 생성한 internal trajectory dataset을 사용한다. filtering 후 final training set은 87,718 samples다.
    • Terminal-Bench: Qwen3-Coder-480B-A35B-Instruct와 Kimi-K2-Instruct의 resolved trajectories를 사용하고, deduplication 후 약 20,000 samples를 사용한다.
    • BrowseComp: multi-hop QA data에서 online search engine과 DeepSeek-V3.2를 이용해 browsing trajectories를 생성하며, final dataset은 13,215 samples다.
  • τ²-Bench 쪽 conversational tool use environment와 data는 Nemo-Gym / Nemotron-Post-Training-v3로 공개됐다고 적혀 있지만, SWE와 일부 다른 domain은 internal trajectory에 의존한다.

4-2. Training strategy

  • 논문의 비교는 꽤 공정하다. SFT와 PivotRL은 같은 base model, 같은 prompts, 같은 expert trajectories 위에서 비교된다.
  • training pipeline은 다음 순서로 이해하면 된다.
    1. expert trajectories에서 assistant turns를 모두 추출한다.
    2. frozen reference policy로 각 turn을 offline profile한다.
    3. D_cand 혹은 D_adv 같은 pivot subset을 만든다.
    4. retained pivot state에서만 local on-policy rollout을 수행한다.
    5. verifier reward를 사용해 GRPO-style update를 한다.
  • 구현 측면에서는 Nemo-RL을 optimizer stack으로, Nemo-Gym을 environment rollout stack으로 사용한다.
  • 중요한 점은 이것이 multi-domain joint training paper가 아니라, single-domain agentic RL을 같은 recipe로 반복해서 비교한 paper라는 점이다.

4-3. Engineering notes

  • action granularity가 token이 아니라 turn-level completion이기 때문에, verifier 설계가 매우 중요하다.
  • terminal, tool use, browsing은 local acceptability를 비교적 자연스럽게 정의할 수 있지만, SWE처럼 action semantics가 richer한 domain에서는 local reward가 쉽게 coarse해질 수 있다.
  • SWE domain에서 local verifier가 tool-call name만 맞는지 본다는 점은 장단점이 분명하다.
    • 장점: step-level verifier를 싸게 구성할 수 있다.
    • 단점: argument correctness나 final patch quality 같은 핵심 신호를 놓칠 수 있다.
  • pivot profiling이 frozen reference policy에 의존하므로, initialization policy가 달라지면 어떤 turn이 informative로 보이는지도 달라질 가능성이 높다.
  • practical takeaway는 명확하다. full E2E RL이 너무 비싸다면, 먼저 좋은 verifier좋은 pivot profiler를 만드는 것이 더 큰 병목일 수 있다.

5. Evaluation

5-1. Main results

Setting What the paper shows
Same-data in-domain comparison PivotRL은 τ²-Bench(63.81 vs 58.44), Terminal-Bench(20.00 vs 13.75), BrowseComp(11.30 vs 1.50)에서 SFT를 앞선다. 다만 SWE-Bench Verified에서는 SFT 37.40이 PivotRL 32.67보다 높다.
OOD retention Base 대비 평균 OOD 변화는 SFT가 -9.83, PivotRL이 +0.21이다. 즉, 이 논문의 가장 강한 claim은 in-domain win보다 OOD retention 쪽이다.
Comparison to E2E RL SWE-Bench에서 PivotRL은 comparable accuracy를 더 적은 rollout budget으로 달성한다. Figure 1 기준으로 약 4× fewer rollout turns, 약 5.5× less wall-clock time이다.
Ablation τ²-Bench에서 full PivotRL 63.81, pivot filtering 제거 59.68, functional reward 제거 57.34, same-data SFT 58.44다. 둘 다 빠지면 이득이 거의 사라진다.
Large-scale integration Nemotron-3-Super post-training pipeline의 RL stage에서 agentic vertical 일부를 PivotRL로 다뤘고, stage 전후로 τ²-Bench 48.00→64.00, SWE-Bench Verified 12.87→61.33, Terminal-Bench 23.33→34.17, BrowseComp 13.03→25.04가 보고된다.

in-domain 숫자만 보면 이 논문은 의외로 더 흥미롭다. 왜냐하면 PivotRL이 4개 중 3개는 이기지만 1개는 진다는 사실이 오히려 정직하기 때문이다. 저자들이 “local RL이면 무조건 SFT보다 낫다”는 식으로 말하지 않고, verifier granularity와 domain 특성에 따라 차이가 난다는 것을 그대로 드러낸다.

5-2. What really matters in the experiments

1) 이 논문의 진짜 핵심 결과는 OOD retention이다

  • average OOD change가 SFT는 -9.83, PivotRL은 +0.21이라는 점이 가장 중요하다.
  • 즉, same-data 기준에서 in-domain gain을 조금 더 올리는 것보다, non-agentic capability를 거의 무너뜨리지 않았다는 점이 훨씬 의미 있다.
  • terminal-domain SFT는 특히 심각해서, AIME25가 86.04에서 21.56으로 떨어진다(-64.48). 반면 같은 domain에서 PivotRL은 82.92(-3.12)다.

이 비교는 “SFT memorizes, RL generalizes”류의 큰 주장과도 잘 연결된다. 적어도 이 논문에서는 on-policy signal이 OOD retention을 분명히 돕고 있다.

2) Pivot filtering은 그냥 data curation이 아니라 learning signal control이다

  • random pivot만 써도 τ²-Bench에서 59.68로 same-data SFT 58.44를 넘는다.
  • 하지만 low-reward-mean filtering이 들어간 D_adv를 쓰면 63.81까지 오른다.
  • Figure 2, 3도 이 차이를 잘 보여준다. D_adv는 reward variance를 더 오래 유지하고, 그 결과 training accuracy도 더 잘 오른다.

즉, 이 논문은 “더 좋은 RL objective” 이전에 더 좋은 state selection이 얼마나 중요한지 보여준다.

3) SWE-Bench 예외는 오히려 중요한 힌트다

  • single-domain in-domain table에서는 SWE-Bench에서 SFT 37.40이 PivotRL 32.67보다 높다.
  • 그런데 E2E RL comparison에서는 PivotRL이 comparable accuracy를 훨씬 적은 rollout budget으로 달성한다.
  • 내 해석으로는, 여기서 핵심은 “PivotRL이 SWE에서 약하다”가 아니라, local verifier가 얼마나 informative한가에 따라 in-domain ceiling이 달라진다는 점이다.
  • 특히 SWE local verifier가 tool-call name만 보는 coarse signal이라는 점을 감안하면, local step reward의 granularity가 충분치 않을 수 있다.

4) Nemotron integration은 방향성 증거로 읽는 편이 맞다

  • Table 5는 실제 large-scale pipeline에 PivotRL이 들어갔음을 보여준다는 점에서 매우 중요하다.
  • 다만 이 stage는 agentic vertical만 PivotRL로 돌리고, reasoning/chat 쪽은 다른 RL environments가 함께 들어간다.
  • 따라서 Table 5의 stage-level improvement를 PivotRL 단독 기여로 읽는 것은 과하다.

6. Limitations

  1. 재현성 한계가 있다.
    τ²-Bench 쪽은 공개 artifact가 일부 있지만, SWE와 다른 domain의 trajectory dataset은 internal source에 크게 의존한다. hyperparameter와 verifier design도 domain별로 꽤 실무적인데, 외부 재현은 쉽지 않다.

  2. verifier quality가 방법 전체의 ceiling을 결정한다.
    PivotRL은 reward model을 따로 학습하지 않는 대신 verifier에 많이 의존한다. verifier가 coarse하거나 miss rate가 높으면, pivot selection과 local credit assignment가 동시에 흔들릴 수 있다.

  3. 모든 domain에 local acceptability를 쉽게 정의할 수 있는 것은 아니다.
    tool use, bash, search처럼 programmatic한 domain은 상대적으로 유리하지만, 더 open-ended한 natural-language interaction에서는 locally acceptable action set을 잡기가 훨씬 어렵다. 논문도 future work로 non-programmatic verifier, LLM-as-a-judge, process reward model을 언급한다.

  4. single-domain setting이어서 unified recipe에 대한 답은 아직 부족하다.
    이 논문은 네 domain을 각각 따로 학습해 비교한다. 따라서 PivotRL이 unified multi-domain agentic post-training에서 어떤 interference pattern을 보일지는 직접적으로 답하지 않는다.

  5. 이론은 설계 직관을 보강하지만, 실제 LLM action space 전체를 완전히 설명하지는 않는다.
    finite action space, acceptable action set 등의 가정은 해석용 lens로는 유용하지만, 실제 open-ended generative action space의 모든 현상을 엄밀하게 포착한다고 보긴 어렵다.

7. My Take

7-1. Why this matters for my work

  • practical agentic post-training에서 가장 비싼 것은 종종 model forward 자체보다 environment interaction과 verifier execution이다.
  • 그런 관점에서 PivotRL은 “RL을 더 잘하자”보다 어디에만 RL을 하자로 문제를 바꾼다.
  • 특히 tool use, coding, terminal, browsing처럼 action이 명시적이고 intermediate verifier를 만들 수 있는 domain에서는, full E2E RL보다 먼저 검토할 가치가 큰 recipe다.
  • Nemotron 3 Super 같은 full-stack post-training report를 읽고 나면, PivotRL은 거기서 agentic vertical을 실제로 어떻게 싸게 돌렸는지 설명해 주는 핵심 퍼즐 조각처럼 보인다.

7-2. Reuse potential

  • pivot profiling 아이디어 자체는 재사용성이 높다.
    꼭 GRPO가 아니더라도, existing SFT trajectory에서 mixed-outcome turn만 추출하는 과정은 다른 on-policy update에도 붙일 수 있다.
  • functional reward도 실무적으로 재사용하기 쉽다.
    이미 schema checker, tool-call validator, lightweight judge가 있다면 별도 reward model 없이 local RL loop를 만들 수 있다.
  • E2E RL 이전의 중간 단계로 유용하다.
    brute-force multi-turn RL을 바로 하기 전에, PivotRL로 싸게 action-space coverage와 OOD retention을 챙기고 나서 더 비싼 RL stage로 넘어가는 설계가 가능해 보인다.
  • 반대로 말하면, 이 논문의 핵심 reusable asset은 model architecture가 아니라 data selection + local verifier + short rollout recipe다.

7-3. Follow-up papers

  • Nemotron 3 Super technical report
    → PivotRL이 production-scale agentic post-training에서 어떻게 쓰였는지 이어서 보기 좋다.
  • Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting
    → 왜 on-policy data가 OOD retention에 도움이 되는지 더 직접적으로 연결된다.
  • SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-Training
    → 이 논문의 broader claim을 더 큰 post-training 비교 문맥에서 읽기 좋다.

8. Summary

  • PivotRL은 SFT와 E2E RL 사이의 trade-off를, full rollout 대체가 아니라 turn selection + local reward 설계 문제로 다시 푼다.
  • 핵심은 mixed-outcome pivot만 골라 short on-policy rollout을 하고, exact-match 대신 functional reward를 주는 것이다.
  • same-data 비교에서 in-domain은 4개 중 3개 domain에서 SFT를 이기고, 평균 OOD retention은 SFT -9.83 대비 PivotRL +0.21로 훨씬 강하다.
  • SWE-Bench single-domain 예외는 local verifier granularity가 성능 ceiling을 좌우한다는 점을 오히려 잘 보여준다.
  • 내 기준에서 이 논문의 가장 큰 가치는 “agentic RL을 더 세게”가 아니라, agentic RL을 어디에만 수행해야 가장 싸고 덜 망가뜨릴 수 있는가를 설계했다는 데 있다.

댓글남기기