10 분 소요

0. Introduction

Paper link

Code link

Model link

KnowRL을 “힌트를 더 길게 넣는 RL” 정도로 읽으면 핵심을 놓치기 쉽다. 이 논문이 진짜 흥미로운 지점은 hint-based RL을 quantity expansion 문제로 보지 않고, reward sparsity를 깨기 위한 minimal-sufficient guidance selection 문제로 다시 정의한다는 데 있다. 기존 계열은 partial solution prefix를 더 길게 넣거나, abstraction hint를 더 풍부하게 넣는 방향으로 갔다. 반면 KnowRL은 어떤 지식 조각이 실제로 reward-yielding trajectory를 여는지 먼저 묻고, 그 뒤에 그 지식만 남기려 한다.

특히 이 논문이 좋은 이유는 hinting을 prompt trick으로만 다루지 않는다는 점이다. 저자들은 atomic knowledge point, 즉 KP 단위로 힌트를 쪼개고, 문제별로 어떤 KP subset이 가장 작은 비용으로 성능을 여는지 offline selection pipeline을 만든다. 그리고 그 위에서 RL training을 수행한다. 그래서 KnowRL은 RLVR용 data construction and guidance selection pipeline을 설계한 논문에 더 가깝다.

또 하나 중요한 포인트는 결과 해석이다. 이 논문은 test-time에 KP를 넣었을 때만 좋아지는 scaffolded policy를 주장하지 않는다. 오히려 w/o KP inference 조건에서도 Nemotron-1.5B와 JustRL을 넘는 평균 성능을 보고하며, training set correct-count distribution 분석으로 reward sparsity 자체가 줄었다고 해석한다. 즉 핵심은 hint injection 자체보다, 그 힌트가 training 동안 policy를 어떤 방향으로 밀어주는가에 있다.

한 줄 요약: KnowRL은 hint-based RL을 “더 많은 힌트” 문제가 아니라 “최소 충분한 KP subset” 문제로 바꾸고, CSS라는 interaction-aware selection strategy를 통해 reward sparsity를 줄여 1.5B scale math reasoning RL 성능을 끌어올린 논문이다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

  • RLVR에서 병목이 reward function 자체보다 sparse reward를 깨는 guidance interface에 있을 수 있다는 점을 꽤 선명하게 보여준다.
  • full hint injection보다 compact subset selection이 더 중요하다는 점을 offline analysis와 RL 결과 둘 다로 보여준다.
  • “힌트를 더 많이 넣으면 더 좋다”는 직관이 실제로는 cross-hint inconsistency 때문에 깨질 수 있다는 점이 실무적으로도 유용하다.

이 논문의 핵심은 hinting을 길이 조절 문제가 아니라 구조 선택 문제로 바꿨다는 데 있다.

1. Problem Setting

1-1. Problem definition

  • 이 논문이 겨냥하는 핵심 문제는 RLVR이 어려운 reasoning 문제에서 너무 sparse한 reward를 받아 학습 효율이 급격히 떨어진다는 점이다.
  • GRPO류 group-based RL에서는 같은 문제에 대해 여러 rollout을 뽑았을 때 전부 오답이면 advantage가 거의 생기지 않는다.
  • 그래서 hard sample일수록 gradient를 거의 못 받고, training data의 큰 부분이 실제로는 학습에 기여하지 못한다.
  • 최근 hint-based RL은 partial solution prefix나 abstraction hint를 넣어 이 문제를 완화하려 했지만, 보통 “더 강한 guidance = 더 긴 hint”라는 가정을 깔고 있다.
  • KnowRL은 이 전제가 잘못됐을 수 있다고 본다. 어떤 문제에서는 긴 hint보다 짧고 핵심적인 knowledge point 몇 개가 훨씬 더 중요할 수 있다.

1-2. Why previous approaches are insufficient

  • fixed-ratio prefix hint는 difficulty가 다른 문제에 같은 수준의 guidance를 넣기 때문에 비효율적이다.
  • adaptive hinting도 여전히 hint quantity를 조절하는 쪽에 가깝고, 어떤 knowledge unit이 실제로 필요한지 자체를 모델링하지는 않는다.
  • abstraction-based hint는 guidance independence가 높을 수 있지만, teacher model과 추가 curation이 필요해서 training overhead가 커질 수 있다.
  • 더 큰 문제는 hint redundancy다. full prefix나 rich abstraction이 항상 좋은 것이 아니라, branch ambiguity와 inconsistency를 늘릴 수 있다.
  • 저자들은 이를 세 가지로 정리한다. critical-segment effect, cross-hint inconsistency, guidance-efficiency trade-off다.
  • 결국 기존 방식의 한계는 hint를 “얼마나 많이 넣을까”로 봤지, “어떤 조합이 최소 충분한가”로 보지 않았다는 데 있다.

2. Core Idea

2-1. Main contribution

  • KnowRL의 핵심 기여는 hint design을 minimal-sufficient guidance problem으로 재정의한 것이다.
  • 이를 위해 각 문제의 hint를 긴 prefix가 아니라 atomic KP 집합으로 분해한다.
  • 그 다음 문제별로 어떤 KP subset이 성능을 가장 잘 여는지 offline으로 평가하고, training data에는 그 결과만 넣는다.
  • selection strategy로는 S-LOO, T-LOO, CBRS, CSS를 비교하고, 최종적으로 CSS를 채택한다.
  • RL training에서는 difficulty-aware prompt injection을 사용한다. 쉬운 문제에는 hint를 넣지 않고, harder sample에만 selected KP를 넣는다.
  • 최종적으로 OpenMath-Nemotron-1.5B에서 출발한 KnowRL-Nemotron-1.5B가 8개 benchmark 평균 70.08 w/o KP, 74.16 CSS를 보고한다.

2-2. Design intuition

  • 이 논문의 설계 직관은 단순하다. reward sparsity를 깨는 데 필요한 것은 “더 긴 explanation”이 아니라 “정답 경로를 열어주는 몇 개의 핵심 지식”일 수 있다.
  • 그래서 KnowRL은 hint를 reasoning replacement로 보지 않는다. policy를 reward-yielding trajectory 쪽으로 살짝 밀어주는 unlock signal로 본다.
  • 이 관점에서는 full hint injection이 오히려 독이 될 수 있다. 많은 KP를 넣으면 branch가 늘고, 서로 다른 설명이 충돌하며, 모델이 어디를 따라가야 할지 더 헷갈릴 수 있다.
  • 또 하나 중요한 직관은 pruning interaction paradox다. 어떤 KP는 하나만 제거하면 좋아 보여도, 그런 KP를 여러 개 동시에 제거하면 오히려 성능이 떨어질 수 있다.
  • 즉 LOO style pruning만으로는 충분하지 않고, interaction-aware subset search가 필요하다.

핵심은 hint quantity가 아니라 KP subset structure다.

3. Architecture / Method

3-1. Overview

Item Description
Goal RLVR에서 minimal-sufficient KP guidance로 reward sparsity를 줄이는 것
Base model OpenMath-Nemotron-1.5B
Guidance unit Atomic knowledge point, KP
Data pipeline correct solution generation -> raw KP extraction -> leakage verification -> problem-wise subset selection
Final selector CSS, Constrained Subset Search
RL integration difficulty-aware prompt injection with selected KP subsets
Main claim full hint보다 compact and interaction-aware hint selection이 더 효과적임

3-2. Module breakdown

1) KP curation

  • 첫 단계는 각 문제에 대한 candidate KP set을 만드는 것이다.
  • 저자들은 DeepSeek-R1로 먼저 correct solution을 확보한다.
  • 그 다음 verified correct solution에서 “정말 필요한 수학 원리만” 뽑아 raw KP를 만든다.
  • 마지막으로 leakage verification을 수행한다. 이 단계에서는 KP가 특정 문제의 정답 정보를 직접 흘리지 않고 일반화 가능한 지식 단위인지 확인한다.
  • 논문에 따르면 일부 실패 케이스는 수동 수정도 들어간다. 즉 KP curation은 완전 자동화 pipeline이라기보다, automated pipeline plus human correction에 가깝다.

2) Problem-wise subset selection

  • candidate KP를 다 넣는 것으로는 충분하지 않다.
  • 실제 offline evaluation에서 All KP는 8-benchmark 평균이 61.03으로, w/o KP 60.46보다 조금만 오른다.
  • 반면 selection strategy를 넣으면 결과가 많이 달라진다.
  • 핵심은 각 문제마다 no-KP, all-KP, leave-one-out variant, 그리고 일부 subset을 비교해 어떤 configuration이 가장 좋은지 보는 것이다.
  • 이 단계가 중요한 이유는 같은 KP 수라도 selection quality에 따라 결과가 크게 달라지기 때문이다.

3) Pruning interaction paradox

  • KnowRL이 흥미로운 이유는 단순 LOO pruning이 실패하는 이유를 명시적으로 다룬다는 점이다.
  • 어떤 KP는 individually remove 했을 때 좋아 보인다.
  • 하지만 그런 KP를 여러 개 같이 제거하면 performance가 다시 떨어질 수 있다.
  • 논문은 이를 pruning interaction paradox라고 부른다.
  • 이 관찰은 hint가 additive signal이 아니라, 서로 disambiguation 역할을 하는 structured set일 수 있음을 시사한다.
  • CSS는 이 interaction 문제를 다루기 위한 최종 selection strategy다.
  • 아이디어는 brute-force 전체 subset search를 하지 않고, 먼저 non-degrading KPs와 near-optimal removals를 기반으로 constrained candidate space를 만든 뒤 그 안에서 global search를 하는 것이다.
  • offline 8-benchmark 분석에서 CSS는 평균 63.90으로 가장 높고, 평균 KP 수는 2.57이다.
  • 즉 full KP 5.86보다 훨씬 더 compact한데도 성능은 더 좋다.
  • 이 부분이 KnowRL의 가장 중요한 message다. 힌트는 길게 넣는 것보다 잘 고르는 것이 훨씬 중요하다.

5) RL training integration

  • training data에는 CSS-selected KP가 들어간다.
  • prompt에는 ## Hint header 아래 selected KP를 붙인다.
  • 다만 모든 문제에 일괄적으로 힌트를 넣는 것은 아니다. 쉬운 문제에는 no-KP로 두고, harder sample에만 minimal subset을 inject한다.
  • training reward는 purely rule-based다.
  • KL loss나 entropy bonus 없이 token-mean loss와 dynamic sampling을 사용한다.
  • 추가로 clip_high annealing을 사용해 step 2590 이후 exploration에서 exploitation 쪽으로 더 빨리 이동시킨다.

4. Training / Data / Recipe

4-1. Data

  • KnowRL은 두 개의 data layer를 쓴다.
  • 첫째, offline KP construction and selection 분석에는 8개 benchmark, 총 1,374 problems를 사용한다.
  • benchmark는 AIME24, AIME25, BRUMO25, HMMT25, AMC23, CMIMC25, MATH-500, OlyBench다.
  • 둘째, 실제 RL training data로는 open-source QuestA dataset을 사용한다.
  • QuestA training set은 deduplication 이후 8.8k instances를 남긴다.
  • 각 training instance에 대해 32 generations을 뽑고, 이 과정을 8 independent runs로 반복해 KP selection에 필요한 offline estimates를 만든다.
  • post-processing 이후 KP 수는 QuestA offline evaluation 기준 CSS에서 평균 3.61이며, w/ all KP 5.90 대비 약 38.9 percent 줄어든다.

4-2. Training strategy

  • base model은 OpenMath-Nemotron-1.5B다.
  • 최종 KnowRL-Nemotron-1.5B는 2,960 steps 동안 학습된다.
  • training 중에는 각 question을 8번 샘플링한다.
  • max_response_length는 24k다.
  • evaluation에서는 max length 32k를 사용한다.
  • offline evaluation은 먼저 mathverify==0.8.0 기반 rule-based evaluator를 적용하고, 실패 시 CompassVerifier-3B로 추가 검증한다.
  • MATH-500과 OlyBench는 mean@8, 나머지 benchmark는 mean@32로 보고한다.
  • HTML 기준으로 train_batch_size, exact learning rate, exact top_p, exact temperature, exact clip_ratio_range 일부 symbol은 누락되어 있다. 최종 발행 전 PDF나 repo config 기준 재확인이 필요하다.

4-3. Engineering notes

  • training은 8개의 NVIDIA H100 node, node당 8 GPU cluster에서 수행되며, wall-clock 기준 약 13일이 걸렸다고 보고한다.
  • KnowRL은 prompt-time engineering보다 data construction engineering의 비중이 크다.
  • 실제로 가장 큰 차별점은 RL objective보다도 KP curation and selection pipeline이다.
  • ## Hint header 아래 KP를 주입하는 prompt format도 중요하다. hint interface를 단순 prefix prepend가 아니라 별도 structured field로 둔다는 뜻이기 때문이다.
  • entropy annealing은 limited budget에서 convergence를 당기기 위한 trick으로 보인다.
  • 다만 exact clip_high value는 HTML에서 빠져 있으므로 원문 재확인이 필요하다.

5. Evaluation

5-1. Main results

가장 중요한 최종 결과는 아래 표로 요약할 수 있다.

Model Hint setting AIME24 AIME25 HMMT25 CMIMC25 Avg.
Nemotron-1.5B w/o KP 59.06 48.33 30.63 30.08 60.45
QuestA w/o KP 71.56 62.08 40.94 41.48 67.78
JustRL w/o KP 69.69 62.92 40.63 41.72 68.58
KnowRL-Nemotron-1.5B w/o KP 69.79 64.69 41.04 44.14 70.08
KnowRL-Nemotron-1.5B CSS 74.58 65.21 48.75 52.19 74.16

이 표를 보면 KnowRL의 메시지가 분명해진다.

  • w/o KP inference만 봐도 KnowRL은 Nemotron-1.5B를 +9.63, JustRL을 +1.50 average로 넘는다.
  • 즉 test-time hint에만 기대는 것이 아니라 policy 자체를 더 강하게 만든다.
  • CSS를 inference에 같이 쓰면 평균이 74.16까지 올라간다.
  • hardest competition-style benchmark인 HMMT25와 CMIMC25에서 개선폭이 특히 크다.

offline selection 분석도 꽤 중요하다.

Selection strategy Avg. Avg. #KP
w/o KP 60.46 0.00
All KP 61.03 5.86
Max-Score 62.73 2.61
CBRS 62.94 2.60
CSS 63.90 2.57

이 결과는 “full hint > compact hint”가 아님을 아주 선명하게 보여준다. All KP는 거의 못 오르지만, CSS는 KP 수를 2.57로 줄이고도 average를 63.90까지 올린다.

5-2. What really matters in the experiments

1) full hint보다 selection quality가 훨씬 중요하다

  • All KP는 평균 61.03에 그친다.
  • CSS는 평균 63.90으로 더 높고, KP 수도 절반 이하로 줄인다.
  • 즉 hint-based RL의 핵심은 guidance quantity가 아니라 selection quality다.

2) policy improvement가 실제로 일어난다

  • 가장 중요한 결과는 KnowRL w/o KP 70.08이다.
  • 이 수치는 “test-time에 KP를 붙여서 좋아졌다”는 해석을 막아준다.
  • paper도 이 점을 강조한다. KnowRL은 underlying policy itself를 개선했다고 본다.

3) reward sparsity reduction 분석이 꽤 설득력 있다

  • training set correct-count distribution 분석에서 backbone은 zero-correct fraction이 41.21 percent다.
  • KnowRL training alone은 이 값을 13.00 percent까지 낮춘다.
  • all-correct bucket은 1.35 percent에서 34.28 percent로 오른다.
  • 이 결과는 minimal KP guidance가 sparse reward를 깨는 unlock signal로 실제로 작동했음을 보여준다.

4) hardest benchmark에서 더 의미가 크다

  • CSS 조건에서 AIME25는 65.21, HMMT25는 48.75, CMIMC25는 52.19다.
  • 본문도 HMMT25와 CMIMC25 같은 harder competition benchmark에서 CSS의 robustness가 더 잘 드러난다고 해석한다.
  • 즉 이 논문은 쉬운 benchmark score를 조금 만지는 정도가 아니라, long-horizon and compositional reasoning 쪽 개선을 주요 claim으로 둔다.

5) narrative와 table 수치가 일부 어긋난다

  • 본문 narrative에는 CSS average가 73.47처럼 보이는 구간이 있다.
  • 하지만 abstract, README, Table 3 style 숫자는 74.16을 가리킨다.
  • 최종 발행 전에는 PDF와 repo 기준으로 이 부분을 반드시 다시 맞춰야 한다.

6. Limitations

  1. 실험 범위가 사실상 1.5B scale math reasoning에 집중되어 있다.
  2. KP curation이 DeepSeek-R1 correct solution과 leakage verification에 크게 의존한다. 즉 좋은 KP를 만들기 위한 upstream teacher 품질이 중요하다.
  3. 일부 KP 검증 단계에는 수동 수정이 들어가므로, 완전 자동 대규모 pipeline으로 바로 일반화하기는 어렵다.
  4. selection pipeline 자체도 offline evaluation cost가 있다. full subset search보다는 싸지만, per-problem candidate evaluation은 여전히 무겁다.
  5. training hyperparameter 일부가 HTML에서 누락되어 있고, 본문 narrative와 table 숫자가 일부 어긋난다. 재현성 관점에서 PDF와 repo config 재확인이 필요하다.
  6. 추가 caution은 transferability다. math RL에서 잘 되는 minimal KP recipe가 code, tool use, document reasoning에서도 그대로 먹힌다고 보기는 어렵다. knowledge unit의 granularity와 verifier quality가 달라지기 때문이다.

7. My Take

7-1. Why this matters for my work

  • 이 논문은 RLVR에서 guidance를 “정답을 더 많이 보여주는 일”로 보지 않고, reward sparsity를 깨는 interface design으로 본다.
  • 이 framing은 math reasoning을 넘어 다른 verifiable task에도 꽤 유용하다.
  • 예를 들어 tool use나 document reasoning에서도 auxiliary guidance를 넣을 수 있는데, 핵심은 더 긴 checklist를 넣는 것이 아니라 어떤 knowledge unit이 실제로 branching point를 바꾸는지 찾는 일일 수 있다.
  • 특히 reward가 sparse한 workflow에서는 prompt length보다 hint structure가 더 중요하다는 메시지가 실무적으로 크다.

7-2. Reuse potential

  • 바로 재사용할 수 있는 아이디어는 offline subset selection이다.
  • RL까지 가지 않더라도, retrieval hint, tool usage hint, document schema hint를 atomic unit으로 쪼개고, 어떤 subset이 실제 성능을 여는지 비교할 수 있다.
  • 또 하나는 difficulty-aware injection이다. 쉬운 sample에는 hint를 넣지 않고 hard sample에만 minimal subset을 넣는 정책은 inference cost와 training bias 둘 다 줄이는 데 유용하다.
  • 마지막으로 pruning interaction paradox라는 framing 자체가 좋다. 실무에서는 “각 조각이 individually useful해 보이면 다 넣자”가 자주 통하지만, 실제 compound prompt에서는 서로 충돌하는 경우가 많다. KnowRL은 이 점을 꽤 잘 짚는다.

7-3. Follow-up papers

  • QuestA
  • JustRL
  • StepHint
  • Guide
  • TAPO

8. Summary

  • KnowRL은 hint-based RL을 더 긴 hint 문제가 아니라 minimal-sufficient KP subset 문제로 바꾼다.
  • 핵심은 KP curation, pruning interaction paradox, CSS selection, difficulty-aware prompt injection이다.
  • full KP injection은 거의 안 오르지만, CSS는 평균 KP 수를 줄이면서도 더 높은 성능을 낸다.
  • 가장 중요한 결과는 KnowRL w/o KP 70.08로, policy improvement가 test-time hint injection에만 의존하지 않는다는 점이다.
  • RLVR에서 sparse reward를 깨는 방법을 고민하고 있다면, 이 논문은 reward model보다 guidance interface 설계를 먼저 보게 만든다.

댓글남기기