Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning Review

2026-06-11 11 분 소요

0. Introduction

Beyond Accuracy는 “tool-integrated reasoning agent는 정확도만 보면 된다”는 가정을 정면으로 깨는 논문이다. 이 논문의 진짜 흥미로운 지점은 더 강한 browsing agent나 math agent를 만드는 데 있지 않다. 오히려 tool call이 들어가는 순간 KV-cache reuse가 끊기고, 긴 tool response가 이후 decode를 계속 비싸게 만든다는 아주 시스템적인 문제를 metric 차원에서 다시 정의한다는 데 있다.

특히 이 논문의 핵심은 tool-use reasoning quality 가 아니라 tool-use reasoning latency model 이다. 기존에는 token 수나 tool call 횟수로 대충 비용을 읽는 경우가 많았는데, 이 논문은 그것으로는 실제 wall-clock latency를 잘 설명하지 못한다고 본다. 그리고 그 차이를 PTE, 즉 Prefill Token Equivalents라는 metric으로 밀어붙인다.

한 줄 요약: Beyond Accuracy는 Tool-Integrated Reasoning에서 token 수나 tool call 횟수 대신, prefill-decode 비대칭과 KV-cache eviction을 반영하는 PTE를 제안하고, 그 관점에서 4가지 비효율 패턴을 정리한 논문이다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

agent benchmark를 “accuracy leaderboard”로만 읽으면 실제 서비스 비용 구조를 거의 놓치기 때문이다.
이 논문은 tool use cost 를 prompt engineering 감이 아니라 transformer inference first principle로 다시 적는다.
math, factual QA, multi-disciplinary QA를 함께 보면서, 어떤 모델이 어떤 도구 환경에서 비효율적으로 무너지는지 패턴까지 정리한다.

이 논문의 가장 중요한 메시지는 단순하다. 좋은 TIR agent는 “정답을 맞히는 모델” 이기 전에, 같은 정답을 얼마나 싸게 내는지를 같이 봐야 한다. 그리고 그 비용은 token count보다 KV-cache와 context growth에 더 크게 좌우될 수 있다.

1. Problem Setting

1-1. Problem definition

이 논문이 겨냥하는 문제는 Tool-Integrated Reasoning, 즉 TIR 환경에서 정확도와 실제 추론 비용을 함께 보는 방법 이 부족하다는 점이다.
TIR에서는 모델이 reasoning 중간에 search, visit, python 같은 외부 tool을 호출한다.
그런데 tool call이 들어가면 단순히 step 하나가 추가되는 수준에서 끝나지 않는다. 호출 이후 다시 LLM이 이어서 생각할 때, 이전 KV-cache가 재사용되지 못해 prefill을 다시 해야 하고, tool이 반환한 긴 텍스트가 context를 부풀리면서 이후 decode도 더 비싸진다.
즉, “tool을 1번 더 썼다” 와 “실제 GPU에서 latency가 얼마나 늘었는가” 는 같은 말이 아니다.
결국 이 논문의 문제 설정은 “TIR agent가 얼마나 잘 맞히는가” 보다, “TIR trajectory의 hardware-aware cost를 어떤 단위로 측정할 것인가” 에 가깝다.

1-2. Why previous approaches are insufficient

기존 efficiency metric은 대체로 token count 또는 tool call count에 머문다.
이런 metric은 context가 길어질수록 decode가 memory-bound로 더 비싸지는 구조를 직접 반영하지 못한다.
특히 tool call 이후에는 cache miss와 유사한 재prefill 비용이 생기는데, naive token metric은 이 비용을 잘 설명하지 못한다.
reward engineering 계열 TIR RL 연구도 많지만, cost penalty가 종종 token 수나 tool 수 같은 거친 proxy에 묶여 있다.
결국 기존 방식의 한계는 “비용을 본다” 가 아니라, 어떤 비용을 실제로 보고 있는가가 너무 거칠다는 데 있다.
여기서 논문의 초점은 hardware-aware cost definition 에 있다.

2. Core Idea

2-1. Main contribution

이 논문의 핵심 기여는 PTE, 즉 Prefill Token Equivalents를 제안한 것이다.
아이디어는 단순하다. tool-use trajectory 전체의 비용을 “prefill token 몇 개를 처리하는 비용과 동등한가” 라는 하나의 단위로 바꾸자는 것이다.
이렇게 하면 내부 reasoning token과 외부 tool use 이후의 재prefill cost, 그리고 길어진 context로 인한 decode cost를 한 스케일 위에서 비교할 수 있다.
논문은 이 metric이 wall-clock latency와 naive token count보다 훨씬 잘 맞는다고 주장한다.
그 위에서 수천 개 trajectory를 분석해 4가지 비효율 패턴을 정리한다.
- Confirmatory Tool Usage
- Tool-Mixing
- Lack of Tool Priors
- Tool Format Collapse

2-2. Design intuition

이 논문의 설계 직관은 prefill과 decode를 같은 token 단위로 대충 합치지 않는 데 있다.
prefill은 compute-bound에 더 가깝고, decode는 커진 KV-cache를 계속 불러와야 해서 memory-bound에 더 가깝다.
따라서 reasoning token 100개를 더 생성하는 비용과, tool response 때문에 context가 1000 token 길어진 뒤 decode가 느려지는 비용은 성격이 다르다.
PTE는 바로 이 비대칭을 metric 안에 집어넣는다.
이 논문의 진짜 좋은 점은 cost metric을 “경제적 가격표” 가 아니라 “hardware bottleneck proxy” 로 다시 세운다는 점이다. API price ratio는 사업자 정책이지만, PTE는 transformer inference path를 근거로 한다.

개념식으로 쓰면 PTE는 아래처럼 이해하면 된다.

\[PTE = \sum_{t=1}^{T} (C_t + gamma * Y_t * S_t)\]

여기서 $C_t$ 는 turn $t$ 에서 다시 읽어야 하는 prefill context 크기, $Y_t$ 는 해당 turn의 decode token 수, $S_t$ 는 decode 시작 시점의 누적 context 길이, $gamma$ 는 model-hardware pair에서 decode memory cost를 prefill cost로 환산하는 계수다. 정확한 원문 기호와 식 번호는 최종 발행 전 PDF 기준으로 다시 확인하는 편이 좋다.

3. Architecture / Method

3-1. Overview

Item	Description
Goal	TIR trajectory의 실제 inference cost를 hardware-aware하게 측정하고 비효율 패턴을 찾는 것
Key module	PTE metric, high-concurrency validation, 5-benchmark evaluation, inefficiency pattern mining
Difference from prior work	token count나 tool count 대신 prefill-decode 비대칭과 KV-cache growth를 cost에 직접 반영
Tools in framework	Search, Visit, Python
Main output	benchmark별 accuracy-PTE trade-off와 4가지 inefficiency pattern

3-2. Module breakdown

1) PTE cost model

PTE는 trajectory를 turn 단위로 쪼개서 본다.
각 turn마다 다시 넣어야 하는 context prefill cost와, 늘어난 context 위에서 발생하는 decode cost를 합산한다.
decode cost는 단순 decode token 수만 세지 않고, decode가 시작될 때의 누적 context 길이까지 같이 반영한다.
그래서 reasoning이 뒤로 갈수록, 같은 token 1개라도 더 비싸질 수 있다.
이 점이 token count와 가장 크게 갈리는 부분이다.

2) gamma as model-hardware coefficient

논문은 $gamma$ 를 model-hardware pair의 정적 계수로 둔다.
이 값은 memory-bound decode cost를 compute-bound prefill cost와 같은 단위로 바꾸는 역할을 한다.
GQA나 MLA 같은 아키텍처 차이도 반영한다.
즉 PTE는 “모든 모델에 같은 상수” 가 아니라, 모델 구조와 하드웨어 특성을 같이 먹는 metric이다.

3) High-concurrency validation

저자들은 PTE가 진짜 wall-clock latency와 맞는지 검증하기 위해 high-concurrency 실험을 별도로 한다.
DeepSeek-V3.2를 8x H200 node, vLLM TP=8, 256 parallel requests 환경에 올리고 synthetic TIR workload를 돌린다.
중요한 건 여기서 pure model generation latency만 기록하고, tool execution이나 network transmission 시간은 제외했다는 점이다.
즉 이 논문이 모델링하려는 것은 “LLM inference 자체의 cost” 이지, 전체 end-to-end user latency 전부는 아니다.

4) Unified TIR framework

코드 저장소도 단순 분석 스크립트 수준이 아니다.
Search, Visit, Python tool을 가진 unified inference framework, rollout trace, evaluation pipeline, PTE analysis code까지 같이 공개한다.
framework 차원에서 동일한 system prompt와 동일한 tool definition을 써서 모델 간 intrinsic TIR behavior를 비교하려는 의도가 분명하다.
실무적으로는 이 부분이 꽤 중요하다. tool schema나 prompt가 바뀌면 model behavior가 같이 바뀌기 때문이다.

5) Pattern mining

PTE를 만든 뒤 끝나는 것이 아니라, 실제 trajectory를 pattern 관점으로 읽는다.
논문이 잡아낸 4가지 패턴은 “이상한 예시 몇 개” 수준이 아니다.
heuristic으로 각 패턴을 자동 검출하고, primary setting에서 frequency와 cost multiplier까지 측정한다.
그래서 이 논문은 metric paper이면서 동시에 TIR behavior analysis paper로도 읽힌다.

4. Training / Data / Recipe

4-1. Data

이 논문은 model training paper가 아니라 evaluation and analysis paper에 가깝다.
벤치마크는 총 5개다.
- MATH500
- AIME24
- AIME25
- SimpleQA
- WebInstruct-Verified
math benchmark에는 Python tool을 제공한다.
SimpleQA에는 Search와 Visit를 제공한다.
WebInstruct-Verified에는 Search, Visit, Python을 모두 제공한다.
SimpleQA와 WebInstruct-Verified는 각각 500개 random subset으로 평가한다.

4-2. Training strategy

별도의 post-training은 하지 않는다.
대신 동일한 agent framework 안에서 여러 open-source tool-capable model을 돌려 accuracy, token, tool use count, PTE를 수집한다.
핵심 비교 대상은 Qwen2.5, Qwen3, Llama-3.1, GLM-4.5, DeepSeek-V3.1-Terminus, GPT-OSS-120B, Tongyi-Deepresearch 같은 공개 모델들이다.
모든 모델은 vLLM 위에서 동일한 system prompt와 tool definition으로 비교한다.
WebInstruct-Verified의 정답성 판정은 trajectory 끝에서 DeepSeek-V3 judge를 사용한다. 즉 모든 benchmark가 exact-match 계열은 아니다.

4-3. Engineering notes

Search tool은 Serper API, Visit tool은 Jina API, Python tool은 open-source sandbox를 쓴다.
framework는 각 turn마다 prefill token, decode token, 누적 sequence length를 따로 로깅한다.
이 로깅이 있어야 PTE를 trajectory 단위로 계산할 수 있다.
코드 저장소를 보면 rollout tracing, reward calculation, result_analysis가 분리돼 있어, 이후 efficiency-aware RL이나 agent eval 쪽으로 확장하기 좋다.
이 논문은 “새 metric” 자체보다 trace observability를 갖춘 runtime을 같이 공개한 점도 꽤 실용적이다.
특히 rollout trace logging 과 result analysis pipeline 을 한 저장소 안에 둔 점이 좋다.

5. Evaluation

5-1. Main results

먼저 이 논문에서 제일 중요한 숫자는 accuracy table보다 validation table이다.

Metric	Value	Meaning
corr(PTE, wall-clock latency)	0.925	실제 generation latency와 강한 선형 상관
corr(token count, wall-clock latency)	0.625	naive token metric은 설명력이 훨씬 낮음
Spearman rank across hardware	> 0.95	H100, H200, A100, RTX4090, V100 간 모델 효율 ranking이 대체로 유지

이 표가 핵심인 이유는 분명하다. PTE는 “좋아 보이는 아이디어” 수준이 아니라, 최소한 논문이 설계한 high-concurrency setting에서는 token count보다 훨씬 실제 latency와 잘 맞는다.

성능 landscape 쪽에서 논문이 말하는 포인트는 3가지다.

accuracy가 비슷해도 PTE는 크게 다를 수 있다.
- 논문은 같은 benchmark의 상위 정확도 구간에서도 PTE가 한 order 이상 벌어질 수 있다고 본다.
- 실제 표를 보면 SimpleQA에서 89.2 accuracy의 Qwen2.5-72B-Instruct는 PTE 6006인데, 92.9 accuracy의 GLM-4.5는 PTE 20617이다. 정확도 차이는 작지만 비용 차이는 훨씬 크다.
TIR 능력은 general skill이 아니라 task-tool specific skill에 가깝다.
- Qwen2.5-72B는 SimpleQA 같은 web agent task에서는 강하지만, MATH500과 AIME 같은 Python reasoner setting에서는 그렇게 강하지 않다.
- 즉 “tool use를 잘한다” 는 하나의 능력으로 뭉뚱그리기 어렵다.
thinking mode는 항상 이득이 아니다.
- 논문은 Qwen3-235B-Thinking이나 Qwen3-32B default config처럼 thinking mode가 켜진 모델이 어려운 math에서는 accuracy gain을 만들 수 있지만, 쉬운 factual QA에서는 accuracy를 깎거나 PTE를 크게 키운다고 해석한다.
- 이 부분은 TIR에서도 결국 “언제 길게 생각할지” 라는 routing 문제가 남아 있다는 뜻이다.

5-2. What really matters in the experiments

이 논문에서 진짜 중요한 것은 leaderboard가 아니라 아래 4가지다.

1) token front-loading과 실제 cost escalation은 다르다

token count 관점에서는 모델이 초반 step에 긴 reasoning을 몰아 넣는 “first-step effect” 가 강하게 보일 수 있다.
그런데 PTE로 보면 진짜 비용은 뒤로 갈수록 커지는 경우가 많다.
이유는 간단하다. context가 계속 누적되기 때문이다.
즉, “앞에서 많이 말한 모델” 과 “뒤에서 context를 너무 크게 만들어 놓은 모델” 을 token metric은 잘 구분하지 못한다.

2) 네 가지 inefficiency pattern이 모두 실무적이다

Pattern	Main meaning	Dominant setting	Freq.	Cost multiplier
Confirmatory Tool Usage	먼저 답을 만들고, tool은 확인용으로만 사용	Qwen3-235B-Instruct on MATH500	81%	1.77
Tool-Mixing	한 trajectory에서 여러 toolset을 과하게 섞음	DeepSeek-V3.1-Term on WebInstruct	59%	2.42
Format Collapse	schema나 JSON 형식이 조금만 바뀌어도 tool call이 붕괴	Tongyi-DeepResearch on SimpleQA	100%	N/A
Lack of Tool Priors	tool 사용법 prior가 약해 빈 출력이나 execution error를 냄	Qwen2.5-72B on AIME24	33%	2.15

이 네 가지는 꽤 재밌다.

Confirmatory는 “도구를 solver가 아니라 verifier로만 쓰는” 패턴이다.
Tool-Mixing은 겉보기엔 유연해 보이지만, 비용이 많이 드는데 accuracy gain은 분명하지 않다.
Lack of Tool Priors는 tool이 있다고 다 잘 쓰는 게 아니라, pretraining이나 alignment에서 그 tool environment를 배웠는지가 중요하다는 뜻이다.
Format Collapse는 agent 성능이 semantic competence보다 schema brittleness에 먼저 무너질 수 있다는 경고다.

3) 높은 PTE는 단순히 어려운 문제를 푼 흔적만은 아니다

논문은 difficulty를 통제한 뒤에도 incorrect trajectory가 correct trajectory보다 더 높은 PTE를 보인다고 주장한다.
예를 들어 Table 10 기준으로 PTE는 wall-clock latency와 0.925 상관을 보이지만, Appendix F에서는 difficulty를 통제한 뒤에도 PTE와 accuracy 사이의 음의 관계가 남는다고 정리한다.
심지어 GPT-OSS는 Level-5 문제를 맞힐 때보다 Level-4 문제를 틀릴 때 더 큰 PTE를 쓰는 사례도 보고한다.
이건 중요한 포인트다. 더 오래 생각한 것 과 더 비효율적으로 헤맨 것 은 같지 않다.

4) frontier model도 tool infrastructure bottleneck을 피하지 못한다

논문은 DeepSeek-V3.1-Terminus, GPT-OSS, Qwen3-235B-Instruct 같은 frontier 계열 모델이 높은 accuracy를 내더라도, 길고 multi-round한 tool response 때문에 efficiency가 크게 악화될 수 있다고 해석한다.
즉 더 좋은 model alone으로는 agent runtime 문제가 끝나지 않는다.
결국 serving stack에서 KV-cache eviction과 long tool response를 어떻게 다룰지가 별도 문제로 남는다.

6. Limitations

이 논문이 모델링하는 것은 tool execution time 전체가 아니라 LLM generation latency 다.
- search API latency, webpage fetch latency, python 실행 latency, network variance는 본 metric의 직접 대상이 아니다.
- 실제 end-to-end product latency는 이보다 더 복잡하다.
PTE도 여전히 proxy다.
- transformer inference first principle에 기대고 있지만, 실제 deployment에서는 batching, cache policy, kernel optimization, paged attention, request interleaving이 같이 영향을 준다.
WebInstruct-Verified 일부 평가는 LLM judge를 쓴다.
- 따라서 모든 benchmark가 strict symbolic scoring은 아니다.
- 정확도 비교를 읽을 때 judge bias 가능성은 같이 봐야 한다.
pattern heuristic은 단순하고 primary setting 중심이다.
- 예를 들어 confirmatory pattern은 “tool 호출 전 이미 답 token이 생성됐는가” 로 잡는다.
- heuristic이 단순한 만큼, 더 정교한 pattern taxonomy로 확장될 여지가 있다.
논문이 제안하는 것은 진단 도구이지, 직접적인 해결책 자체는 아니다.
- inefficiency pattern을 잘 보여주지만, 어떤 RL objective나 runtime policy가 이를 가장 잘 줄이는지는 후속 문제로 남는다.
추가로 조심할 점은 “accuracy 하락 없이 PTE만 낮추자” 가 항상 좋은 목표는 아니라는 점이다.
- 특히 AIME 같은 고난도 reasoning에서는 일정 정도의 긴 trace가 실제로 필요한 경우가 있다.
- 그래서 PTE는 절대 최소화 target이라기보다, difficulty-aware budget control signal 로 쓰는 편이 더 맞아 보인다.

7. My Take

7-1. Why this matters for my work

이 논문이 중요한 이유는 agent를 평가할 때 “accuracy + token count” 정도로 끝내는 습관을 바꾸게 만들기 때문이다.

실서비스에서 tool-use agent를 붙이면, 진짜 비용 문제는 아래에서 터진다.

tool call이 잦아 turn이 잘게 쪼개짐
매 turn마다 context prefill이 반복됨
tool response를 그대로 넣어 이후 decode가 비싸짐
model이 schema mismatch나 empty tool return으로 괜히 한 바퀴 더 돎

즉 모델이 똑같이 정답을 내도, 어떤 trajectory는 productizable하고 어떤 trajectory는 너무 비싸다. 이 차이를 보여주는 metric이 있어야 RL reward 설계도, serving optimization도, prompt intervention도 제대로 된다.

이 논문의 가장 큰 가치는 “agent efficiency” 를 추상적인 cost-awareness에서 끌어내렸다는 점이다.

특히 이 논문은 KV-cache와 context growth 를 efficiency discussion의 중심으로 다시 올려놓는다.

7-2. Reuse potential

실무적으로 재사용할 수 있는 포인트는 아래와 같다.

1) agent eval dashboard에 PTE류 metric 추가

accuracy, tool count, avg tokens만 보는 대시보드는 부족하다.
turn별 prefill size, decode length, cumulative context를 같이 기록하면 훨씬 좋은 진단이 가능하다.

2) prompt와 schema를 pattern detector로 같이 운영

Format Collapse는 모델이 semantic하게는 맞아도 syntax에서 바로 무너질 수 있다는 뜻이다.
tool definition rename, argument shape change, single query vs query list 같은 perturbation test를 CI처럼 돌릴 가치가 있다.

3) RL reward design에 직접 연결 가능

confirmatory usage나 useless tool-mixing은 reward penalty 후보가 될 수 있다.
다만 단순 tool count penalty보다 PTE increase 자체를 penalty로 쓰는 편이 더 맞다.

4) runtime intervention에도 연결 가능

long tool response를 요약하거나, tool output을 structured state로 압축하거나, post-tool cache policy를 바꾸는 식의 systems optimization이 가능하다.
이 논문은 model weight 문제가 아니라 runtime architecture 문제 도 같이 건드린다.

5) difficulty-aware routing과 같이 봐야 한다

쉬운 SimpleQA와 어려운 AIME를 같은 thinking budget으로 처리하면 비효율이 커진다.
결국 PTE는 reasoning router나 tool router의 objective에도 들어갈 수 있다.

7-3. Follow-up papers

BrowseComp
MCP-RADAR
SimpleTIR
THOR
SideQuest
CLASSIC

8. Summary

Beyond Accuracy는 TIR에서 token 수나 tool 횟수 대신, prefill-decode 비대칭과 KV-cache growth를 반영하는 PTE를 제안한다.
논문은 high-concurrency setting에서 PTE가 wall-clock latency와 token count보다 훨씬 잘 맞는다고 보고한다.
분석 결과 confirmatory usage, tool-mixing, lack of priors, format collapse라는 4가지 비효율 패턴이 드러난다.
높은 PTE는 단순히 어려운 문제를 푼 흔적이 아니라, 비효율적 reasoning과 co-occur하는 경우가 많다.
이 논문의 핵심 가치는 agent 평가를 “accuracy-first” 에서 “accuracy plus hardware-aware trajectory cost” 로 옮겨 놓은 데 있다.

Twitter Facebook LinkedIn