17 분 소요

0. Introduction

Paper link

Official code

Adam’s Law는 이름만 보면 optimizer 이야기처럼 보이지만, 실제로는 LLM이 어떤 표현을 더 잘 처리하는가에 대한 데이터 빈도 법칙을 제안하는 논문이다. 핵심 질문은 단순하다. 같은 의미를 가진 여러 paraphrase가 있을 때, LLM은 어떤 표현을 더 잘 이해하고 더 안정적으로 답하는가?

이 논문은 그 답을 textual frequency에서 찾는다. 즉, 의미가 같다면 더 자주 등장하는 표현이 prompting과 fine-tuning에서 더 유리하다는 주장이다. 저자들은 이를 “Textual Frequency Law”, TFL이라고 부르고, closed-source LLM의 실제 pretraining corpus를 알 수 없다는 현실적인 문제를 online corpus 기반 frequency estimation과 model-generated corpus 기반 distillation으로 우회한다.

한 줄 요약: Adam’s Law는 같은 의미의 입력이라면 sentence-level textual frequency가 높은 표현을 prompt와 fine-tuning data로 우선 선택하자는 법칙을 제안하고, 이를 TFL, TFD, CTFT, TFPD로 구성된 실험 프레임워크로 검증한 논문이다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

  • prompt wording sensitivity를 단순 prompt engineering 문제가 아니라 pretraining distribution과 textual frequency 문제로 다시 해석한다.
  • SFT data filtering과 curriculum 설계에서 quality, difficulty, length 외에 frequency라는 축을 추가한다.
  • math reasoning, machine translation, commonsense reasoning, tool calling까지 비교적 다양한 task에서 high-frequency paraphrase의 효과를 실험한다.
  • 실무적으로는 “prompt canonicalization”, synthetic data filtering, SFT ordering, evaluation binning에 바로 연결할 수 있는 아이디어를 제공한다.

이 논문의 장점은 복잡한 알고리즘보다 문제 정의에 있다. 우리는 보통 prompt를 바꿔서 성능이 달라지면 prompt engineering 감각이나 instruction-following 능력 차이로만 설명한다. 그런데 이 논문은 같은 의미라도 모델이 더 익숙하게 본 표현과 덜 익숙하게 본 표현이 있고, 그 차이가 reasoning이나 translation 결과로 이어질 수 있다고 본다. 이 관점은 꽤 실용적이다.

1. Problem Setting

1-1. Problem definition

이 논문이 겨냥하는 문제는 “paraphrase sensitivity”다.

LLM은 같은 의미의 질문을 다르게 표현했을 때 전혀 다른 품질의 답을 내놓을 수 있다. 예를 들어 수학 문제의 조건, 번역할 문장, commonsense question, tool calling instruction이 의미상으로는 같더라도, 단어 선택과 문장 구조가 바뀌면 모델의 출력 정확도가 달라질 수 있다.

이 현상 자체는 새롭지 않다. 실제 prompt engineering에서도 흔히 보는 문제다. 하지만 이 논문은 다음과 같은 질문을 던진다.

  • 같은 의미의 paraphrase 중 어떤 것을 선택해야 하는가?
  • 모든 paraphrase를 training data에 넣을 수 없다면 무엇을 남겨야 하는가?
  • prompt rewrite를 한다면 더 자연스러운 표현과 더 드문 표현 중 어느 쪽이 유리한가?
  • fine-tuning 순서를 정할 때 difficulty나 length 외에 textual frequency를 쓸 수 있는가?

즉 이 논문은 prompt optimization과 data curation 사이에 있는 문제를 다룬다. Prompt 단계에서는 어떤 wording을 모델에 넣을지의 문제이고, training 단계에서는 어떤 input distribution으로 모델을 업데이트할지의 문제다.

1-2. Why previous approaches are insufficient

기존 접근은 보통 아래 축을 본다.

  • data quality: annotation이 정확한가.
  • data quantity: 얼마나 많은 example이 있는가.
  • data diversity: 다양한 domain과 style을 포함하는가.
  • curriculum difficulty: 쉬운 것부터 어려운 것으로 학습시키는가.
  • length curriculum: 짧은 것부터 긴 것으로 학습시키는가.
  • prompt search: 여러 prompt 후보 중 empirical score가 높은 것을 고르는가.

하지만 textual frequency는 상대적으로 덜 다뤄졌다. 여기서 frequency는 단순 word frequency만이 아니라 “sentence-level expression”이 corpus에서 얼마나 흔하게 나타날 법한지에 대한 proxy다.

문제는 실제 LLM pretraining corpus를 대부분 알 수 없다는 점이다. GPT-4o-mini, DeepSeek-V3 같은 모델은 실제 training data distribution을 직접 볼 수 없다. 그래서 frequency를 쓰려면 다음 문제가 생긴다.

  1. 실제 pretraining data가 없는데 frequency를 어떻게 추정할 것인가.
  2. word-level frequency를 sentence-level frequency로 어떻게 올릴 것인가.
  3. high-frequency paraphrase가 정말 downstream task quality를 올리는지 어떻게 검증할 것인가.
  4. high-frequency 표현이 단순히 쉬운 문장, 짧은 문장, 낮은 dependency depth와 같은 기존 complexity metric의 다른 이름은 아닌지 어떻게 분리할 것인가.

Adam’s Law는 이 문제를 위해 “TFL”, “TFD”, “CTFT”, “TFPD”라는 네 가지 요소를 묶는다.

2. Core Idea

2-1. Main contribution

이 논문의 핵심 기여는 크게 네 가지다.

  1. “Textual Frequency Law”, TFL

같은 의미를 가진 paraphrase set이 있을 때, sentence-level textual frequency가 높은 표현을 prompting과 fine-tuning에 우선 사용하자는 법칙이다.

  1. Textual Frequency Distillation, TFD

실제 LLM pretraining corpus를 모르는 상황에서 online corpus 기반 frequency estimation만으로는 부족할 수 있다. 그래서 target LLM에 story completion을 시켜 model-generated text를 모으고, 이를 frequency estimation 보정에 사용한다.

  1. Curriculum Textual Frequency Training, CTFT

fine-tuning data를 sentence-level frequency 기준으로 정렬한다. 흥미로운 점은 high-to-low가 아니라 low-to-high 순서를 제안한다는 것이다. 논문은 low-frequency expression이 더 다양할 수 있고 먼저 학습할 가치가 있다는 motivation을 둔다. 이후 high-frequency expression으로 마무리하면서 더 안정적인 mapping을 학습시키는 구조로 볼 수 있다.

  1. Textual Frequency Paired Dataset, TFPD

GSM8K, FLORES-200, CommonsenseQA 등을 기반으로 high-frequency partition과 low-frequency partition을 paired 형태로 만든 dataset이다. 각 pair는 의미가 같아야 하며, GPT-4o-mini로 후보를 만들고 human annotator가 semantic equivalence를 확인한다.

2-2. Design intuition

이 논문의 설계 직관은 다음 문장으로 정리할 수 있다.

LLM은 pretraining에서 자주 본 표현을 더 안정적으로 encoding하고 decoding할 가능성이 높다.

그렇다면 같은 의미라면 더 빈번한 표현이 더 낮은 input-side loss를 만들 수 있고, prompt 단계에서는 더 잘 calibrated된 internal representation을 활성화할 수 있다. Fine-tuning 단계에서는 이미 모델이 더 익숙한 input token sequence를 사용하므로 gradient가 더 안정적이고 output mapping을 배우기 쉬울 수 있다.

다만 이 직관은 그대로 theorem이 되지는 않는다. 논문 appendix에서도 loss ordering과 task performance ordering 사이의 연결은 formal proof가 아니라 empirical hypothesis에 가깝다고 명시한다. 따라서 이 논문은 theoretical claim만으로 읽기보다, frequency라는 변수 하나를 비교적 체계적으로 control해서 여러 task에서 실험한 paper로 읽는 편이 맞다.

내가 보기엔 이 논문에서 중요한 포인트는 high-frequency가 항상 좋은가보다, 같은 의미의 표현 후보가 여러 개 있을 때 frequency가 selection criterion으로 쓸 만한가다. 이 차이는 크다. 전자는 지나치게 강한 claim이고, 후자는 실제 prompt rewrite나 SFT data filtering에 바로 쓸 수 있는 claim이다.

3. Architecture / Method

3-1. Overview

Item Description
Goal 같은 의미의 paraphrase 중 LLM에 더 유리한 표현을 textual frequency로 선택
Key law TFL, higher sentence-level frequency should be preferred when meaning is preserved
Frequency estimator online corpus 기반 word frequency + sentence-level aggregation
Distillation module TFD, target LLM story completion으로 frequency estimation 보정
Training module CTFT, frequency 기준 low-to-high fine-tuning curriculum
Dataset TFPD, high-frequency / low-frequency paired dataset
Evaluation tasks MR, MT, CR, TC

이 논문의 method는 새로운 model architecture가 아니라 data selection framework에 가깝다. 모델 내부를 바꾸지 않고, 입력 표현과 fine-tuning data ordering을 바꿔서 성능 차이를 만든다.

3-2. Module breakdown

1) Textual Frequency Law

TFL은 paraphrase set $P$ 안에서 sentence-level frequency가 가장 높은 입력을 고르는 방식으로 볼 수 있다.

\[x_star = argmax_{x in P} sfreq(x, D)\]

여기서 $x$는 prompt나 input sentence이고, $D$는 frequency를 계산하기 위한 corpus다. $P$는 의미가 같은 paraphrase 후보들의 집합이다.

Sentence-level frequency는 word-level frequency를 sentence 단위로 aggregate해서 계산한다. 원문의 수식은 word-level frequency의 position-unaware aggregation으로 설명되며, appendix에서는 unigram 기반 geometric mean 형태의 근사라고 해석할 수 있다. 블로그 초안에서는 아래처럼 개념적으로 적어둔다.

\[sfreq(x, D) = geom_mean(wfreq(x_1, D), ..., wfreq(x_K, D))\]

중요한 점은 문장 내 단어 순서나 syntactic dependency를 직접 modeling하지 않는다는 것이다. 이 frequency는 sentence probability를 정확히 계산하려는 objective가 아니라, 표현의 commonness를 비교하기 위한 proxy다.

Prompting에서는 high-frequency paraphrase를 최종 prompt로 사용한다. Fine-tuning에서는 high-frequency input과 ground-truth output pair를 사용한다.

2) Textual Frequency Distillation

Online corpus 기반 frequency estimation은 실제 target LLM의 training distribution과 다를 수 있다. 특히 closed-source LLM은 pretraining data를 알 수 없다. TFD는 이 차이를 줄이기 위한 optional module이다.

절차는 다음과 같다.

  1. 가지고 있는 textual data를 target LLM에 넣는다.
  2. 아래와 같은 story completion prompt를 사용해 model-generated continuation을 얻는다.
Please conduct story completion on the following data: <textual data>
  1. 생성된 corpus에서 frequency를 다시 추정한다.
  2. 기존 online corpus 기반 frequency와 TFD 기반 frequency를 가중 결합한다.
  3. 이 결합 frequency를 사용해 high-frequency paraphrase를 선택한다.

TFD의 의도는 명확하다. 실제 training data를 모르는 대신, target LLM이 생성하는 text distribution을 관찰해서 그 모델이 익숙해하는 표현을 추정하자는 것이다. 이건 strict한 의미의 training corpus reconstruction은 아니지만, model-specific frequency prior를 얻는 heuristic으로 볼 수 있다.

논문은 TFD가 optional이라고 설명한다. 이유는 비용이다. Story completion으로 추가 corpus를 만드는 과정은 계산 비용이 있다. 그래서 TFL만 써도 작동하지만, 더 model-specific한 frequency estimation이 필요하면 TFD를 붙이는 구조다.

3) Curriculum Textual Frequency Training

CTFT는 fine-tuning 단계에서 frequency를 data ordering에 사용한다.

일반적인 curriculum learning은 easy-to-hard를 많이 쓴다. 이 논문은 dependency tree depth 같은 difficulty metric 대신 textual frequency를 사용한다. 흥미롭게도 순서는 low-to-high다.

논문의 motivation은 low-frequency expression이 더 다양할 수 있다는 점이다. 먼저 다양한 저빈도 표현을 보고, 이후 고빈도 표현으로 마무리하는 구조는 SFT에서 broad coverage와 stable mapping을 모두 얻으려는 시도로 볼 수 있다.

간단히 쓰면 다음과 같다.

for each epoch:
  sort training instances from low frequency to high frequency
  fine-tune model with this order

이 방식은 data 자체를 바꾸는 TFL과 다르다. TFL은 어떤 paraphrase를 선택할지의 문제이고, CTFT는 이미 선택된 training instances를 어떤 순서로 보여줄지의 문제다.

4) Textual Frequency Paired Dataset

TFPD는 이 논문의 실험 핵심이다. 같은 의미의 high-frequency sentence와 low-frequency sentence를 pair로 만들어야 TFL을 검증할 수 있기 때문이다.

논문은 GPT-4o-mini를 사용해 각 원문에 대해 common expression 10개, less common expression 10개를 생성한다. 이후 frequency가 가장 높은 문장과 가장 낮은 문장을 고르고, original sentence와 함께 human annotation에 보낸다. Annotator는 세 문장이 같은 의미인지 확인한다. 모든 annotator가 authentic same meaning으로 판단한 sample만 남긴다.

Task High freq count Low freq count High avg length Low avg length
MR 738 738 25.86 25.28
MT 526 526 21.70 24.78
CR 575 575 23.66 22.43
TC 114 114 41.96 47.82

여기서 MR은 Math Reasoning, MT는 Machine Translation, CR은 Commonsense Reasoning, TC는 Tool Calling이다.

4. Training / Data / Recipe

4-1. Data

TFPD는 task별로 다른 source를 사용한다.

  • MR: GSM8K 기반.
  • MT: FLORES-200 기반.
  • CR: CommonsenseQA 기반.
  • TC: tool calling partition. 본문 세부 구성은 appendix 결과 중심으로 더 확인 필요.

데이터 구축에서 중요한 점은 semantic equivalence 검증이다. Paraphrase가 frequency만 다르고 의미가 같아야 TFL 실험이 성립한다. 논문은 세 명의 English Linguistics 관련 학위 보유 annotator를 고용했고, 세 명 모두 같은 의미라고 판단한 sample만 유지했다.

수량도 중요하다.

  • GSM8K test 1,319개 중 738 pair를 유지한다.
  • FLORES-200 dev-test 1,012개 중 526 pair를 유지한다.
  • Fine-tuning 실험에서는 constructed TFPD를 training data로 쓰고, FLORES-200 dev set에서 500 sample을 random select해서 evaluation에 사용한다.

이 처리 방식은 강점과 약점을 동시에 가진다.

강점은 pair quality가 비교적 엄격하다는 점이다. 약점은 GPT-4o-mini가 생성한 paraphrase 후보와 human filtering을 통과한 subset이므로, dataset construction bias가 생길 수 있다는 점이다. 실제 production prompt나 domain-specific SFT data에도 같은 trend가 나타나는지는 별도 검증이 필요하다.

4-2. Training strategy

실험은 prompting과 fine-tuning으로 나뉜다.

Prompting

Prompting 실험에서는 high-frequency partition과 low-frequency partition을 각각 LLM에 입력하고 output quality를 비교한다.

사용 모델은 다음과 같다.

  • GPT-4o-mini
  • DeepSeek-V3
  • Llama-3.3-70B-Instruct
  • doubao-1.5-pro-32k
  • qwen2.5 계열 일부 실험

Translation 실험에서는 English에서 100개 language로 번역을 수행하고, COMET이 지원하는 37개 language에 대해서는 COMET도 보고한다.

Fine-tuning

Fine-tuning 실험은 qwen2.5-7b-instruct에서 LoRA fine-tuning으로 진행된다.

비교 축은 다음처럼 구성된다.

  • Original FLORES-200 fine-tuned model
  • FT on LF without CTFT
  • FT on HF without CTFT
  • FT on 1/2 LF 1/2 HF without CTFT
  • FT on HF with CTFT
  • Easy-to-hard baseline
  • High-to-low baseline

Easy-to-hard baseline에서는 max dependency tree depth를 difficulty function으로 쓴다. 논문은 spacy의 en_core_web_sm을 사용한다고 설명한다.

4-3. Engineering notes

실무 관점에서 볼 만한 engineering point는 세 가지다.

  1. Frequency estimator는 model-agnostic과 model-specific을 분리한다.

Online resource 기반 frequency는 빠르고 싸지만 target model-specific하지 않다. TFD는 비싸지만 target model의 generation distribution을 반영한다. 이 분리는 실무에서도 유용하다. 빠른 prompt rewriting에는 off-the-shelf frequency만 쓰고, 중요 도메인에서는 model-specific corpus를 추가로 모을 수 있다.

  1. Paraphrase generation에는 semantic drift guard가 필요하다.

Figure 1 caption에서도 paraphrasing이 semantic drift를 만들 수 있기 때문에 human annotation이 필요하다고 설명한다. 실제 서비스에서 prompt rewrite나 data rewrite를 자동화할 때도 같은 문제가 생긴다. 더 흔한 표현으로 바꿨지만 domain-specific constraint가 빠지면 성능이 아니라 안전성이 깨질 수 있다.

  1. Frequency는 complexity와 다르다.

논문은 dependency depth, mean dependency distance, Flesch-Kincaid grade level과 frequency의 correlation을 따로 분석한다. 결과적으로 textual complexity metric과 frequency의 correlation은 약하다고 보고한다. 이 점이 중요하다. Adam’s Law는 단순히 쉬운 문장이 좋다는 주장이 아니라, 같은 의미에서 corpus frequency가 높은 표현이 좋다는 주장이다.

5. Evaluation

5-1. Main results

1) Math reasoning

Math reasoning에서는 high-frequency partition이 세 모델 모두에서 accuracy를 올린다.

Model Low freq High freq
DeepSeek-V3 63.55 71.54
GPT-4o-mini 60.70 68.70
Llama-3.3-70B-Instruct 80.49 88.75

이 결과에서 흥미로운 점은 논문이 intersection analysis를 같이 보고한다는 것이다. Low-frequency version에서 이미 맞힌 sample은 high-frequency version에서도 유지되고, 주로 low-frequency에서 틀린 sample이 high-frequency에서 개선된다고 설명한다. 즉 high-frequency rewriting이 맞던 문제를 깨뜨리는 방식이 아니라, 틀리던 문제를 고치는 방향으로 작동했다는 해석이다.

다만 이 부분은 dataset construction과 model selection에 의존한다. 따라서 모든 domain에서 high-frequency rewrite가 monotonic improvement를 보장한다고 읽으면 안 된다.

2) Commonsense reasoning

Commonsense reasoning에서도 high-frequency partition이 세 모델 모두에서 더 높은 accuracy를 보인다.

Model Low freq High freq
GPT-4o-mini 0.6747 0.6974
DeepSeek-V3 0.7043 0.7235
Llama-3.3-70B-Instruct 0.7530 0.7704

개선 폭이 math reasoning만큼 크지는 않지만 방향은 일관적이다. 이 결과는 TFL이 reasoning 문제뿐 아니라 commonsense QA 형태에서도 작동할 수 있음을 보여준다.

3) Machine translation prompting

Machine translation에서는 English에서 100개 language로 번역하는 setting을 사용한다. 결과 요약은 Table 3에 나온다.

Metric Model Improved pairs More than 1 pt More than 3 pts More than 5 pts
BLEU DeepSeek-V3 99/100 63/99 31/99 12/99
BLEU GPT-4o-mini 95/100 49/95 27/95 5/95
chrF DeepSeek-V3 100/100 86/100 40/100 7/100
chrF GPT-4o-mini 91/100 75/91 34/91 2/91
COMET DeepSeek-V3 37/37 33/37 4/37 0/37
COMET GPT-4o-mini 36/37 35/36 11/36 0/36

이 표는 이 논문에서 가장 강한 evidence 중 하나다. Language pair가 많고, metric도 BLEU, chrF, COMET으로 나뉘며, 대부분의 경우 high-frequency partition이 low-frequency partition보다 좋다.

하지만 번역에서는 주의할 점도 있다. Source sentence를 더 흔한 영어 표현으로 바꾸는 것이 target translation quality를 올릴 수는 있지만, rare term이나 domain-specific expression이 중요한 번역에서는 high-frequency rewrite가 정보 손실을 만들 수 있다. 논문은 semantic equivalence annotation으로 이를 통제하지만, 실제 domain translation에서는 term preservation이 더 중요할 수 있다.

4) Fine-tuning on translation

Fine-tuning 실험은 qwen2.5-7b-instruct에서 LoRA로 수행된다. 대표적으로 Table 4를 보면 FT on HF with CTFT가 보고된 8개 metric에서 모두 best를 기록한다.

Setting kea BLEU kik BLEU pag BLEU lvs BLEU
Fine-tuned Model 4.6772 1.2811 4.5129 4.1954
FT on LF w/o CTFT 4.3899 1.4223 3.9073 3.2221
FT on HF w/o CTFT 5.2466 1.2432 3.7781 3.9156
FT on HF w/ CTFT 5.3992 1.6570 4.9102 4.6027

논문이 강조하는 포인트는 세 가지다.

  • HF fine-tuning이 original FLORES-200 fine-tuning보다 나은 경우가 있다.
  • LF 대신 HF를 쓰면 성능이 좋아진다.
  • HF를 쓰되 CTFT를 적용하면 더 좋아진다.

특히 pag_Latn에서 FT on HF w/o CTFT의 BLEU 3.7781이 FT on HF w/ CTFT에서 4.9102로 올라간다. 논문은 이를 +29.96% 개선으로 설명한다.

이 결과는 frequency가 prompt selection뿐 아니라 training order에도 영향을 줄 수 있다는 주장을 뒷받침한다.

5) Tool calling

Appendix Table 14에는 TC partition 결과가 있다.

Metric Model Low freq High freq
Tool Selection Accuracy GPT-4o-mini 0.6053 0.6667
Tool Selection Accuracy DeepSeek-V3 0.6140 0.6404
Tool Selection Accuracy Qwen2.5-14B-Instruct 0.6316 0.6667
Accuracy with Correct Tool Using GPT-4o-mini 0.4386 0.4912
Accuracy with Correct Tool Using DeepSeek-V3 0.4649 0.4737
Accuracy with Correct Tool Using Qwen2.5-14B-Instruct 0.4298 0.4474

Tool calling에서 high-frequency wording이 좋아진다는 점은 실무적으로 꽤 중요하다. Agent prompt나 tool description은 보통 사람이 자연어로 작성한다. 그런데 같은 tool usage instruction이라도 표현이 덜 흔하면 model이 tool을 잘못 고르거나 argument를 잘못 채울 가능성이 커질 수 있다.

다만 TC sample 수는 114 pair로 상대적으로 작다. 따라서 이 결과는 중요한 signal이지만, tool-use production policy까지 바로 일반화하기보다는 추가 benchmark가 필요하다.

5-2. What really matters in the experiments

1) 이 논문은 prompt engineering hack이 아니라 data distribution paper에 가깝다

겉으로 보면 이 논문은 prompt를 더 쉬운 말로 바꾸자는 이야기처럼 보일 수 있다. 하지만 실제 핵심은 prompt wording을 pretraining distribution proximity와 연결한다는 점이다.

High-frequency expression은 모델이 pretraining에서 더 많이 봤을 가능성이 높다. 그러면 input sequence의 NLL이 낮아질 수 있고, hidden representation도 더 안정적일 수 있다. 이 해석은 prompt, SFT, tool calling을 하나의 관점으로 묶어준다.

2) TFL은 semantic equivalence가 깨지는 순간 위험해진다

TFL의 전제는 같은 의미의 paraphrase다. 이 전제가 깨지면 high-frequency sentence가 더 좋은 것이 아니라 그냥 다른 문제를 푸는 것이 된다. 실제로 더 흔한 표현은 종종 더 일반적이고 덜 구체적이다. Domain-specific prompt에서는 rare term이 중요한 constraint일 수 있다.

따라서 TFL을 실무에 적용하려면 high-frequency rewrite 앞뒤에 semantic preservation check가 있어야 한다. 예를 들면 다음과 같은 guard가 필요하다.

  • 핵심 entity와 숫자 보존.
  • domain term 보존.
  • instruction constraint 보존.
  • answer format 보존.
  • rewrite 전후 model output diff 검사.

3) CTFT는 frequency를 difficulty와 분리해서 본다

이 논문이 좋은 이유 중 하나는 high-frequency가 단순히 easy sentence와 같은 것이 아니라고 분리하려 한다는 점이다. Table 5에서 dependency depth, mean dependency distance, Flesch-Kincaid grade level과 frequency의 correlation을 보고하고, weak correlation이라고 해석한다.

이 부분은 curriculum learning 관점에서 중요하다. 기존 curriculum은 easy-to-hard나 short-to-long처럼 비교적 직관적인 난이도를 쓴다. CTFT는 linguistic commonness를 ordering signal로 쓴다. 이건 특히 SFT data가 이미 고품질이고 난이도 차이가 명확하지 않을 때 새로운 sorting key가 될 수 있다.

4) TFD는 효과가 있지만 비용과 circularity를 함께 봐야 한다

논문은 TFD ablation에서 TFD를 제거하면 성능이 떨어진다고 설명한다. 특히 DeepSeek-V3 COMET 기준으로 37개 language pair에서 TFD가 모두 더 좋다고 보고한다. 또한 TFD에 더 많은 data를 쓰면 performance improvement가 증가하는 경향도 보인다.

하지만 TFD는 target LLM으로 corpus를 생성한다. 따라서 비용이 있고, target model의 generation bias를 frequency estimator에 주입할 수 있다. 이것이 장점일 수도 있고 단점일 수도 있다. 특정 모델에 맞춘 prompt optimization에는 좋지만, model-agnostic data curation에는 과적합 신호가 될 수 있다.

6. Limitations

  1. TFD는 계산 비용이 있다.

논문도 story completion으로 frequency estimation을 얻는 과정이 비용을 만든다고 명시한다. Closed-source training corpus를 모르는 문제를 우회하기 위한 방법이지만, 대규모 production data에 적용하려면 비용 계산이 필요하다.

  1. Frequency estimator는 실제 training data frequency가 아니다.

Online corpus와 wordfreq 기반 추정은 proxy다. Target LLM의 실제 pretraining distribution과 다를 수 있다. TFD가 이를 보정하지만, model-generated corpus가 실제 training corpus와 같다는 뜻은 아니다.

  1. Sentence-level frequency는 unigram approximation에 가깝다.

Appendix limitation에서도 sentence frequency measure가 word order와 inter-token dependency를 무시한다고 설명한다. Paraphrase가 주로 word choice만 다르면 괜찮을 수 있지만, syntax와 length가 크게 다르면 commonness를 제대로 잡지 못할 수 있다.

  1. Semantic equivalence는 강한 전제다.

TFL은 같은 의미의 paraphrase를 비교한다. 하지만 실제 paraphrasing은 subtle meaning shift를 만들 수 있다. 논문은 human annotation으로 이를 줄였지만, 자동화된 prompt rewriting이나 SFT data rewriting에서는 더 큰 문제가 될 수 있다.

  1. Loss ordering이 task performance ordering을 formal하게 보장하지는 않는다.

Appendix는 higher-frequency paraphrase가 lower NLL을 가질 수 있다는 방향의 theoretical framework를 제공한다. 하지만 lower input loss가 higher task accuracy나 BLEU를 항상 의미하는 것은 아니다. 논문도 이 연결을 empirical hypothesis로 다룬다.

  1. Low-frequency expression의 가치가 사라지는 것은 아니다.

Low-frequency expression은 더 다양하고, domain-specific하고, 정보량이 큰 경우가 있다. 특히 legal, medical, code, scientific domain에서는 rare term 자체가 핵심 의미일 수 있다. Adam’s Law는 rare expression을 제거하자는 논문이 아니라, 같은 의미라면 more frequent expression이 유리할 수 있다는 논문으로 읽어야 한다.

  1. TC와 일부 appendix 결과는 sample 수와 설정을 더 봐야 한다.

Tool calling 결과는 흥미롭지만 TC partition은 114 pair로 작다. Agent benchmark나 tool-use instruction design에 적용하려면 더 큰 task set과 실제 API schema 기반 검증이 필요하다.

7. My Take

7-1. Why this matters for my work

내 관점에서 이 논문은 prompt engineering과 data engineering을 연결한다는 점에서 의미가 크다.

실무에서는 prompt를 바꾸면 성능이 바뀐다는 사실을 이미 알고 있다. 하지만 그 이유를 설명할 때는 보통 막연하게 더 명확하다, 더 자연스럽다, 더 친절하다 정도로 말한다. Adam’s Law는 여기에 frequency라는 측정 가능한 축을 넣는다.

이건 production LLM pipeline에서 유용하다. 예를 들어 system prompt, tool description, RAG query rewrite, SFT instruction, synthetic data generation prompt를 만들 때, 더 흔하고 모델이 익숙한 표현을 우선하는 규칙을 만들 수 있다.

특히 agent나 tool calling에서는 tool description이 중요한데, 같은 기능이라도 너무 드문 표현이나 복잡한 문장으로 쓰면 tool selection이 흔들릴 수 있다. 이 논문은 tool description linting이나 prompt canonicalization의 근거로도 쓸 수 있다.

7-2. Reuse potential

재사용 가능한 포인트는 네 가지다.

1) Prompt frequency linter

System prompt나 tool description을 작성한 뒤, candidate paraphrase를 여러 개 만들고 sentence-level frequency를 계산한다. 의미 보존 check를 통과한 후보 중 frequency가 높은 문장을 선택한다.

실무 pipeline은 다음처럼 만들 수 있다.

original prompt
-> paraphrase candidates
-> semantic preservation filter
-> frequency score
-> small validation set evaluation
-> final prompt

이렇게 하면 prompt rewrite를 감으로만 하지 않고, frequency score와 validation score를 함께 볼 수 있다.

2) Synthetic SFT data filtering

Synthetic instruction data를 만들 때 같은 의미의 여러 표현이 생성될 수 있다. 이때 high-frequency variant를 우선 남기거나, low-frequency variant는 diversity bucket으로 따로 관리할 수 있다.

중요한 점은 무조건 high-frequency만 남기지 않는 것이다. Domain coverage와 expression diversity가 필요하면 high-frequency canonical data와 low-frequency robustness data를 분리해서 mixing ratio를 설계하는 편이 좋다.

3) SFT ordering signal

이미 확보한 instruction data에 대해 frequency score를 계산하고, CTFT처럼 low-to-high order를 실험할 수 있다. 기존 easy-to-hard, short-to-long, quality score sorting과 비교해볼 만하다.

특히 reasoning SFT나 tool-use SFT에서 다음 실험이 가능하다.

  • random order
  • short-to-long
  • easy-to-hard
  • low-to-high textual frequency
  • high-to-low textual frequency
  • frequency bucket mixing

4) Evaluation binning

Prompt benchmark를 만들 때 frequency bin을 추가하면 좋다. 모델이 low-frequency paraphrase에서만 실패하는지, high-frequency prompt에서도 실패하는지 구분할 수 있다. 이건 모델의 robustness를 이해하는 데 도움이 된다.

예를 들어 같은 task를 아래처럼 분해할 수 있다.

Error type Interpretation
Low freq only fail wording sensitivity 가능성
High freq only fail rewrite semantic drift 가능성
Both fail task capability 부족 가능성
Both pass robust behavior

7-3. Follow-up papers

  • On the Worst Prompt Performance of Large Language Models

같은 의미의 prompt에서도 worst-case prompt가 성능을 크게 떨어뜨릴 수 있다는 관점과 연결된다. Adam’s Law와 함께 읽으면 prompt sensitivity를 더 구조적으로 볼 수 있다.

  • CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models

Paraphrase를 contamination mitigation과 evaluation variation에 쓰는 방향이다. Adam’s Law는 paraphrase를 frequency 축으로 정렬한다는 점에서 비교가 가능하다.

  • Data curriculum and SFT ordering papers

CTFT는 curriculum learning의 한 변형으로 볼 수 있다. Easy-to-hard, short-to-long, quality-first SFT와 비교하면 frequency ordering의 위치를 더 잘 잡을 수 있다.

  • wordfreq / Zipf law 관련 자료

이 논문의 theoretical framing은 Zipf law와 token frequency에 기대고 있다. Frequency estimator를 실제로 구현하려면 wordfreq류 library와 corpus bias를 함께 이해해야 한다.

8. Summary

  • Adam’s Law는 같은 의미의 paraphrase 중 high-frequency expression이 LLM prompting과 fine-tuning에 더 유리할 수 있다는 TFL을 제안한다.
  • 실제 training corpus를 모르는 문제는 online resource 기반 frequency estimation과 TFD로 우회한다.
  • CTFT는 textual frequency를 fine-tuning order에 사용하며, translation fine-tuning에서 의미 있는 개선을 보인다.
  • MR, MT, CR, TC 실험 전반에서 high-frequency partition이 low-frequency partition보다 대체로 좋은 결과를 보인다.
  • 실무적으로는 prompt canonicalization, tool description linting, synthetic SFT filtering, evaluation binning에 응용 가치가 있다.

댓글남기기