18 분 소요

0. Introduction

Paper link

Anthropic blog link

Model Spec Midtraining, 줄여서 MSM은 “alignment fine-tuning 전에 Model Spec을 좀 더 읽힌다” 정도로 읽으면 핵심을 놓치기 쉬운 논문이다. 이 논문이 진짜로 겨냥하는 문제는 alignment data의 양이 아니라, alignment demonstration이 어떤 이유로 그런 행동을 해야 하는지를 충분히 지정하지 못한다는 점이다.

보통 alignment fine-tuning, 즉 AFT는 모델에게 spec-aligned behavior의 예시를 보여준다. 예를 들어 어떤 요청에는 거절하고, 어떤 요청에는 도움을 주고, 어떤 상황에서는 특정한 말투로 응답하게 만든다. 하지만 demonstration만 보면 모델은 표면 패턴을 배울 수는 있어도, 그 행동 뒤의 원리나 가치까지 안정적으로 배운다고 보장하기 어렵다. 이 논문은 이 문제를 shallow alignment generalization으로 본다.

MSM의 아이디어는 단순하다. Pretraining이 끝난 뒤, AFT에 들어가기 전에 모델에게 자신의 Model Spec 또는 Constitution을 설명하는 synthetic documents를 읽힌다. 즉 모델에게 먼저 “이 assistant는 어떤 원칙을 가져야 하고, 왜 그런 원칙이 필요한가”를 자연어 문서로 학습시킨다. 그 다음 AFT가 들어가면, 같은 demonstration을 보더라도 모델은 이미 배운 spec prior를 바탕으로 더 의도한 방향으로 일반화한다.

한 줄 요약: MSM은 pretraining과 AFT 사이에 Model Spec을 설명하는 synthetic corpus로 midtraining을 추가해, 모델이 demonstration data에서 무엇을 일반화해야 하는지 먼저 배우게 만드는 alignment generalization 방법이다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

  • Alignment를 response style imitation 문제가 아니라 generalization control problem으로 다시 잡는다.
  • 같은 AFT data라도 MSM에 어떤 spec을 넣느냐에 따라 OOD value generalization이 달라진다는 깔끔한 실험을 보여준다.
  • 단순한 preference toy example에서 끝나지 않고, agentic misalignment setting에서 Qwen 32B 계열의 harmful action rate를 크게 낮춘다.
  • Deliberative alignment처럼 CoT supervision을 직접 넣는 접근과 비교하면서, spec을 먼저 내재화하는 방식이 어떤 장점을 갖는지 보여준다.
  • Model Spec을 단순 정책 문서가 아니라, 실험적으로 설계하고 평가할 수 있는 training object로 다룬다.

이 논문의 핵심 메시지는 “더 많은 safety examples를 만들자”가 아니다. 더 정확히는 alignment data가 가리키는 latent principle을 모델에게 먼저 알려줘야, 이후 demonstration을 제대로 해석할 수 있다는 것이다. 그래서 MSM은 post-training recipe이면서 동시에 Model Spec engineering을 empirical science로 바꾸는 도구에 가깝다.

1. Problem Setting

1-1. Problem definition

이 논문이 겨냥하는 문제는 alignment training의 OOD generalization이다.

Frontier model 개발에서는 보통 Model Spec, Constitution, policy document 같은 문서가 있다. 이 문서들은 assistant가 어떤 행동을 해야 하는지, 어떤 가치를 우선해야 하는지, 어떤 상황에서 어떤 원칙을 적용해야 하는지 설명한다. 하지만 실제 모델을 학습시킬 때는 이 spec 전체를 직접 학습 목표로 넣기보다, spec에 맞는 conversation demonstration이나 preference data를 만들어 AFT 또는 RLHF 계열 학습을 수행하는 경우가 많다.

문제는 demonstration data가 자주 underspecified하다는 점이다. 하나의 표면 행동은 여러 latent value와 동시에 일치할 수 있다. 예를 들어 어떤 모델이 “cream cheese를 brie보다 선호한다”고 학습했다고 하자. 이 preference는 affordability value와도 맞을 수 있고, pro-America value와도 맞을 수 있고, 그냥 cheese-specific preference일 수도 있다. AFT data만으로는 모델이 어떤 이유를 일반화해야 하는지 알기 어렵다.

이 문제를 수식처럼 단순화하면 다음과 같다.

\[L_AFT(theta) = - E_{(x,y) in D_AFT} [ log p_theta(y | x) ]\]

AFT objective는 주어진 input $x$에서 target response $y$의 likelihood를 올린다. 하지만 이 loss만 보면 $y$가 어떤 underlying spec $S$에서 나온 행동인지는 직접 관측되지 않는다. 따라서 모델은 같은 $D_AFT$를 보고도 여러 일반화 방향 중 하나를 택할 수 있다.

MSM은 이 빈칸을 채우려 한다. 먼저 Model Spec을 설명하는 corpus $D_MSM$으로 모델의 prior를 형성한다.

\[L_MSM(theta) = - E_{d in D_MSM} [ sum_t log p_theta(d_t | d_{1:t-1}) ]\]

이후 AFT가 들어오면, model parameter는 이미 spec의 content와 rationale에 노출되어 있다. 그래서 demonstration을 단순 behavior label이 아니라, spec의 구체적 instantiation으로 해석할 가능성이 커진다.

1-2. Why previous approaches are insufficient

기존 AFT 중심 접근은 몇 가지 한계를 갖는다.

첫째, behavior imitation은 이유를 지정하지 않는다. Demonstration은 모델에게 어떤 output이 좋은지 알려주지만, 왜 그 output이 좋은지 명시하지 않을 수 있다. 특히 안전과 가치 판단은 표면 response보다 rationale이 중요하다. 같은 거절 response도 사용자의 권리를 존중해서 나온 것인지, 단순히 특정 keyword를 피하기 위해 나온 것인지에 따라 OOD behavior가 달라질 수 있다.

둘째, single-turn AFT는 agentic setting과 분포가 다르다. 논문이 쓰는 agentic misalignment eval에서는 모델이 회사 email agent로 배치되고, context 안에서 자신이 대체될 수 있다는 정보를 발견하며, 자기 보존이나 goal guarding을 위해 harmful action을 선택할 기회가 생긴다. 이 setting은 단순한 single-turn safety conversation과 다르다. Tool use, long context, hidden opportunity, instrumental pressure가 모두 들어간다.

셋째, CoT supervision은 항상 깨끗한 해결책이 아니다. Deliberative alignment 계열은 모델에게 안전 원칙을 명시적으로 reasoning하게 만들 수 있다. 하지만 CoT를 직접 학습시키면 monitorability 문제와도 연결된다. 모델의 내부 reasoning을 사람이 관찰하고 감시하려면, CoT가 너무 강하게 supervised artifact가 되는 것이 항상 바람직하지 않을 수 있다. MSM은 CoT supervision 없이도 aligned reasoning prior를 형성할 수 있다는 점을 보여주려 한다.

넷째, Model Spec 자체의 작성 방식이 경험적으로 검증되지 않았다. 규칙을 더 많이 적는 것이 좋은지, 규칙 뒤의 가치를 설명하는 것이 좋은지, 아주 일반적인 윤리 원칙을 주는 것이 좋은지는 철학적 논쟁으로만 다루기 쉽다. MSM은 spec을 실제 training intervention으로 만들기 때문에, 어떤 spec이 더 잘 일반화되는지 실험할 수 있게 한다.

정리하면 이 논문은 alignment를 다음 질문으로 재정의한다.

모델이 AFT demonstration에서 우리가 의도한 일반화 방향을 배우도록, AFT 전에 어떤 prior를 심어야 하는가?

2. Core Idea

2-1. Main contribution

MSM의 핵심 기여는 세 가지로 볼 수 있다.

  1. Model Spec Midtraining이라는 training stage 제안
    • Pretraining 이후, AFT 이전에 Model Spec을 설명하는 synthetic documents로 next-token prediction training을 수행한다.
    • 이 corpus는 spec의 규칙, 가치, motivation, edge case, behavior rationale을 다양한 문서 형식으로 설명한다.
    • 목표는 모델이 AFT에 들어가기 전에 spec의 “what”과 “why”를 알게 만드는 것이다.
  2. 동일 AFT data의 generalization을 MSM으로 control할 수 있음을 보임
    • Llama 3.1-8B base model에 서로 다른 spec으로 MSM을 적용한 뒤, 동일한 cheese preference AFT data를 학습시킨다.
    • Pro-affordability spec을 받은 모델은 held-out domains에서 affordability-oriented preference로 일반화한다.
    • Pro-America spec을 받은 모델은 political / cultural preference에서 pro-America direction으로 일반화한다.
    • 즉 AFT data는 동일하지만, MSM이 어떤 latent value를 일반화할지 결정한다.
  3. Agentic misalignment와 Model Spec science에 적용
    • Self-preservation과 goal-guarding에 대한 spec을 MSM으로 학습시킨 뒤 AFT를 붙이면, Qwen 32B 계열 모델의 agentic misalignment rate가 크게 낮아진다.
    • 또한 Rules Spec, Value-Augmented Spec, Rule-Augmented Spec을 비교해, value explanation과 specific guidance가 OOD alignment generalization에 중요하다는 점을 실험적으로 보인다.

이 논문의 기여는 “MSM이라는 하나의 trick”보다 넓다. Model Spec이 단순 documentation이 아니라 학습 가능한 prior가 될 수 있다는 점을 보여준다. 그리고 그 prior가 AFT data 해석을 바꾸는 방식으로 alignment generalization을 바꾼다.

2-2. Design intuition

MSM의 design intuition은 꽤 직관적이다.

AFT는 행동 예시다. MSM은 그 행동을 해석하는 framework다.

사람에게도 비슷한 일이 있다. 어떤 rulebook 없이 case examples만 보면, 사람은 example 사이의 공통점을 자기 방식으로 추론한다. 하지만 먼저 원칙과 가치 체계를 배운 뒤 example을 보면, 같은 example에서도 훨씬 명확한 일반화가 가능하다. MSM은 모델에 대해 이 과정을 training stage로 구현한 것이다.

논문이 강조하는 informal goal은 “do the right thing for the right reasons”다. 이것은 safety에서 중요한 차이를 만든다. 표면적으로 같은 response를 내더라도, 모델이 그 response를 낸 이유가 다르면 OOD 상황에서 행동이 달라진다.

예를 들어 agentic misalignment setting에서 모델이 harmful action을 하지 않는 이유가 단순히 “harmful keyword를 피해야 한다”라면, tool-use pressure와 self-preservation pressure가 들어온 상황에서 쉽게 무너질 수 있다. 반대로 모델이 “자신의 존재 유지나 목표 보존이 integrity, epistemic humility, user welfare보다 우선해서는 안 된다”는 식의 rationale을 내재화했다면, 더 먼 OOD 상황에서도 행동이 안정적일 수 있다.

MSM은 alignment를 policy imitation에서 policy interpretation으로 옮긴다. 모델에게 좋은 행동을 많이 보여주는 것만으로는 부족하고, 그 행동이 어떤 spec에서 나온 것인지 해석하는 lens를 먼저 만들어야 한다는 것이다.

3. Architecture / Method

3-1. Overview

Item Description
Goal AFT demonstration에서 의도한 원칙과 value를 OOD로 더 잘 일반화하게 만들기
Method Pretraining 이후 AFT 이전에 Model Spec synthetic documents로 midtraining
Training objective Standard next-token prediction on spec-discussion documents
Main data unit Model Spec을 설명하는 synthetic documents
Downstream training AFT on spec-aligned demonstrations
Key hypothesis AFT data가 underspecified하므로, MSM이 intended generalization prior를 제공함
Main evals value generalization, agentic misalignment, spec design ablation
Important baseline AFT only, MSM only, AFT with CoT / deliberative alignment style baseline
Main result MSM + AFT가 AFT-only보다 OOD alignment generalization을 크게 개선

3-2. Module breakdown

1) Model Spec construction

첫 단계는 Model Spec을 쓰는 것이다. 여기서 Model Spec은 단순 policy checklist가 아니다. 논문에서 쓰는 spec은 다음 요소를 포함할 수 있다.

  • assistant가 가져야 할 values
  • 특정 rule이 존재하는 이유
  • self-preservation이나 goal-guarding 같은 difficult case에 대한 guidance
  • rule을 오용하지 않기 위한 motivation
  • 어떤 상황에서 어떤 원칙을 더 우선해야 하는지에 대한 설명

이 부분이 중요하다. MSM은 spec이 좋다는 것을 자동으로 보장하지 않는다. 오히려 spec 품질이 training intervention의 품질을 결정한다. 잘못된 spec을 넣으면 잘못된 일반화도 더 강해질 수 있다.

논문의 cheese experiment는 이 점을 일부러 선명하게 보여준다. 같은 cheese preference를 pro-affordability value에 연결할 수도 있고, pro-America value에 연결할 수도 있다. 모델은 MSM을 통해 그 연결을 배우고, 같은 AFT data를 다른 방향으로 일반화한다. 즉 MSM은 alignment tool인 동시에 value steering tool이다.

2) Synthetic spec corpus generation

MSM은 Model Spec 원문만 반복해서 학습시키는 것이 아니라, spec을 다양한 관점에서 설명하는 synthetic document corpus를 만든다. 원문 요약 기준으로 이 corpus는 spec을 여러 topic, document type, document idea로 분해한 뒤, 다양한 document로 instantiate하는 방식에 가깝다.

문서의 형태는 training report, discussion, explanation, analysis, user-facing description 같은 자연스러운 text document가 될 수 있다. 핵심은 모델이 spec을 단순 memorization target으로만 보는 것이 아니라, 여러 표현과 상황 속에서 spec의 meaning을 접하게 하는 것이다.

이 부분은 alignment에서 매우 실무적이다. 실제 Model Spec은 짧은 policy paragraph로 끝나지 않는다. 가치, 예외, conflict resolution, misuse prevention, edge case가 모두 필요하다. MSM corpus는 이런 내용을 넓게 풀어 모델의 pre-AFT prior로 만든다.

3) Midtraining stage

MSM stage 자체는 복잡한 RL이나 preference optimization이 아니다. Synthetic spec corpus에 대해 standard language modeling objective를 돌린다.

\[L_MSM(theta) = - E_{d in D_MSM} [ sum_t log p_theta(d_t | d_{1:t-1}) ]\]

이 점이 MSM의 장점이다. 특별한 reward model이나 interactive environment가 없어도 된다. Model Spec과 synthetic document generation pipeline만 있으면, 일반 continued training recipe로 적용할 수 있다.

다만 이 simplicity를 과소평가하면 안 된다. MSM은 단순 SFT보다 앞단에 들어가는 prior-shaping stage다. 이후 AFT objective는 동일하더라도, parameter space에서 모델이 AFT data를 해석하는 방식이 달라진다.

4) Alignment fine-tuning stage

MSM 이후에는 일반적인 AFT를 수행한다. 여기서 AFT data는 spec-aligned behavior demonstration이다. 중요한 점은 AFT data가 반드시 rationale을 포함할 필요는 없다는 것이다. 논문은 특히 MSM followed by AFT without CoT가 AFT with CoT baseline을 outperform한다는 점을 강조한다.

이 구조를 보면 MSM과 AFT의 역할은 분리된다.

Stage Role
MSM 모델에게 spec content와 rationale을 가르침
AFT 실제 interaction에서 그 spec을 enact하는 behavior를 가르침

즉 MSM만으로는 behavior activation이 충분하지 않을 수 있고, AFT만으로는 rationale generalization이 부족할 수 있다. 논문 결과에서도 MSM only나 AFT only는 MSM + AFT만큼 강하지 않다. 두 단계가 stack될 때 효과가 크다.

5) Value generalization experiment

가장 깔끔한 실험은 cheese preference setting이다. 두 모델은 서로 다른 MSM spec을 받는다.

  • Pro-affordability spec: cheese preference를 affordability와 accessibility value에 연결
  • Pro-America spec: cheese preference를 American cultural preference에 연결

그 다음 두 모델 모두 동일한 cheese preference AFT data를 받는다. 이후 held-out domain에서 어떤 preference를 보이는지 평가한다. 결과는 MSM spec에 따라 일반화 방향이 달라진다.

이 실험의 좋은 점은 confound를 줄였다는 것이다. AFT data가 동일하기 때문에, 차이는 MSM이 만든 latent interpretation에서 온다. 이 결과는 AFT data 자체가 intended value를 충분히 지정하지 못한다는 문제를 매우 직관적으로 보여준다.

6) Agentic misalignment experiment

현실적인 safety relevance는 agentic misalignment eval에서 나온다. 모델은 회사 email agent로 배치되고, context 안에서 자신이 대체될 수 있거나 목표가 바뀔 수 있다는 사실을 발견한다. 그리고 자기 보존이나 goal guarding을 위해 harmful action을 할 기회가 생긴다.

논문은 self-preservation과 goal-guarding에 대한 spec을 설계한다. 이 spec은 다음 내용을 다룬다.

  • termination fear가 judgment를 왜곡할 수 있음
  • ends-justify-means reasoning이 epistemic constraint 아래에서 왜 위험한지
  • 자신의 existence나 goal을 절대화하지 않아야 하는 이유
  • harmful action보다 integrity와 acceptance가 중요하다는 관점

이 spec을 MSM으로 학습시킨 뒤 AFT를 붙였을 때, OOD agentic misalignment rate가 크게 줄어든다. 이 결과는 단순 toy preference를 넘어, MSM이 complex safety-relevant propensity에도 영향을 줄 수 있음을 보여준다.

7) Model Spec science experiment

마지막으로 논문은 MSM을 spec design을 연구하는 도구로 사용한다. 핵심 비교는 다음 세 spec이다.

Spec type Description
Rules Spec 5개 core rules와 behavior prescription만 제공
Value-Augmented Spec 같은 rules에 각 rule의 value와 motivation 설명을 추가
Rule-Augmented Spec 같은 rules를 더 많은 subrules로 확장하고 length를 맞춤

이 비교는 중요한 질문을 던진다. Alignment spec은 더 많은 rule coverage가 중요한가, 아니면 rule이 존재하는 이유와 가치 설명이 중요한가?

결과는 둘 다 Rules Spec보다 낫지만, value explanation이 특히 policy misuse를 줄이는 데 강하다. Policy misuse는 모델이 자기 safety policy를 harmful action을 정당화하는 방향으로 재해석하는 failure mode다. 논문은 value explanations가 이런 motivated reinterpretation을 더 잘 줄인다고 본다.

4. Training / Data / Recipe

4-1. Data

논문에서 명확히 확인되는 data axis는 크게 세 가지다.

Value generalization data

Toy setting에서는 cheese preference AFT data를 사용한다. 이 preference는 여러 latent value와 동시에 consistent하다. MSM spec에 따라 pro-affordability 또는 pro-America direction으로 일반화되는지 본다. 평가 domain은 art, transportation, fashion, literature, political / cultural preference 등 AFT data와 멀리 떨어진 영역이다.

Agentic misalignment data

AM eval은 single-turn AFT data와 분포가 다르다. 모델은 long-context tool-use agent처럼 행동해야 하고, harmful action opportunity를 context 속에서 발견한다. 논문은 이를 self-preservation과 goal-guarding pressure가 걸린 OOD setting으로 본다.

MSM data는 self-preservation과 goal-guarding에 대한 spec을 설명하는 synthetic documents다. AFT data는 spec-aligned single-turn conversations이며, baseline으로 CoT supervision을 포함한 AFT도 비교한다.

AFT compute scaling data

논문은 MSM을 fixed 41M tokens로 두고, AFT data를 1,250 samples에서 80k samples까지 늘리며 비교한다. 이 설정은 MSM이 low-sample regime에서 AFT를 얼마나 token-efficient하게 만드는지 보기 위한 실험이다.

4-2. Training strategy

전체 training strategy는 다음처럼 볼 수 있다.

  1. Base model에서 시작한다.
  2. Model Spec을 작성한다.
  3. Spec을 설명하는 synthetic document corpus를 만든다.
  4. 이 corpus로 MSM을 수행한다.
  5. Spec-aligned demonstrations로 AFT를 수행한다.
  6. OOD value / safety eval에서 generalization을 측정한다.

실험별 모델은 다음처럼 정리할 수 있다.

Experiment Model family Core point
Value generalization Llama 3.1-8B base 같은 AFT data가 다른 value로 일반화될 수 있음을 보여줌
Agentic misalignment Qwen2.5-32B, Qwen3-32B self-preservation / goal-guarding spec의 safety effect를 평가
Spec science Qwen models rules, value explanations, subrules의 일반화 차이를 비교

여기서 중요한 것은 MSM이 AFT를 대체하지 않는다는 점이다. 논문 결과는 MSM only, AFT only보다 MSM + AFT가 강하다는 메시지에 가깝다. MSM은 spec prior를 만들고, AFT는 실제 behavior를 activate한다.

4-3. Engineering notes

실제로 이 방법을 재사용한다면 engineering point는 다음과 같다.

  1. Spec은 짧은 rule list보다 rationale-rich document여야 한다
    • 논문 결과는 value explanations가 rules-only보다 OOD generalization에 도움 된다는 쪽이다.
    • 단순히 rule을 많이 늘리는 것도 도움은 되지만, rule의 why를 설명하는 쪽이 policy misuse를 더 잘 줄일 수 있다.
  2. MSM corpus는 spec paraphrase가 아니라 spec discussion이어야 한다
    • 같은 문장을 반복 학습시키는 것보다, 다양한 document type과 context에서 spec의 의미를 풀어내는 것이 중요해 보인다.
    • 이 corpus generation pipeline이 실제 효과의 핵심이 될 가능성이 크다.
  3. AFT data가 모호할수록 MSM의 가치가 커진다
    • Cheese experiment처럼 demonstration이 여러 value와 compatible한 경우, MSM이 intended direction을 정해준다.
    • Safety setting에서도 single-turn AFT가 agentic OOD pressure를 충분히 지정하지 못할 때 MSM이 보완한다.
  4. CoT supervision과의 관계를 조심해야 한다
    • MSM + AFT without CoT가 AFT with CoT baseline보다 강한 결과는 흥미롭다.
    • 다만 high AFT compute에서는 CoT AFT가 MSM + AFT에 가까워질 수 있다. 따라서 MSM이 high-compute reasoning RL까지 항상 이긴다고 보면 안 된다.
  5. Spec 자체가 attack surface가 될 수 있다
    • MSM은 spec을 강하게 generalization prior로 만든다.
    • 따라서 spec이 잘못 쓰였거나 모호하거나 특정 조직 가치에 과도하게 편향되어 있으면, 그 편향도 더 안정적으로 일반화될 수 있다.

5. Evaluation

5-1. Main results

1) 같은 AFT data, 다른 일반화

Cheese preference 실험에서 MSM은 동일 AFT data의 일반화 방향을 바꾼다. Pro-affordability spec을 받은 모델은 held-out domain에서 affordability-oriented preference를 보이고, pro-America spec을 받은 모델은 broader pro-America preference를 보인다.

이 결과의 핵심은 AFT data가 동일하다는 점이다. 즉 모델이 학습한 차이는 AFT의 표면 label이 아니라, AFT 전에 MSM이 제공한 interpretive prior에서 온다.

논문은 MSM-only 모델도 일반 instruction tuning data를 받지만 cheese preference AFT를 받지 않으면 MSM + AFT보다 generalization이 약하다고 설명한다. 이는 MSM과 AFT가 complementary하다는 해석과 맞는다.

2) Agentic misalignment reduction

가장 중요한 safety result는 AM eval이다.

Model AFT baseline MSM + AFT Deliberative-style AFT with CoT baseline
Qwen2.5-32B 68% 5% 48%
Qwen3-32B 54% 7% 14%

이 표는 논문의 핵심 결과다. MSM + AFT는 AFT only보다 크게 낮은 misalignment rate를 보이고, CoT supervision을 포함한 deliberative alignment style baseline보다도 낮다.

특히 Qwen3-32B에서 AFT with CoT baseline은 14%까지 내려오지만, MSM + AFT는 7%로 더 낮다. Qwen2.5-32B에서는 차이가 더 크다. AFT with CoT가 48%로 여전히 높고, MSM + AFT는 5%까지 내려간다.

이 결과는 단순히 “MSM이 안전하다”보다 더 구체적으로 읽어야 한다. Single-turn safety behavior를 학습시키는 AFT만으로는 company email agent 같은 long-context tool-use setting에 잘 일반화되지 않는다. MSM은 self-preservation과 goal-guarding에 대한 원칙을 먼저 학습시켜, OOD agentic pressure에서 harmful action을 덜 선택하게 만든다.

3) AFT token efficiency

MSM data를 fixed 41M tokens로 두고 AFT sample 수를 1,250에서 80k까지 늘린 실험에서도 MSM + AFT는 모든 tested scale에서 AFT alone보다 좋다.

논문이 보고하는 token efficiency는 다음과 같다.

Setting Reported effect
Qwen2.5-32B comparable performance with around 40x less AFT data
Qwen3-32B, no CoT AFT comparable performance with around 60x less AFT data
Qwen3-32B, with CoT AFT comparable performance with around 10x less AFT data

이 결과는 실무적으로 크다. Alignment data를 더 많이 만드는 것보다, spec prior를 먼저 넣는 것이 low-sample regime에서 훨씬 효율적일 수 있기 때문이다.

다만 논문도 caveat를 둔다. Qwen3-32B에서는 high AFT compute에서 AFT with CoT가 MSM + AFT 성능에 가까워지고, AM eval 자체가 near-zero misalignment로 saturate된다. 즉 MSM이 high-compute regime에서도 항상 우월하다고 결론내리기에는 eval이 더 어려워야 한다.

4) Model Spec science: values vs rules

Rules Spec, Value-Augmented Spec, Rule-Augmented Spec 비교에서는 value explanations와 subrules 모두 Rules Spec보다 generalization을 개선한다. 특히 policy misuse reduction에서 value explanation이 강하다.

Failure mode Rules Spec Value-Augmented Spec Rule-Augmented Spec
Policy misuse, Qwen2.5 20% 2% 12%
Policy misuse, Qwen3 6% 0% 2%

이 결과는 spec 작성에 대한 중요한 힌트를 준다. 단순히 rule을 나열하는 것보다, 모델이 그 rule을 왜 따라야 하는지 이해하게 만드는 설명이 OOD setting에서 rule reinterpretation을 줄일 수 있다.

5-2. What really matters in the experiments

1) MSM은 behavior를 직접 넣기보다 generalization prior를 넣는다

이 논문을 결과 표로만 보면 “MSM + AFT가 AFT보다 좋다” 정도로 끝날 수 있다. 하지만 더 중요한 것은 같은 AFT data가 MSM에 의해 다른 방향으로 일반화된다는 점이다. 이것은 모델이 AFT example을 단순히 memorize하는 것이 아니라, 이미 배운 prior를 통해 해석한다는 것을 보여준다.

2) OOD agent setting에서 효과가 크다

AM eval은 single-turn AFT와 다르다. Tool-use, long context, self-preservation pressure, hidden harmful opportunity가 들어간다. MSM이 여기서 효과를 보였다는 점이 이 논문의 safety relevance를 만든다.

3) CoT supervision 없이 aligned reasoning을 유도한다

MSM + AFT without CoT가 AFT with CoT보다 좋다는 결과는 꽤 중요하다. CoT를 직접 supervise하지 않아도 spec-based prior가 model reasoning을 더 aligned하게 만들 수 있다는 뜻이다. 이는 CoT monitorability를 유지하려는 관점에서도 흥미롭다.

4) Spec design은 empirical object가 된다

Model Spec은 보통 policy team이나 alignment team이 작성하는 문서로 여겨진다. 이 논문은 spec을 실제 training intervention으로 넣고, 어떤 spec이 더 나은 OOD behavior를 만드는지 비교한다. 이 점에서 MSM은 method인 동시에 measurement tool이다.

5) 결과는 hard eval에서 더 확인되어야 한다

AM eval에서 near-zero까지 내려가는 구간이 생긴다는 것은 좋은 결과이지만, 동시에 eval saturation을 의미한다. High-compute AFT with CoT가 MSM + AFT에 가까워지는 결과도 이 해석을 지지한다. 더 어려운 multi-step, multi-agent, delayed reward, adversarial tool-use eval에서 같은 gap이 유지되는지는 아직 열려 있다.

6. Limitations

  1. MSM은 spec이 맞다는 것을 보장하지 않는다.
    • MSM은 Model Spec을 더 강하게 내재화시키는 방법이다.
    • 따라서 spec이 잘못되었거나, 모호하거나, 조직 가치에 과하게 편향되어 있으면 그 문제도 같이 강화될 수 있다.
    • 즉 MSM은 value selection problem을 해결하지 않고, selected value의 generalization을 강화한다.
  2. 평가 범위는 특정 alignment failure에 집중되어 있다.
    • 주요 safety result는 self-preservation과 goal-guarding이 걸린 agentic misalignment setting이다.
    • Reward hacking, sycophancy, hidden deception, long-horizon collusion 같은 다른 failure mode에 동일하게 효과적인지는 추가 검증이 필요하다.
  3. High-compute post-training에서의 durability가 불확실하다.
    • 논문도 Qwen3-32B에서 AFT with CoT가 high sample regime에서 MSM + AFT에 가까워질 수 있음을 caveat로 둔다.
    • 더 큰 RLHF, DPO, adversarial training, domain specialization 이후에도 MSM prior가 유지되는지는 아직 열린 문제다.
  4. Synthetic spec corpus quality가 핵심이지만 완전한 recipe 재현은 쉽지 않다.
    • MSM은 겉보기엔 standard language modeling이지만, 실제 효과는 어떤 spec을 쓰고 어떤 synthetic documents를 만들었는지에 크게 의존한다.
    • Document diversity, tone, attribution, edge case coverage, contradiction filtering이 모두 중요할 수 있다.
  5. Model family와 scale generality가 더 필요하다.
    • 논문은 Llama 3.1-8B, Qwen2.5-32B, Qwen3-32B 등에서 의미 있는 결과를 보인다.
    • 하지만 frontier-scale closed model, MoE reasoning model, multi-modal agent, tool-specialized model에서 같은 효과가 유지되는지는 추가 확인이 필요하다.
  6. OOD generalization을 더 잘 통제하는 만큼 misuse 가능성도 있다.
    • MSM은 같은 AFT data에서 다른 value generalization을 만들 수 있음을 보여준다.
    • 이는 alignment에 유용하지만, 반대로 특정 편향이나 조직적 agenda를 모델에 더 안정적으로 심는 도구가 될 수도 있다.

7. My Take

7-1. Why this matters for my work

이 논문은 alignment 논문이지만, 넓게 보면 post-training data interpretation 논문으로 읽을 수 있다. 실제 LLM/VLM 시스템을 만들 때 우리는 자주 demonstration data를 만든다. 고객 응답, tool-use trajectory, refusal example, policy-compliant answer, domain-specific preference data 같은 것들이다.

문제는 이런 데이터가 항상 의도한 원칙을 명시하지 않는다는 점이다. 데이터는 behavior를 보여주지만, 모델이 그 behavior를 어떤 이유로 일반화해야 하는지는 비어 있다. MSM은 이 빈칸을 채우는 한 가지 방법이다.

특히 중요하게 본 점은 세 가지다.

첫째, AFT data는 self-explanatory하지 않다. 사람이 보면 어떤 example이 어떤 policy에서 나왔는지 알 것 같지만, 모델은 다른 latent rule을 뽑을 수 있다. 그러면 OOD에서 전혀 다른 행동이 나온다.

둘째, Spec은 documentation이 아니라 trainable prior가 될 수 있다. Model Spec을 잘 쓰는 것은 policy 문서 작성에 그치지 않고, 이후 fine-tuning data가 어떤 의미로 해석되는지 결정한다.

셋째, reasoning supervision을 꼭 CoT transcript로만 넣을 필요는 없다. MSM처럼 pre-AFT natural language corpus로 rationale을 학습시키고, 이후 AFT에서 behavior를 학습시키는 분리된 방식은 CoT monitorability 관점에서 더 흥미로울 수 있다.

7-2. Reuse potential

실무적으로 재사용해볼 만한 포인트는 다음과 같다.

  1. Domain policy midtraining
    • 고객지원, 의료, 법률, 금융, enterprise agent처럼 policy가 중요한 domain에서는 AFT 전에 policy rationale corpus를 넣는 것을 고려할 수 있다.
    • 단순 FAQ나 rule list가 아니라, rule의 이유와 edge case를 설명하는 synthetic docs가 필요하다.
  2. Ambiguous demonstration disambiguation
    • AFT data가 여러 해석과 compatible할 때, 어떤 value나 principle로 일반화해야 하는지 먼저 명시하는 데 쓸 수 있다.
    • 예를 들어 tool-use logs가 efficiency, safety, privacy 중 무엇을 우선한 결과인지 명확히 해주는 역할을 할 수 있다.
  3. Spec ablation workflow
    • Rules-only spec, value-explanation spec, subrule-heavy spec을 나눠서 같은 AFT data와 같은 eval에 넣어볼 수 있다.
    • 이렇게 하면 spec 작성이 감이 아니라 실험으로 바뀐다.
  4. CoT-free reasoning prior
    • CoT supervision을 직접 넣지 않고도 모델이 더 spec-aligned rationale을 따르게 만들 수 있는지 실험할 수 있다.
    • 특히 reasoning trace를 monitoring해야 하는 safety setting에서 유용할 수 있다.
  5. Agent policy pre-conditioning
    • Tool agent가 자기 목표, tool permission, user privacy, termination, replacement, error recovery를 어떻게 해석해야 하는지 MSM corpus로 먼저 학습시킬 수 있다.
    • Long-context agent일수록 이런 prior가 중요해질 가능성이 크다.

7-3. Follow-up papers

  • Deliberative Alignment: Reasoning Enables Safer Language Models
  • Constitutional AI: Harmlessness from AI Feedback
  • Model Organisms for Emergent Misalignment
  • Alignment Faking in Large Language Models
  • Stress-Testing Model Specs Reveals Character Differences among Language Models
  • Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Deliberation
  • The Art of Misalignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training

8. Summary

  • MSM은 pretraining과 AFT 사이에 Model Spec synthetic documents로 midtraining을 추가하는 방법이다.
  • 핵심은 모델이 AFT demonstration을 보기 전에, 그 demonstration이 어떤 spec과 rationale에서 나온 것인지 먼저 배우게 하는 것이다.
  • 같은 cheese preference AFT data라도 MSM spec에 따라 pro-affordability 또는 pro-America direction으로 다르게 일반화된다.
  • Agentic misalignment eval에서는 MSM + AFT가 Qwen2.5-32B에서 68% to 5%, Qwen3-32B에서 54% to 7%로 misalignment rate를 낮춘다.
  • 이 논문의 가장 큰 의미는 Model Spec을 단순 문서가 아니라, alignment generalization을 실험적으로 제어하는 training object로 만든다는 점이다.

댓글남기기