PMI-shift · 매치드-베이스 인과 설계

좋은 메타인지 행동을 보상하는 자기증류

TL;DR 매치드-베이스 대비 6/6 벤치 우위, 가장 어려운 문제(Q4)에서 +34.8pp. 단, 단일 시드 예비 결과.

먼저 용어. decoy = 그럴듯한 오답 하나, gold = 정답. 둘 중 어느 쪽으로 모델의 믿음이 기우는지를 본다. 그 기울기가 gold−decoy 마진이다. PMI(pointwise mutual information) = 두 로그확률의 차이.

모델이 <|meta|> 블록을 지나는 동안 gold−decoy 마진이 정답 쪽으로 얼마나 움직이는지를 측정해, 그 움직임(SHIFT)에 보상을 준다.

의도. 메타인지는 목적이 아니라 정확도를 끌어올리는 수단이다. 우리는 모델이 신뢰도 숫자를 흉내내게 하지 않는다. 대신 메타 블록을 여는 순간(ctx_open)과 닫는 순간(ctx_close) 사이에서 마진이 실제로 얼마나 벌어졌는지를 보상 신호로 삼는다. 그 SHIFT가 곧 "유용한 메타인지"의 증거다.

checkpoint pmishift · gs300 eval pmishift_1030_v2 held-out 1030 (GSM8K 500 · MATH500 · AIME 30) PRELIMINARY · single seed

방법 · PMI-shift

메타 블록을 지나며 믿음이 이동하는 만큼 보상한다

언제. 한 rollout이 <|meta|>…<|/meta|> 블록을 담으면 계산이 켜진다.

어떻게 재나. 고정된 참조 모델(학습 중 갱신되지 않는 채점용 사본)로 teacher-forcing 한다 — 정해진 텍스트를 그대로 먹여 확률만 읽어낸다.

무엇을. 블록 직전과 직후 두 지점에서 gold−decoy 마진을 재고, 두 값의 차이 SHIFT를 신호로 삼는다.

스팬-이동 (= SHIFT) — 한 지점이 아니라 구간의 변화를 본다.
디코이 대조 — 정답 확률이 아니라 gold−decoy 판별 마진을 본다.
메타 지역화 — 보상을 메타-콘텐츠 토큰에만 라우팅한다.

왜 그냥 GRPO로는 안 되나. 일반 GRPO는 최종 답이 맞았는지라는 한 비트만 보상한다. 그 신호는 궤적 전체에 뭉개져서, 결정적인 검산과 장식적인 망설임을 구분하지 못한다. 어느 메타인지 단계가 정답을 만들었는지 짚을 수 없다. PMI-shift는 각 메타 블록을 그 인과 효과로 보상한다. 블록이 모델 자신의 증거를 오답에서 정답 쪽으로 얼마나 옮겼는지를 잰다. 그래서 "유용한 메타인지"에만 상이 가고, 형식만 흉내 낸 블록은 상을 받지 못한다.

gold(정답) 방향 decoy(오답) 방향 <|meta|> 블록 일반 추론

실제 예시 · 부호 실수 → 메타에서 자각 → gold로 복귀 ↪ 커서를 올리면 멈춥니다

계산. 고정된 참조 모델로 teacher-forcing 한 뒤, 아래를 순서대로 구한다.

열 때 마진PMI_open = logp(gold|ctx_open) − logp(decoy|ctx_open)

닫을 때 마진PMI_close = logp(gold|ctx_close) − logp(decoy|ctx_close)

그 차이 = SHIFTSHIFT = PMI_close − PMI_open

보상scale·clip(SHIFT, ±2) + reversal bonus → 메타-콘텐츠 토큰

PMI 값은 예시(illustrative)이고, 텍스트·정답·decoy·리전 경계는 실제 rollout이다.

왜 한 지점이 아니라 SHIFT인가. 한 지점의 gold 확률만 높으면 "원래부터 답을 알던" 경우와 "메타에서 고쳐낸" 경우를 구별하지 못한다. 두 지점의 차이를 보상하면, 메타 블록이 인과적으로 믿음을 옮겼을 때에만 점수가 붙는다. gold와 decoy가 함께 움직이면 SHIFT ≈ 0. 장식적 메타는 걸러진다.

위치 짓기 · 선행연구 vs 우리

필드는 "정답-우도 신호"로 수렴했다. 우리는 스팬-이동·디코이·메타 구석에 선다

자기증류로 추론을 강화하려는 최근 흐름은 대부분 참조 정답의 로그확률을 신호로 삼는다. 우리의 신호도 그 이웃에 있지만, 좌표가 다르다. 각 카드는 그들이 한 일과 우리가 다르게 가는 지점을 짝짓는다.

AntiSD

arXiv 2605.11609 · 가장 가까운 선행

그들: 검증된 해답 c를 조건으로 한 자기증류가 구조·지름길 토큰을 부풀리고 deliberation 토큰("Wait","Maybe")을 깎는다고 진단 → JS divergence를 상승(부호 반전). 우리: 메타 스팬에서 gold−decoy 마진의 SHIFT를 보상하고, 메타만 뺀 매치드-베이스로 인과 분리한다. 지름길/보일러플레이트 위험은 공유 — 우리의 verify-boilerplate = 그들의 shortcut bias.

RLPR · CRM

Universal / Conditional Reward Modeling

그들: 추론을 참조 정답의 로그확률로 직접 보상(process reward 합 = 정답 로그확률). 필드가 수렴한 "정답-우도" 신호. 우리: 전역 우도 대신 두 지점 사이 gold−decoy 마진의 SHIFT를 본다. decoy 대조 · 메타 지역화로 좁힌다.

RLSD (self-distillation)

gold-conditioned teacher → 부작용

그들: 학생이 스스로의 교사가 되어 정답 조건 분포를 증류하고 RLVR과 결합한다. 그러나 gold 조건은 망설임 토큰을 억제해 hard 문제에서 추론 경로를 줄인다. 우리: 증류 위에 행동-통제 층을 얹되 priming하지 않는다. 신호는 모델 자신의 rollout 대조에서만 나온다.

OURS · PMI-shift

span-shift + decoy + meta + twin

방법: gold−decoy 마진을 메타 스팬의 여는 지점과 닫는 지점에서 재고, 그 SHIFT를 메타-콘텐츠 토큰에만 보상. 메타만 뺀 매치드-베이스로 인과 분리. 왜 decoy + 분해가 필요한가: 지름길/보일러플레이트 위험을 AntiSD와 공유하므로, RQ2 분해 + placebo 검정이 필수다.

RQ1 · 실측

meta arm이 6/6 벤치에서 매치드-베이스를 넘는다

PMI-shift(gs300)와 메타 기제만 제거한 매치드-베이스(gs300)를 문제-쌍 부트스트랩으로 비교했다. 이득은 문제가 어려울수록 커진다. 여기서 meta arm = PMI-shift로 학습한 모델, 매치드-베이스 = 메타 기제만 뺀 대조군.

pmishift gs300 vs matched-base gs300 avg@8 · AIME 16k avg@16 problem-paired bootstrap

직전 / 직후 · 매치드-베이스(회색) → meta arm(초록)

GSM8Kavg@8

base

89.9

meta

93.9

+4.0

MATH500avg@8

base

62.7

meta

81.5

+18.8

AIME@4k avg@8

base

5.0

meta

19.2

+14.2

AIME@16k avg@16

base

4.8

meta

18.5

+13.8

GSM8K+4.0ppp<.001

MATH500+18.8ppp<.001

AIME @4k+14.2ppbootstrap p<.001

AIME @16k+13.8ppMcNemar p≈.06 (n=30)

읽는 법. 4k→16k는 두 arm 모두 평탄 — 토큰을 더 줘도 이득이 없다. 그런데 매치드-베이스는 모든 예산에서 더 많이 잘린다(비종료 degeneration). 즉 잘림은 base/데이터 성질이고, 메타 기제는 이를 유발이 아니라 완화한다.

잘림률 (truncation)	매치드-베이스	meta arm
MATH500	~19%	6%
AIME @16k	~73%	50%

정직한 caveat: 이건 "패키지" 효과다. 발사된 meta arm은 아래 보상 head들에 format/length shaping을 더한 묶음이다. 따라서 RQ1은 패키지 vs vanilla GRPO 효과이지 PMI-shift 단독이 아니다. 분리는 RQ2(PENDING)에서 다룬다.

구성요소	가중치	역할
correctness	—	최종 답 정답 여부
meta / pmi-shift	—	SHIFT 신호 (핵심 레버)
cal	0.3	신뢰도 보정
emit	0.1	메타 블록 발화 유도
format	0.35	출력 형식 shaping
len_cost	0.08	길이 패널티 shaping

추가로 cf_group rollout split 사용. 가중치가 "—"인 두 head가 핵심이고 나머지는 보조다.

RQ2 · 아직 안 돌림

분해 사다리: PMI-shift를 단독으로 분리하기 PENDING · not yet run

RQ1이 패키지 효과이므로, PMI-shift의 순기여를 격리하려면 아래 arm들을 같은 데이터·하이퍼파라미터·grader로 돌려야 한다. 아직 실행 전이며, 각 단계에 결정 규칙을 미리 못박아 둔다.

매치드-베이스

arm: base (meta 기제 제거, 5-head 중 pmi-shift·emit·cal·meta OFF)

모든 비교의 기준선. RQ1에서 이미 확보된 gs300.

Gandhi-arm (form-only)

arm: 메타 형식은 보상하되 PMI-shift 신호는 OFF

메타를 쓰는 것(form)만으로 오르는가, 아니면 신호가 필요한가를 가른다.

결정 규칙 (미리 못박음)

Gandhi ≈ base→form만으로는 부족 — 신호가 진짜 레버.

Gandhi ≫ base→이득의 상당부가 형식/emit에서 옴 — PMI-shift 주장 약화.

shift-only arm

arm: PMI-shift만 ON (cal·emit·len_cost 등 보조 head OFF)

PMI-shift 단독의 순효과. 이것이 우리가 주장하고 싶은 핵심 레버.

결정 규칙 (미리 못박음)

shift-only > Gandhi→PMI-shift가 form을 넘는 순기여 (주장 성립).

shift-only ≈ Gandhi→이득은 신호가 아니라 형식/보일러플레이트 (→ AntiSD 긴장 현실화).

placebo · decoy-shuffle

arm: SHIFT를 무작위/뒤섞은 decoy로 계산

SHIFT 보상이 진짜 gold−decoy 구조를 잡는지, 아니면 아무 스칼라나 밀어도 오르는지 검정.

결정 규칙 (미리 못박음)

placebo ≈ base→SHIFT의 구조가 인과적 (clean).

placebo ≈ shift-only→SHIFT는 장식, 다른 head가 진짜 레버.

RQ3 · 실측

이득은 어려운 문제에 집중된다 (Q4 +34.8pp). 그런데 메타 발화는 비선택적이다

held-out 문제를 난이도 사분위(Q1 쉬움 → Q4 어려움)로 나눠 층화 분석했다. 쉬운 두 사분위는 이미 포화 상태(100%)이고, 이득은 뒤로 갈수록 커진다.

held-out 1030 · 난이도 층화 eval pmishift_1030_v2

난이도 사분위별 정확도 · 매치드-베이스(회색) vs meta arm(초록)

Q1가장 쉬움

base

100

meta

100

포화

base

100

meta

100

포화

base

84.6

meta

95.7

+11.1

Q4가장 어려움

base

12.1

meta

46.9

+34.8

이득 = 난이도 의존적. Q1/Q2는 포화, Q3 +11.1pp, Q4에서 +34.8pp로 최대. 그런데 메타 발화율은 사분위 전반 86–96%로 거의 일정하다. 즉 발화는 비선택적인데 보상(payoff)만 난이도에 따라 달라진다.

비선택적 발화의 의미. 모델은 쉬운 문제에서도 거의 항상 메타를 쓴다(always-on). 이득이 어려운 곳에 몰리는 건 메타를 언제 쓰는지 골라서가 아니라, 어려운 문제에서만 메타가 실제로 믿음을 옮길 여지가 크기 때문이다. "유용할 때만 메타를 쓰는" 선택성은 아직 학습되지 않았다.

RQ4 · 실측

보정은 대체로 좋지만 AIME에서 과신한다. base는 신뢰도를 아예 안 낸다

측정. meta arm의 verbalized confidence(모델이 스스로 말하는 신뢰도)를 ECE로 쟀다. ECE = 신뢰도와 실제 정답률의 평균 격차, 낮을수록 좋음(15-bin).

결과. 쉬운 벤치는 잘 맞지만, AIME에서는 크게 과신한다.

비대칭. 매치드-베이스는 메타를 0% 내므로 신뢰도 축 자체가 없다. 이 지점은 두 arm을 비교할 수 없다.

meta arm only · ECE(15) eval pmishift_1030_v2 base emits 0% meta → uncomparable

ECE(15-bin) · 낮을수록 잘 보정됨

읽는 법. AIME만 과신한다 — 정답률이 낮은데 평균 신뢰도가 높아, 샘플의 81.8%가 과신이다. 나머지 벤치는 잘 보정된다. 구조적 비대칭: 매치드-베이스는 메타를 0% 내므로 신뢰도 축에서 비교 자체가 불가능하다(점선 막대).

핵심 인사이트: 보정 ≠ 통제. pooled ECE 0.053으로 보정은 대체로 성립하지만, 그것이 곧 "행동을 옳게 바꾸는" 메타인지 통제를 뜻하지는 않는다. AIME에서 보정이 무너지는데도 RQ1의 이득이 존재한다는 사실은, 보정은 필요조건일 뿐 충분조건이 아님을 보여준다.

한계 · 정직하게 읽기

믿기 전에 읽을 것

□ 단일 시드 · PRELIMINARY

모든 수치는 single seed다. avg@8 / AIME avg@16으로 rollout 분산은 줄였지만, 시드 간 재현은 아직 없다. 결론은 예비적이며 다중 시드 확증이 필요하다.

□ 패키지 효과 (PMI-shift 단독 아님)

RQ1은 5-head 패키지 vs vanilla GRPO. PMI-shift의 순기여는 RQ2 분해(Gandhi-arm · shift-only · placebo)가 끝나야 주장할 수 있다. 아직 미실행.

□ 보일러플레이트 위험 (AntiSD 긴장)

SHIFT 보상이 진짜 자각이 아니라 "verify처럼 보이는 상투구"를 밀어올릴 수 있다. 이는 AntiSD가 진단한 shortcut/deliberation-억제와 같은 실패 클래스다. RQ3의 비선택적 발화(86–96%)가 이 위험의 방증. placebo 검정이 이래서 필수다.

□ AIME degeneration은 완화지 해결 아님

16k에서 base가 ~73% 잘리는 비종료 degeneration을 메타가 완화(→50%)하지만 없애지 못한다. 4k→16k 이득이 평탄하다는 건 더 긴 예산이 답이 아니라는 뜻이다.

□ SFT v2 · grader

수치는 robust math_verify 재채점 기준(이전 broken-grader 수치와 다름)이며 held-out 1030에서 측정. SFT 초기화 버전(v2)과 데이터 구성에 결과가 의존한다.

✓ 안정적으로 성립하는 것

매치드-베이스 대비 6/6 벤치 우위, 이득의 난이도 집중(Q4 +34.8pp), 그리고 base가 유발한 16k degeneration을 메타가 완화한다는 방향성, 이 세 가지는 단일 시드 안에서 일관된다.

내부 계보 · 다섯 자기증류 신호

PMI-shift에 도달하기까지 — 수식 하나, 그림 하나

각 방법은 모델 자신의 롤아웃에서 대조를 캐내는 한 가지 방식이다. 그림이 메커니즘이고, 수식·설명은 펼쳐 본다.

PMI

always-onΔ +0.010

수식 · 왜 넘어갔나

R = mean_min_t∈C[ log p(c_t | prefix+meta) − log p(c_t | prefix) ]

자신만만한 meta는 모든 토큰을 들어올린다 — 이미 풀린 문제까지 발화해서 망가뜨린다.

CF ★

selectivityΔ +0.040 최고

수식 · 왜 넘어갔나

R_meta ∝ acc(with meta) − acc(without meta) + 이미 풀린 문제 over-penalty

결과를 실제로 뒤집는 meta만 보상 → 발화율 0.20의 선택성. 한계 = 자기검증 천장.

gm

always-oncoupling

수식 · 왜 넘어갔나

gm = [log p(gold|meta) − log p(gold|plac)] − [log p(decoy|meta) − log p(decoy|plac)]

가산형(독립 head) Δ −0.003 중립 · 곱셈형(correctness 결박)은 인식적 헤징 붕괴로 Δ −0.029 net-harm.

asym_cf

inert-centering(수정)

수식 · 왜 넘어갔나

R = α·max(0, c₁−c₀) − β·max(0, c₀−c₁) − γ·1[둘 다 정답], β > α

"meta everywhere" 표류에 세금. centering 버그(신호가 0으로 증발)는 수정 — 억제는 여전히 약함(γ↑ 보류).

PMI-shift

현역 · B3form ≠ behaviorceiling

수식 · 한 줄 설명

shift = PMI_close − PMI_open, PMI@t = Σ_divergent[log p(gold) − log p(decoy)] · decoy→gold 반전 +save, 역방향 −derail(≥save)

meta 앞뒤 인과적 믿음 이동을 직접 잰다 — 장식은 shift를 못 만든다. 잔여 한계: 자기검증 천장(같은 모델의 맹점 공유) → placebo 검정 + own≠gold 층화 필수.

보조 arm(cf 재생성 · cf_group 원형 · RLSD 변형 · gandhi/shiftonly 분해)도 전부 보존돼 있다.

PMI-shift 메타인지 자기증류 · PRELIMINARY (single seed) · checkpoint pmishift/gs300 · eval pmishift_1030_v2 · held-out 1030 · 수치는 robust math_verify 재채점 기준. RQ2 분해 및 다중 시드 확증은 진행 예정.