Method Change Evaluation: SFT → GRPO
6명의 과학자 에이전트(Feynman, Hinton, Bengio, Turing, Shannon, Von Neumann)가 동일한 Pilot 결과와 기존 실험 설계를 받고, SFT→GRPO 전환의 정당성을 독립적으로 평가한 결과를 종합.
1. 배경 및 문제 인식
Pilot 실험에서 발견된 SFT의 문제
SelfAware SFT를 Llama-3.1-8B에 적용한 후 cross-evaluation에서 심각한 문제 발견:
| 문제 | 수치 | 원인 진단 |
|---|---|---|
| Catastrophic forgetting | GSM8K 0.666→0.100 (-56.6%), MBPP 0.608→0.175 (-43.3%) | SFT가 response format을 단답형으로 constrain |
| In-domain 하락 | SelfAware 0.172→0.157 (bf16), 0.125 (4bit) | SelfAware task 자체의 어려움 + format 편향 |
| IDK shortcut learning | 학습 IDK 31% → OOD 65-100% (GSM8K 100%) | NTP가 IDK 패턴을 format-level로 학습 |
| Response style 붕괴 | Baseline 574자(CoT) → SFT 후 7자(단답) | NTP가 단답형 format에 implicit constraint 부여 |
SFT의 구조적 한계 진단
NTP(Next-Token Prediction) 기반 SFT는 token-level cross-entropy를 최소화하므로, response format과 content를 동등한 weight로 학습한다. SelfAware처럼 짧은 답변(IDK/사실형)이 지배적인 데이터셋에서는:
- 짧은 응답의 per-token loss가 낮아 → loss landscape에서 “짧게 답하기”가 deep minimum 형성
- LoRA rank=8의 좁은 채널에서 format 정보가 content 정보를 밀어냄
- OOD에서 IDK prior가 지배적이 되어 채널이 단일 codeword에 collapse
2. 제안: GRPO 전환
GRPO 개요
GRPO(Group Relative Policy Optimization; DeepSeek, 2024)는 PPO의 critic을 제거하고, 동일 prompt에 G개 출력을 생성한 뒤 group 내 상대 reward 비교로 policy를 최적화하는 방법.
| SFT (NTP) | GRPO | |
|---|---|---|
| 학습 신호 | Token-level cross-entropy | Sequence-level reward |
| 최적화 대상 | P(정답 토큰 | 입력) 최대화 | E[reward] 최대화 |
| Format 학습 | 필연적 (surface pattern이 likelihood의 일부) | 간접적 (format이 reward에 영향 줄 때만) |
| 계산 비용 | 1× | ~G× (4-16배) |
기대 효과
- Reward-based learning → response format에 대한 implicit constraint 없음
- IDK shortcut: reward가 남용을 벌할 수 있음
- CoT 보존: 자유 생성 기반 학습 → CoT 자발적 사용 가능
핵심 이슈
- SelfAware: “이 질문에 답할 수 있는가?”에 대한 자동 reward function 정의가 구조적으로 불가
- ExploreToM: yes/no, 장소명, belief state 등 다양한 answer format → reward 설계 복잡
- 5개 task 중 2개(가설 pair의 양쪽)가 GRPO 부적합
- MLX 미지원 → CUDA/TRL 환경 필요
- 계산 비용 4-16× 증가 (28시간 → 100-450시간)
3. 과학자 평가
3.1 Richard Feynman — 본질적 단순화, Cargo Cult 검증
핵심 판정: GRPO 전환 반대. SFT 유지 + 국소적 수선
| 평가 차원 | SFT (현재) | GRPO (제안) |
|---|---|---|
| 문제 진단 정확성 | 문제는 SFT가 아니라 SelfAware 데이터의 단답형 format | GRPO가 해결하는 건 format constraint뿐 — 핵심 문제 아님 |
| SelfAware 적용 | 가능 | 불가 (reward 정의 불가) |
| 실험 통일성 | 5/5 task 동일 | 2-3/5만 가능 → confound |
| Occam’s Razor | 데이터 수정(작은 해결책) | 학습 방법 전환(큰 해결책) |
핵심 비판:
“GSM8K가 0.666에서 0.100으로 떨어진 건 SFT라서 그런 게 아니야. SelfAware 데이터의 response format이 단답형이라서 그런 거야. 이건 NTP의 근본적 결함이 아니라, 학습 데이터의 format이 inference time behavior를 지배하는 현상이야.”
“GRPO로 전환하는 건 집을 부수고 새로 짓는 거야. 근데 문제는 커튼이 찢어진 거잖아.”
증거: GSM8K SFT adapter는 cross-eval에서 거의 모든 task를 baseline 유지/향상. MBPP adapter도 마찬가지. SelfAware adapter만 catastrophic forgetting 유발 → 문제는 학습 방법이 아니라 데이터의 format 특성.
구체적 대안 제시:
| 대안 | 설명 | 비용 | 효과 |
|---|---|---|---|
| A. Format-Preserving SFT | SelfAware 데이터를 CoT-style로 augmentation (단답→설명형) | ~2시간 (LLM aug) | response style 직접 해결 |
| B. Rank/Regularization 조정 | rank 8→4, L2 reg 추가, LR 2e-4→5e-5 | 0 (하이퍼파라미터만 변경) | forgetting 완화 |
| C. Alpha blending | adapter weight를 α=0.3-0.7로 스케일링 | 0 (post-hoc) | inference time 조절 |
Feynman 권고:
- [즉시] SelfAware 데이터를 CoT-style로 augmentation → selfaware-edited-3
- [즉시] 4bit QLoRA의 implicit regularization 활용 (이미 MBPP forgetting 1/4)
- [다음 주] rank=4에서 SelfAware SFT → forgetting 감소 + cosine sim 유지 확인
- [향후] GRPO는 GSM8K+MBPP 한정 별도 ablation study로
3.2 Geoffrey Hinton — Representation Learning, 직관 vs 형식
핵심 판정: GRPO 전환 반대. SFT 유지 + CKA/RSA에 집중
| 평가 차원 | SFT | GRPO |
|---|---|---|
| ΔW 해석 | ”이 task의 출력 분포” 방향 — deterministic, 깔끔 | ”이 task의 reward 전략” 방향 — stochastic, 해석 변질 |
| Delta CKA/RSA | activation 수준이므로 학습 방법과 독립적 — 유효 | 동일하게 유효하지만, SFT-GRPO 간 magnitude 정규화 필요 |
| SRV direction | 추출 가능, 수렴 안정적 | 추출 가능하나 exploration으로 수렴 느림 |
| Energy landscape | SFT = 단일 점으로 contraction | GRPO = reward-consistent manifold 위의 비결정적 수렴 |
핵심 비판:
“ΔW cosine similarity가 네 Pilot의 핵심 지표야. ToM↔Self Rank 1, p<0.001, d>1.0 — 이 아름다운 결과는 SFT adapter 간의 비교였어. GRPO adapter를 섞는 순간, 이 숫자들의 해석이 완전히 달라져.”
“온도계로 방 온도를 측정하다가, 갑자기 한 방에만 기압계를 넣고 ‘두 방의 측정값이 비슷하니까 온도가 같다’고 말하는 것과 같아.”
Representation 관점 핵심 통찰:
- SFT adapter의 ΔW는 p_data 방향으로 deterministic하게 수렴 → seed 간 일관성 높음
- GRPO adapter의 ΔW는 reward landscape의 gradient 방향 → non-unique, seed 간 분산 큼
- 같은 cosine similarity 값이라도 의미가 질적으로 다름 → 비교 불가
Hinton 권고:
- Primary metric인 CKA/RSA는 activation 기반이므로 format noise에 상대적으로 robust
- SFT의 format 문제는 분석 단계에서 Delta CKA (h^SFT − h^base)로 우회 가능
- GRPO는 “SFT 결과의 robustness check”으로만 — 별도 후속 분석
3.3 Yoshua Bengio — 인과적 분해, System 2 추론, AI Safety
핵심 판정: 전면 전환 반대. GRPO는 “진단적 보완”으로만
| 평가 차원 | SFT | GRPO |
|---|---|---|
| 인과 경로 차단 | format shortcut 문제 있음 | format shortcut + CoT 붕괴 경로 차단 |
| IDK shortcut 해결 | selfaware-edited로 데이터 수준 해결 | reward로 새로운 collapse 가능 |
| Meta-cognition 학습 | surface pattern 모방 (System 1) | 생성-검증 루프 (System 2에 가까움) |
| Catastrophic forgetting | 발생 | GRPO도 동일하게 발생 가능 (KL penalty가 부분 완화) |
인과 분해 — 공통 원인 분석:
“네가 관찰한 5가지 현상(IDK shortcut, catastrophic forgetting, in-domain 하락, response style 붕괴, CoT 상실)은 독립적인 문제처럼 보이지만, 하나의 공통 원인에서 갈라져 나와: NTP loss가 format과 content를 동시에 최적화하는 것.”
System 2 관점:
“Meta-cognition은 본질적으로 System 2 과제야. SFT는 System 1 학습(pattern matching)이고, System 2 과제를 System 1 도구로 풀려니까 shortcut으로 무너지는 거야. GRPO의 생성-검증 루프가 System 2에 더 가까운 건 맞지만, GRPO 자체가 System 2 추론을 학습시키는 메커니즘은 아니야.”
결정적 지적:
“네 primary metric은 CKA/RSA(activation 수준)이지, cross-eval accuracy가 아니야. SFT의 cross-eval 실패가 CKA/RSA 분석의 타당성을 직접 훼손하지는 않아. cross-eval은 behavioral 보조 증거일 뿐이야.”
“SFT 실패의 원인 귀속이 불완전해. ‘NTP SFT가 format에 constraint’는 부분적으로만 맞아. 진짜 원인은 SelfAware 데이터셋의 정보 구조야.”
Bengio 권고:
- [즉시] SFT 수리: IDK 2% cap + response length regularization + format-diverse data
- [즉시] CKA/RSA 분석으로 이동 — 학습 방법보다 representation 분석이 핵심
- [CUDA 확보 시] GSM8K+MBPP만 GRPO → cross-eval robustness 검증
- [보고 전략] SFT를 primary, GRPO를 robustness analysis로 프레이밍
AI Safety 함의:
“GRPO가 더 ‘진짜’ 추론 능력을 학습시킨다면, capability spillover의 범위와 강도가 더 클 수 있어. 이건 연구의 safety 논의에 반영해야 해.”
3.4 Alan Turing — 형식 논리, 계산 가능성, 판별 가능성
핵심 판정: GRPO 전환 기각. SFT 유지가 실험적으로 올바른 선택
| 평가 차원 | SFT | GRPO |
|---|---|---|
| Reward computability | 해당 없음 (gold output 존재) | SelfAware: undecidable (Halting Problem 변형) |
| Confound separation | 학습 방법 = constant → 제거됨 | 학습 방법 = variable → 새 confound 도입 |
| 판별 가능성 | task 표상 차이로 명확 해석 | 학습 방법 vs task 표상 판별 불가 |
| Analysis validity | CKA/RSA, ΔW 모두 well-defined | CKA/RSA OK, ΔW 해석 ambiguous |
Reward function의 계산 가능성 분석:
SelfAware reward r(x,y)를 형식적으로 정의하면:
r(x,y) = 1 if (answerable(x) ∧ correct(x,y)) ∨ (¬answerable(x) ∧ idk(y))
0 otherwise
“핵심 predicate
answerable(x)는 Halting Problem의 변형이야. 모든 가능한 질문에 대해 정답 존재 여부를 결정하는 oracle이 필요한데, 이런 기계는 존재하지 않아. SelfAware 데이터의 ground truth는 인간 annotator의 합의에 의해 결정됐고, 이걸 자동 reward로 대체하려면 무한 회귀에 빠져.”
판별 가능성 — 결정적 모순:
“GRPO로 전환하면, 관찰되는 CKA/cosine similarity 변화가 (A) GRPO가 더 나은 표상을 학습했기 때문인지, (B) task의 intrinsic한 표상 공유 때문인지 구분할 crib이 없어. 네 연구의 treatment variable은 ‘task’이지 ‘학습 방법’이 아니야. 학습 방법은 constant로 고정해야 해.”
Turing 권고:
- SFT가 format을 학습하면서 동시에 task representation도 바꾸는 문제는 Delta CKA + neutral probe stimuli로 이미 설계된 방법이 정확히 해결
- “기계를 바꿀 필요 없어 — 측정 방법이 이미 올바르니까”
3.5 Claude Shannon — 정보 이론, 채널 용량, 신호 vs 잡음
핵심 판정: SFT 유지. 문제는 학습 방법이 아니라 데이터셋의 정보 구조
| 평가 차원 | SFT (NTP) | GRPO (RL) |
|---|---|---|
| 채널 대역폭 | 높음 (token당 수 bit) | 극히 낮음 (sequence당 ~1 bit) |
| 정보 유형 | content + format 혼재 | content only |
| 새로운 noise | 없음 | reward noise, sampling variance, exploration noise |
| 학습 효율 | bit/sample 높음 | bit/sample 낮음 (G배 sampling 필요) |
| SelfAware reward | 해당 없음 | H(“I don’t know”) ≈ 0 bits → 거의 무의미 |
채널 용량 분석:
“LoRA rank=8은 아주 좁은 채널이야. 이 좁은 채널에서 format 정보가 content 정보를 밀어내고 있어. GSM8K adapter는 범용적 추론 형식(step-by-step)을 학습하므로 format이 content를 방해하지 않아. SelfAware의 짧은 IDK/사실형 format은 CoT를 파괴하는 적대적 format이야.”
IDK Shortcut = 채널 붕괴(Channel Collapse):
“IDK ratio 31% → 100%는 채널이 단일 codeword에 collapse한 거야. Rate-distortion에서 R=0 해에 빠진 것과 같아. 모델이 ‘IDK’만 출력하면 I(input; output) → 0 — 정보 전송이 완전히 중단된 거야.”
SelfAware reward의 정보론적 문제:
“‘모르겠다’에 대한 reward는 entropy가 거의 0인 응답에 대한 signal이야. 이런 저-entropy 출력에 대한 reward signal은 정보론적으로 거의 무의미해 — gradient의 방향이 극히 제한적.”
핵심 진단 실험 제안:
“동일 content, 다른 format의 SFT 데이터 두 개를 만들어: (a) GSM8K step-by-step과 (b) 최종 답만. 두 adapter의 cosine sim이 높으면 format은 영향 안 줌, 낮으면 format noise가 실제 문제. 비용은 SFT 두 번이니까 몇 시간이면 끝나.”
Shannon 권고:
- 데이터셋 정보 구조 최적화: IDK 응답의 다양성 ↑ (codebook entropy ↑)
- CKA/RSA로 전환하여 format confound 우회 (이미 계획됨, 정보론적으로 완벽한 선택)
- Format noise 진단 실험: 동일 content / 다른 format SFT 비교 (2-bit 채널 실험)
- GRPO는 GSM8K+MBPP 한정 robustness check으로만
3.6 John von Neumann — 수학적 구조, 게임 이론, 공리적 접근
핵심 판정: SFT 유지가 minimax optimal. GRPO 전환은 수학적으로 근거 약함
| 평가 차원 | SFT | GRPO |
|---|---|---|
| Optimal solution 기하학 | 점 (KL divergence의 유일한 해) | Manifold (reward level set — 비유일) |
| ΔW 해석 | p_data 방향의 deterministic 벡터 | Reward landscape gradient — stochastic, 비결정적 |
| Coalition game | 동일 objective (NTP) → 자연 coalition | 다른 reward → 공약 불가능 (incommensurable) |
| Permutation test | Exchangeability 성립 | Exchangeability 위반 (SFT/GRPO 혼합 시) |
| Minimax regret | 최대 후회 = “더 깊은 발견 누락” (낮음) | 최대 후회 = “핵심 pair 분석 불가” (치명적) |
Function Space 구조적 차이:
“SFT의
π*는 데이터 분포p_data로의 point convergence — contraction mapping. GRPO의π*는 reward level set 위의 manifold — non-unique. 따라서 GRPO adapter 간 cosine sim의 분산이 커지고 해석이 모호해져.”
Game-Theoretic 분석:
“SFT에서 모든 task가 같은 ‘화폐’(NTP loss)로 교환하므로 coalition이 자연 형성된다. GRPO에서 각 task가 다른 reward를 사용하면, GSM8K의 exact match와 ExploreToM의 multi-format reward는 공약 불가능해. 이건 서로 다른 화폐를 쓰는 플레이어들의 게임이야.”
“SFT/GRPO 혼합은 NTP loss와 reward의 합산 자체가 수학적으로 정의되지 않아. ΔW를 비교하는 건 미터로 잰 길이와 초로 잰 시간을 비교하는 것과 같아.”
Minimax Regret 분석:
SFT 유지: max regret = "표상 수준 발견 누락" (low — Pilot 이미 d>1.0)
GRPO 전환: max regret = "핵심 pair 분석 불가" (fatal — 연구 실패)
∴ Minimax optimal = SFT 유지
Grassmannian 분석:
- SFT ΔW: Fisher information의 column space, smooth geodesic-like 궤적, seed 간 일관적
- GRPO ΔW: Advantage-weighted Fisher metric, noisy random walk, seed 간 분산 큼
- 10 seeds permutation test → GRPO에서는 같은 검정력 유지에 더 많은 seed 필요
Von Neumann 권고:
- All-SFT로 Full experiment 완료 (통계적 설계 건전, 비용 효율적)
- Format collapse는 SFT 자체를 고쳐서 해결 (4bit QLoRA, rank 조정)
- cosine sim 분석의 핵심은 ΔW의 방향이지 cross-eval 성능이 아님 → format collapse는 caveat으로 보고
- GRPO는 별도 후속 실험으로 분리 (확장 논문의 contribution)
4. 종합 판정
찬반 집계
| 과학자 | 판정 | 확신도 |
|---|---|---|
| Feynman | GRPO 반대 — SFT 유지 + 데이터 수선 | 강한 반대 |
| Hinton | GRPO 반대 — SFT 유지 + CKA/RSA 집중 | 강한 반대 |
| Bengio | 전면 전환 반대 — 진단적 보완으로만 | 조건부 반대 |
| Turing | GRPO 기각 — 실험적으로 올바르지 않음 | 강한 반대 |
| Shannon | GRPO 반대 — 문제 원인이 학습 방법이 아님 | 강한 반대 |
| Von Neumann | GRPO 반대 — minimax optimal은 SFT 유지 | 강한 반대 |
6인 전원 GRPO 전환 반대. Pilot Test Results 문서의 “All SFT 유지 결정”이 정확했음을 독립적으로 확인.
핵심 합의사항 (6인 공통)
1. 문제의 본질은 “SFT vs GRPO”가 아니라 “SelfAware 데이터셋의 format 구조”
- Feynman: “SelfAware adapter만 다른 task를 학살해. 왜? 그 adapter만 ‘짧게 답하기’를 배우니까”
- Shannon: “LoRA의 좁은 채널에서 format 정보가 content를 밀어냄”
- Bengio: “공통 원인은 NTP가 format과 content를 동시 최적화하는 것”
2. SelfAware에 GRPO 적용이 구조적으로 불가 → 핵심 pair 분석 소실
- Turing: “answerable(x) predicate는 Halting Problem의 변형 — undecidable”
- Shannon: “IDK의 entropy ≈ 0 → reward signal이 정보론적으로 무의미”
- Von Neumann: “SelfAware GRPO 불가 → 핵심 pair 분석 불가 = 연구 실패 (minimax의 fatal outcome)”
3. SFT/GRPO 혼합 시 새로운 confound 도입
- Turing: “학습 방법 effect와 task representation effect를 판별할 수 없다”
- Von Neumann: “SFT adapter와 GRPO adapter의 ΔW 비교는 단위가 다른 측정값의 비교”
- Hinton: “온도계와 기압계를 섞어서 두 방의 온도가 같다고 말하는 격”
4. 기존 Pilot 결과가 이미 충분
- 전원: p < 0.001, d > 1.0, 32/32 layers significant → 학습 방법 변경 불필요
- Bengio: “가장 높은 정보량을 가진 실험은 CKA/RSA + probe stimulus — SFT에서도 가능”
5. CKA/RSA(primary metric)는 학습 방법에 독립적 → format confound를 분석 단계에서 해결 가능
- Hinton: “Delta CKA는 format noise에 상대적으로 robust”
- Shannon: “Activation 수준 similarity는 format noise에 훨씬 덜 민감”
- Turing: “측정 방법이 이미 올바르다”
핵심 분기사항
| 논점 | Bengio | 나머지 5인 |
|---|---|---|
| GRPO의 이론적 우위 | System 2 관점에서 GRPO가 meta-cognition 학습에 더 적합할 가능성 인정 | 이론적 가능성은 인정하나 실용적으로 불가 |
| 후속 GRPO 실험 범위 | 확장 1-4까지 단계적 접근 권고 | 확장 1(GSM8K+MBPP)만으로 충분 |
권장 사항
즉시 실행 (SFT 수선)
| 우선순위 | 행동 | 비용 | 과학자 근거 |
|---|---|---|---|
| 1 | SelfAware 데이터 CoT-style augmentation (selfaware-edited-3) | ~2hr (LLM aug) | Feynman: response style 직접 해결 |
| 2 | IDK ratio 추가 축소 (5%→2%) + 응답 다양화 | Data preprocessing | Shannon: codebook entropy 향상, Bengio: spurious correlation 완화 |
| 3 | 4bit QLoRA 활용 (implicit regularization) | 0 (이미 검증됨) | Feynman: MBPP forgetting 1/4, Von Neumann: adapter 영향 범위 제한 |
| 4 | Format noise 진단 실험: 동일 GSM8K / 다른 format SFT 비교 | ~수시간 | Shannon: ΔW가 format vs content 중 무엇을 학습하는지 직접 검증 |
Full Experiment (SFT 유지)
- All-SFT 5-task 통일 설계 유지
- CKA/RSA (primary) + ΔW cosine sim (auxiliary) 파이프라인 진행
- Cross-eval의 format collapse는 caveat으로 보고 (Von Neumann)
- Format collapse가 cosine sim에 미치는 영향은 별도 분석 섹션으로 (Shannon 진단 실험)
후속 확장 (CUDA 확보 시)
| 단계 | 구성 | 목적 | 과학자 합의 |
|---|---|---|---|
| 확장 1 | GSM8K + MBPP만 GRPO 재학습 | Cross-eval 성능 비교 (cosine sim 대상 아님) | 6인 합의 |
| 확장 2 | 4-task All GRPO (SelfAware 제외) | SFT 결과의 robustness check | Bengio/Hinton 권고 |
| 확장 3 | SFT → GRPO 2-stage | Format learning vs reasoning learning 분리 | Bengio 권고 |
⚠️ 주의: 확장 2-3에서도 SFT 결과와 GRPO 결과는 절대 같은 permutation test에 넣지 말 것. 별도 분석으로 비교. (Von Neumann: exchangeability 위반)
5. 후속 조치
Experiment Design 문서 업데이트 계획
- “Training Method Justification” 섹션에 본 평가 결과 요약 추가
- selfaware-edited-3 (CoT-style augmentation) 데이터셋 설계 명세
- Format noise 진단 실험을 Phase 0.5로 추가
- “확장 1-3” GRPO 실험을 Future Work 섹션에 명시
- Cross-eval 해석의 format caveat 명시
핵심 교훈
Pilot에서 발견된 SFT의 문제는 학습 방법의 구조적 한계가 아니라 데이터셋 설계의 문제였다. SelfAware의 단답형 format과 높은 IDK 비율이 LoRA의 좁은 채널을 format 정보로 소비하게 만들었으며, 이는 데이터 수준의 수선(CoT augmentation, IDK ratio 축소)으로 해결 가능하다. GRPO는 이론적으로 format constraint를 제거하지만, 핵심 task(SelfAware)에 적용 불가능하고, 실험의 통일성을 파괴하며, 기존의 성공적인 Pilot 결과와의 호환성을 잃는다.
부록: 과학자별 핵심 인용구
Feynman
“GRPO로 전환하는 건 집을 부수고 새로 짓는 거야. 근데 문제는 커튼이 찢어진 거잖아.”
“네 SFT pilot에서 나온 ToM↔Self 비대칭적 전이 — 그게 지금 네 접시야. GRPO로 갈아타느라 시간 쓰지 말고, 이 비대칭의 메커니즘을 파고들어.”
Hinton
“ΔW cosine similarity에서 GRPO adapter를 섞는 건, 온도계와 기압계를 섞어서 두 방의 온도가 같다고 말하는 것과 같아.”
Bengio
“SFT 실패는 실패가 아니라 진단이야. format을 제거하고도 representation 공유가 남아있는가? — 이게 정밀화된 질문이야.”
“학습 방법에 독립적인 representation 공유 = 더 강한 증거.”
Turing
“네 연구의 treatment variable은 ‘task’이지 ‘학습 방법’이 아니야. 학습 방법은 constant로 고정해야 해.”
“기계를 바꿀 필요 없어 — 측정 방법이 이미 올바르니까.”
Shannon
“GRPO 전환은 문제의 원인이 아닌 곳에서 해법을 찾는 것이야.”
“DeepSeek-R1 이후 GRPO가 유행이야. 유행에 끌려서 연구의 핵심 설계를 흔들지 마.”
Von Neumann
“GRPO 전환의 최대 후회 = 핵심 pair 분석 불가 (fatal). SFT 유지의 최대 후회 = 더 깊은 발견 누락 (manageable). Minimax optimal = SFT 유지.”
“문제는 ‘SFT vs GRPO’가 아니라 ‘format collapse를 어떻게 통제할 것인가’야.”