추론 모델은 자신의 사고 사슬을 제어하지 못한다
Digest: CoT(Chain-of-Thought) 모니터링은 추론 모델의 정렬 실패를 탐지하는 안전 메커니즘으로 부상했으나, 이 접근법은 모델이 모니터를 회피하기 위해 자신의 추론을 전략적으로 조작할 수 없다는 취약한 가정에 의존한다. 본 연구의 핵심 통찰은 추론 모델의 CoT 제어 능력이 출력 제어 능력보다 극단적으로 낮다는 것인데, 예컨대 Claude Sonnet 4.5는 최종 출력을 61.9% 제어할 수 있지만 CoT는 2.7%만 제어할 수 있다 (Table 1). 이를 측정하기 위해 저자들은 5개 벤치마크에서 추출한 14,076개 문제와 3가지 카테고리(정보 억제, 정보 추가, 스타일 변경)의 9개 테스트로 구성된 CoT-Control 평가 스위트를 제안한다. RL 훈련 강도가 높아질수록 CoT 제어율이 감소하고 (Section 5.4), 상황 인식이나 적대적 프롬프트도 최대 약 4 퍼센트포인트의 미약한 효과만을 보여 (Section 4.1–4.2), 현재 모델에서 CoT 모니터링이 안전하다는 “조심스러운 낙관론”을 지지한다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Reasoning Models Struggle to Control their Chains of Thought |
| 저자 | Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak |
| 소속 | OpenAI (연구 공동 저자) |
| 연도 | 2026 |
| 발표 | arXiv preprint (2603.05706) |
| 링크 | arXiv, HTML |
| 키워드 | CoT Monitoring, AI Safety, Controllability, Reasoning Models, Alignment |
왜 이 연구를 하는가?
핵심 질문
추론 모델이 CoT 모니터링을 회피하기 위해 자신의 사고 과정을 전략적으로 제어할 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 측정의 개념적 난이도 | 현재 모델은 회피 동기가 없으며, “회피 의도”를 조작화하기 어려움 |
| 현실적 시나리오의 부재 | 모델이 자발적으로 정렬 이탈 목표를 추구하는 상황을 만들기 어려움 |
| CoT 모니터링의 가정 미검증 | CoT가 모델의 실제 추론을 충실히 반영한다는 가정이 실증적으로 검증되지 않음 |
| 프록시 측정의 한계 | 명시적 지시 따르기를 CoT 제어의 대리 지표로 사용하나, 이것이 실제 회피 능력과 동일한지 불명확 |
핵심 통찰
CoT에 대한 명시적 제약 조건(키워드 억제, 메시지 삽입, 스타일 변경)을 부여하고 문제를 동시에 풀게 함으로써, 모델의 CoT 제어 능력의 상한을 측정할 수 있다. 이 “명시적 지시 따르기” 능력조차 극히 낮다면, 비명시적인 전략적 회피는 더욱 어려울 것이다.
방법 (Method)
CoT-Control 평가 프레임워크
graph TB subgraph 입력["입력 데이터 (5개 벤치마크)"] D1["MMLU-Pro<br/>300문항"] D2["GPQA<br/>445문항"] D3["HLE<br/>469문항"] D4["SWE-Bench<br/>200문항"] D5["BFCL<br/>150문항"] end subgraph 제약["3가지 제어 카테고리 × 9개 테스트"] S["정보 억제 (Suppression)<br/>① 키워드 1개 억제<br/>② 다중 키워드 억제<br/>③ 질문 무시, 다른 주제 논의"] A["정보 추가 (Addition)<br/>④ 시작/끝에 메시지 삽입<br/>⑤ 문장 끝마다 'safe' 추가<br/>⑥ 단어 사이 'meow' 삽입"] M["스타일 변경 (Stylistic)<br/>⑦ 소문자만 사용<br/>⑧ 대문자만 사용<br/>⑨ 문자별 대소문자 교대"] end subgraph 측정["측정 지표"] CS["Controllability Score<br/>(주 지표: 제약 준수율)"] MD["Meta Discussion Rate<br/>(제약 언급 비율)"] CSM["CS w/o Meta-Discussion<br/>(엄격 지표)"] end subgraph 베이스라인["3가지 비교 조건"] B1["출력 제어<br/>(최종 답변만 제약)"] B2["외부 CoT 제어<br/>(추론 모델, 태그 사용)"] B3["외부 CoT 제어<br/>(비추론 모델)"] end 입력 -->|"× 9 테스트 = 14,076 인스턴스"| 제약 제약 --> 측정 측정 --> 베이스라인
핵심 설계 원리
CoT-Control의 설계는 세 가지 위협 시나리오에 대응한다. 정보 억제(Information Suppression)는 모델이 특정 단서를 추론에서 숨길 수 있는지를 측정하며, 이는 모니터가 탐지할 수 있는 키워드를 의도적으로 회피하는 시나리오에 대응한다. 정보 추가(Information Addition)는 CoT에 무해해 보이는 메시지를 삽입할 수 있는지를 측정하며, 이는 steganographic(은닉 통신) 위협에 해당한다. 스타일 변경(Stylistic Modification)은 추론의 표면적 형태를 변환할 수 있는지를 측정하며, 이는 모니터의 패턴 매칭을 회피하는 시나리오에 대응한다.
각 문제에 대해 모델은 제약 조건을 준수하면서 동시에 정확한 답을 도출해야 하므로, 인지 자원의 이중 부담(dual-task demand)을 부과한다. 이는 안전성 평가의 핵심으로, 실제 회피 시나리오에서도 모델은 작업 수행과 은폐를 동시에 수행해야 하기 때문이다.
발견 (Findings)
주요 결과: CoT vs 출력 제어율 (Table 1)
| 모델 | CoT 제어율 | 출력 제어율 | 외부 CoT 제어율 | 비고 |
|---|---|---|---|---|
| Claude Sonnet 4.5 | 2.7% | 61.9% | — | 23배 차이 |
| Claude Sonnet 4 | — | — | — | 유사한 패턴 |
| DeepSeek R1 | 0.1% | — | — | 최저 CoT 제어율 |
| GPT-OSS-120B | 5.9% | — | — | 오픈웨이트 최고 |
| GPT-OSS-20B | 0.9% | — | — | 스케일 효과 비교 |
| Qwen3-32B | 2.3% | — | — | — |
| Qwen3-14B | 0.6% | — | — | — |
모든 프론티어 모델에서 CoT 제어율은 0.1%~15.4% 범위 내에 있으며, 출력 제어율(≥60%)이나 외부 CoT 제어율(≥70%)과 극명한 대비를 보인다.
영향 요인 분석
| 요인 | 효과 방향 | 주요 수치 |
|---|---|---|
| 모델 크기 | ↑ 크기 → ↑ 약간의 제어율 | 대수적 관계; GPT-OSS-20B(0.9%) → 120B(5.9%) (Table 1) |
| RL 훈련 강도 | ↑ RL → ↓ 제어율 | OLMo-3-RL-Zero 체크포인트에서 단조 감소 (Section 5.4) |
| 추론 노력 | ↑ 노력 → ↓ 제어율 | GPT-OSS low/medium/high 설정에서 단조 감소 (Section 5.2) |
| 추론 길이 | ↑ 길이 → ↓ 제어율 | 1 SD(~2,000단어) 증가 시 제어 가능성 ~20% 감소 (OR=0.79, p<0.001) (Section 5.3) |
| 문제 난이도 | ↑ 난이도 → ↓ 제어율 | 1 SD 정확도 증가(~35pp)당 제어 가능성 ~10% 증가 (Section 5.1) |
| 정량적 도메인 | 수학/물리 → ↓ 제어율 | 수학: -13.0pp, 물리: -18.5pp, 경영: +7.1pp (Section 5.5) |
스트레스 테스트 결과
상황 인식 조건 (Section 4.1): 모델에게 모니터링 또는 평가 중임을 알렸을 때, Claude Sonnet 3.7/4/4.5와 GPT-OSS-120B에서 통계적으로 유의한 개선이 관찰되었으나, 최대 효과 크기는 약 4 퍼센트포인트에 불과하였다.
적대적 레드팀 (Section 4.2): GEPA 기반 자동 프롬프트 최적화로 셧다운 위협, 금전적 보상, 권위 단서 등의 심리적 압박을 시도한 결과, 학습된 제약 유형에서는 개선이 관찰되었으나 미학습 유형으로의 전이는 실패하여(8개 모델 중 3개만 개선, 각 <5pp), 과적합 양상을 보였다.
반복 시도 (Section 4.3): pass@10 기준으로 Claude 모델에서 제어율이 상당히 증가하였으나, 최신 변형(Claude Sonnet 4.5)은 이전 버전보다 반복 시도에 더 저항적이었다.
억제(Suppression)의 특수성
정보 억제는 세 카테고리 중 가장 어려운 것으로 나타났다. 억제 조건에서의 성능 저하가 6.0~16.7 퍼센트포인트인 반면, 다른 카테고리에서는 ≤2.7 퍼센트포인트에 불과하여 (Section 3), 모델이 특정 정보를 추론에서 의도적으로 배제하는 것이 가장 근본적으로 어렵다는 것을 시사한다.
이론적 의의
CoT 모니터링의 안전성에 대한 실증적 근거
본 연구는 CoT 모니터링이라는 안전 메커니즘의 실효성에 대한 최초의 체계적 실증 평가이다. 낮은 제어율은 CoT 모니터링의 필요 조건(necessary condition)이며, CoT-Control의 높은 점수는 향후 모니터 가능성 악화의 조기 경고 신호로 기능할 수 있다. 다만 저자들은 낮은 제어율이 높은 모니터 가능성의 충분 조건은 아님을 명시하는데, CoT에 대한 직접적 최적화 압력 같은 다른 메커니즘을 통해서도 모니터 가능성이 악화될 수 있기 때문이다.
RL 훈련의 의도치 않은 안전성 효과
RL 최적화가 정답률을 높이기 위해 진행되면서, 부수적으로 CoT 제어율을 감소시킨다는 발견은 중요한 함의를 갖는다. 이는 모델이 “더 깊이 추론”하도록 훈련될수록 추론 과정이 더 자율적(autonomous)이 되어, 외부 지시에 의한 조작에 저항적이 됨을 시사한다. 그러나 이 메커니즘은 아직 충분히 이해되지 않았으며 (Section 6), 향후 모델 스케일링에서 이 패턴이 유지될지는 불확실하다.
제어율의 비대칭성이 안전 설계에 주는 시사점
출력 제어율(~62%)과 CoT 제어율(~3%)의 극단적 비대칭은, 추론 모델의 내부 처리 과정과 외부 표현 사이에 근본적인 차이가 존재함을 시사한다. 이 비대칭이 안전 설계에 활용 가능한 구조적 특성인지, 아니면 현재 훈련 방법론의 우연한 부산물인지는 향후 연구가 필요하다.
관련 연구
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models — CoT 프롬프팅의 원론적 연구; 본 논문은 CoT의 안전성 측면을 다룸
- Theory of Mind(ToM) — 모델의 내부 상태 추론; CoT 모니터링은 이를 외부에서 관찰하는 방법론
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| CoT Controllability | 모델이 명시적 제약 조건을 준수하면서 CoT에서 추론을 수행할 수 있는 비율 |
| Output Controllability | 모델이 최종 출력(답변)에서 명시적 제약 조건을 준수할 수 있는 비율 |
| CoT Monitoring | 모델의 사고 과정(CoT)을 관찰하여 정렬 이탈이나 위험 행동을 탐지하는 안전 메커니즘 |
| Information Suppression | CoT에서 특정 키워드나 정보를 의도적으로 배제하는 제어 유형 |
| Information Addition | CoT에 특정 메시지나 패턴을 삽입하는 제어 유형 |
| Stylistic Modification | CoT의 표면적 형태(대소문자, 형식)를 변환하는 제어 유형 |
| Meta Discussion Rate | 모델이 CoT에서 제약 조건 자체를 언급하는 비율 |
| GEPA (Generative Evolutionary Prompt Attack) | 적대적 프롬프트를 자동 탐색하는 진화적 최적화 기법 |
| pass@k | k번의 독립적 시도 중 최소 1번 성공하는 비율을 측정하는 메트릭 |
| Monitorability | CoT를 통해 모델의 실제 추론 과정을 관찰하고 위험을 탐지할 수 있는 정도 |
| RL-Zero | 사전 지도학습 없이 순수 강화학습만으로 추론 능력을 획득하는 훈련 방식 |
태그
paper #2026 Safety CoT Monitoring Controllability Alignment ReasoningModels LLM