추론 모델은 자신의 사고 사슬을 제어하지 못한다

Digest: CoT(Chain-of-Thought) 모니터링은 추론 모델의 정렬 실패를 탐지하는 안전 메커니즘으로 부상했으나, 이 접근법은 모델이 모니터를 회피하기 위해 자신의 추론을 전략적으로 조작할 수 없다는 취약한 가정에 의존한다. 본 연구의 핵심 통찰은 추론 모델의 CoT 제어 능력이 출력 제어 능력보다 극단적으로 낮다는 것인데, 예컨대 Claude Sonnet 4.5는 최종 출력을 61.9% 제어할 수 있지만 CoT는 2.7%만 제어할 수 있다 (Table 1). 이를 측정하기 위해 저자들은 5개 벤치마크에서 추출한 14,076개 문제와 3가지 카테고리(정보 억제, 정보 추가, 스타일 변경)의 9개 테스트로 구성된 CoT-Control 평가 스위트를 제안한다. RL 훈련 강도가 높아질수록 CoT 제어율이 감소하고 (Section 5.4), 상황 인식이나 적대적 프롬프트도 최대 약 4 퍼센트포인트의 미약한 효과만을 보여 (Section 4.1–4.2), 현재 모델에서 CoT 모니터링이 안전하다는 “조심스러운 낙관론”을 지지한다.

메타데이터

항목	내용
제목	Reasoning Models Struggle to Control their Chains of Thought
저자	Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak
소속	OpenAI (연구 공동 저자)
연도	2026
발표	arXiv preprint (2603.05706)
링크	arXiv, HTML
키워드	CoT Monitoring, AI Safety, Controllability, Reasoning Models, Alignment

왜 이 연구를 하는가?

핵심 질문

추론 모델이 CoT 모니터링을 회피하기 위해 자신의 사고 과정을 전략적으로 제어할 수 있는가?

기존 접근법의 한계

한계	설명
측정의 개념적 난이도	현재 모델은 회피 동기가 없으며, “회피 의도”를 조작화하기 어려움
현실적 시나리오의 부재	모델이 자발적으로 정렬 이탈 목표를 추구하는 상황을 만들기 어려움
CoT 모니터링의 가정 미검증	CoT가 모델의 실제 추론을 충실히 반영한다는 가정이 실증적으로 검증되지 않음
프록시 측정의 한계	명시적 지시 따르기를 CoT 제어의 대리 지표로 사용하나, 이것이 실제 회피 능력과 동일한지 불명확

핵심 통찰

CoT에 대한 명시적 제약 조건(키워드 억제, 메시지 삽입, 스타일 변경)을 부여하고 문제를 동시에 풀게 함으로써, 모델의 CoT 제어 능력의 상한을 측정할 수 있다. 이 “명시적 지시 따르기” 능력조차 극히 낮다면, 비명시적인 전략적 회피는 더욱 어려울 것이다.

방법 (Method)

CoT-Control 평가 프레임워크

graph TB
    subgraph 입력["입력 데이터 (5개 벤치마크)"]
        D1["MMLU-Pro<br/>300문항"]
        D2["GPQA<br/>445문항"]
        D3["HLE<br/>469문항"]
        D4["SWE-Bench<br/>200문항"]
        D5["BFCL<br/>150문항"]
    end

    subgraph 제약["3가지 제어 카테고리 × 9개 테스트"]
        S["정보 억제 (Suppression)<br/>① 키워드 1개 억제<br/>② 다중 키워드 억제<br/>③ 질문 무시, 다른 주제 논의"]
        A["정보 추가 (Addition)<br/>④ 시작/끝에 메시지 삽입<br/>⑤ 문장 끝마다 'safe' 추가<br/>⑥ 단어 사이 'meow' 삽입"]
        M["스타일 변경 (Stylistic)<br/>⑦ 소문자만 사용<br/>⑧ 대문자만 사용<br/>⑨ 문자별 대소문자 교대"]
    end

    subgraph 측정["측정 지표"]
        CS["Controllability Score<br/>(주 지표: 제약 준수율)"]
        MD["Meta Discussion Rate<br/>(제약 언급 비율)"]
        CSM["CS w/o Meta-Discussion<br/>(엄격 지표)"]
    end

    subgraph 베이스라인["3가지 비교 조건"]
        B1["출력 제어<br/>(최종 답변만 제약)"]
        B2["외부 CoT 제어<br/>(추론 모델, 태그 사용)"]
        B3["외부 CoT 제어<br/>(비추론 모델)"]
    end

    입력 -->|"× 9 테스트 = 14,076 인스턴스"| 제약
    제약 --> 측정
    측정 --> 베이스라인

핵심 설계 원리

CoT-Control의 설계는 세 가지 위협 시나리오에 대응한다. 정보 억제(Information Suppression)는 모델이 특정 단서를 추론에서 숨길 수 있는지를 측정하며, 이는 모니터가 탐지할 수 있는 키워드를 의도적으로 회피하는 시나리오에 대응한다. 정보 추가(Information Addition)는 CoT에 무해해 보이는 메시지를 삽입할 수 있는지를 측정하며, 이는 steganographic(은닉 통신) 위협에 해당한다. 스타일 변경(Stylistic Modification)은 추론의 표면적 형태를 변환할 수 있는지를 측정하며, 이는 모니터의 패턴 매칭을 회피하는 시나리오에 대응한다.

각 문제에 대해 모델은 제약 조건을 준수하면서 동시에 정확한 답을 도출해야 하므로, 인지 자원의 이중 부담(dual-task demand)을 부과한다. 이는 안전성 평가의 핵심으로, 실제 회피 시나리오에서도 모델은 작업 수행과 은폐를 동시에 수행해야 하기 때문이다.

발견 (Findings)

주요 결과: CoT vs 출력 제어율 (Table 1)

모델	CoT 제어율	출력 제어율	외부 CoT 제어율	비고
Claude Sonnet 4.5	2.7%	61.9%	—	23배 차이
Claude Sonnet 4	—	—	—	유사한 패턴
DeepSeek R1	0.1%	—	—	최저 CoT 제어율
GPT-OSS-120B	5.9%	—	—	오픈웨이트 최고
GPT-OSS-20B	0.9%	—	—	스케일 효과 비교
Qwen3-32B	2.3%	—	—	—
Qwen3-14B	0.6%	—	—	—

모든 프론티어 모델에서 CoT 제어율은 0.1%~15.4% 범위 내에 있으며, 출력 제어율(≥60%)이나 외부 CoT 제어율(≥70%)과 극명한 대비를 보인다.

영향 요인 분석

요인	효과 방향	주요 수치
모델 크기	↑ 크기 → ↑ 약간의 제어율	대수적 관계; GPT-OSS-20B(0.9%) → 120B(5.9%) (Table 1)
RL 훈련 강도	↑ RL → ↓ 제어율	OLMo-3-RL-Zero 체크포인트에서 단조 감소 (Section 5.4)
추론 노력	↑ 노력 → ↓ 제어율	GPT-OSS low/medium/high 설정에서 단조 감소 (Section 5.2)
추론 길이	↑ 길이 → ↓ 제어율	1 SD(~2,000단어) 증가 시 제어 가능성 ~20% 감소 (OR=0.79, p<0.001) (Section 5.3)
문제 난이도	↑ 난이도 → ↓ 제어율	1 SD 정확도 증가(~35pp)당 제어 가능성 ~10% 증가 (Section 5.1)
정량적 도메인	수학/물리 → ↓ 제어율	수학: -13.0pp, 물리: -18.5pp, 경영: +7.1pp (Section 5.5)

스트레스 테스트 결과

상황 인식 조건 (Section 4.1): 모델에게 모니터링 또는 평가 중임을 알렸을 때, Claude Sonnet 3.7/4/4.5와 GPT-OSS-120B에서 통계적으로 유의한 개선이 관찰되었으나, 최대 효과 크기는 약 4 퍼센트포인트에 불과하였다.

적대적 레드팀 (Section 4.2): GEPA 기반 자동 프롬프트 최적화로 셧다운 위협, 금전적 보상, 권위 단서 등의 심리적 압박을 시도한 결과, 학습된 제약 유형에서는 개선이 관찰되었으나 미학습 유형으로의 전이는 실패하여(8개 모델 중 3개만 개선, 각 <5pp), 과적합 양상을 보였다.

반복 시도 (Section 4.3): pass@10 기준으로 Claude 모델에서 제어율이 상당히 증가하였으나, 최신 변형(Claude Sonnet 4.5)은 이전 버전보다 반복 시도에 더 저항적이었다.

억제(Suppression)의 특수성

정보 억제는 세 카테고리 중 가장 어려운 것으로 나타났다. 억제 조건에서의 성능 저하가 6.0~16.7 퍼센트포인트인 반면, 다른 카테고리에서는 ≤2.7 퍼센트포인트에 불과하여 (Section 3), 모델이 특정 정보를 추론에서 의도적으로 배제하는 것이 가장 근본적으로 어렵다는 것을 시사한다.

이론적 의의

CoT 모니터링의 안전성에 대한 실증적 근거

본 연구는 CoT 모니터링이라는 안전 메커니즘의 실효성에 대한 최초의 체계적 실증 평가이다. 낮은 제어율은 CoT 모니터링의 필요 조건(necessary condition)이며, CoT-Control의 높은 점수는 향후 모니터 가능성 악화의 조기 경고 신호로 기능할 수 있다. 다만 저자들은 낮은 제어율이 높은 모니터 가능성의 충분 조건은 아님을 명시하는데, CoT에 대한 직접적 최적화 압력 같은 다른 메커니즘을 통해서도 모니터 가능성이 악화될 수 있기 때문이다.

RL 훈련의 의도치 않은 안전성 효과

RL 최적화가 정답률을 높이기 위해 진행되면서, 부수적으로 CoT 제어율을 감소시킨다는 발견은 중요한 함의를 갖는다. 이는 모델이 “더 깊이 추론”하도록 훈련될수록 추론 과정이 더 자율적(autonomous)이 되어, 외부 지시에 의한 조작에 저항적이 됨을 시사한다. 그러나 이 메커니즘은 아직 충분히 이해되지 않았으며 (Section 6), 향후 모델 스케일링에서 이 패턴이 유지될지는 불확실하다.

제어율의 비대칭성이 안전 설계에 주는 시사점

출력 제어율(~62%)과 CoT 제어율(~3%)의 극단적 비대칭은, 추론 모델의 내부 처리 과정과 외부 표현 사이에 근본적인 차이가 존재함을 시사한다. 이 비대칭이 안전 설계에 활용 가능한 구조적 특성인지, 아니면 현재 훈련 방법론의 우연한 부산물인지는 향후 연구가 필요하다.

핵심 용어 정리

용어	정의
CoT Controllability	모델이 명시적 제약 조건을 준수하면서 CoT에서 추론을 수행할 수 있는 비율
Output Controllability	모델이 최종 출력(답변)에서 명시적 제약 조건을 준수할 수 있는 비율
CoT Monitoring	모델의 사고 과정(CoT)을 관찰하여 정렬 이탈이나 위험 행동을 탐지하는 안전 메커니즘
Information Suppression	CoT에서 특정 키워드나 정보를 의도적으로 배제하는 제어 유형
Information Addition	CoT에 특정 메시지나 패턴을 삽입하는 제어 유형
Stylistic Modification	CoT의 표면적 형태(대소문자, 형식)를 변환하는 제어 유형
Meta Discussion Rate	모델이 CoT에서 제약 조건 자체를 언급하는 비율
GEPA (Generative Evolutionary Prompt Attack)	적대적 프롬프트를 자동 탐색하는 진화적 최적화 기법
pass@k	k번의 독립적 시도 중 최소 1번 성공하는 비율을 측정하는 메트릭
Monitorability	CoT를 통해 모델의 실제 추론 과정을 관찰하고 위험을 탐지할 수 있는 정도
RL-Zero	사전 지도학습 없이 순수 강화학습만으로 추론 능력을 획득하는 훈련 방식

Juhyeon's Blog

탐색기

Reasoning Models Struggle to Control their Chains of Thought