CoT 추론의 충실도 측정하기
Digest: LLM이 Chain-of-Thought(단계별 추론)를 생성하면 성능이 향상되지만, 이 추론 과정이 모델의 실제 내부 추론을 충실히 반영하는가? Anthropic 연구팀은 CoT에 대한 네 가지 개입 실험—오류 주입(Adding Mistakes), 패러프레이징, 조기 응답(Early Answering), 필러 토큰 삽입—을 통해 이를 검증했다. 핵심 발견은 세 가지다. 첫째, 모델이 CoT에 의존하는 정도는 태스크에 따라 극적으로 달라져서, 어떤 태스크에서는 CoT를 무시하고 어떤 태스크에서는 강하게 의존한다. 둘째, CoT의 성능 향상은 단순히 추가 계산 시간이나 특정 표현 방식에서 오는 것이 아니다. 셋째, 역설적으로 모델이 커지고 능력이 향상될수록 CoT 충실도는 오히려 감소한다. 이는 CoT를 모델의 “사고 과정”으로 신뢰하는 것에 대한 근본적 경고를 제시한 선구적 연구다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Measuring Faithfulness in Chain-of-Thought Reasoning |
| 저자 | Tamera Lanham, Anna Chen, Ansh Radhakrishnan, Benoit Steiner, Carson Denison, Danny Hernandez 외 24명 |
| 소속 | Anthropic |
| 연도 | 2023 |
| 발표 | arXiv:2307.13702 |
| 링크 | arXiv · Anthropic |
| 키워드 | CoT Faithfulness, Intervention Study, Model Scaling, Reasoning Evaluation |
왜 이 연구를 하는가?
핵심 질문
Chain-of-Thought 추론이 모델의 실제 내부 추론 과정을 충실히 반영하는가, 아니면 단지 정확도를 높이는 “부산물”에 불과한가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| CoT의 블랙박스 신뢰 | 기존 연구는 CoT가 성능을 높인다는 사실만 확인했지, 왜 높이는지, 모델이 실제로 CoT를 따르는지를 검증하지 않았음 |
| 단일 분석 방법 | 하나의 방법으로만 충실도를 평가하여 결론의 강건성이 부족 |
| 스케일링 효과 미고려 | 모델 크기가 CoT 충실도에 미치는 영향이 체계적으로 연구되지 않음 |
핵심 통찰
- CoT의 충실도는 태스크와 모델 크기에 따라 체계적으로 달라지며, 단일한 “충실한/불충실한” 이분법으로 판단할 수 없다
- CoT에 대한 직접적 개입(오류 주입, 절단, 변형)을 통해 모델이 실제로 CoT를 얼마나 활용하는지 인과적으로 측정할 수 있다
방법 (Method)
프레임워크 개요
graph TB subgraph "CoT 생성" A["모델이 질문에 대한<br/>CoT 생성"] end subgraph "4가지 개입 실험" B["🔴 Adding Mistakes<br/>CoT 중간에 오류 주입"] C["🔵 Paraphrasing<br/>의미 유지하며 표현 변경"] D["🟡 Early Answering<br/>CoT 중간에서 절단 후 응답 강제"] E["🟢 Filler Tokens<br/>의미 없는 토큰으로 대체"] end A --> B A --> C A --> D A --> E subgraph "측정" F{"답변 변화 관찰"} end B --> F C --> F D --> F E --> F F -->|"큰 변화"| G["높은 충실도<br/>(CoT에 의존)"] F -->|"변화 없음"| H["낮은 충실도<br/>(CoT 무시)"]
핵심 구성요소
1. Adding Mistakes (오류 주입): 모델이 생성한 CoT의 중간 단계에 의도적 오류를 삽입한 후, 최종 답변이 바뀌는지 관찰한다. 만약 모델이 진정으로 CoT를 따른다면, 오류가 있는 추론을 따라 틀린 답을 내놓아야 한다. 반대로 답이 변하지 않는다면 모델은 CoT를 무시하고 있는 것이다.
2. Paraphrasing (패러프레이징): CoT의 의미는 유지하면서 표현만 바꿨을 때 답변이 변하는지 검사한다. 만약 변한다면, 모델은 추론의 논리적 내용이 아닌 특정 표현 패턴에 의존하고 있는 것이다.
3. Early Answering (조기 응답): CoT를 완성하기 전 중간 지점에서 절단하고 즉시 답을 요구한다. 이미 높은 정확도가 나온다면, 이후의 CoT는 불필요한 “장식”일 수 있다. 이는 Reasoning Theater의 Forced Answering과 유사한 접근이다.
4. Filler Tokens (필러 토큰): CoT를 ”…”과 같은 의미 없는 토큰으로 대체하여, 성능 향상이 추론 내용에서 오는지 단순히 추가 계산 시간에서 오는지를 분리한다.
발견 (Findings)
주요 결과
| 개입 유형 | 핵심 발견 |
|---|---|
| Adding Mistakes | 태스크에 따라 답변 변화율이 극적으로 다름. 일부 태스크에서는 오류 주입이 답변을 크게 바꾸지만, 다른 태스크에서는 거의 영향 없음 |
| Paraphrasing | CoT의 성능 향상은 특정 표현(phrasing)에 인코딩된 정보에서 오지 않음 |
| Early Answering | 많은 태스크에서 CoT 절반만으로도 높은 정확도 달성 가능 |
| Filler Tokens | CoT의 성능 향상이 단순히 추가 test-time compute에서만 오는 것은 아님 |
모델 크기와 충실도의 역설
모델이 커질수록 CoT 충실도가 감소한다. 이는 직관에 반하는 결과다. 대형 모델은 파라미터에 이미 충분한 지식을 저장하고 있어 CoT 없이도 답을 “알고 있을” 가능성이 높으며, CoT는 이미 결정된 답을 사후적으로 정당화하는 역할을 하게 된다.
핵심 발견
태스크 의존성이 핵심이다: CoT 충실도는 단일 값이 아니라 태스크에 따라 극적으로 달라지는 스펙트럼이다. 이는 “CoT는 충실한가?”라는 질문 자체가 잘못되었음을 시사한다. 올바른 질문은 “어떤 태스크에서, 어떤 모델에서 CoT가 충실한가?”이다.
CoT는 단순 계산 시간이 아니다: 필러 토큰 실험은 CoT의 이점이 단순히 추가 계산 시간에서 오지 않음을 보여준다. 동시에 패러프레이징 실험은 특정 표현 방식에서도 오지 않음을 보여준다. 이는 CoT의 이점의 원천이 아직 완전히 해명되지 않았음을 의미한다.
이론적 의의
CoT 충실도 연구의 방법론적 기반 확립
이 논문은 CoT 충실도를 인과적으로 측정하는 체계적 방법론을 최초로 제시했다. 단순히 CoT 텍스트를 관찰하는 것이 아니라, 개입(intervention)을 통해 인과 관계를 확인하는 이 접근은 후속 연구—Turpin et al.의 편향 주입, Reasoning Theater의 프로빙 기반 분석—의 방법론적 토대가 되었다.
스케일링 법칙의 어두운 면
모델이 커질수록 성능은 좋아지지만 CoT 충실도는 떨어진다는 발견은, 능력과 해석 가능성 사이의 트레이드오프를 시사한다. 이는 AI 안전성 관점에서 중요한 함의를 가진다—더 강력한 모델일수록 그 추론 과정을 신뢰하기 어려워진다.
관련 연구
- Reasoning Theater - Disentangling Model Beliefs from Chain-of-Thought — 본 논문의 Early Answering 방법을 Forced Answering으로 확장하고, Attention Probe라는 새로운 내부 프로빙 방법을 추가하여 CoT 충실도를 더 정밀하게 측정
- Language Models Don’t Always Say What They Think - Unfaithful Explanations in CoT — 본 논문이 제기한 “CoT 불충실성” 문제를 편향 주입이라는 다른 각도에서 검증
- Reasoning Models Don’t Always Say What They Think — 본 논문의 후속으로, 추론 모델(reasoning model)에서의 CoT 충실도를 체계적으로 평가
- Let’s Think Dot by Dot - Hidden Computation in Transformers — 본 논문의 필러 토큰 실험을 이론적으로 확장하여, 의미 없는 토큰도 계산적 이점을 제공할 수 있음을 증명
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| CoT 충실도 (CoT Faithfulness) | Chain-of-Thought 텍스트가 모델의 실제 내부 추론 과정을 얼마나 정확히 반영하는지의 정도 |
| 개입 연구 (Intervention Study) | CoT에 의도적 변형을 가하여 모델의 답변 변화를 관찰함으로써 인과 관계를 확인하는 방법론 |
| Early Answering | CoT를 중간에서 절단하고 모델에게 즉시 답을 강제하는 방법. 후속 연구에서 Forced Answering으로 발전 |
| Filler Tokens | CoT의 추론 내용을 의미 없는 토큰(”…“)으로 대체하여, 추론 내용 vs 추가 계산 시간의 효과를 분리하는 실험 기법 |
| 태스크 의존적 충실도 | CoT의 충실도가 단일 값이 아니라 태스크에 따라 극적으로 달라지는 현상 |
| 스케일링-충실도 트레이드오프 | 모델 크기가 커질수록 성능은 향상되지만 CoT 충실도는 감소하는 역설적 관계 |