점으로 생각하자: Transformer 언어 모델의 숨겨진 계산

Digest: Chain-of-Thought(CoT)가 성능을 향상시키는 이유는 인간처럼 문제를 분해하기 때문일까, 아니면 단순히 추가 계산 기회를 제공하기 때문일까? 이 논문은 의미 없는 필러 토큰(”…“)이 CoT를 대체하여 복잡한 알고리즘 문제를 풀 수 있음을 보인다. 3SUM(세 수의 합) 문제에서 필러 토큰은 즉시 응답 시 66%인 정확도를 100%까지 끌어올렸고(길이 12 입력), 2SUM-Transform에서는 CoT 성능(95.1%)의 약 90%인 93.6%를 달성했다. 이론적으로, 필러 토큰의 유용성은 문제의 **양화사 깊이(quantifier depth)**로 특성화된다—양화사 깊이 2 이상의 문제에서 필러 토큰은 TC⁰ 내에서 표현력을 확장한다. 이 발견은 LLM이 CoT 토큰과 무관하게 **감사 불가능한 숨겨진 계산(hidden computation)**을 수행할 수 있음을 경고한다.

메타데이터

항목	내용
제목	Let’s Think Dot by Dot: Hidden Computation in Transformer Language Models
저자	Jacob Pfau, William Merrill, Samuel R. Bowman
소속	New York University
연도	2024
발표	arXiv:2404.15758
링크	arXiv · GitHub
키워드	Filler Tokens, Hidden Computation, Expressivity, Quantifier Depth, CoT Mechanism

왜 이 연구를 하는가?

핵심 질문

CoT의 성능 향상은 추론 내용(semantic content)에서 오는가, 아니면 추가 토큰이 제공하는 계산 기회(computational opportunity)에서 오는가?

기존 접근법의 한계

한계	설명
CoT의 이중 역할 미분리	CoT는 (a) 추론 내용과 (b) 추가 계산 시간을 동시에 제공하는데, 이 두 가지의 기여를 분리하는 연구가 부족
이론적 특성화 부재	어떤 유형의 문제에서 추가 토큰이 유용한지에 대한 형식적(formal) 분석이 없음
실용적 훈련 가능성 미탐구	필러 토큰 활용이 이론적으로 가능하더라도, 실제로 모델이 이를 학습할 수 있는지 확인되지 않음

핵심 통찰

Transformer는 중간 토큰의 의미적 내용이 아닌, 토큰이 존재한다는 사실 자체를 활용하여 추가 계산 레이어를 확보할 수 있다
이는 CoT의 “설명적 역할”과 “계산적 역할”이 분리 가능하며, 모델이 관찰 가능한 추론과 독립적인 숨겨진 계산을 수행할 수 있음을 의미한다

방법 (Method)

프레임워크 개요

graph LR
    subgraph "입력"
        A["알고리즘 문제<br/>(3SUM, 2SUM-Transform)"]
    end

    subgraph "세 가지 조건"
        B["🔴 No Intermediate<br/>즉시 응답"]
        C["🟡 Filler Tokens<br/>'......' 으로 계산 기회 제공"]
        D["🟢 Chain-of-Thought<br/>의미 있는 중간 단계"]
    end

    A --> B
    A --> C
    A --> D

    subgraph "비교"
        E["정확도 비교"]
    end

    B --> E
    C --> E
    D --> E

핵심 구성요소

1. 알고리즘 태스크: (a) 3SUM: 리스트에서 합이 0 (mod 10)인 세 원소를 찾는 문제. 최악의 경우 O(n³) 연산이 필요하며, 양화사 깊이(quantifier depth)가 3 이상이어서 이론적으로 필러 토큰의 이점이 예측됨. (b) 2SUM-Transform: 입력 끝에 주어지는 순열(permutation)로 변환해야 하는 쌍 찾기. 단일 패스 계산을 방지하도록 설계됨.

2. 이론적 분석: 1차 논리(first-order logic)의 양화사 깊이(quantifier depth)를 사용하여 필러 토큰의 유용성을 특성화한다. 양화사 깊이가 d인 문제에서, 필러 토큰이 있는 Transformer는 깊이 d의 연산을 수행할 수 있지만, 없으면 고정된 깊이(레이어 수)에 제한된다. 이는 TC⁰ 복잡도 클래스 내에서의 표현력 확장이다.

3. 훈련 실험: 필러 토큰 활용을 학습시키기 위해 다양한 감독(supervision) 전략을 테스트했다. 핵심 발견: 밀집 감독(dense supervision)—구체적으로 병렬화 가능한(parallelizable) CoT 데이터로의 훈련—만이 필러 토큰 학습에 성공했다.

발견 (Findings)

주요 결과

태스크	No Intermediate	Filler Tokens	Chain-of-Thought
3SUM (길이 12)	~66%	100%	100%
2SUM-Transform	베이스라인	93.6%	95.1%

훈련 난이도

감독 방식	3SUM 정확도 (길이 14, 차원 3)
필러만 훈련	~71%
인스턴스 적응적 CoT → 필러	베이스라인 이하
병렬화 가능 CoT → 필러	성공

효율성

모델은 전체 필러 토큰의 60%만 사용하고도 98% 성능을 달성하여, 효율적인 알고리즘을 자체적으로 발견함을 시사한다.

핵심 발견

의미 없는 토큰도 계산적 이점을 제공한다: 3SUM에서 필러 토큰이 정확도를 66%에서 100%로 끌어올린 것은, CoT의 성능 향상에서 “추론 내용”과 독립적인 “계산 기회”의 역할이 상당함을 증명한다.

학습은 어렵지만 가능하다: 필러 토큰 활용을 학습하려면 특정한 밀집 감독이 필요하다. 이는 자연적으로(in the wild) 모델이 필러 토큰을 활용하도록 학습하기는 어렵지만, 적절한 훈련 조건에서는 가능함을 의미한다.

감사 불가능한 계산의 위험: 모델이 관찰 가능한 CoT 텍스트와 무관하게 숨겨진 계산을 수행할 수 있다면, CoT 모니터링으로는 모델의 실제 추론을 감시할 수 없다. 이는 AI 안전성의 관점에서 중요한 우려를 제기한다.

이론적 의의

CoT의 “계산적 역할”과 “설명적 역할” 분리

이 논문은 CoT가 제공하는 두 가지 기능—(1) 추론 단계의 명시적 표현, (2) 추가 계산 기회—을 최초로 실험적으로 분리했다. 필러 토큰이 (2)만 제공하면서도 상당한 성능을 달성한다는 것은, CoT의 이점 중 상당 부분이 설명이 아닌 계산에서 올 수 있음을 시사한다. 이는 Reasoning Theater의 “연극적 추론” 개념과 연결된다—모델이 추가 토큰을 계산 기회로 활용하면서 그럴듯한 설명을 “연극적으로” 덧입힐 수 있다.

복잡도 이론적 기반

양화사 깊이를 통한 특성화는 “어떤 문제에서 추가 토큰이 필요한가?”라는 질문에 형식적 답을 제공한다. 이는 Reasoning Theater의 “쉬운 문제에서는 CoT가 불필요하고 어려운 문제에서만 필요하다”는 경험적 발견에 이론적 근거를 부여한다.

핵심 용어 정리

용어	정의
필러 토큰 (Filler Tokens)	”…”과 같은 의미 없는 토큰. CoT의 추론 내용 없이 추가 계산 기회만 제공
숨겨진 계산 (Hidden Computation)	모델이 관찰 가능한 출력 토큰과 무관하게 내부적으로 수행하는 계산
양화사 깊이 (Quantifier Depth)	1차 논리식에서 양화사(∀, ∃)의 중첩 깊이. 문제의 계산적 복잡성을 특성화하는 데 사용
TC⁰	다항 크기의 상수 깊이 회로에 다수결 게이트(majority gates)를 허용한 복잡도 클래스. Transformer의 표현력과 관련
밀집 감독 (Dense Supervision)	최종 답만이 아닌 중간 단계에 대해서도 감독 신호를 제공하는 훈련 방식
3SUM	리스트에서 합이 0이 되는 세 원소를 찾는 문제. 양화사 깊이 ≥3으로 필러 토큰의 이점이 이론적으로 예측됨

Juhyeon's Blog

탐색기

Let's Think Dot by Dot - Hidden Computation in Transformer Language Models