COCONUT: 연속 잠재 공간에서 추론하도록 LLM 훈련하기
Digest: LLM은 왜 반드시 언어 공간에서 추론해야 하는가? Chain-of-Thought(CoT)는 자연어로 추론 단계를 표현하지만, 대부분의 토큰은 텍스트 일관성을 위한 것이고 추론에 핵심적인 토큰은 소수다. COCONUT(Chain of Continuous Thought)는 모델의 마지막 은닉 상태(last hidden state)를 다음 입력 임베딩으로 직접 피드백하여, 토큰화를 우회하고 연속 잠재 공간에서 추론하게 한다. 핵심 발견은 이 잠재 추론이 너비 우선 탐색(BFS) 유사 패턴을 자연 발생적으로 보인다는 것이다—연속적 사고(continuous thought)가 여러 대안 경로를 동시에 인코딩하여, CoT의 탐욕적(greedy) 단일 경로 한계를 넘어선다. ProsQA(계획 필요 논리 추론)에서 CoT 77.5% 대비 97.0% 정확도를 달성하면서 토큰 수는 49.4 → 14.2로 줄였다. 다만 GSM8k(수학 추론)에서는 CoT 42.9% 대비 34.1%로 하락하여, 잠재 추론이 탐색형 문제에 특화되었음을 보여준다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Training Large Language Models to Reason in a Continuous Latent Space |
| 저자 | Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian |
| 소속 | Meta FAIR, UC San Diego |
| 연도 | 2024 |
| 발표 | ICLR 2025 · arXiv:2412.06769 |
| 링크 | arXiv · GitHub · OpenReview |
| 모델 | GPT-2 (주 실험), Llama 3.2-3B, Llama 3-8B (보조 실험) |
| 데이터셋 | ProsQA, ProntoQA, GSM8k |
| 키워드 | Latent Reasoning, Continuous Thought, BFS-like Reasoning, Language-Free Reasoning, Test-Time Efficiency |
왜 이 연구를 하는가?
핵심 질문
LLM의 추론이 반드시 언어 공간에서 이루어져야 하는가? 언어의 제약을 벗어나 연속 잠재 공간에서 추론하면 어떤 이점이 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 언어의 병목 | CoT는 추론을 자연어로 표현해야 하므로, 언어로 쉽게 표현되지 않는 추론 패턴이 제한됨 |
| 탐욕적 단일 경로 | CoT는 한 번에 하나의 추론 경로만 추구하여, 탐색이 필요한 문제에서 비효율적 |
| 토큰 낭비 | CoT 토큰의 대부분은 문법적 일관성을 위한 것이지 추론에 핵심적이지 않음 |
핵심 통찰
- 모델의 은닉 상태는 이산적 토큰보다 훨씬 풍부한 정보를 인코딩할 수 있으며, 여러 대안적 다음 단계를 동시에 표현할 수 있다
- 언어 공간을 우회하면 CoT의 “연극적” 부분을 제거하고 순수한 계산적 추론만 보존할 수 있다
방법 (Method)
프레임워크 개요
graph TB subgraph "기존 CoT" A1["질문"] --> B1["토큰1<br/>(언어)"] --> C1["토큰2<br/>(언어)"] --> D1["..."] --> E1["답변<br/>(언어)"] end subgraph "COCONUT" A2["질문"] --> B2["연속 사고1<br/>(은닉 상태)"] --> C2["연속 사고2<br/>(은닉 상태)"] --> D2["..."] --> E2["답변<br/>(언어)"] end subgraph "핵심 차이" F["CoT: 각 단계를 언어로<br/>디코딩 → 재인코딩"] G["COCONUT: 은닉 상태를<br/>직접 다음 입력으로 전달"] end style B2 fill:#f9f,stroke:#333 style C2 fill:#f9f,stroke:#333
핵심 구성요소
1. 연속적 사고(Continuous Thought): 모델의 마지막 은닉 상태를 표준 LM head로 디코딩하지 않고, 다음 스텝의 입력 임베딩으로 직접 사용한다. 이 은닉 상태가 “연속적 사고”이며, 이산적 토큰과 달리 연속 공간의 전체 표현력을 활용할 수 있다.
2. 다단계 커리큘럼(Multi-stage Curriculum): CoT의 언어적 추론 단계를 점진적으로 연속적 사고로 대체하는 훈련 전략이다. 스테이지 k에서 첫 k개의 추론 단계가 k×c개의 연속적 사고로 대체된다(c는 하이퍼파라미터). 표준 cross-entropy 손실로 나머지 토큰을 학습한다. 핵심: 커리큘럼 없이 end-to-end 훈련하면 실패한다(GSM8k에서 14.4% vs 34.1%).
3. BFS 유사 추론 패턴: 잠재 공간에서의 추론을 분석하면, 초기 연속적 사고는 여러 후보 경로에 대해 “상당한 다양성”을 유지하며, 후기로 갈수록 유망한 경로로 수렴한다. 이는 CoT의 탐욕적 DFS와 대비되는 BFS 유사 패턴이다.
발견 (Findings)
주요 결과
| 태스크 | CoT | COCONUT | No CoT | 토큰 수 (CoT → COCONUT) |
|---|---|---|---|---|
| ProsQA | 77.5% | 97.0% | 0% | 49.4 → 14.2 |
| ProntoQA | 98.8% | 99.8% | 72.5% | 92.5 → 9.0 |
| GSM8k | 42.9% | 34.1% | 3.2% | 25.0 → 8.2 |
커리큘럼의 중요성
| 훈련 방식 | GSM8k 정확도 |
|---|---|
| 커리큘럼 | 34.1% |
| 커리큘럼 없이 (end-to-end) | 14.4% |
BFS 패턴 증거
잠재 추론의 분석 결과, 목표에서 먼 노드(높이가 높은 노드)는 모호한 가치 추정을 받는 반면, 가까운 노드는 확신 있게 평가된다. 이는 모델이 탐색 초기에는 여러 가능성을 열어두고, 정보가 축적되면서 유망한 경로로 수렴하는 BFS 전략을 학습했음을 시사한다.
핵심 발견
탐색형 문제에서 극적 개선: ProsQA에서 CoT 대비 19.5%p 향상은, 계획과 탐색이 필요한 문제에서 잠재 추론의 BFS 패턴이 CoT의 탐욕적 단일 경로보다 훨씬 효과적임을 보여준다.
수학 추론의 한계: GSM8k에서의 하락은, 정확한 수치 계산과 단계별 논리적 전개가 필요한 문제에서는 언어적 표현이 중요한 역할을 함을 시사한다. 잠재 공간은 “탐색”에 강하지만 “정밀한 계산”에는 약할 수 있다.
효율성의 극적 향상: ProntoQA에서 토큰 수를 92.5 → 9.0으로 줄이면서 정확도를 유지한 것은, CoT 토큰의 대부분이 실제 추론이 아닌 언어적 장식임을 직접적으로 보여준다. 이는 Reasoning Theater의 “연극적 추론” 가설을 다른 각도에서 뒷받침한다.
이론적 의의
언어 없는 추론의 가능성과 한계
COCONUT은 “추론은 반드시 언어로 이루어져야 한다”는 암묵적 가정에 도전한다. 잠재 공간에서의 추론이 특정 문제 유형(탐색, 계획)에서 언어 기반 추론을 크게 능가한다는 발견은, 언어가 추론의 매개체이지 추론 자체가 아님을 시사한다. 이는 Reasoning Theater의 핵심 발견—모델의 진정한 추론은 내부 활성화에서 이루어지며, CoT는 이를 불완전하게 반영하는 “창”에 불과하다—과 일맥상통한다.
CoT의 “연극성”에 대한 구조적 증거
COCONUT이 CoT보다 적은 토큰으로 더 높은 성능을 달성한다는 것은, CoT 토큰의 상당 부분이 추론에 불필요한 “연극적” 요소임을 구조적으로 증명한다. 언어적 형식을 완전히 제거해도(오히려 제거하면) 추론 성능이 향상될 수 있다.
관련 연구
- Reasoning Theater - Disentangling Model Beliefs from Chain-of-Thought — CoT가 모델의 실제 내부 추론을 반영하지 않음을 프로빙으로 보인 연구. COCONUT은 이 “내부 추론”을 직접 활용하는 방법을 제안
- Let’s Think Dot by Dot - Hidden Computation in Transformers — 필러 토큰이 CoT를 대체할 수 있음을 보인 연구. COCONUT은 이를 극한으로 밀어, 아예 이산적 토큰을 제거하고 연속 공간에서 직접 추론
- Scaling LLM Test-Time Compute Optimally — test-time compute의 최적 분배를 연구. COCONUT은 같은 계산 예산에서 더 효율적인 추론을 가능하게 하는 보완적 접근
- DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — 긴 CoT로 추론 능력을 향상시킨 접근. COCONUT은 “긴 CoT가 필요한가?”라는 근본적 질문을 제기
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| 연속적 사고 (Continuous Thought) | 모델의 마지막 은닉 상태를 다음 입력 임베딩으로 직접 사용하는 추론 표현. 이산적 토큰과 달리 연속 공간의 전체 표현력을 활용 |
| COCONUT (Chain of Continuous Thought) | 연속적 사고를 연쇄적으로 활용하여 잠재 공간에서 추론하는 패러다임 |
| 너비 우선 탐색 (BFS) 유사 패턴 | 잠재 추론에서 자연 발생적으로 관찰되는 패턴. 초기에 여러 후보 경로를 동시에 탐색하고 점진적으로 수렴 |
| 다단계 커리큘럼 | CoT의 언어적 추론 단계를 점진적으로 연속적 사고로 대체하는 훈련 전략 |
| 잠재 추론 (Latent Reasoning) | 이산적 언어 토큰이 아닌 연속 잠재 공간에서 이루어지는 추론 과정 |
| ProsQA | 방향 비순환 그래프(DAG) 탐색을 요구하는 논리 추론 데이터셋. 계획과 탐색이 필요하여 COCONUT의 BFS 패턴이 특히 효과적 |