Pangu Embedded - An Efficient Dual-system LLM Reasoner with Metacognition
7분 분량
Introduction
기존의 추론 최적화 LLM들은 심층 추론을 위해 수만 개의 토큰을 생성하며, 이는 엄청난 계산 비용과 추론 지연 시간을 발생시킴
DeepSeek-R1(671B)는 32,000개 이상의 사고 토큰을 생성하여 실용적 배포에 제한
단일 모드로 작동하는 기존 모델들은 간단한 쿼리와 복잡한 추론 작업 모두에 동일한 계산 자원을 할당하여 비효율적
핵심 기여: Kahneman의 System 1/System 2 이중 과정 이론을 LLM에 적용, 7B 모델 내에서 빠른/느린 사고 모드 구현
Related Papers
o1, DeepSeek-R1 등 CoT 기반 추론 모델의 지연 시간 문제
Reinforcement Learning from Human Feedback (RLHF) 및 보상 모델링 연구
Constitutional AI와 Chain-of-Thought 프롬프팅 기법
Parameter Efficient Fine-Tuning (PEFT) 연구
Methods
2단계 학습 프레임워크:
Stage 1: 반복적 증류(iterative distillation) + 반복 간 모델 병합(inter-iteration model merging)
복잡도 점수(1 - 정답 일치 비율) 기반 적응적 데이터 선택
가우시안 분포(μ≈0.5) 따라 중간 난이도 샘플 우선
Stage 2: 듀얼 시스템 프레임워크 도입
MARS (Multi-source Adaptive Reward System):
수학: 규칙 기반 + LLM 평가자 (~95% 정밀도)
코딩: 4단계 파이프라인 (추출 → 구문 검증 → 테스트 실행 → 출력 비교)
선호도 보상: 오픈 도메인 작업용
듀얼 시스템 (메타인지):
System 1 (빠른 모드): 직접 답변, CoT 없음
System 2 (느린 모드): 단계별 추론, 확장된 토큰 생성
복잡도 인식 자동 모드 선택 메커니즘
방법론 다이어그램
graph TD
A[입력 쿼리] --> B{복잡도 평가}
B -->|간단| C[System 1: 빠른 모드]
B -->|복잡| D[System 2: 느린 모드]
C --> C1[직접 답변 생성]
C1 --> OUT1[출력]
D --> D1[CoT 단계별 추론]
D1 --> D2[확장된 토큰 생성]
D2 --> OUT2[출력]
subgraph "Stage 1: 학습"
E[반복 t] --> F[복잡도 기반 데이터 선택]
F --> G[반복적 증류]
G --> H[모델 병합: Θ_merged^t]
H --> I[MARS 보상 시스템]
I --> I1[수학: 규칙+LLM 평가]
I --> I2[코딩: 4단계 파이프라인]
I --> I3[선호도 보상]
I1 --> J[강화학습]
I2 --> J
I3 --> J
J --> K[다음 반복 t+1]
K --> E
end
subgraph "Stage 2: 듀얼 시스템"
L[CoT 데이터 재학습] --> M[메타 프롬프트 학습]
M --> N[빠른/느린 모드 융합]
N --> O[복잡도 분류기 훈련]
end
E -.-> L
O -.-> B