Introduction


  • 기존의 추론 최적화 LLM들은 심층 추론을 위해 수만 개의 토큰을 생성하며, 이는 엄청난 계산 비용과 추론 지연 시간을 발생시킴
  • DeepSeek-R1(671B)는 32,000개 이상의 사고 토큰을 생성하여 실용적 배포에 제한
  • 단일 모드로 작동하는 기존 모델들은 간단한 쿼리와 복잡한 추론 작업 모두에 동일한 계산 자원을 할당하여 비효율적
  • 핵심 기여: Kahneman의 System 1/System 2 이중 과정 이론을 LLM에 적용, 7B 모델 내에서 빠른/느린 사고 모드 구현

Related Papers


  • o1, DeepSeek-R1 등 CoT 기반 추론 모델의 지연 시간 문제
  • Reinforcement Learning from Human Feedback (RLHF) 및 보상 모델링 연구
  • Constitutional AI와 Chain-of-Thought 프롬프팅 기법
  • Parameter Efficient Fine-Tuning (PEFT) 연구

Methods


  • 2단계 학습 프레임워크:
    • Stage 1: 반복적 증류(iterative distillation) + 반복 간 모델 병합(inter-iteration model merging)
    • 복잡도 점수(1 - 정답 일치 비율) 기반 적응적 데이터 선택
    • 가우시안 분포(μ≈0.5) 따라 중간 난이도 샘플 우선
    • Stage 2: 듀얼 시스템 프레임워크 도입
  • MARS (Multi-source Adaptive Reward System):
    • 수학: 규칙 기반 + LLM 평가자 (~95% 정밀도)
    • 코딩: 4단계 파이프라인 (추출 → 구문 검증 → 테스트 실행 → 출력 비교)
    • 선호도 보상: 오픈 도메인 작업용
  • 듀얼 시스템 (메타인지):
    • System 1 (빠른 모드): 직접 답변, CoT 없음
    • System 2 (느린 모드): 단계별 추론, 확장된 토큰 생성
    • 복잡도 인식 자동 모드 선택 메커니즘

방법론 다이어그램

graph TD
    A[입력 쿼리] --> B{복잡도 평가}
    B -->|간단| C[System 1: 빠른 모드]
    B -->|복잡| D[System 2: 느린 모드]

    C --> C1[직접 답변 생성]
    C1 --> OUT1[출력]

    D --> D1[CoT 단계별 추론]
    D1 --> D2[확장된 토큰 생성]
    D2 --> OUT2[출력]

    subgraph "Stage 1: 학습"
        E[반복 t] --> F[복잡도 기반 데이터 선택]
        F --> G[반복적 증류]
        G --> H[모델 병합: Θ_merged^t]
        H --> I[MARS 보상 시스템]
        I --> I1[수학: 규칙+LLM 평가]
        I --> I2[코딩: 4단계 파이프라인]
        I --> I3[선호도 보상]
        I1 --> J[강화학습]
        I2 --> J
        I3 --> J
        J --> K[다음 반복 t+1]
        K --> E
    end

    subgraph "Stage 2: 듀얼 시스템"
        L[CoT 데이터 재학습] --> M[메타 프롬프트 학습]
        M --> N[빠른/느린 모드 융합]
        N --> O[복잡도 분류기 훈련]
    end

    E -.-> L
    O -.-> B

Results


  • AIME 2024, GPQA, LiveCodeBench: 7B 파라미터로 Qwen3-8B, GLM4-9B 능가
  • 복잡도 분포 Ablation Study:
    • No selection: 43.33% AIME 정확도
    • Mostly easy: 45.42%
    • Balanced distribution: 50.42% (+7.09% vs baseline)
    • Mostly hard: 48.75%
  • 인프라 최적화: 1,024 Ascend NPU, SSP 스케줄러(staleness=4)로 ~30% idle time 감소
  • 학습-추론 co-scheduling: 2배 처리량 개선

실험 결과 상세

Model/MethodDatasetMetricScorevs. Baseline
Pangu Embedded 7BAIME 2024AccuracySuperiorOutperforms 8B/9B
Qwen3-8BAIME 2024AccuracyBaseline-
GLM4-9BAIME 2024AccuracyBaseline-
Ablation: No SelectionAIMEAccuracy43.33%Baseline
Ablation: BalancedAIMEAccuracy50.42%+7.09%
SSP SchedulerTrainingIdle Time-30%vs. Bulk Sync

Discussion


  • 논문이 주요 벤치마크의 구체적 수치(AIME, GPQA 정확도)를 명시하지 않고 정성적 표현만 사용
  • 반복 간 모델 병합의 하이퍼파라미터(λ_t) 선택 기준이 불명확
  • MARS의 LLM evaluator가 어떤 모델인지, 계산 비용에 대한 분석 부족
  • Ascend NPU 전용 최적화로 다른 하드웨어 플랫폼 적용 시 재현성 제한

Insights


  • 주목할 점: 단일 7B 모델이 듀얼 사고 모드를 구현하여 별도의 소형/대형 모델 배포 없이 복잡도에 따라 동적 계산 자원 할당 가능. 메타인지 능력으로 모델이 스스로 문제 난이도 평가하고 적절한 추론 전략 선택
  • 연결 고리: System 1/System 2 이중 과정 이론(Kahneman)을 LLM 아키텍처에 구현. o1, DeepSeek-R1의 지연 시간 문제를 해결하면서 복잡한 추론 능력 유지
  • 시사점: 모델 크기보다 학습 데이터의 복잡도 분포와 모드 전환 메커니즘이 추론 효율성에 더 중요할 수 있음
  • 질문: 자동 복잡도 분류기의 오판률은? 잘못된 모드 선택이 성능에 미치는 영향? 암묵적 모드 전환 학습 가능한가?
  • 비판적 코멘트: 메타인지가 진정한 자기 인식인가 복잡도 분류 패턴 매칭인가에 대한 해석 필요

Discussion Points


  • 논쟁점: System 1/2 구분이 실제 인간의 이중 과정 이론과 대응되는지, 아니면 단순히 CoT 유무의 차이인지
  • 검증 필요 가정: 복잡도 점수(1 - k개 응답 중 정답 일치 비율)가 실제 문제 난이도를 정확히 반영한다는 가정
  • 후속 연구: 3개 이상의 다중 모드 확장, attention mechanism 내 암묵적 복잡도 분류, domain-specific MARS 세분화