Introduction

LLM은 다단계 추론 문제를 풀 때 동일한 중간 추론 단계를 반복적으로 재도출하여 토큰 사용량과 지연시간 증가
컨텍스트 윈도우의 탐색 능력 제한
핵심 기여: 모델 자신의 메타인지적 분석을 통해 반복되는 추론 단편을 재사용 가능한 “행동(behavior)“으로 압축
“느린 도출을 빠른 절차적 힌트로 전환”하여 LLM이 “무엇을 결론지을지가 아니라 어떻게 추론할지를 기억”

Retrieval-Augmented Generation (RAG) - 선언적 사실 저장과 달리 절차적 전략 저장
MemGPT, ReAct 등 기존 메모리 증강 에이전트 연구
Chain-of-Thought 프롬프팅 및 Self-Consistency 기법
Knowledge Distillation 및 reasoning trace 압축 연구

Methods

3단계 행동 추출 파이프라인:
- Stage 1 (Solution Generation): 메타인지 전략가(DeepSeek-R1-Distill-Llama-70B)가 완전한 추론 과정과 답 생성
- Stage 2 (Reflection): 자신의 솔루션 반성, 일반화 가능한 추론 단계 식별
- Stage 3 (Behavior Curation): (이름, 지시사항) 쌍으로 변환하여 검색 가능한 “행동 핸드북” 구축
세 가지 활용 방식:
- BCI (Behavior-Conditioned Inference): 추론 시 관련 행동을 컨텍스트에 제공
- 행동 기반 자가개선: 파라미터 업데이트 없이 자신의 과거 행동 활용
- BC-SFT (Behavior-Conditioned SFT): 행동 포함 추론 데이터로 모델 미세조정

방법론 다이어그램

graph TD
    A[문제 입력] --> B[1단계: Solution Generation]
    B --> C[메타인지 전략가가 추론 과정 생성]
    C --> D[2단계: Reflection]
    D --> E[솔루션 평가 및 일반화 가능 단계 식별]
    E --> F[3단계: Behavior Curation]
    F --> G[이름, 지시사항 쌍으로 행동 추출]
    G --> H[행동 핸드북 구축]

    H --> I{활용 방식 선택}

    I --> J[BCI: 행동 조건부 추론]
    J --> K[추론 시 관련 행동을 컨텍스트에 제공]
    K --> L[토큰 효율적 추론 수행]

    I --> M[자가개선]
    M --> N[자신의 과거 시도에서 행동 추출]
    N --> O[추출된 행동으로 재시도]
    O --> P[파라미터 업데이트 없이 성능 향상]

    I --> Q[BC-SFT: 행동 조건부 지도학습]
    Q --> R[Teacher가 행동 조건부 데이터 생성]
    R --> S[Student 모델 미세조정]
    S --> T[추론 능력 내재화]

Results

BCI (Behavior-Conditioned Inference):
- MATH-500, AIME-24/25: 정확도 유지/개선하면서 최대 46% 토큰 감소
자가개선: 단순 비평-수정 베이스라인 대비 최대 10% 정확도 향상
- 높은 토큰 예산(2,048~16,384)에서 성능 격차 확대
BC-SFT:
- 훈련 데이터 정확도 유사(바닐라 SFT 42.7% vs BC-SFT 44.4%)
- 모든 토큰 예산에서 일관되게 우수한 성능

실험 결과 상세

Model/Method	Dataset	Metric	Score	vs. Baseline
BCI	MATH-500	Token Reduction	최대 46%	정확도 유지/개선
BCI	AIME-24/25	Pass@16	경쟁적/우수	토큰 효율성 향상
자가개선	MATH	Accuracy	최대 +10%	vs. Critique-Revise
BC-SFT	MATH-500	Accuracy	일관된 성능 우위	vs. Vanilla SFT
Training Data Quality	MATH	Accuracy	42.7% vs 44.4%	+1.7%

Discussion

추론 초기에만 행동 검색, 다단계 추론 중 동적 업데이트 없음
수학 도메인에서만 평가, 프로그래밍/정리 증명 일반화 미검증
행동 핸드북의 확장성(scalability)과 중복 행동 관리 전략 불명확
도메인 간 행동 전이(cross-domain transfer) 가능성 미탐색

Insights

주목할 점: LLM이 자신의 추론 과정을 메타인지적으로 분석하여 절차적 지식을 자동으로 추출하고 재사용. 선언적 사실이 아닌 “how-to” 전략을 저장
연결 고리: MemGPT, ReAct와 달리 절차적 전략 저장. RAG 패러다임을 추론 전략 차원으로 확장
시사점: 행동 핸드북은 LLM의 추론 효율성을 높이는 동시에 자가개선 능력 부여. BC-SFT는 미세조정 데이터 품질 향상 방법론으로도 활용 가능
질문: 행동 추출이 수학 외 다른 영역에서도 효과적인가? 도메인 간 행동 전이 가능한가?
비판적 코멘트: 행동 추출이 모델의 메타인지 능력에 전적으로 의존하는데, 소형 모델에서도 효과적인 추출 가능한지 불명확

Discussion Points

논쟁점: 메타인지 능력이 제한적인 소형 모델에서도 효과적인 행동 추출이 가능한지
검증 필요 가정: MATH 및 AIME 수학 벤치마크에서만 평가, 다양한 도메인 일반화 가능성 검증 필요
후속 연구: 동적 행동 쿼리(dynamic behavior querying) 메커니즘, 행동 간 의존성 모델링, 멀티 에이전트 시스템에서 행동 공유 및 협업 학습

Juhyeon's Blog

탐색기

Metacognitive Reuse - Turning Recurring LLM Reasoning Into Concise Behaviors

Introduction

Methods

방법론 다이어그램

Results

실험 결과 상세

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

Metacognitive Reuse - Turning Recurring LLM Reasoning Into Concise Behaviors

Introduction

Related Papers

Methods

방법론 다이어그램

Results

실험 결과 상세

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크