본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

Self Consciousness

❯

From Emergence to Control Probing and Modulating Self Reflection in Language Models

From Emergence to Control - Probing and Modulating Self-Reflection in Language Models

2026년 2월 11일2분 분량

Introduction

자기성찰(self-reflection): LLM이 자신의 추론을 재검토, 평가, 수정하는 능력
RLVR(Reinforcement Learning with Verifiable Rewards)로 미세조정된 모델에서 강화된 행동
자기성찰이 RLVR 미세조정 모델에만 있는 것이 아니라, 사전훈련 모델에도 드물게 존재함을 발견
자기성찰의 기원과 메커니즘 연구

Related Papers

Self-correction 및 self-refinement 연구
RLVR 및 추론 모델 연구
Representation engineering 연구

Methods

Reflection-Inducing Probing: 미세조정 모델의 reflection-triggering 추론 트레이스를 사전훈련 모델에 주입
내부 표현 분석: 자기성찰적/비성찰적 컨텍스트 구분
Self-Reflection Vector: 자기성찰적 추론과 연관된 활성화 공간의 방향 구성
이 벡터 조작을 통해 양방향 자기성찰 행동 제어

Results

Qwen2.5의 자기성찰 빈도 0.6%에서 18.6%로 증가
추론 벤치마크에서 이 벡터 강화 시 추론 성능 최대 12% 향상
벡터 억제 시 계산 비용 감소
추가 훈련 없이 추론 품질과 효율성 간 트레이드오프 조절 가능

Discussion

자기성찰에 대한 이해 심화
모델 내부 이해가 정밀한 행동 제어를 가능하게 함
효율성과 정확성 간 유연한 균형 제공
향후 연구: 다른 창발적 행동에 대한 유사 분석

공유하기

그래프 뷰

Introduction
Related Papers
Methods
Results
Discussion

Properties

Author: Xudong Zhu et al.
Comment: 언어 모델의 자기성찰 탐지 및 제어
IsTargetPaper: true
Journal/Conference: ICLR 2026 (Submission)
Linked Bases: [[self-consciousness.base]]
Published Year: 2026-01-01
Reading Status: ☑️ Not Started
Topic: LLM Self-Reflection, Representation Engineering
URL: https://arxiv.org/abs/2506.12217

백링크

Architecture
Fundamentals
LLMs
Memory
self-consciousness
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog