Introduction
- Anthropic의 LLM introspection 연구(concept injection)를 독립적으로 검증
- 모델이 내부 표현에 접근하되 그 의미적 내용을 견고하게 언어화할 수 없다는 “부분적 자기 인식” 가설
- Self-report의 안전 신호로서의 신뢰성 검토
- Emergent Introspective Awareness in LLMs (Lindsey, 2025)
- Activation steering / representation engineering
- LLM self-report 신뢰성 연구
Methods
- Meta-Llama-3.1-8B-Instruct에서 concept injection 실험 재현
- Anthropic의 원래 파이프라인으로 개념 식별 능력 테스트
- 수정된 과제/프롬프트에서의 robustness 평가
- 주입 벡터 강도 분류(약/중/강/매우 강) 과제 추가
Results
- 원래 파이프라인에서 약 20% 확률로 개념 식별 (Anthropic 결과 재현)
- 그러나 과제/프롬프트 수정 시 성능 급격히 하락 - fragile
- 강도 분류에서는 최대 70% 정확도 (25% chance baseline 대비 크게 우수)
- “강도는 느끼지만 출처는 모른다”는 패턴 발견
Discussion
- LLM이 내부 표현의 일부 함수를 계산할 수 있으나 의미적 내용 접근은 불안정
- Self-report가 안전 신호로서 불충분 - interpretability와 mechanistic oversight 필요
- 자기 인식의 부분적(partial) 성격에 대한 이론적 함의