Introduction


  • Anthropic의 LLM introspection 연구(concept injection)를 독립적으로 검증
  • 모델이 내부 표현에 접근하되 그 의미적 내용을 견고하게 언어화할 수 없다는 “부분적 자기 인식” 가설
  • Self-report의 안전 신호로서의 신뢰성 검토

Related Papers


  • Emergent Introspective Awareness in LLMs (Lindsey, 2025)
  • Activation steering / representation engineering
  • LLM self-report 신뢰성 연구

Methods


  • Meta-Llama-3.1-8B-Instruct에서 concept injection 실험 재현
  • Anthropic의 원래 파이프라인으로 개념 식별 능력 테스트
  • 수정된 과제/프롬프트에서의 robustness 평가
  • 주입 벡터 강도 분류(약/중/강/매우 강) 과제 추가

Results


  • 원래 파이프라인에서 약 20% 확률로 개념 식별 (Anthropic 결과 재현)
  • 그러나 과제/프롬프트 수정 시 성능 급격히 하락 - fragile
  • 강도 분류에서는 최대 70% 정확도 (25% chance baseline 대비 크게 우수)
  • “강도는 느끼지만 출처는 모른다”는 패턴 발견

Discussion


  • LLM이 내부 표현의 일부 함수를 계산할 수 있으나 의미적 내용 접근은 불안정
  • Self-report가 안전 신호로서 불충분 - interpretability와 mechanistic oversight 필요
  • 자기 인식의 부분적(partial) 성격에 대한 이론적 함의