Introduction


  • LLM을 신경망 활성화를 입력으로 받아 자연어로 설명하는 “Activation Oracle”로 훈련
  • LatentQA의 확장: 활성화에 대한 임의의 질문에 자연어로 답변
  • Fine-tuned 모델에 숨겨진 정보(전기적 지식, 악성 성향 등) 복구 가능

Related Papers


  • LatentQA - activation을 입력으로 받는 LLM
  • Sparse autoencoder 기반 interpretability
  • Probing / representation analysis 연구

Methods


  • LLM이 다른 LLM의 activation을 직접 입력으로 수용하도록 훈련
  • 다양한 downstream task에서 activation 설명 능력 평가
  • Fine-tuned 모델의 activation에서 학습 데이터에 없는 정보 복구 시도
  • 다양한 훈련 데이터셋의 효과 비교

Results


  • Activation Oracle이 fine-tuned 모델의 숨겨진 정보(전기적 지식, 악성 성향) 복구 성공
  • 입력 텍스트에 나타나지 않는 정보도 activation에서 추출 가능
  • 다양한 데이터셋으로 훈련 시 일관된 성능 향상
  • 기존 interpretability baseline과 동등 이상의 성능

Discussion


  • 모델의 “내면”을 외부에서 읽는 도구로서의 가치
  • Self-awareness가 아닌 타자에 의한 awareness이나, 자기 인식 연구의 도구로 활용 가능
  • AI safety에서 숨겨진 악성 행동 탐지에 직접 적용 가능