본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: mechanistic-interpretability
1건의 항목
2026년 6월 04일
Brittle Minds Fixable Activations - Understanding Belief Representations in Language Models
paper
theory-of-mind
belief-representation
activation-engineering
mechanistic-interpretability
self-consciousness
CAA
probing
BigToM
Llama2
Pythia