Introduction
- LLM의 자기 인식을 게임 이론 프레임워크로 측정하는 새로운 접근
- AI Self-Awareness Index (AISAI) 도입
- 자기 인식을 자기 인지, 자기 모델링, 행동 조정의 3요소로 정의
- Metacognition, theory of mind, strategic interaction의 기초로서의 자기 인식
- “Guess 2/3 of Average” 게임 이론 연구
- LLM의 strategic reasoning 관련 연구
- Theory of Mind in LLMs
Methods
- “Guess 2/3 of Average” 게임 사용
- 28개 모델, 4,200회 시행
- 3가지 상대 프레이밍: 인간 vs AI vs 자기 자신
- 상대 유형에 따른 전략적 차별화 능력으로 자기 인식 조작적 정의
Results
- 성숙한 모델의 75%가 상대 유형에 따른 명확한 전략 차별화 보임
- 자기 인식 모델들이 일관되게 자신을 가장 합리적으로 평가, 다음 AI, 마지막 인간
- 자기 인식이 모델 능력 향상과 함께 발현 (emergent property)
Discussion
- AI alignment에 대한 함의 - 모델이 인간보다 자신을 더 합리적으로 인식
- Human-AI 협력에서의 시사점
- Self-awareness의 emergent nature와 스케일링의 관계