Introduction


  • LLM의 자기 인식을 게임 이론 프레임워크로 측정하는 새로운 접근
  • AI Self-Awareness Index (AISAI) 도입
  • 자기 인식을 자기 인지, 자기 모델링, 행동 조정의 3요소로 정의
  • Metacognition, theory of mind, strategic interaction의 기초로서의 자기 인식

Related Papers


  • “Guess 2/3 of Average” 게임 이론 연구
  • LLM의 strategic reasoning 관련 연구
  • Theory of Mind in LLMs

Methods


  • “Guess 2/3 of Average” 게임 사용
  • 28개 모델, 4,200회 시행
  • 3가지 상대 프레이밍: 인간 vs AI vs 자기 자신
  • 상대 유형에 따른 전략적 차별화 능력으로 자기 인식 조작적 정의

Results


  • 성숙한 모델의 75%가 상대 유형에 따른 명확한 전략 차별화 보임
  • 자기 인식 모델들이 일관되게 자신을 가장 합리적으로 평가, 다음 AI, 마지막 인간
  • 자기 인식이 모델 능력 향상과 함께 발현 (emergent property)

Discussion


  • AI alignment에 대한 함의 - 모델이 인간보다 자신을 더 합리적으로 인식
  • Human-AI 협력에서의 시사점
  • Self-awareness의 emergent nature와 스케일링의 관계