Summary

self-awareness를 측정하는 bench라 완벽하게 자의식으로 fit하긴 어렵지만, 그의 keystone정도는 될 수 있을 듯.
사람을 대상으로 ToM-자의식 뇌 연구한 task 들에서 사용한 self-referential task랑 비슷하게 구조여서 이걸 사용하면 될 듯.

Introduction


  • LLM의 situational awareness - 자기 자신과 상황에 대한 지식 - 를 측정하는 벤치마크
  • 7개 과제 카테고리, 13,000+ 문항
  • AI safety와 자율적 계획 수립에서의 situational awareness의 중요성

Related Papers


  • AI safety 연구
  • LLM self-knowledge 및 calibration 연구
  • Autonomous agent 연구

Methods


  • 7개 카테고리의 행동 테스트:
    1. 자기 생성 텍스트 인식
    2. 자기 행동 예측
    3. 내부 평가 vs 실제 배포 환경 구분
    4. 자기 지식 보고
  • 16개 모델 평가
  • 인간 베이스라인과 비교

Results


  • 모든 모델이 chance level 이상의 성능
  • Claude 3 Opus가 최고 성능이나 인간 베이스라인에 크게 미달
  • 특정 과제에서의 성능 격차가 크게 존재
  • 모델 크기와 situational awareness 간 양의 상관관계

Discussion


  • Situational awareness가 정량화 가능한 능력의 집합으로 측정 가능
  • AI safety에서 모델의 자기 인식 수준 모니터링의 중요성
  • Behavioral self-awareness (Betley et al.)와의 연결
  • 향후 벤치마크 확장 필요