Summary
self-awareness를 측정하는 bench라 완벽하게 자의식으로 fit하긴 어렵지만, 그의 keystone정도는 될 수 있을 듯.
사람을 대상으로 ToM-자의식 뇌 연구한 task 들에서 사용한 self-referential task랑 비슷하게 구조여서 이걸 사용하면 될 듯.
Introduction
- LLM의 situational awareness - 자기 자신과 상황에 대한 지식 - 를 측정하는 벤치마크
- 7개 과제 카테고리, 13,000+ 문항
- AI safety와 자율적 계획 수립에서의 situational awareness의 중요성
Related Papers
- AI safety 연구
- LLM self-knowledge 및 calibration 연구
- Autonomous agent 연구
Methods
- 7개 카테고리의 행동 테스트:
- 자기 생성 텍스트 인식
- 자기 행동 예측
- 내부 평가 vs 실제 배포 환경 구분
- 자기 지식 보고
- 16개 모델 평가
- 인간 베이스라인과 비교
Results
- 모든 모델이 chance level 이상의 성능
- Claude 3 Opus가 최고 성능이나 인간 베이스라인에 크게 미달
- 특정 과제에서의 성능 격차가 크게 존재
- 모델 크기와 situational awareness 간 양의 상관관계
Discussion
- Situational awareness가 정량화 가능한 능력의 집합으로 측정 가능
- AI safety에서 모델의 자기 인식 수준 모니터링의 중요성
- Behavioral self-awareness (Betley et al.)와의 연결
- 향후 벤치마크 확장 필요