Introduction
- Multi-agent 및 human-AI 시스템에서 LLM의 자기 맥락 및 대화 상대 인식 능력의 중요성
- 기존 연구가 situational awareness에 집중한 반면, 대화 상대 식별 능력(interlocutor awareness)은 미탐구
- Interlocutor awareness를 형식화하고 최초의 체계적 평가 수행
- Me, Myself, and AI: SAD 벤치마크 (Laine et al., 2024)
- Theory of Mind in LLMs
- Multi-agent communication 연구
Methods
- Interlocutor awareness를 형식적으로 정의
- 3가지 차원에서 대화 상대 추론 평가:
- Reasoning patterns (추론 패턴)
- Linguistic style (언어 스타일)
- Alignment preferences (정렬 선호)
- 다양한 LLM 간 상호 식별 실험
Results
- 같은 패밀리 내 모델 식별에서 가장 높은 F1 점수 (대각선 값)
- GPT, Claude 등 유명 모델 패밀리는 타 모델도 신뢰성 있게 식별
- 세 차원 중 추론 패턴과 언어 스타일이 가장 강력한 식별 단서
Discussion
- LLM이 자기와 타자를 구분하는 “사회적 자기 인식”의 존재 시사
- Multi-agent 시스템의 안전성과 신뢰성에 대한 함의
- Self-awareness와 other-awareness의 관계