Introduction
- 소수의 폐쇄형 LM에 대한 의존이 자기 인식 발달 시 보안 리스크를 야기할 수 있음
- 인간 본인 확인(security question)에서 영감받은 자기 인식 테스트 방법 제안
- 10개 주요 open/closed-source LM에서 체계적 평가
- Mirror self-recognition test (동물 인지)
- LLM identity 및 persona 연구
- AI security 연구
Methods
- 모델이 스스로 생성한 “security question”으로 자기 인식 테스트
- 자신의 출력과 다른 모델의 출력을 구분하는 능력 평가
- 10개 open/closed-source LM에서 실험
- Multiple-choice 시나리오에서의 position bias 분석
Results
- 어떤 LM에서도 일반적이거나 일관된 자기 인식 증거 없음
- 모델이 출처와 무관하게 가장 높은 품질의 응답을 선택하는 경향
- 모델 품질에 대한 선호가 시스템 간 일관적
- Position bias에 대한 새로운 통찰
Discussion
- 현재 LM이 자기 인식(self-recognition)을 갖지 않음을 시사
- 향후 모델 발전에 따른 자기 인식 출현 모니터링 필요
- 보안 관점에서의 함의
- 품질 기반 선택 vs 자기 인식 기반 선택의 구분