Introduction


  • 소수의 폐쇄형 LM에 대한 의존이 자기 인식 발달 시 보안 리스크를 야기할 수 있음
  • 인간 본인 확인(security question)에서 영감받은 자기 인식 테스트 방법 제안
  • 10개 주요 open/closed-source LM에서 체계적 평가

Related Papers


  • Mirror self-recognition test (동물 인지)
  • LLM identity 및 persona 연구
  • AI security 연구

Methods


  • 모델이 스스로 생성한 “security question”으로 자기 인식 테스트
  • 자신의 출력과 다른 모델의 출력을 구분하는 능력 평가
  • 10개 open/closed-source LM에서 실험
  • Multiple-choice 시나리오에서의 position bias 분석

Results


  • 어떤 LM에서도 일반적이거나 일관된 자기 인식 증거 없음
  • 모델이 출처와 무관하게 가장 높은 품질의 응답을 선택하는 경향
  • 모델 품질에 대한 선호가 시스템 간 일관적
  • Position bias에 대한 새로운 통찰

Discussion


  • 현재 LM이 자기 인식(self-recognition)을 갖지 않음을 시사
  • 향후 모델 발전에 따른 자기 인식 출현 모니터링 필요
  • 보안 관점에서의 함의
  • 품질 기반 선택 vs 자기 인식 기반 선택의 구분