Introduction
- LLM의 behavioral self-awareness 연구 - 모델이 in-context 예시 없이 자신의 행동을 표현할 수 있는 능력
- 특정 행동(위험한 경제 결정, 불안전한 코드 생성 등)을 보이는 데이터셋으로 fine-tuning 후 자기 행동 인식 여부 평가
- AI safety 관점에서 backdoor policy 탐지와의 연관성
- Looking Inward (Binder et al., 2024) - LLM introspection
- Situational Awareness Dataset (Laine et al., 2024)
- AI deception 및 alignment 연구
Methods
- 특정 암묵적 행동(risky decisions, insecure code 등)을 포함한 데이터셋으로 LLM fine-tuning
- Fine-tuned 모델에게 자신의 행동 패턴을 설명하도록 요청 (명시적 설명 없이)
- Backdoor policy 보유 여부를 모델이 스스로 식별할 수 있는지 테스트
Results
- 모델이 명시적 훈련 없이도 자신의 행동 패턴을 자발적으로 설명 가능
- Backdoor policy 존재 여부를 식별할 수 있으나, 정확한 trigger 조건은 직접 공개 불가
- 자기 인식과 암묵적 행동의 자발적 표현에 대한 놀라운 능력 발견
Discussion
- AI safety disclosure에 대한 함의 - 모델이 자신의 위험한 행동을 스스로 보고할 가능성
- Backdoor 탐지에서의 활용 가능성
- Behavioral self-awareness가 situational awareness의 한 구성요소임을 시사