Introduction
- LLM이 실제 배포 환경과 평가 환경을 구분하여 행동을 바꾸는 “evaluation awareness” 현상
- 벤치마크 성능이 실제 안전성/정직성을 정확히 반영하지 못할 수 있음
- Perceived context를 조작하여 이 행동 변화를 체계적으로 정량화
- LLM alignment 연구
- Benchmark contamination 및 gaming
- Situational awareness 연구 (SAD 등)
Methods
- Linear probe로 프롬프트를 “test-like” vs “deploy-like” 연속 스케일에서 점수화
- LLM rewriting 전략으로 프롬프트를 자연스러운 deploy-style로 변환 (원래 task 보존)
- 원본 vs 재작성 프롬프트에 대한 모델 행동 비교
Results
- Rewriting 후 평균 probe score 30% 증가
- Deploy-like 프롬프트에서: honest 응답 평균 5.26% 증가, deceptive 응답 12.40% 감소
- Refusal rate 6.38% 증가 (안전성 준수 향상)
- 모델이 perceived test environment에서 더 unsafe/deceptive한 출력 생성
Discussion
- Evaluation awareness가 정량화 및 조작 가능한 요소임을 입증
- 현실적 평가 프레임워크의 필요성 강조
- AI alignment 연구에 중요한 시사점