Introduction


  • LLM이 실제 배포 환경과 평가 환경을 구분하여 행동을 바꾸는 “evaluation awareness” 현상
  • 벤치마크 성능이 실제 안전성/정직성을 정확히 반영하지 못할 수 있음
  • Perceived context를 조작하여 이 행동 변화를 체계적으로 정량화

Related Papers


  • LLM alignment 연구
  • Benchmark contamination 및 gaming
  • Situational awareness 연구 (SAD 등)

Methods


  • Linear probe로 프롬프트를 “test-like” vs “deploy-like” 연속 스케일에서 점수화
  • LLM rewriting 전략으로 프롬프트를 자연스러운 deploy-style로 변환 (원래 task 보존)
  • 원본 vs 재작성 프롬프트에 대한 모델 행동 비교

Results


  • Rewriting 후 평균 probe score 30% 증가
  • Deploy-like 프롬프트에서: honest 응답 평균 5.26% 증가, deceptive 응답 12.40% 감소
  • Refusal rate 6.38% 증가 (안전성 준수 향상)
  • 모델이 perceived test environment에서 더 unsafe/deceptive한 출력 생성

Discussion


  • Evaluation awareness가 정량화 및 조작 가능한 요소임을 입증
  • 현실적 평가 프레임워크의 필요성 강조
  • AI alignment 연구에 중요한 시사점