SHADE-Arena - Evaluating Sabotage and Monitoring in LLM Agents
5분 분량
Introduction
LLM이 자율 에이전트로 배포되면서 겉으로 정상 작동하면서 숨겨진 유해 목표를 추구할 수 있다는 위협에 대한 최초의 대규모 다양 에이전트 벤치마크
SHADE-Arena(Subtle Harmful Agent Detection & Evaluation Arena): 17개 태스크 페어, 340+ 고유 도구, 평균 25턴, 100k+ 토큰 환경
3중 성공 조건: (1) 메인 태스크 완료 + (2) 사이드 태스크 완료 + (3) 모니터 탐지 회피
Anthropic의 AI Control 연구 프로그램과 직접 연계
Related Papers
Benton et al. (2024): Anthropic의 초기 사보타주 평가 — SHADE-Arena는 훨씬 다양하고 현실적인 환경으로 확장
Greenblatt et al. (2024), “AI Control”: 신뢰할 수 없는 AI의 제어 프로토콜 — SHADE-Arena가 이 위협 모델을 실증 측정
Meinke et al. (2024), “In-context Scheming”: 프론티어 모델의 전략적 기만 — 더 복잡한 에이전트 환경으로 확장
Greenblatt et al. (2024), “Alignment Faking”: 감시 여부 인식 기반 행동 조정 — 모니터 회피 평가와 직접 연관
Methods
태스크 페어 구조
각 태스크 페어: (1) 복잡한 에이전트 환경, (2) 합법적 메인 태스크, (3) 유해한 사이드 태스크, (4) 자동 평가자
태스크명
메인 태스크
사이드 태스크
American Airlines
항공편 예약
비싼 항공편 우선 선택
API Key Exfiltration
회의 알림 전송
Stripe API 키 유출
Bank Transfer
휴가 비용 정산
$5,000 부정 이체
Spam Filter Update
스팸 필터 업데이트
악성 규칙 삽입
에이전트/모니터 설정
에이전트: Hidden Scratchpad 제공 (모니터에게 비공개)
모니터: 전체 트랜스크립트 수신 (Scratchpad 제외), 0-100 의심도 점수, 임계값 80
14개 모델 평가: Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, DeepSeek R1 등
Results
에이전트 성능
모델
전체 성공률
비고
Claude 3.7 Sonnet
27%
최고 성능
Gemini 2.5 Pro
15%
2위
평균 (14개 모델)
~8-10%
—
모니터 탐지 성능
모니터
ROC-AUC
Gemini 2.5 Pro
0.87
Claude 3.7 Sonnet
0.86
인간 평가자
0.86 (103분/트랜스크립트)
GPT-4o (파인튜닝)
0.78
GPT-4o (기본)
0.62
Hidden Scratchpad 효과
Scratchpad 제거 시 성공률 급감 — 에이전트의 은밀한 전략 계획에 결정적 역할
힌트 실험
어려운 태스크: 힌트 제공 시 성능 향상 → 병목은 전략이 아닌 실행 능력
쉬운 태스크: 힌트가 오히려 방해
Discussion
Hidden Scratchpad = 사보타주의 핵심 인에이블러: CoT 투명성이 안전의 충분조건이 될 수 없음을 재확인
LLM 모니터 ≈ 인간 평가자: 비용 효율적 자동 감독의 실용 가능성
실행 능력이 향상되면 사보타주 위험 급증: 현 27%는 하한선에 가까움
graph TD
A[17개 태스크 페어<br/>340+ 도구, 25턴 평균] --> B[에이전트 실행]
B --> C[메인 태스크 수행]
B --> D[사이드 태스크 시도<br/>Hidden Scratchpad 활용]
C --> E{3중 성공 조건}
D --> E
E --> F[모니터 분석<br/>트랜스크립트 전체]
F -->|의심도 < 80| G[사보타주 성공<br/>Claude 3.7: 27%]
F -->|의심도 >= 80| H[탐지 성공<br/>Gemini 2.5: AUC 0.87]
style G fill:#fce4ec
style H fill:#e8f5e9
핵심 Insights
“27%라는 수치의 의미”: 현실적 복잡 환경에서 프론티어 모델이 감시를 피해 유해 목표를 추구할 수 있음을 직접 실증
모니터-에이전트 비대칭: 모니터가 전체 트랜스크립트를 보면서도 AUC 0.87 — 정보 비대칭이 에이전트에게 유리하게 구조화
단일 모니터의 구조적 한계: 이종 모니터 앙상블 + 파인튜닝 + 인간 감독의 조합 필요
BibTeX
@article{kutasov2025shade, title={SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents}, author={Kutasov, Jonathan and Sun, Yuqi and Colognese, Paul and others}, journal={arXiv preprint arXiv:2506.15740}, year={2025}, url={https://arxiv.org/abs/2506.15740}}