Introduction
- LLM 안전성 확보가 실제 배포에 필수적
- 현재 안전 조치들은 implicit, domain-specific 위험을 다루지 못함
- 교육, 금융, 경영 분야의 3,000개 annotated query 데이터셋 구축
- LLM safety 및 jailbreak 연구
- Metacognition in AI
- Activation steering / representation engineering
Methods
- MENTOR 프레임워크: metacognition-driven self-evolution
- Structured self-assessment: perspective-taking, consequential reasoning 등 simulated critical thinking
- Dynamic rule-based knowledge graph: 새로운 위험 패턴에 따라 진화
- Activation steering: 모델의 internal representation을 직접 조절하여 규칙 준수 보장
Results
- 14개 LLM 평가: 평균 jailbreak success rate 57.8% (기존 취약성)
- MENTOR 적용 후 모든 테스트 도메인에서 attack success rate 대폭 감소
- Risk analysis 성능이 인간 전문가와 비교 가능한 수준
Discussion
- Scalable하고 adaptive한 domain-specific alignment 경로 제시
- Metacognition 기반 접근이 implicit risk 탐지에 효과적
- Activation steering의 실용성 입증