Introduction


  • LLM 안전성 확보가 실제 배포에 필수적
  • 현재 안전 조치들은 implicit, domain-specific 위험을 다루지 못함
  • 교육, 금융, 경영 분야의 3,000개 annotated query 데이터셋 구축

Related Papers


  • LLM safety 및 jailbreak 연구
  • Metacognition in AI
  • Activation steering / representation engineering

Methods


  • MENTOR 프레임워크: metacognition-driven self-evolution
  • Structured self-assessment: perspective-taking, consequential reasoning 등 simulated critical thinking
  • Dynamic rule-based knowledge graph: 새로운 위험 패턴에 따라 진화
  • Activation steering: 모델의 internal representation을 직접 조절하여 규칙 준수 보장

Results


  • 14개 LLM 평가: 평균 jailbreak success rate 57.8% (기존 취약성)
  • MENTOR 적용 후 모든 테스트 도메인에서 attack success rate 대폭 감소
  • Risk analysis 성능이 인간 전문가와 비교 가능한 수준

Discussion


  • Scalable하고 adaptive한 domain-specific alignment 경로 제시
  • Metacognition 기반 접근이 implicit risk 탐지에 효과적
  • Activation steering의 실용성 입증