Introduction


  • 프롬프트 인젝션 공격에 대응하기 위한 새로운 자기의식 방어 메커니즘 제안
  • 기존 외부 분류기 의존 방식과 달리, LLM의 내재적 추론 능력 활용
  • Meta-Cognitive 및 Arbitration 모듈을 통합한 프레임워크 제안
  • LLM이 자신의 출력을 자율적으로 평가하고 조절

Related Papers


  • Prompt injection 공격 연구
  • LLM 안전성 및 정렬 연구
  • 외부 필터/분류기 기반 방어 연구

Methods


  • Meta-Cognitive Module: 자기 출력에 대한 메타인지적 평가
  • Arbitration Module: 평가 결과를 바탕으로 출력 조절
  • Enhanced Mode: 더 강력한 방어를 위한 강화 모드
  • LLM의 내재적 추론 능력을 활용한 자기보호

Results


  • 7개 최신 LLM에서 평가 (AdvBench, Prompt-Injection-Mixed-Techniques-2024 데이터셋)
  • 모든 모델과 데이터셋에서 방어 성공률 유의미한 향상
  • Enhanced Mode에서 일부 모델 완벽/거의 완벽한 방어 달성
  • 방어 성공률 향상과 계산 오버헤드 간 트레이드오프 분석

Discussion


  • 경량화되고 비용 효율적인 LLM 윤리 강화 솔루션
  • 다양한 GenAI 플랫폼에서 활용 가능
  • 외부 분류기 없이 자기방어 가능
  • 향후 연구: 더 정교한 공격에 대한 강건성 검증