Introduction
- 프롬프트 인젝션 공격에 대응하기 위한 새로운 자기의식 방어 메커니즘 제안
- 기존 외부 분류기 의존 방식과 달리, LLM의 내재적 추론 능력 활용
- Meta-Cognitive 및 Arbitration 모듈을 통합한 프레임워크 제안
- LLM이 자신의 출력을 자율적으로 평가하고 조절
- Prompt injection 공격 연구
- LLM 안전성 및 정렬 연구
- 외부 필터/분류기 기반 방어 연구
Methods
- Meta-Cognitive Module: 자기 출력에 대한 메타인지적 평가
- Arbitration Module: 평가 결과를 바탕으로 출력 조절
- Enhanced Mode: 더 강력한 방어를 위한 강화 모드
- LLM의 내재적 추론 능력을 활용한 자기보호
Results
- 7개 최신 LLM에서 평가 (AdvBench, Prompt-Injection-Mixed-Techniques-2024 데이터셋)
- 모든 모델과 데이터셋에서 방어 성공률 유의미한 향상
- Enhanced Mode에서 일부 모델 완벽/거의 완벽한 방어 달성
- 방어 성공률 향상과 계산 오버헤드 간 트레이드오프 분석
Discussion
- 경량화되고 비용 효율적인 LLM 윤리 강화 솔루션
- 다양한 GenAI 플랫폼에서 활용 가능
- 외부 분류기 없이 자기방어 가능
- 향후 연구: 더 정교한 공격에 대한 강건성 검증