본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

❯

Defend LLMs Through Self Consciousness

Defend LLMs Through Self-Consciousness

2026년 2월 11일2분 분량

Introduction

프롬프트 인젝션 공격에 대응하기 위한 새로운 자기의식 방어 메커니즘 제안
기존 외부 분류기 의존 방식과 달리, LLM의 내재적 추론 능력 활용
Meta-Cognitive 및 Arbitration 모듈을 통합한 프레임워크 제안
LLM이 자신의 출력을 자율적으로 평가하고 조절

Related Papers

Prompt injection 공격 연구
LLM 안전성 및 정렬 연구
외부 필터/분류기 기반 방어 연구

Methods

Meta-Cognitive Module: 자기 출력에 대한 메타인지적 평가
Arbitration Module: 평가 결과를 바탕으로 출력 조절
Enhanced Mode: 더 강력한 방어를 위한 강화 모드
LLM의 내재적 추론 능력을 활용한 자기보호

Results

7개 최신 LLM에서 평가 (AdvBench, Prompt-Injection-Mixed-Techniques-2024 데이터셋)
모든 모델과 데이터셋에서 방어 성공률 유의미한 향상
Enhanced Mode에서 일부 모델 완벽/거의 완벽한 방어 달성
방어 성공률 향상과 계산 오버헤드 간 트레이드오프 분석

Discussion

경량화되고 비용 효율적인 LLM 윤리 강화 솔루션
다양한 GenAI 플랫폼에서 활용 가능
외부 분류기 없이 자기방어 가능
향후 연구: 더 정교한 공격에 대한 강건성 검증

공유하기

그래프 뷰

Introduction
Related Papers
Methods
Results
Discussion

Properties

Author: Boshi Huang, Fabio Nonato de Paula
Comment: 자기의식 기반 프롬프트 인젝션 방어 메커니즘
IsTargetPaper: true
Journal/Conference: arXiv
Linked Bases: [[templates.base]]
Published Year: 2025
Reading Status: Not Started
Review Date: 2026-02-03
Topic: LLM Safety, Self-Consciousness Defense
URL: https://arxiv.org/abs/2508.02961

백링크

Architecture
Fundamentals
LLMs
Memory
self-consciousness
Unlabeled
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog