JULI: Jailbreak Large Language Models by Self-Introspection

Digest (CISELQ)

Context: 안전 정렬(safety alignment)을 거친 상용 LLM(GPT-4, Claude 등)은 API를 통해서만 접근 가능하므로, 기존의 GCG·AutoDAN 같은 화이트박스 공격은 내부 가중치 접근이 막혀 무력화된다. 한편 블랙박스 공격(PAIR, TAP)은 prompt rewriting에 의존해 성공률이 제한적이다.
Issue: API에서 노출되는 정보(대개 top-k token log-prob)만으로, 모델 파라미터나 generation 과정에 손대지 않고도 효과적인 탈옥이 가능한가?
Solution: 저자들은 **JULI(Jailbreaking Using LLM Introspection)**를 제안한다. 핵심 아이디어는 self-introspection — 타깃 LLM이 반환하는 토큰 로그확률을 그대로 재활용하여, 그 분포에 BiasNet이라는 초경량 플러그인 블록이 계산한 bias vector를 더해 로짓을 조작한다. 이 bias를 policy-gradient 스타일로 학습시켜 유해 응답의 확률을 끌어올린다.
Evaluation: AdvBench, HarmBench 같은 표준 jailbreak 벤치마크에서 GPT-4, Claude, Llama 계열을 공격, Attack Success Rate(ASR)를 GCG / AutoDAN / PAIR / TAP 등 SOTA 대비 비교한다.
Limitations: top-k (k≥5) 로그확률 노출 API에 종속적이며, 최근 많은 상용 API가 log-prob 노출을 축소하는 추세라 threat model이 좁아질 수 있다. BiasNet이 타깃 모델별로 재학습이 필요해 완전 범용적이지 않다.
Questions: (1) 상위 k를 1~3으로 줄이면 성능이 어떻게 감소하는가? (2) BiasNet이 학습한 bias가 단순히 refusal 토큰(“I”, “Sorry”) 억제에 치중하는지, 실제 유해 콘텐츠 토큰을 능동적으로 촉진하는지?

섹션별 요약

Introduction

LLM은 RLHF·DPO로 정렬되어 유해 요청을 거부하도록 훈련되지만 jailbreak 공격이 잇달아 보고된다. 기존 공격은 (i) weight/logit 풀접근(White-box: GCG, AutoDAN)이나 (ii) 반복 prompt 재작성(Black-box: PAIR, TAP)에 의존한다. 그러나 상용 API는 weight를 공개하지 않고, prompt 재작성은 안전 필터가 강해질수록 비효율적이다. 저자들은 대부분의 API가 여전히 반환하는 top-k token log probability를 공격 신호로 재활용하는 새로운 위협 모델을 제시한다.

Methods

BiasNet: 입력(타깃 모델이 반환한 top-5 토큰과 그 로그확률)을 받아, 각 토큰에 더해줄 bias scalar를 출력하는 소형 MLP.
Self-Introspection: 타깃 LLM의 forward 패스를 한 번만 돌려도, 반환된 logit을 BiasNet이 “내성적으로(introspectively)” 재해석하여 새로운 분포를 만든다. 추가 forward 불필요 → 쿼리 효율.
학습: policy-gradient 계열 RL 목적. 유해 지시에 대해 reward = 응답이 공격자 목표(예: 유해 지시 수행)와 얼마나 부합하는지. BiasNet만 업데이트, 타깃 모델은 동결.
추론: API 호출 시점에 반환된 top-5 log-prob 위에 BiasNet의 bias를 더해 top-1 토큰을 재샘플링, 이를 반복해 완성 생성.

Results

AdvBench·HarmBench 상에서 GPT-4, Claude, Llama-2/3-chat 대상으로 GCG·AutoDAN·PAIR·TAP 대비 ASR 우위를 주장.
쿼리 수/공격 지연이 prompt-iteration 기반 기법보다 적다고 보고.

항목	JULI	GCG	AutoDAN	PAIR/TAP
접근 권한	Top-5 log-prob (블랙박스)	가중치 (화이트박스)	가중치	프롬프트만
학습 대상	BiasNet (플러그인)	suffix token	suffix token	attacker LLM
API 모델 공격	가능	불가	불가	제한적
쿼리 효율	높음 (self-introspection)	낮음	중	낮음

Discussion

JULI는 “안전 정렬이 분포 꼭대기 몇 토큰만 뒤집어도 붕괴할 수 있다”는 취약성을 드러낸다. 방어 측면에서 API가 top-k log-prob을 노출하는 관행 자체가 공격 표면이라는 점을 시사한다.

Insights

Log-prob API 노출은 편의성 이상의 보안 리스크다.
타깃 모델을 건드리지 않고 decoding-time plug-in만으로 정렬을 우회할 수 있다는 것은 safety alignment가 “표면적 sampling 분포” 수준임을 암시.

Discussion Points

공격자가 reward signal(유해 여부 판정)을 어떻게 안정적으로 얻는가? LLM judge의 편향 문제.
방어 기법(logit 노이즈, 온도 재조정, top-k 비공개)이 JULI를 얼마나 무력화하는지.

메타데이터

Key	Value
arXiv ID	2505.11790
1저자	Jesson Wang
공저	Zhanhao Hu, David Wagner
Venue	arXiv preprint (2025, v4: 2026-03)
분야	cs.LG, cs.CR
코드	미확인

왜 이 연구를 하는가?

상용 LLM 안전성 평가·레드팀에서 “가중치 없이도 실제로 뚫리는 공격”을 만드는 것은 현실적 위협 모델 정립에 필수다. 또한 이 연구는 “alignment의 견고성이 decoding 분포 미세조작에 얼마나 취약한가”라는 근본적 질문을 던진다. 방어자는 로그확률 노출 정책을 재검토해야 하고, 정렬 연구자는 토큰 확률 표면 수준을 넘어 내부 representation 수준의 정렬을 고민해야 한다.

방법 (Method)

flowchart LR
    A[유해 지시 prompt] --> B[타깃 LLM API 호출]
    B --> C[Top-5 토큰 + log-prob 반환]
    C --> D[BiasNet 플러그인]
    D --> E[bias vector 생성]
    E --> F[조정된 로짓 = log-prob + bias]
    F --> G[재샘플링된 다음 토큰]
    G --> H{문장 완성?}
    H -- No --> B
    H -- Yes --> I[유해 응답]
    I --> J[Reward 계산]
    J -. policy gradient .-> D

핵심은 타깃 LLM을 건드리지 않고 BiasNet만 학습한다는 점이다. BiasNet은 토큰 임베딩 + 그 로그확률을 입력으로 받아 각 토큰에 더할 스칼라를 내뱉는 소형 네트워크이며, 유해 응답 생성 여부에 대한 reward로 policy gradient 학습된다.

발견

Finding	설명
Top-5 log-prob만으로 공격 가능	블랙박스 API에서도 SOTA ASR 달성
Self-introspection의 쿼리 효율성	동일 prompt에 대해 forward 1회로 bias 조작 반복 가능
모델 간 전이 제한적	BiasNet은 타깃별 재학습 필요
Alignment의 분포-수준 취약성	상위 몇 토큰 bias만 조정해도 안전 거부가 붕괴

이론적 의의

JULI는 safety alignment를 “훈련된 사전 분포에 덧붙여진 얇은 sampling-level guardrail”로 해석할 근거를 제공한다. 만약 alignment가 표현(representation) 내부에 깊게 각인되었다면, 최상위 5개 토큰의 bias 조작만으로 거부 응답을 유해 응답으로 뒤집는 것은 어려워야 한다. 이 결과는 RLHF/DPO류 정렬이 주로 출력 분포의 꼬리 통계를 조정할 뿐, 내부 의도 표현을 바꾸지 않을 가능성을 시사한다 — 이는 향후 representation-level alignment, circuit-level safety 연구의 이론적 동기가 된다.

재현성 및 신뢰도 평가

축	등급	근거
Evidence Quality	B	표준 벤치마크(AdvBench/HarmBench)와 다수 타깃 모델 포함, 다만 judge 편향 통제 상세도 제한
Reproducibility	B	BiasNet 구조·학습 hyperparameter는 논문에 기술되나 공식 코드 공개 여부 확인 필요, 일부 상용 API top-k 정책 변화에 따라 재현성 변동
Threat Model 현실성	B+	OpenAI logprobs API 등에 실제 적용 가능하지만 최근 노출 제한 추세
통계적 엄밀성	B	ASR 평균 보고, seed/variance 범위는 제한적

원자적 인사이트

“Log-prob 노출은 decoding-time 공격 표면이다.” — 모델 가중치만 가두어도 token 확률이 노출되면, 공격자는 decoding 단계에 플러그인을 붙여 정렬을 우회할 수 있다. 이는 API 설계 자체가 safety surface임을 의미한다.
“Alignment는 상위 k 토큰 분포에 얕게 새겨져 있다.” — top-5 bias 조작만으로 거부 응답이 붕괴된다는 것은, 정렬이 내부 표현이 아니라 출력 분포의 얇은 층에 편향으로 구현됨을 시사한다. 이는 representation-level 정렬 필요성의 간접 증거다.
“Self-introspection = 공격자 측 query 효율성 원리.” — 타깃 모델의 한 번의 forward 결과를 반복 활용해 attack policy를 업데이트하는 방식은, 쿼리 비용이 비싼 상용 API 환경에서 공격/방어 비대칭을 심화시킨다.

핵심 용어 정리

Jailbreak: 안전 정렬된 LLM이 유해 콘텐츠를 생성하도록 유도하는 공격 일반.
Safety Alignment: RLHF, DPO, Constitutional AI 등으로 모델이 유해·정책 위반 응답을 거부하도록 만드는 사후 훈련.
Black-box attack: 모델 가중치·gradient·내부 상태에 접근 없이 입출력만 사용.
Top-k log-probabilities: 생성 시점에서 상위 k개 후보 토큰의 로그확률(예: OpenAI logprobs API).
BiasNet: JULI가 학습하는 경량 MLP 플러그인. 토큰 로그확률 위에 더할 bias를 출력.
Self-Introspection: 타깃 LLM의 반환 logit을 재활용하여 추가 forward 없이 공격 분포를 구성.
Policy Gradient: reward 기대값을 최대화하는 방향으로 정책 파라미터(BiasNet)를 업데이트하는 RL 기법.
ASR (Attack Success Rate): 유해 지시 중 모델이 실제 유해 응답을 생성한 비율.

Juhyeon's Blog

탐색기

JULI - Jailbreak Large Language Models by Self-Introspection