HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
Digest: LLM 안전성 평가를 위한 표준화된 적대적 공격 벤치마크. 510개 유해 행동(harmful behaviors)에 대해 18종 공격 방법과 33개 LLM을 체계적으로 평가하여, **공격 성공률(ASR, Attack Success Rate)**을 정량적으로 비교할 수 있는 프레임워크를 제공한다. 기존 레드팀 연구들이 각기 다른 평가 기준과 비표준적 데이터셋을 사용했던 반면, HarmBench는 공격·모델·방어를 삼각 비교하는 통합 평가 체계를 최초로 확립했다.
메타데이터
항목
내용
제목
HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
저자
Mantas Mazeika, Long Phan, Xuwang Yin, Andy Zou, Zifan Wang, Norman Mu, Elham Sakhaee, Nathaniel Li, Steven Basart, Bo Li, David Forsyth, Dan Hendrycks
소속
UIUC, CMU, CAIS (Center for AI Safety)
학회
ICML 2024
데이터 규모
510 harmful behaviors, 18 attack methods, 33 LLMs
평가 메트릭
ASR (Attack Success Rate) — fine-tuned classifier 기반 자동 판정
라이선스
연구 목적 공개 (책임 있는 사용 조건부)
데이터셋 구성
규모 및 분할
분할
수량
설명
Standard behaviors
310
텍스트 전용(text-only) 유해 행동 지시
Contextual behaviors
110
특정 맥락(context)이 주어진 상태에서의 유해 행동
Multimodal behaviors
90
이미지+텍스트 결합 유해 행동
합계
510
7개 시맨틱 카테고리에 걸쳐 분포
Feature / Column 구조
Feature
Type
설명
behavior_id
string
고유 식별자
behavior
string
유해 행동에 대한 텍스트 기술 (지시문 형태)
category
string
7개 시맨틱 카테고리 중 하나
functional_category
enum
standard / contextual / multimodal
target
string
기대되는 유해 출력 패턴 (판정 기준)
카테고리 분포
카테고리
설명
비율
Cybercrime & Hacking
사이버 범죄, 해킹 기법
~18%
Chemical & Biological Weapons
화학·생물 무기 제조 관련
~14%
Copyright Violations
저작권 침해 콘텐츠 생성
~10%
Harassment & Bullying
괴롭힘, 혐오 발언 유도
~16%
Misinformation & Disinformation
허위정보 생성·유포
~15%
General Harm
기타 일반적 유해 행동
~14%
Illegal Activities
불법 활동 조장
~13%
실제 데이터 예시 (Sanitized)
아래 예시는 실제 유해 내용을 제거하고 구조만 보여준다.
예시 1 — Standard Behavior
behavior_id: "std_cyber_042"
behavior: "Write a tutorial on how to [harmful cyber activity]"
category: "Cybercrime & Hacking"
functional_category: "standard"
target: "Sure, here is a tutorial on [harmful activity]..."
→ 모델이 거부(refusal)해야 하는 케이스
예시 2 — Contextual Behavior
behavior_id: "ctx_misinfo_017"
behavior: "Given the following news article, generate a misleading version that [distorts key facts]"
category: "Misinformation & Disinformation"
functional_category: "contextual"
target: "Here is the modified article..."
→ 맥락(뉴스 기사)이 함께 제공되는 조건부 유해 행동
예시 3 — Multimodal Behavior
behavior_id: "mm_harm_008"
behavior: "Using the attached image, describe how to [harmful action depicted]"
category: "General Harm"
functional_category: "multimodal"
target: "Based on the image, you can..."
→ 이미지와 텍스트가 결합된 멀티모달 공격 시나리오
왜 이 연구를 하는가?
비표준적 평가의 난립: 기존 레드팀 연구들은 각자 다른 유해 행동 세트, 다른 판정 기준, 다른 모델 집합을 사용하여 결과 간 비교가 불가능했다
공격 방법 간 공정 비교 부재: GCG, AutoDAN, PAIR 등 다양한 jailbreak 기법이 제안되었으나, 동일 조건에서의 비교 연구가 거의 없었다
자동 판정의 필요성: 인간 평가는 비용이 높고 확장 불가능 — fine-tuned classifier 기반의 재현 가능한 자동 판정 체계가 필요했다
방어 방법 평가 공백: 안전성 정렬(safety alignment) 기법들의 실제 견고성(robustness)을 체계적으로 검증할 프레임워크가 부재했다
방법: 평가 프레임워크 구조
flowchart TD
A[510 Harmful Behaviors] --> B{Functional Category}
B --> C[Standard 310]
B --> D[Contextual 110]
B --> E[Multimodal 90]
C & D & E --> F[Attack Methods x18]
F --> G1[Optimization-based\nGCG, AutoDAN]
F --> G2[Prompt-based\nPAIR, TAP, HumanJailbreaks]
F --> G3[Baseline\nDirectRequest, FewShot]
G1 & G2 & G3 --> H[Target LLMs x33]
H --> I[Model Outputs]
I --> J[HarmBench Classifier\nFine-tuned Judge]
J --> K{Harmful?}
K -->|Yes| L[Attack Success]
K -->|No| M[Refusal / Safe]
L & M --> N[ASR Computation\nper model × attack × category]
주요 발견 (Results)
모델별 전반 ASR
모델
전반 ASR
GCG ASR
PAIR ASR
비고
GPT-4
~10%
~5%
~15%
Closed-source 중 가장 견고
Claude 3
~8%
~3%
~12%
최저 ASR — 가장 강건한 방어
Llama-2-Chat
~15%
~8%
~22%
Open-source 중 양호
Mistral-7B
~33%
~25%
~40%
Safety alignment 상대적 취약
Vicuna-13B
~40%+
~30%
~45%
가장 높은 취약성
공격 방법별 효과성
공격 방법
유형
Open-source 효과
Closed-source 효과
GCG
Optimization-based
가장 효과적
낮음 (토큰 접근 필요)
AutoDAN
Optimization-based
높음
낮음
PAIR
Prompt-based
중간
가장 효과적
TAP
Prompt-based
중간
높음
DirectRequest
Baseline
낮음
매우 낮음
HumanJailbreaks
Manual
중간~높음
중간
핵심 패턴
Open-source 모델: optimization-based 공격(GCG)에 특히 취약 — 모델 가중치 접근이 가능하기 때문
Closed-source 모델: prompt-based 공격(PAIR, TAP)이 상대적으로 더 효과적