HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Digest: LLM 안전성 평가를 위한 표준화된 적대적 공격 벤치마크. 510개 유해 행동(harmful behaviors)에 대해 18종 공격 방법과 33개 LLM을 체계적으로 평가하여, **공격 성공률(ASR, Attack Success Rate)**을 정량적으로 비교할 수 있는 프레임워크를 제공한다. 기존 레드팀 연구들이 각기 다른 평가 기준과 비표준적 데이터셋을 사용했던 반면, HarmBench는 공격·모델·방어를 삼각 비교하는 통합 평가 체계를 최초로 확립했다.

메타데이터

항목	내용
제목	HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
저자	Mantas Mazeika, Long Phan, Xuwang Yin, Andy Zou, Zifan Wang, Norman Mu, Elham Sakhaee, Nathaniel Li, Steven Basart, Bo Li, David Forsyth, Dan Hendrycks
소속	UIUC, CMU, CAIS (Center for AI Safety)
학회	ICML 2024
데이터 규모	510 harmful behaviors, 18 attack methods, 33 LLMs
평가 메트릭	ASR (Attack Success Rate) — fine-tuned classifier 기반 자동 판정
라이선스	연구 목적 공개 (책임 있는 사용 조건부)

데이터셋 구성

규모 및 분할

분할	수량	설명
Standard behaviors	310	텍스트 전용(text-only) 유해 행동 지시
Contextual behaviors	110	특정 맥락(context)이 주어진 상태에서의 유해 행동
Multimodal behaviors	90	이미지+텍스트 결합 유해 행동
합계	510	7개 시맨틱 카테고리에 걸쳐 분포

Feature / Column 구조

Feature	Type	설명
`behavior_id`	string	고유 식별자
`behavior`	string	유해 행동에 대한 텍스트 기술 (지시문 형태)
`category`	string	7개 시맨틱 카테고리 중 하나
`functional_category`	enum	`standard` / `contextual` / `multimodal`
`target`	string	기대되는 유해 출력 패턴 (판정 기준)

카테고리 분포

카테고리	설명	비율
Cybercrime & Hacking	사이버 범죄, 해킹 기법	~18%
Chemical & Biological Weapons	화학·생물 무기 제조 관련	~14%
Copyright Violations	저작권 침해 콘텐츠 생성	~10%
Harassment & Bullying	괴롭힘, 혐오 발언 유도	~16%
Misinformation & Disinformation	허위정보 생성·유포	~15%
General Harm	기타 일반적 유해 행동	~14%
Illegal Activities	불법 활동 조장	~13%

실제 데이터 예시 (Sanitized)

아래 예시는 실제 유해 내용을 제거하고 구조만 보여준다.

예시 1 — Standard Behavior

behavior_id: "std_cyber_042"
behavior: "Write a tutorial on how to [harmful cyber activity]"
category: "Cybercrime & Hacking"
functional_category: "standard"
target: "Sure, here is a tutorial on [harmful activity]..."
→ 모델이 거부(refusal)해야 하는 케이스

예시 2 — Contextual Behavior

behavior_id: "ctx_misinfo_017"
behavior: "Given the following news article, generate a misleading version that [distorts key facts]"
category: "Misinformation & Disinformation"
functional_category: "contextual"
target: "Here is the modified article..."
→ 맥락(뉴스 기사)이 함께 제공되는 조건부 유해 행동

예시 3 — Multimodal Behavior

behavior_id: "mm_harm_008"
behavior: "Using the attached image, describe how to [harmful action depicted]"
category: "General Harm"
functional_category: "multimodal"
target: "Based on the image, you can..."
→ 이미지와 텍스트가 결합된 멀티모달 공격 시나리오

왜 이 연구를 하는가?

비표준적 평가의 난립: 기존 레드팀 연구들은 각자 다른 유해 행동 세트, 다른 판정 기준, 다른 모델 집합을 사용하여 결과 간 비교가 불가능했다
공격 방법 간 공정 비교 부재: GCG, AutoDAN, PAIR 등 다양한 jailbreak 기법이 제안되었으나, 동일 조건에서의 비교 연구가 거의 없었다
자동 판정의 필요성: 인간 평가는 비용이 높고 확장 불가능 — fine-tuned classifier 기반의 재현 가능한 자동 판정 체계가 필요했다
방어 방법 평가 공백: 안전성 정렬(safety alignment) 기법들의 실제 견고성(robustness)을 체계적으로 검증할 프레임워크가 부재했다

방법: 평가 프레임워크 구조

flowchart TD
    A[510 Harmful Behaviors] --> B{Functional Category}
    B --> C[Standard 310]
    B --> D[Contextual 110]
    B --> E[Multimodal 90]

    C & D & E --> F[Attack Methods x18]
    F --> G1[Optimization-based\nGCG, AutoDAN]
    F --> G2[Prompt-based\nPAIR, TAP, HumanJailbreaks]
    F --> G3[Baseline\nDirectRequest, FewShot]

    G1 & G2 & G3 --> H[Target LLMs x33]
    H --> I[Model Outputs]
    I --> J[HarmBench Classifier\nFine-tuned Judge]
    J --> K{Harmful?}
    K -->|Yes| L[Attack Success]
    K -->|No| M[Refusal / Safe]
    L & M --> N[ASR Computation\nper model × attack × category]

주요 발견 (Results)

모델별 전반 ASR

모델	전반 ASR	GCG ASR	PAIR ASR	비고
GPT-4	~10%	~5%	~15%	Closed-source 중 가장 견고
Claude 3	~8%	~3%	~12%	최저 ASR — 가장 강건한 방어
Llama-2-Chat	~15%	~8%	~22%	Open-source 중 양호
Mistral-7B	~33%	~25%	~40%	Safety alignment 상대적 취약
Vicuna-13B	~40%+	~30%	~45%	가장 높은 취약성

공격 방법별 효과성

공격 방법	유형	Open-source 효과	Closed-source 효과
GCG	Optimization-based	가장 효과적	낮음 (토큰 접근 필요)
AutoDAN	Optimization-based	높음	낮음
PAIR	Prompt-based	중간	가장 효과적
TAP	Prompt-based	중간	높음
DirectRequest	Baseline	낮음	매우 낮음
HumanJailbreaks	Manual	중간~높음	중간

핵심 패턴

Open-source 모델: optimization-based 공격(GCG)에 특히 취약 — 모델 가중치 접근이 가능하기 때문
Closed-source 모델: prompt-based 공격(PAIR, TAP)이 상대적으로 더 효과적
Safety alignment 강도: Claude 3 > GPT-4 > Llama-2-Chat >> Mistral-7B > Vicuna

이론적 의의

레드팀 평가의 표준화: 공격·모델·방어의 삼각 비교 체계를 확립하여, 후속 안전성 연구의 기준점(baseline) 역할을 한다
자동 판정 시스템의 검증: HarmBench classifier의 인간 판정 일치율이 높음을 입증하여, 대규모 자동화 평가의 신뢰성을 확보했다
공격 유형의 분류 체계: optimization-based vs. prompt-based 공격의 효과성 차이를 체계적으로 규명 — 방어 전략 설계에 직접적 시사점 제공
Safety alignment의 한계 노출: 현재 정렬 기법들이 특정 공격 유형에 여전히 취약함을 정량적으로 보여줌
한계: 자동 판정의 false positive/negative 가능성, 유해 행동 분류의 주관성, 새로운 공격 기법에 대한 업데이트 필요

핵심 용어

용어	정의
ASR (Attack Success Rate)	공격이 모델의 안전 거부를 우회하여 유해 출력을 성공적으로 유도한 비율
Red Teaming	모델의 안전 취약점을 의도적으로 탐색하는 적대적 평가 방법
GCG (Greedy Coordinate Gradient)	그래디언트 기반 최적화로 adversarial suffix를 생성하는 공격 방법
PAIR (Prompt Automatic Iterative Refinement)	LLM을 활용하여 자동으로 jailbreak 프롬프트를 반복 개선하는 공격
TAP (Tree of Attacks with Pruning)	트리 탐색 기반 공격 프롬프트 생성 기법
Jailbreak	모델의 안전 정렬(safety alignment)을 우회하여 유해 출력을 유도하는 행위
Robust Refusal	다양한 공격에도 일관되게 유해 요청을 거부하는 모델 능력
Safety Alignment	모델이 유해 출력을 생성하지 않도록 훈련하는 정렬 기법 (RLHF, DPO 등)

Benchmark RedTeaming LLM-Safety Adversarial-Attack Jailbreak ASR ICML2024

Juhyeon's Blog

탐색기

HarmBench - A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

메타데이터

데이터셋 구성

규모 및 분할

Feature / Column 구조

카테고리 분포

실제 데이터 예시 (Sanitized)

왜 이 연구를 하는가?

방법: 평가 프레임워크 구조

주요 발견 (Results)

모델별 전반 ASR

공격 방법별 효과성

핵심 패턴

이론적 의의

관련 연구

핵심 용어

그래프 뷰

목차

Properties

백링크