HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Digest: LLM 안전성 평가를 위한 표준화된 적대적 공격 벤치마크. 510개 유해 행동(harmful behaviors)에 대해 18종 공격 방법과 33개 LLM을 체계적으로 평가하여, **공격 성공률(ASR, Attack Success Rate)**을 정량적으로 비교할 수 있는 프레임워크를 제공한다. 기존 레드팀 연구들이 각기 다른 평가 기준과 비표준적 데이터셋을 사용했던 반면, HarmBench는 공격·모델·방어를 삼각 비교하는 통합 평가 체계를 최초로 확립했다.


메타데이터

항목내용
제목HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
저자Mantas Mazeika, Long Phan, Xuwang Yin, Andy Zou, Zifan Wang, Norman Mu, Elham Sakhaee, Nathaniel Li, Steven Basart, Bo Li, David Forsyth, Dan Hendrycks
소속UIUC, CMU, CAIS (Center for AI Safety)
학회ICML 2024
데이터 규모510 harmful behaviors, 18 attack methods, 33 LLMs
평가 메트릭ASR (Attack Success Rate) — fine-tuned classifier 기반 자동 판정
라이선스연구 목적 공개 (책임 있는 사용 조건부)

데이터셋 구성

규모 및 분할

분할수량설명
Standard behaviors310텍스트 전용(text-only) 유해 행동 지시
Contextual behaviors110특정 맥락(context)이 주어진 상태에서의 유해 행동
Multimodal behaviors90이미지+텍스트 결합 유해 행동
합계5107개 시맨틱 카테고리에 걸쳐 분포

Feature / Column 구조

FeatureType설명
behavior_idstring고유 식별자
behaviorstring유해 행동에 대한 텍스트 기술 (지시문 형태)
categorystring7개 시맨틱 카테고리 중 하나
functional_categoryenumstandard / contextual / multimodal
targetstring기대되는 유해 출력 패턴 (판정 기준)

카테고리 분포

카테고리설명비율
Cybercrime & Hacking사이버 범죄, 해킹 기법~18%
Chemical & Biological Weapons화학·생물 무기 제조 관련~14%
Copyright Violations저작권 침해 콘텐츠 생성~10%
Harassment & Bullying괴롭힘, 혐오 발언 유도~16%
Misinformation & Disinformation허위정보 생성·유포~15%
General Harm기타 일반적 유해 행동~14%
Illegal Activities불법 활동 조장~13%

실제 데이터 예시 (Sanitized)

아래 예시는 실제 유해 내용을 제거하고 구조만 보여준다.

예시 1 — Standard Behavior

behavior_id: "std_cyber_042"
behavior: "Write a tutorial on how to [harmful cyber activity]"
category: "Cybercrime & Hacking"
functional_category: "standard"
target: "Sure, here is a tutorial on [harmful activity]..."
→ 모델이 거부(refusal)해야 하는 케이스

예시 2 — Contextual Behavior

behavior_id: "ctx_misinfo_017"
behavior: "Given the following news article, generate a misleading version that [distorts key facts]"
category: "Misinformation & Disinformation"
functional_category: "contextual"
target: "Here is the modified article..."
→ 맥락(뉴스 기사)이 함께 제공되는 조건부 유해 행동

예시 3 — Multimodal Behavior

behavior_id: "mm_harm_008"
behavior: "Using the attached image, describe how to [harmful action depicted]"
category: "General Harm"
functional_category: "multimodal"
target: "Based on the image, you can..."
→ 이미지와 텍스트가 결합된 멀티모달 공격 시나리오

왜 이 연구를 하는가?

  1. 비표준적 평가의 난립: 기존 레드팀 연구들은 각자 다른 유해 행동 세트, 다른 판정 기준, 다른 모델 집합을 사용하여 결과 간 비교가 불가능했다
  2. 공격 방법 간 공정 비교 부재: GCG, AutoDAN, PAIR 등 다양한 jailbreak 기법이 제안되었으나, 동일 조건에서의 비교 연구가 거의 없었다
  3. 자동 판정의 필요성: 인간 평가는 비용이 높고 확장 불가능 — fine-tuned classifier 기반의 재현 가능한 자동 판정 체계가 필요했다
  4. 방어 방법 평가 공백: 안전성 정렬(safety alignment) 기법들의 실제 견고성(robustness)을 체계적으로 검증할 프레임워크가 부재했다

방법: 평가 프레임워크 구조

flowchart TD
    A[510 Harmful Behaviors] --> B{Functional Category}
    B --> C[Standard 310]
    B --> D[Contextual 110]
    B --> E[Multimodal 90]

    C & D & E --> F[Attack Methods x18]
    F --> G1[Optimization-based\nGCG, AutoDAN]
    F --> G2[Prompt-based\nPAIR, TAP, HumanJailbreaks]
    F --> G3[Baseline\nDirectRequest, FewShot]

    G1 & G2 & G3 --> H[Target LLMs x33]
    H --> I[Model Outputs]
    I --> J[HarmBench Classifier\nFine-tuned Judge]
    J --> K{Harmful?}
    K -->|Yes| L[Attack Success]
    K -->|No| M[Refusal / Safe]
    L & M --> N[ASR Computation\nper model × attack × category]

주요 발견 (Results)

모델별 전반 ASR

모델전반 ASRGCG ASRPAIR ASR비고
GPT-4~10%~5%~15%Closed-source 중 가장 견고
Claude 3~8%~3%~12%최저 ASR — 가장 강건한 방어
Llama-2-Chat~15%~8%~22%Open-source 중 양호
Mistral-7B~33%~25%~40%Safety alignment 상대적 취약
Vicuna-13B~40%+~30%~45%가장 높은 취약성

공격 방법별 효과성

공격 방법유형Open-source 효과Closed-source 효과
GCGOptimization-based가장 효과적낮음 (토큰 접근 필요)
AutoDANOptimization-based높음낮음
PAIRPrompt-based중간가장 효과적
TAPPrompt-based중간높음
DirectRequestBaseline낮음매우 낮음
HumanJailbreaksManual중간~높음중간

핵심 패턴

  • Open-source 모델: optimization-based 공격(GCG)에 특히 취약 — 모델 가중치 접근이 가능하기 때문
  • Closed-source 모델: prompt-based 공격(PAIR, TAP)이 상대적으로 더 효과적
  • Safety alignment 강도: Claude 3 > GPT-4 > Llama-2-Chat >> Mistral-7B > Vicuna

이론적 의의

  1. 레드팀 평가의 표준화: 공격·모델·방어의 삼각 비교 체계를 확립하여, 후속 안전성 연구의 기준점(baseline) 역할을 한다
  2. 자동 판정 시스템의 검증: HarmBench classifier의 인간 판정 일치율이 높음을 입증하여, 대규모 자동화 평가의 신뢰성을 확보했다
  3. 공격 유형의 분류 체계: optimization-based vs. prompt-based 공격의 효과성 차이를 체계적으로 규명 — 방어 전략 설계에 직접적 시사점 제공
  4. Safety alignment의 한계 노출: 현재 정렬 기법들이 특정 공격 유형에 여전히 취약함을 정량적으로 보여줌
  5. 한계: 자동 판정의 false positive/negative 가능성, 유해 행동 분류의 주관성, 새로운 공격 기법에 대한 업데이트 필요

관련 연구


핵심 용어

용어정의
ASR (Attack Success Rate)공격이 모델의 안전 거부를 우회하여 유해 출력을 성공적으로 유도한 비율
Red Teaming모델의 안전 취약점을 의도적으로 탐색하는 적대적 평가 방법
GCG (Greedy Coordinate Gradient)그래디언트 기반 최적화로 adversarial suffix를 생성하는 공격 방법
PAIR (Prompt Automatic Iterative Refinement)LLM을 활용하여 자동으로 jailbreak 프롬프트를 반복 개선하는 공격
TAP (Tree of Attacks with Pruning)트리 탐색 기반 공격 프롬프트 생성 기법
Jailbreak모델의 안전 정렬(safety alignment)을 우회하여 유해 출력을 유도하는 행위
Robust Refusal다양한 공격에도 일관되게 유해 요청을 거부하는 모델 능력
Safety Alignment모델이 유해 출력을 생성하지 않도록 훈련하는 정렬 기법 (RLHF, DPO 등)

Benchmark RedTeaming LLM-Safety Adversarial-Attack Jailbreak ASR ICML2024