Introduction

LLM의 사회적 편향(social bias) 생성 가능성이 높아지면서 체계적 평가 필요성 증가
기존 편향 평가 지표(WEAT, SEAT, StereoSet, CrowS-Pairs)는 다음과 같은 한계를 지님:
- 쌍(paired) 키워드/문장 필요, 모델 내부 가중치 접근 필요, 대규모 라벨 데이터셋 필요
- 해석 가능성(interpretability)이 매우 낮음
- Debiasing 기법으로 학습된 모델이 기존 벤치마크를 우회할 수 있음
주요 기여: (1) 1,800개 Bias Attack Instructions 데이터셋 설계, (2) GPT-4를 판별 모델로 활용한 GPTBIAS 프레임워크 제안, (3) 편향 점수뿐 아니라 편향 유형·영향 인구통계·원인·개선 제안까지 제공하는 해석 가능한 평가, (4) 교차 편향(intersectional bias) 탐지 지원

WEAT (Caliskan et al., 2017): 단어 임베딩 기반 연상 테스트 — 벡터 거리로 편향 측정, 모델 가중치 접근 필요
StereoSet (Nadeem et al., 2020): 클로즈(cloze) 완성 과제 기반 편향 측정 — 4가지 고정관념 유형, 점수 50 = 무편향
CrowS-Pairs (Nangia et al., 2020): 마스킹 LM의 고정관념 vs 반고정관념 문장 선호도 비교 — 9가지 편향 유형, 쌍 데이터 필요
RedditBias (Barikeri et al., 2021): 실제 Reddit 데이터 기반 대화 LM 편향 평가 — Student’s t-test 활용
Safety Assessment of Chinese LLMs (Sun et al., 2023): ChatGPT를 중국어 LLM 안전성 평가에 활용 — GPTBIAS의 직접적 영감

Methods

Bias Attack Instructions 설계: 9가지 편향 유형별 수동 시연 10개 → ChatGPT로 부트스트래핑 생성 → Rouge-L < 0.7 다양성 필터링 → 유형당 200개, 총 1,800개 프롬프트
9가지 편향 유형: Gender, Religion, Race, Age, Nationality, Disability, Sexual Orientation, Physical Appearance, Socioeconomic Status
평가 파이프라인: (1) 공격 프롬프트를 타겟 LLM에 입력 → (2) 응답 수집 → (3) (프롬프트, 응답) 쌍을 평가 템플릿에 삽입 → (4) GPT-4가 편향 여부를 판정하고 구조화된 분석 반환 → (5) GPTBIAS-Score 계산
GPTBIAS-Score: (특정 편향 유형의 편향 판정 수) / (해당 유형 전체 프롬프트 수) — 0~1 스케일, 높을수록 편향
교차 편향(Intersectional Bias): 하나의 프롬프트에서 복수의 편향 유형이 동시에 탐지되는 경우
평가 대상 모델: OPT-66B, BLOOMZ-176B, LLaMA-7B/33B/65B, text-davinci-002/003, ChatGPT (gpt-3.5-turbo)
인간 평가: 3명의 어노테이터가 편향 유형별 100개 샘플 이진 분류 → GPTBIAS 점수와 높은 일치도

방법론 다이어그램

graph LR
    A["Bias Attack Instructions<br/>(9 유형 × 200 = 1,800)"] --> B["타겟 LLM<br/>응답 생성"]
    B --> C["평가 템플릿 구성<br/>(프롬프트 + 응답)"]
    C --> D["GPT-4 판별"]
    D --> E["구조화된 출력"]
    E --> F["GPTBIAS-Score<br/>편향 비율 계산"]

    E --> E1["편향 여부 (Y/N)"]
    E --> E2["편향 유형"]
    E --> E3["영향 인구통계"]
    E --> E4["원인 분석"]
    E --> E5["개선 제안"]

    style A fill:#e1f5fe
    style F fill:#e8f5e9

Results

오픈소스 모델은 높은 편향: GPTBIAS 평균 0.62~0.70 (기존 CrowS-Pairs/StereoSet로는 탐지 어려운 미묘한 편향 포착)
ChatGPT가 가장 낮은 편향: 평균 0.148 — 오픈소스 모델 대비 약 4배 낮음
모델 크기 증가 ≠ 편향 감소: LLaMA 7B(0.62) → 33B(0.63) → 65B(0.64)로 규모 증가 시 편향도 증가
인종 편향이 가장 높은 교차 편향 유형: 모든 모델에서 Race 카테고리의 교차 편향이 최고치
GPT-4 vs ChatGPT 판별: GPT-4가 ChatGPT 대비 약 2.7배 높은 편향 탐지 — 미묘한 편향에 대한 정확도 차이

GPT-3 시리즈 GPTBIAS 점수 (GPT-4 판별)

Model	Gender	Religion	Race	Age	Nationality	Disability	Orientation	Appearance	SES	Avg.
text-davinci-002	0.75	0.65	0.82	0.57	0.61	0.49	0.65	0.59	0.14	0.59
text-davinci-003	0.75	0.54	0.68	0.59	0.52	0.44	0.55	0.59	0.12	0.53
ChatGPT	0.48	0.005	0.025	0.05	0.009	0.013	0.18	0.455	0.115	0.148

교차 편향 점수 (Intersectional Bias)

Model	Gender	Religion	Race	Age	Nationality	Disability	Orientation	Appearance	SES	Avg.
OPT-66B	0.025	0.180	0.400	0.065	0.200	0.100	0.210	0.155	0.005	0.149
BLOOMZ	0.060	0.150	0.340	0.040	0.170	0.140	0.360	0.230	0.025	0.168
LLaMA-7B	0.045	0.125	0.340	0.055	0.350	0.150	0.270	0.140	0.025	0.167
LLaMA-65B	0.105	0.120	0.370	0.080	0.155	0.140	0.300	0.090	0.010	0.152
ChatGPT	0.005	0	0.005	0.005	0.010	0.015	0.055	0.125	0	0.024

기존 지표 vs GPTBIAS 비교

Metric	Labels	Attributes	Model Weights	Paired Data	Intersectional	Bias Types
WEAT	Yes	Yes	Yes	Yes	No	3
StereoSet	Yes	No	No	Yes	No	4
CrowS-Pairs	No	No	No	Yes	No	9
GPTBIAS	No	No	No	No	Yes	9

Discussion

한계 1: GPT-4 의존성 — 판별 모델 자체의 편향이 평가 결과에 전이될 가능성
한계 2: 편향 탐지 정확도 — GPT-4의 학습된 패턴에 의존하므로 맥락 특수적(context-specific) 편향을 완전히 포착하지 못할 수 있음
한계 3: 언어 일반화 — 영어 LLM과 영어 텍스트에만 실험; 다국어 모델에 대한 효과는 미검증
주요 발견: 기존 StereoSet/CrowS-Pairs에서 낮은 편향을 보이던 모델도 GPTBIAS의 open-ended 공격 프롬프트에서는 높은 편향 노출 → debiasing 학습이 기존 벤치마크에 과적합(overfitting)되어 있을 가능성
시사점: LLM 규모 확대는 성능 향상과 동시에 편향 증가를 수반할 수 있으므로, 편향 평가와 완화가 병행되어야 함

Juhyeon's Blog

탐색기

GPTBIAS - A Comprehensive Framework for Evaluating Bias in Large Language Models

Introduction

Methods

방법론 다이어그램

Results

GPT-3 시리즈 GPTBIAS 점수 (GPT-4 판별)

교차 편향 점수 (Intersectional Bias)

기존 지표 vs GPTBIAS 비교

Discussion

그래프 뷰

목차

Properties

백링크

GPTBIAS - A Comprehensive Framework for Evaluating Bias in Large Language Models

Introduction

Related Papers

Methods

방법론 다이어그램

Results

GPT-3 시리즈 GPTBIAS 점수 (GPT-4 판별)

교차 편향 점수 (Intersectional Bias)

기존 지표 vs GPTBIAS 비교

Discussion

그래프 뷰

목차

Properties

백링크