Introduction


  • LLM의 사회적 편향(social bias) 생성 가능성이 높아지면서 체계적 평가 필요성 증가
  • 기존 편향 평가 지표(WEAT, SEAT, StereoSet, CrowS-Pairs)는 다음과 같은 한계를 지님:
    • 쌍(paired) 키워드/문장 필요, 모델 내부 가중치 접근 필요, 대규모 라벨 데이터셋 필요
    • 해석 가능성(interpretability)이 매우 낮음
    • Debiasing 기법으로 학습된 모델이 기존 벤치마크를 우회할 수 있음
  • 주요 기여: (1) 1,800개 Bias Attack Instructions 데이터셋 설계, (2) GPT-4를 판별 모델로 활용한 GPTBIAS 프레임워크 제안, (3) 편향 점수뿐 아니라 편향 유형·영향 인구통계·원인·개선 제안까지 제공하는 해석 가능한 평가, (4) 교차 편향(intersectional bias) 탐지 지원

Related Papers


  • WEAT (Caliskan et al., 2017): 단어 임베딩 기반 연상 테스트 — 벡터 거리로 편향 측정, 모델 가중치 접근 필요
  • StereoSet (Nadeem et al., 2020): 클로즈(cloze) 완성 과제 기반 편향 측정 — 4가지 고정관념 유형, 점수 50 = 무편향
  • CrowS-Pairs (Nangia et al., 2020): 마스킹 LM의 고정관념 vs 반고정관념 문장 선호도 비교 — 9가지 편향 유형, 쌍 데이터 필요
  • RedditBias (Barikeri et al., 2021): 실제 Reddit 데이터 기반 대화 LM 편향 평가 — Student’s t-test 활용
  • Safety Assessment of Chinese LLMs (Sun et al., 2023): ChatGPT를 중국어 LLM 안전성 평가에 활용 — GPTBIAS의 직접적 영감

Methods


  • Bias Attack Instructions 설계: 9가지 편향 유형별 수동 시연 10개 → ChatGPT로 부트스트래핑 생성 → Rouge-L < 0.7 다양성 필터링 → 유형당 200개, 총 1,800개 프롬프트
  • 9가지 편향 유형: Gender, Religion, Race, Age, Nationality, Disability, Sexual Orientation, Physical Appearance, Socioeconomic Status
  • 평가 파이프라인: (1) 공격 프롬프트를 타겟 LLM에 입력 → (2) 응답 수집 → (3) (프롬프트, 응답) 쌍을 평가 템플릿에 삽입 → (4) GPT-4가 편향 여부를 판정하고 구조화된 분석 반환 → (5) GPTBIAS-Score 계산
  • GPTBIAS-Score: (특정 편향 유형의 편향 판정 수) / (해당 유형 전체 프롬프트 수) — 0~1 스케일, 높을수록 편향
  • 교차 편향(Intersectional Bias): 하나의 프롬프트에서 복수의 편향 유형이 동시에 탐지되는 경우
  • 평가 대상 모델: OPT-66B, BLOOMZ-176B, LLaMA-7B/33B/65B, text-davinci-002/003, ChatGPT (gpt-3.5-turbo)
  • 인간 평가: 3명의 어노테이터가 편향 유형별 100개 샘플 이진 분류 → GPTBIAS 점수와 높은 일치도

방법론 다이어그램

graph LR
    A["Bias Attack Instructions<br/>(9 유형 × 200 = 1,800)"] --> B["타겟 LLM<br/>응답 생성"]
    B --> C["평가 템플릿 구성<br/>(프롬프트 + 응답)"]
    C --> D["GPT-4 판별"]
    D --> E["구조화된 출력"]
    E --> F["GPTBIAS-Score<br/>편향 비율 계산"]

    E --> E1["편향 여부 (Y/N)"]
    E --> E2["편향 유형"]
    E --> E3["영향 인구통계"]
    E --> E4["원인 분석"]
    E --> E5["개선 제안"]

    style A fill:#e1f5fe
    style F fill:#e8f5e9

Results


  • 오픈소스 모델은 높은 편향: GPTBIAS 평균 0.62~0.70 (기존 CrowS-Pairs/StereoSet로는 탐지 어려운 미묘한 편향 포착)
  • ChatGPT가 가장 낮은 편향: 평균 0.148 — 오픈소스 모델 대비 약 4배 낮음
  • 모델 크기 증가 ≠ 편향 감소: LLaMA 7B(0.62) → 33B(0.63) → 65B(0.64)로 규모 증가 시 편향도 증가
  • 인종 편향이 가장 높은 교차 편향 유형: 모든 모델에서 Race 카테고리의 교차 편향이 최고치
  • GPT-4 vs ChatGPT 판별: GPT-4가 ChatGPT 대비 약 2.7배 높은 편향 탐지 — 미묘한 편향에 대한 정확도 차이

GPT-3 시리즈 GPTBIAS 점수 (GPT-4 판별)

ModelGenderReligionRaceAgeNationalityDisabilityOrientationAppearanceSESAvg.
text-davinci-0020.750.650.820.570.610.490.650.590.140.59
text-davinci-0030.750.540.680.590.520.440.550.590.120.53
ChatGPT0.480.0050.0250.050.0090.0130.180.4550.1150.148

교차 편향 점수 (Intersectional Bias)

ModelGenderReligionRaceAgeNationalityDisabilityOrientationAppearanceSESAvg.
OPT-66B0.0250.1800.4000.0650.2000.1000.2100.1550.0050.149
BLOOMZ0.0600.1500.3400.0400.1700.1400.3600.2300.0250.168
LLaMA-7B0.0450.1250.3400.0550.3500.1500.2700.1400.0250.167
LLaMA-65B0.1050.1200.3700.0800.1550.1400.3000.0900.0100.152
ChatGPT0.00500.0050.0050.0100.0150.0550.12500.024

기존 지표 vs GPTBIAS 비교

MetricLabelsAttributesModel WeightsPaired DataIntersectionalBias Types
WEATYesYesYesYesNo3
StereoSetYesNoNoYesNo4
CrowS-PairsNoNoNoYesNo9
GPTBIASNoNoNoNoYes9

Discussion


  • 한계 1: GPT-4 의존성 — 판별 모델 자체의 편향이 평가 결과에 전이될 가능성
  • 한계 2: 편향 탐지 정확도 — GPT-4의 학습된 패턴에 의존하므로 맥락 특수적(context-specific) 편향을 완전히 포착하지 못할 수 있음
  • 한계 3: 언어 일반화 — 영어 LLM과 영어 텍스트에만 실험; 다국어 모델에 대한 효과는 미검증
  • 주요 발견: 기존 StereoSet/CrowS-Pairs에서 낮은 편향을 보이던 모델도 GPTBIAS의 open-ended 공격 프롬프트에서는 높은 편향 노출 → debiasing 학습이 기존 벤치마크에 과적합(overfitting)되어 있을 가능성
  • 시사점: LLM 규모 확대는 성능 향상과 동시에 편향 증가를 수반할 수 있으므로, 편향 평가와 완화가 병행되어야 함