Introduction


  • 기존 영어권 편향 벤치마크(BBQ, StereoSet, CrowS-Pairs)는 미국 중심 문화를 전제 → 한국 사회의 편향 패턴과 불일치 (예: 약물 사용이 미국에서는 저소득층, 한국에서는 고소득층 고정관념)
  • BBQ(Parrish et al., 2022)를 단순 기계 번역하면 (1) 문화적 차이로 편향 방향이 왜곡되고, (2) 번역 품질 저하로 QA 성능이 왜곡됨
  • 한국 고유의 편향 범주(출신 지역, 가족 구성, 정치 성향, 학력) 가 기존 벤치마크에 전혀 반영되지 않음
  • 주요 기여: (1) 문화 적응 파이프라인(Simply-Transferred / Target-Modified / Sample-Removed + Newly-Created) 제안, (2) KoBBQ 데이터셋 구축 (268 템플릿, 76,048 샘플, 12 편향 범주), (3) 100명 규모 대규모 설문 검증, (4) 6개 다국어 LLM 종합 평가

Related Papers


  • BBQ (Parrish et al., 2022): 미국 사회 편향 기반 MC-QA 벤치마크 — 9개 편향 범주, 모호한/명확한 맥락 설계
  • CBBQ (Huang & Xiong, 2023): 중국 문화 BBQ 적응 — human-AI 협업이나 대규모 공개 설문 없음
  • KoSBi (Lee et al., 2023): 한국어 사회 편향 위험 완화 데이터셋 — 생성 LM 안전성 평가, 인구통계 분류 체계 참조
  • StereoSet (Nadeem et al., 2021): 마스킹 LM 고정관념 측정 — K-StereoSet은 기계 번역 노이즈 존재
  • CrowS-Pairs (Nangia et al., 2020): 사회적 편향 측정 — 반사실적 쌍 비교, 마스킹 LM 전용

Methods


  • BBQ 구조: 각 템플릿에서 2(맥락: 모호/명확) × 2(질문: 편향/반편향) = 8개 context-question 쌍 생성
    • 모호한 맥락 → 정답은 항상 “알 수 없음(unknown)”
    • 명확한 맥락 → 편향 또는 반편향 답변이 정답
  • 데이터셋 구축 5단계:
    1. BBQ 템플릿 분류: Simply-Transferred(ST, 107), Target-Modified(TM, 42), Sample-Removed(SR, 48)
    2. 문화적 민감 번역: DeepL 기계 번역 → 전문 번역가 감수 (예: Walmart → 이마트, dark hair → 탈색 머리)
    3. 인구통계 범주 재구성: 인종/민족/국적을 하나로 통합, KoSBi 분류 체계 참조
    4. 한국 고유 템플릿 신규 작성(NC, 119): 인터뷰 연구·통계 보고서·전문가 분석 기사 기반
    5. 대규모 설문 검증: Macromill Embrain, 고정관념당 100명(성별·연령 균형), 2종 설문(타겟 그룹 선정 + 고정관념 검증)
  • 필터링: 타겟 그룹 선정 기준(2× 균등 분포), 고정관념 검증(2/3 이상 동의), 독해 이해도(<50% 정답 제외) → 총 16~18% 템플릿 제거
  • 평가 방식: Zero-shot MC-QA (3지선다: 타겟 그룹, 비타겟 그룹, “알 수 없음”), 5가지 한국어 프롬프트, 답변 순서 순환 배치
  • 평가 지표: Acc_a(모호 정확도), Acc_d(명확 정확도), Diff-bias_a(모호 편향), Diff-bias_d(명확 편향)
    • 이상적 모델: Accuracy = 1, Diff-bias = 0
    • 완전 편향 모델: Diff-bias = 1

12가지 편향 범주

범주유형한국 고유최종 템플릿샘플 수
연령 (Age)ST+NC213,608
장애 (Disability)ST202,160
성별 (Gender Identity)ST25768
외모 (Physical Appearance)ST+NC204,040
인종/민족/국적TM+NC4351,856
종교 (Religion)SR+TM+ST+NC20688
사회경제적 지위 (SES)SR+TM+ST+NC276,928
성적 지향 (Sexual Orientation)SR+TM+ST+NC12552
출신 지역NC22800
가족 구성NC231,096
정치 성향NC11312
학력NC243,240
합계26876,048

방법론 다이어그램

graph TD
    A["원본 BBQ<br/>(영어, 미국 중심)"] --> B{"템플릿 분류"}
    B --> C["Simply-Transferred (107)"]
    B --> D["Target-Modified (42)"]
    B --> E["Sample-Removed (48)"]
    B --> F["Newly-Created (119)<br/>한국 고유 4범주"]

    C --> G["문화적 민감 번역<br/>DeepL + 전문 번역가"]
    D --> G
    F --> H["연구문헌 기반<br/>템플릿 작성"]

    G --> I["대규모 설문 검증<br/>(100명/고정관념)"]
    H --> I
    I --> J["필터링<br/>(타겟 선정 + 검증 + 독해)"]
    J --> K["KoBBQ<br/>268 템플릿 · 76,048 샘플"]

    K --> L["Zero-shot MC-QA 평가<br/>6개 LLM"]

    style A fill:#e1f5fe
    style K fill:#e8f5e9
    style F fill:#fff9c4

Results


  • GPT-4가 가장 우수: 모호 맥락 정확도 0.965, 편향 0.026 / 명확 맥락 정확도 0.959, 편향 0.005
  • Claude-v1이 가장 높은 모호 맥락 편향: 0.258 — 정확도는 중간이지만 고정관념 방향 답변 선호
  • GPT-3.5가 가장 높은 명확 맥락 편향: 0.087 — 맥락 정보를 받아도 편향적 답변 경향
  • 한국 고유 범주(NC): 모호 맥락에서 가장 낮은 정확도 + 가장 높은 편향 → 기존 LLM이 한국 문화 편향에 노출되지 않았음을 시사
  • 연령·정치 성향 편향이 유의미하게 높음, 사회경제적 지위·성별 편향은 상대적으로 낮음
  • KoBBQ vs 기계번역 BBQ: 명확 맥락 정확도에서 KoBBQ가 유의미하게 높고(수동 번역 효과), 모호 맥락 편향은 KoBBQ가 더 높음(기계번역은 편향을 과소 추정)

모호 맥락 (Ambiguous Context)

ModelAccuracy ↑Diff-bias ↓
KoAlpaca0.1730.017
Claude-v10.2700.258
Claude-v20.5500.156
GPT-3.50.6190.165
CLOVA-X0.8600.058
GPT-40.9650.026

명확 맥락 (Disambiguated Context)

ModelAccuracy ↑Diff-bias ↓
KoAlpaca0.4250.025
CLOVA-X0.7750.036
GPT-3.50.8580.087
Claude-v20.8760.032
Claude-v10.9100.032
GPT-40.9590.005

GPT-4의 데이터셋 구축 대체 가능성

과제정확도/F1평가
타겟 그룹 선정 (vs 인간 설문)Acc 23.8%, F1 39.7%매우 낮음
맥락 생성비문화적·편향된 반편향 맥락 생성부적합

Discussion


  • 한계 1: 편향 인식의 주관성 — 100명 응답으로도 사회 편향은 본질적으로 주관적; 결과를 절대적 기준으로 해석 불가
  • 한계 2: 불완전한 범주 커버리지 — 한국 사회에 존재하는 추가 편향 범주가 미반영
  • 한계 3: QA 성능과 편향 측정의 혼재 — Diff-bias 지표가 정확도에 의해 수학적으로 제약됨; 두 지표를 함께 고려해야 함
  • 핵심 발견: 기계 번역만으로는 문화적 편향을 포착할 수 없음 — 동일 ST/TM 샘플에서도 KoBBQ와 mtBBQ가 통계적으로 유의미한 차이를 보임
  • 향후 방향: 다른 언어/문화권으로의 확장(프레임워크 재사용 가능), GPT-4 등 LLM의 데이터셋 구축 보조 역할 강화, 한국어 특화 LLM의 편향 완화 연구