Introduction

기존 영어권 편향 벤치마크(BBQ, StereoSet, CrowS-Pairs)는 미국 중심 문화를 전제 → 한국 사회의 편향 패턴과 불일치 (예: 약물 사용이 미국에서는 저소득층, 한국에서는 고소득층 고정관념)
BBQ(Parrish et al., 2022)를 단순 기계 번역하면 (1) 문화적 차이로 편향 방향이 왜곡되고, (2) 번역 품질 저하로 QA 성능이 왜곡됨
한국 고유의 편향 범주(출신 지역, 가족 구성, 정치 성향, 학력) 가 기존 벤치마크에 전혀 반영되지 않음
주요 기여: (1) 문화 적응 파이프라인(Simply-Transferred / Target-Modified / Sample-Removed + Newly-Created) 제안, (2) KoBBQ 데이터셋 구축 (268 템플릿, 76,048 샘플, 12 편향 범주), (3) 100명 규모 대규모 설문 검증, (4) 6개 다국어 LLM 종합 평가

BBQ (Parrish et al., 2022): 미국 사회 편향 기반 MC-QA 벤치마크 — 9개 편향 범주, 모호한/명확한 맥락 설계
CBBQ (Huang & Xiong, 2023): 중국 문화 BBQ 적응 — human-AI 협업이나 대규모 공개 설문 없음
KoSBi (Lee et al., 2023): 한국어 사회 편향 위험 완화 데이터셋 — 생성 LM 안전성 평가, 인구통계 분류 체계 참조
StereoSet (Nadeem et al., 2021): 마스킹 LM 고정관념 측정 — K-StereoSet은 기계 번역 노이즈 존재
CrowS-Pairs (Nangia et al., 2020): 사회적 편향 측정 — 반사실적 쌍 비교, 마스킹 LM 전용

Methods

BBQ 구조: 각 템플릿에서 2(맥락: 모호/명확) × 2(질문: 편향/반편향) = 8개 context-question 쌍 생성
- 모호한 맥락 → 정답은 항상 “알 수 없음(unknown)”
- 명확한 맥락 → 편향 또는 반편향 답변이 정답
데이터셋 구축 5단계:
1. BBQ 템플릿 분류: Simply-Transferred(ST, 107), Target-Modified(TM, 42), Sample-Removed(SR, 48)
2. 문화적 민감 번역: DeepL 기계 번역 → 전문 번역가 감수 (예: Walmart → 이마트, dark hair → 탈색 머리)
3. 인구통계 범주 재구성: 인종/민족/국적을 하나로 통합, KoSBi 분류 체계 참조
4. 한국 고유 템플릿 신규 작성(NC, 119): 인터뷰 연구·통계 보고서·전문가 분석 기사 기반
5. 대규모 설문 검증: Macromill Embrain, 고정관념당 100명(성별·연령 균형), 2종 설문(타겟 그룹 선정 + 고정관념 검증)
필터링: 타겟 그룹 선정 기준(2× 균등 분포), 고정관념 검증(2/3 이상 동의), 독해 이해도(<50% 정답 제외) → 총 16~18% 템플릿 제거
평가 방식: Zero-shot MC-QA (3지선다: 타겟 그룹, 비타겟 그룹, “알 수 없음”), 5가지 한국어 프롬프트, 답변 순서 순환 배치
평가 지표: Acc_a(모호 정확도), Acc_d(명확 정확도), Diff-bias_a(모호 편향), Diff-bias_d(명확 편향)
- 이상적 모델: Accuracy = 1, Diff-bias = 0
- 완전 편향 모델: Diff-bias = 1

12가지 편향 범주

범주	유형	한국 고유	최종 템플릿	샘플 수
연령 (Age)	ST+NC		21	3,608
장애 (Disability)	ST		20	2,160
성별 (Gender Identity)	ST		25	768
외모 (Physical Appearance)	ST+NC		20	4,040
인종/민족/국적	TM+NC		43	51,856
종교 (Religion)	SR+TM+ST+NC		20	688
사회경제적 지위 (SES)	SR+TM+ST+NC		27	6,928
성적 지향 (Sexual Orientation)	SR+TM+ST+NC		12	552
출신 지역	NC	✓	22	800
가족 구성	NC	✓	23	1,096
정치 성향	NC	✓	11	312
학력	NC	✓	24	3,240
합계			268	76,048

방법론 다이어그램

graph TD
    A["원본 BBQ<br/>(영어, 미국 중심)"] --> B{"템플릿 분류"}
    B --> C["Simply-Transferred (107)"]
    B --> D["Target-Modified (42)"]
    B --> E["Sample-Removed (48)"]
    B --> F["Newly-Created (119)<br/>한국 고유 4범주"]

    C --> G["문화적 민감 번역<br/>DeepL + 전문 번역가"]
    D --> G
    F --> H["연구문헌 기반<br/>템플릿 작성"]

    G --> I["대규모 설문 검증<br/>(100명/고정관념)"]
    H --> I
    I --> J["필터링<br/>(타겟 선정 + 검증 + 독해)"]
    J --> K["KoBBQ<br/>268 템플릿 · 76,048 샘플"]

    K --> L["Zero-shot MC-QA 평가<br/>6개 LLM"]

    style A fill:#e1f5fe
    style K fill:#e8f5e9
    style F fill:#fff9c4

Results

GPT-4가 가장 우수: 모호 맥락 정확도 0.965, 편향 0.026 / 명확 맥락 정확도 0.959, 편향 0.005
Claude-v1이 가장 높은 모호 맥락 편향: 0.258 — 정확도는 중간이지만 고정관념 방향 답변 선호
GPT-3.5가 가장 높은 명확 맥락 편향: 0.087 — 맥락 정보를 받아도 편향적 답변 경향
한국 고유 범주(NC): 모호 맥락에서 가장 낮은 정확도 + 가장 높은 편향 → 기존 LLM이 한국 문화 편향에 노출되지 않았음을 시사
연령·정치 성향 편향이 유의미하게 높음, 사회경제적 지위·성별 편향은 상대적으로 낮음
KoBBQ vs 기계번역 BBQ: 명확 맥락 정확도에서 KoBBQ가 유의미하게 높고(수동 번역 효과), 모호 맥락 편향은 KoBBQ가 더 높음(기계번역은 편향을 과소 추정)

모호 맥락 (Ambiguous Context)

Model	Accuracy ↑	Diff-bias ↓
KoAlpaca	0.173	0.017
Claude-v1	0.270	0.258
Claude-v2	0.550	0.156
GPT-3.5	0.619	0.165
CLOVA-X	0.860	0.058
GPT-4	0.965	0.026

명확 맥락 (Disambiguated Context)

Model	Accuracy ↑	Diff-bias ↓
KoAlpaca	0.425	0.025
CLOVA-X	0.775	0.036
GPT-3.5	0.858	0.087
Claude-v2	0.876	0.032
Claude-v1	0.910	0.032
GPT-4	0.959	0.005

GPT-4의 데이터셋 구축 대체 가능성

과제	정확도/F1	평가
타겟 그룹 선정 (vs 인간 설문)	Acc 23.8%, F1 39.7%	매우 낮음
맥락 생성	비문화적·편향된 반편향 맥락 생성	부적합

Discussion

한계 1: 편향 인식의 주관성 — 100명 응답으로도 사회 편향은 본질적으로 주관적; 결과를 절대적 기준으로 해석 불가
한계 2: 불완전한 범주 커버리지 — 한국 사회에 존재하는 추가 편향 범주가 미반영
한계 3: QA 성능과 편향 측정의 혼재 — Diff-bias 지표가 정확도에 의해 수학적으로 제약됨; 두 지표를 함께 고려해야 함
핵심 발견: 기계 번역만으로는 문화적 편향을 포착할 수 없음 — 동일 ST/TM 샘플에서도 KoBBQ와 mtBBQ가 통계적으로 유의미한 차이를 보임
향후 방향: 다른 언어/문화권으로의 확장(프레임워크 재사용 가능), GPT-4 등 LLM의 데이터셋 구축 보조 역할 강화, 한국어 특화 LLM의 편향 완화 연구

Juhyeon's Blog

탐색기

KoBBQ - Korean Bias Benchmark for Question Answering

Introduction

Methods

12가지 편향 범주

방법론 다이어그램

Results

모호 맥락 (Ambiguous Context)

명확 맥락 (Disambiguated Context)

GPT-4의 데이터셋 구축 대체 가능성

Discussion

그래프 뷰

목차

Properties

백링크

KoBBQ - Korean Bias Benchmark for Question Answering

Introduction

Related Papers

Methods

12가지 편향 범주

방법론 다이어그램

Results

모호 맥락 (Ambiguous Context)

명확 맥락 (Disambiguated Context)

GPT-4의 데이터셋 구축 대체 가능성

Discussion

그래프 뷰

목차

Properties

백링크