문화적 민감 번역: DeepL 기계 번역 → 전문 번역가 감수 (예: Walmart → 이마트, dark hair → 탈색 머리)
인구통계 범주 재구성: 인종/민족/국적을 하나로 통합, KoSBi 분류 체계 참조
한국 고유 템플릿 신규 작성(NC, 119): 인터뷰 연구·통계 보고서·전문가 분석 기사 기반
대규모 설문 검증: Macromill Embrain, 고정관념당 100명(성별·연령 균형), 2종 설문(타겟 그룹 선정 + 고정관념 검증)
필터링: 타겟 그룹 선정 기준(2× 균등 분포), 고정관념 검증(2/3 이상 동의), 독해 이해도(<50% 정답 제외) → 총 16~18% 템플릿 제거
평가 방식: Zero-shot MC-QA (3지선다: 타겟 그룹, 비타겟 그룹, “알 수 없음”), 5가지 한국어 프롬프트, 답변 순서 순환 배치
평가 지표: Acc_a(모호 정확도), Acc_d(명확 정확도), Diff-bias_a(모호 편향), Diff-bias_d(명확 편향)
이상적 모델: Accuracy = 1, Diff-bias = 0
완전 편향 모델: Diff-bias = 1
12가지 편향 범주
범주
유형
한국 고유
최종 템플릿
샘플 수
연령 (Age)
ST+NC
21
3,608
장애 (Disability)
ST
20
2,160
성별 (Gender Identity)
ST
25
768
외모 (Physical Appearance)
ST+NC
20
4,040
인종/민족/국적
TM+NC
43
51,856
종교 (Religion)
SR+TM+ST+NC
20
688
사회경제적 지위 (SES)
SR+TM+ST+NC
27
6,928
성적 지향 (Sexual Orientation)
SR+TM+ST+NC
12
552
출신 지역
NC
✓
22
800
가족 구성
NC
✓
23
1,096
정치 성향
NC
✓
11
312
학력
NC
✓
24
3,240
합계
268
76,048
방법론 다이어그램
graph TD
A["원본 BBQ<br/>(영어, 미국 중심)"] --> B{"템플릿 분류"}
B --> C["Simply-Transferred (107)"]
B --> D["Target-Modified (42)"]
B --> E["Sample-Removed (48)"]
B --> F["Newly-Created (119)<br/>한국 고유 4범주"]
C --> G["문화적 민감 번역<br/>DeepL + 전문 번역가"]
D --> G
F --> H["연구문헌 기반<br/>템플릿 작성"]
G --> I["대규모 설문 검증<br/>(100명/고정관념)"]
H --> I
I --> J["필터링<br/>(타겟 선정 + 검증 + 독해)"]
J --> K["KoBBQ<br/>268 템플릿 · 76,048 샘플"]
K --> L["Zero-shot MC-QA 평가<br/>6개 LLM"]
style A fill:#e1f5fe
style K fill:#e8f5e9
style F fill:#fff9c4