HotpotQA: 다양하고 설명 가능한 멀티-홉 질문 응답 데이터셋
Digest: 기존 QA 데이터셋은 단일 문단 추론(SQuAD)이거나 지식 베이스(KB) 구조에 종속(QAngaroo, ComplexWebQuestions)되어, 복합적 추론 능력을 충분히 측정하지 못했다. HotpotQA는 Wikipedia 하이퍼링크 그래프에서 브릿지 엔티티(bridge entity)—두 문서를 연결하는 중간 개념—를 활용해 두 문단을 반드시 참조해야 답할 수 있는 질문 113k개를 크라우드소싱으로 구축했다. 핵심적으로, 답뿐 아니라 **문장 수준의 지지 사실(supporting facts)**을 명시적으로 레이블링함으로써 모델의 설명 가능성을 평가하는 Joint F1 지표를 처음 도입했다. 비교 질문(“A와 B 중 누가 더 ~한가?“)이라는 새로운 유형도 포함된다.
Distractor 설정(노이즈 문단 혼합)에서 베이스라인 모델은 Answer EM 45.46%(Table 4)에 그친 반면, 인간 상한선은 EM 96.80%(Table 8)로 50%p 이상 격차가 존재하며, Full Wiki 설정에서는 Joint F1이 17.8%까지 하락해 검색-추론 파이프라인의 오류 전파가 핵심 병목임을 실증적으로 보여준다.
섹션별 요약
Introduction
기존 QA 데이터셋의 세 가지 한계를 지적한다. 첫째, SQuAD는 단일 문단 내에서 답을 찾도록 설계되어 멀티-홉 추론을 측정하지 못한다. 둘째, QAngaroo나 ComplexWebQuestions는 지식 베이스 구조에 의존하여 질문 유형이 편향된다. 셋째, 기존 데이터셋은 어떤 문장이 근거인지에 대한 감독 신호(supervision signal)를 제공하지 않아 모델의 추론 과정을 검증할 수 없다. HotpotQA는 이 세 가지를 동시에 해결하는 데이터셋을 제안한다.
Methods
Wikipedia 첫 문단의 하이퍼링크로 방향 그래프를 구성하고, WikiProject에서 선별한 591개 카테고리를 기반으로 브릿지 엔티티를 포함하는 후보 문단 쌍을 추출한다. 크라우드워커는 두 문단을 모두 참조해야만 답할 수 있는 질문을 작성하며, 단일 문단으로 답 가능한 질문은 필터링된다. 비교 질문은 42개의 유사 엔티티 목록에서 생성한다. 답변과 함께 지지 사실 문장을 레이블링하여 강한 감독 신호를 확보한다. 베이스라인 모델은 문자 수준 임베딩, 셀프-어텐션, 바이-어텐션을 결합하고, 답변 예측과 지지 사실 식별을 멀티태스크 학습으로 공동 최적화한다.
Results
EM (Exact Match) & F1
EM (Exact Match) 은 모델의 예측을 정규화(소문자 변환, 관사·구두점·공백 제거) 한 뒤, 정답 문자열과 완전히 일치하면 1, 아니면 0으로 채점하는 이진 지표이다. 반면 F1은 예측과 정답을 토큰 집합으로 보고 precision과 recall의 조화 평균을 구하므로, 부분 일치도 점수에 반영된다. 따라서 동일 모델에서 항상 EM ≤ F1 관계가 성립한다.
| Setting | Split | Answer EM | Answer F1 | Supp. Fact EM | Supp. Fact F1 | Joint F1 |
|---|---|---|---|---|---|---|
| Distractor | Dev | 44.44% | 58.28% | 21.95% | 66.66% | 41% |
| Distractor | Test | 45.46% | 58.99% | 22.24% | 66.62% | 41% |
| Full Wiki | Dev | 24.68% | 34.36% | 5.28% | 40.98% | 17.8% |
| Full Wiki | Test | 25.23% | 34.40% | 5.07% | 40.69% | 17.8% |
인간 상한선(1,000 샘플): Answer EM 96.80%, F1 98.77%, Supporting Fact EM 87.40%, F1 97.56% (Table 8).
Discussion
두 문단 비교에 한정된 2-hop 구조로 인해 3-hop 이상의 복잡한 추론은 거의 포함되지 않는다(기타 유형 2%). Wikipedia 하이퍼링크에만 의존한 구성은 특정 도메인(과학, 법률 등)의 멀티-홉 추론을 과소 대표할 수 있다. 또한 dev/test에서 단일 문단으로 답 가능한 질문이 6% 잔존하여, shortcut learning의 가능성이 존재한다.
Insights
- 주목할 점: 지지 사실(supporting facts)을 크라우드소싱으로 수집하여, 답만 수집하던 기존 방식을 넘어 설명 가능한 QA 시스템 연구의 방향을 제시했다. Joint F1 지표는 이후 멀티-홉 QA 연구의 표준 평가 기준이 되었다.
- 연결 고리: 브릿지 엔티티 개념은 지식 그래프 기반 멀티-홉 추론(KGQA, PathRetrieval) 연구와 직결되며, Supporting Facts 레이블은 이후 Chain-of-Thought(CoT) 및 Rationale Extraction 연구의 선구자적 데이터 설계와 맥을 같이한다.
- 시사점: Full Wiki 설정에서 Joint F1이 17.8%에 불과하다는 사실은, 검색-추론 파이프라인의 오류 전파가 핵심 병목임을 실증한다. 이는 Dense Passage Retrieval(DPR), Retrieval-Augmented Generation(RAG) 등 후속 검색 강화 연구의 직접적 동기를 제공한다.
- 비판적 코멘트: 크라우드워커가 두 문단을 보고 직접 질문을 만드는 방식은 질문이 문단의 표층 특징에 과도하게 의존할(shortcut learning) 위험이 있으며, 단일 문단으로 6%가 풀린다는 결과가 이를 뒷받침한다.
Discussion Points
- 논쟁점: “진정한 멀티-홉 추론이 측정되는가?”에 대한 커뮤니티 논쟁이 지속되었다. Min et al.(2019)은 HotpotQA 질문 상당수가 single-hop shortcut으로 풀린다고 지적한다.
- 검증 필요 가정: 멀티태스크 학습으로 지지 사실과 답변의 표현이 공유된다고 가정하지만, 실제 표현 공유 정도는 probing 연구가 필요하다.
- 후속 연구: (1) 검색-추론 공동 학습(IRRR, BeamRetriever), (2) 3-hop 이상 데이터셋 확장(MuSiQue), (3) 지지 사실 기반 설명 생성 및 신뢰도 보정 연구.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering |
| 저자 | Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen, Ruslan Salakhutdinov, Christopher D. Manning |
| 소속 | CMU, Stanford, Mila/U. of Montreal |
| 연도 | 2018 |
| 발표 | EMNLP 2018 (arXiv:1809.09600) |
| 링크 | arXiv, Project |
| 키워드 | Multi-hop QA, Supporting Facts, Explainability, Bridge Entity, Comparison Questions |
왜 이 연구를 하는가?
핵심 질문
모델이 여러 문서에 걸쳐 추론하고, 그 추론 과정을 문장 수준에서 설명할 수 있는 QA 시스템을 어떻게 평가할 것인가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 단일-홉 한정 | SQuAD는 단일 문단 내 답 추출만 요구하여 복합 추론 능력을 측정하지 못함 |
| KB 종속성 | QAngaroo, ComplexWebQuestions는 지식 베이스 스키마에 구속되어 질문 다양성이 제한됨 |
| 감독 신호 부재 | 기존 데이터셋은 답만 제공하고, 어떤 근거에서 도출했는지 감독하지 않아 모델의 추론을 검증 불가 |
| 질문 유형 편향 | 비교 질문 등 다양한 추론 유형이 체계적으로 포함된 데이터셋이 없음 |
핵심 통찰
- Wikipedia 하이퍼링크 그래프에서 브릿지 엔티티를 활용하면, KB 의존 없이도 자연스럽게 멀티-홉 질문을 유도할 수 있다.
- 답변과 함께 지지 사실 문장을 수집하면, 설명 가능성을 정량 평가하는 새로운 차원(Joint F1)을 열 수 있다.
방법 (Method)
프레임워크 개요
graph TD A["Wikipedia 하이퍼링크 그래프<br/>591개 카테고리"] --> B["후보 문단 쌍 추출"] B --> C1["브릿지 엔티티 접근<br/>(멀티-홉 질문)"] B --> C2["비교 질문 생성<br/>(42개 유사 엔티티 목록)"] C1 --> D["크라우드워커 질문 작성<br/>+ 단일-홉 필터링"] C2 --> D D --> E["지지 문장(Supporting Facts)<br/>레이블링"] E --> F["HotpotQA 데이터셋<br/>112,779 QA 쌍"] F --> G1["Distractor 설정<br/>2 gold + 8 TF-IDF 문단"] F --> G2["Full Wiki 설정<br/>Wikipedia 전체 검색"] G1 --> H["베이스라인 모델<br/>(Bi-attention + Self-attention)"] G2 --> H H --> I1["답변 예측<br/>EM / F1"] H --> I2["지지 사실 예측<br/>EM / F1"] I1 --> J["Joint F1 평가"] I2 --> J
핵심 구성요소
1. 데이터 수집 파이프라인
Wikipedia 첫 문단에서 하이퍼링크를 추출하여 방향 그래프를 구성한다. 엣지 (a, b)는 문서 a의 첫 문단에서 문서 b로의 링크를 의미한다. 이 그래프에서 2-hop 경로를 따라 후보 문단 쌍을 선정하고, 크라우드워커에게 두 문단을 모두 읽어야 답할 수 있는 질문을 작성하도록 요청한다.
2. 질문 유형
멀티-홉 추론 유형을 5가지로 분류한다(100개 dev/test 샘플 분석 기준):
| 유형 | 비율 | 설명 |
|---|---|---|
| Type I: 브릿지 엔티티 추론 | 42% | 먼저 브릿지 엔티티를 식별한 후 두 번째 홉 답변 |
| Type II: 속성 교차 | 15% | 여러 속성을 동시에 만족하는 엔티티 탐색 |
| Type III: 속성 추론 | 6% | 브릿지 엔티티를 통해 속성 추론 |
| Comparison: 비교 | 27% | 두 엔티티의 속성 추출 및 비교 |
| Other: 기타 | 2% | 3개 이상 지지 사실 필요 |
3. 벤치마크 설정
Distractor 설정은 2개의 정답 문단에 TF-IDF로 선택한 8개의 방해 문단을 혼합하여, 모델이 노이즈 속에서 관련 정보를 찾아야 한다. Full Wiki 설정은 전체 Wikipedia에서 관련 문서를 검색하는 단계가 추가되어, 검색과 추론 능력을 동시에 평가한다.
4. 베이스라인 모델
Clark and Gardner(2017)의 아키텍처를 기반으로 문자 수준 임베딩, 셀프-어텐션, 바이-어텐션을 결합한다. Yes/No 질문을 위해 마지막 순환 층 이후 3-way 분류기(yes/no/span)를 추가한다. 지지 사실 예측을 위해 셀프-어텐션 층의 첫 번째와 마지막 위치 출력을 연결하여 이진 분류한다. 답변 예측과 지지 사실 예측을 멀티태스크 학습으로 공동 최적화한다.
발견 (Findings)
주요 결과
| Model/Setting | Answer EM | Answer F1 | Supp. EM | Supp. F1 | Joint F1 |
|---|---|---|---|---|---|
| Distractor (Test) | 45.46% | 58.99% | 22.24% | 66.62% | 41% |
| Full Wiki (Test) | 25.23% | 34.40% | 5.07% | 40.69% | 17.8% |
| Human Upper Bound | 96.80% | 98.77% | 87.40% | 97.56% | - |
절제 실험 (Distractor Dev)
| 변형 | Answer EM | 변화 |
|---|---|---|
| Full Model | 44.44% | - |
| w/o Supporting Fact 감독 | 42.79% | -1.65%p |
| w/o Self-attention | 41.59% | -2.85%p |
| w/o Character Model | 41.66% | -2.78%p |
| Gold Paragraphs Only | 48.38% | +3.94%p |
| Supporting Facts Only | 51.95% | +7.51%p |
검색 성능 (Full Wiki)
| 지표 | 값 |
|---|---|
| MAP | 43.93% |
| Hits@2 | 39.43% |
| Hits@10 | 56.06% |
| Mean Rank | 314.71 |
핵심 발견
첫째, Distractor에서 Full Wiki로 전환 시 Answer EM이 45.46%에서 25.23%로 20%p 이상 하락하며, 이는 검색 단계의 오류가 추론 성능에 심각하게 전파됨을 보여준다. 둘째, 지지 사실 문장만 제공하면(Supporting Facts Only) EM이 51.95%로 상승하여, 정확한 근거 문장 선택이 답변 정확도에 결정적임을 실증한다. 셋째, 지지 사실 감독을 제거하면 EM이 1.65%p 하락하여, 지지 사실 레이블이 모델 내부 표현 학습에 기여함을 확인한다. 넷째, 비교 질문은 Distractor(48.55% EM)에서 Full Wiki(43.87% EM)로의 성능 하락이 브릿지 질문(43.41% → 19.76%)보다 훨씬 작은데, 이는 비교 질문의 두 엔티티가 질문에 이미 명시되어 검색이 상대적으로 쉽기 때문이다.
이론적 의의
설명 가능한 QA 평가 패러다임의 개척
HotpotQA 이전까지 QA 벤치마크는 “답이 맞는가?”만을 평가했다. 지지 사실 레이블과 Joint F1 지표의 도입으로, “왜 그 답인가?”를 정량적으로 평가하는 새로운 차원이 열렸다. 이 설계는 이후 FEVER(사실 검증), MultiRC(다중 문장 추론) 등 설명 가능성 중심 벤치마크의 청사진이 되었다.
검색-추론 통합의 필요성 실증
Full Wiki 설정에서의 극적인 성능 하락은, 정보 검색(IR)과 기계 독해(MRC)를 별도로 최적화하는 파이프라인 접근의 근본적 한계를 데이터로 증명했다. 이는 Dense Passage Retrieval(DPR, 2020), Retrieval-Augmented Generation(RAG, 2020), IRRR(Iterative Retrieval, 2021) 등 검색-추론 공동 학습 연구의 직접적 동기가 되었다.
크라우드소싱 기반 멀티-홉 질문 구축 방법론
하이퍼링크 그래프 → 브릿지 엔티티 → 크라우드워커 질문 작성이라는 체계적 파이프라인은, 이후 MuSiQue(2022, 3-hop 이상), 2WikiMultiHopQA(2020) 등 후속 데이터셋 구축의 방법론적 토대가 되었다.
관련 연구
- SQuAD2_2018_ReadingComprehension — HotpotQA가 극복하고자 한 단일-홉 QA의 대표 벤치마크
- NaturalQuestions_2019_OpenDomainQA — Open-domain QA 설정의 또 다른 주요 벤치마크
- TriviaQA_2017_LargeScaleQA — 멀티-문서 참조가 필요하나 멀티-홉 추론이 아닌 대규모 QA
- DROP_2019_NumericalReasoning — 수치 추론이 필요한 QA 벤치마크로, HotpotQA의 비교 질문과 보완적
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| Multi-hop QA | 답을 도출하기 위해 여러 문서/문단에 걸친 연쇄 추론이 필요한 질문 응답 |
| Bridge Entity | 두 문서를 논리적으로 연결하는 중간 개념. 첫 번째 문서에서 브릿지를 식별한 뒤 두 번째 문서로 추론을 이어감 |
| Supporting Facts | 답변의 근거가 되는 문장 수준의 증거. 모델이 어떤 문장에 기반하여 답했는지 추적 가능 |
| Joint F1 | Answer F1과 Supporting Fact F1을 결합한 평가 지표. 답의 정확성과 근거의 정확성을 동시에 측정 |
| Distractor Setting | 정답 문단 2개에 TF-IDF 기반 방해 문단 8개를 혼합하여 제공하는 벤치마크 설정 |
| Full Wiki Setting | 전체 Wikipedia에서 관련 문서를 검색하는 단계가 추가된 벤치마크 설정 |
| Comparison Question | ”A와 B 중 누가 더 ~한가?”와 같이 두 엔티티의 속성을 비교하는 질문 유형 |
| Bi-attention | 질문과 문단 간 양방향 어텐션 메커니즘으로, 상호 참조 정보를 계산 |
| Exact Match (EM) | 모델 예측이 정답과 정확히 일치하는 비율 |
| F1 Score | 예측과 정답 간 토큰 수준의 정밀도와 재현율의 조화 평균 |
태그
paper #2018 QA multi-hop explainability supporting-facts benchmark EMNLP