HotpotQA: 다양하고 설명 가능한 멀티-홉 질문 응답 데이터셋

Digest: 기존 QA 데이터셋은 단일 문단 추론(SQuAD)이거나 지식 베이스(KB) 구조에 종속(QAngaroo, ComplexWebQuestions)되어, 복합적 추론 능력을 충분히 측정하지 못했다. HotpotQA는 Wikipedia 하이퍼링크 그래프에서 브릿지 엔티티(bridge entity)—두 문서를 연결하는 중간 개념—를 활용해 두 문단을 반드시 참조해야 답할 수 있는 질문 113k개를 크라우드소싱으로 구축했다. 핵심적으로, 답뿐 아니라 **문장 수준의 지지 사실(supporting facts)**을 명시적으로 레이블링함으로써 모델의 설명 가능성을 평가하는 Joint F1 지표를 처음 도입했다. 비교 질문(“A와 B 중 누가 더 ~한가?“)이라는 새로운 유형도 포함된다.

Distractor 설정(노이즈 문단 혼합)에서 베이스라인 모델은 Answer EM 45.46%(Table 4)에 그친 반면, 인간 상한선은 EM 96.80%(Table 8)로 50%p 이상 격차가 존재하며, Full Wiki 설정에서는 Joint F1이 17.8%까지 하락해 검색-추론 파이프라인의 오류 전파가 핵심 병목임을 실증적으로 보여준다.


섹션별 요약

Introduction

기존 QA 데이터셋의 세 가지 한계를 지적한다. 첫째, SQuAD는 단일 문단 내에서 답을 찾도록 설계되어 멀티-홉 추론을 측정하지 못한다. 둘째, QAngaroo나 ComplexWebQuestions는 지식 베이스 구조에 의존하여 질문 유형이 편향된다. 셋째, 기존 데이터셋은 어떤 문장이 근거인지에 대한 감독 신호(supervision signal)를 제공하지 않아 모델의 추론 과정을 검증할 수 없다. HotpotQA는 이 세 가지를 동시에 해결하는 데이터셋을 제안한다.

Methods

Wikipedia 첫 문단의 하이퍼링크로 방향 그래프를 구성하고, WikiProject에서 선별한 591개 카테고리를 기반으로 브릿지 엔티티를 포함하는 후보 문단 쌍을 추출한다. 크라우드워커는 두 문단을 모두 참조해야만 답할 수 있는 질문을 작성하며, 단일 문단으로 답 가능한 질문은 필터링된다. 비교 질문은 42개의 유사 엔티티 목록에서 생성한다. 답변과 함께 지지 사실 문장을 레이블링하여 강한 감독 신호를 확보한다. 베이스라인 모델은 문자 수준 임베딩, 셀프-어텐션, 바이-어텐션을 결합하고, 답변 예측과 지지 사실 식별을 멀티태스크 학습으로 공동 최적화한다.

Results

EM (Exact Match) & F1

EM (Exact Match) 은 모델의 예측을 정규화(소문자 변환, 관사·구두점·공백 제거) 한 뒤, 정답 문자열과 완전히 일치하면 1, 아니면 0으로 채점하는 이진 지표이다. 반면 F1은 예측과 정답을 토큰 집합으로 보고 precisionrecall의 조화 평균을 구하므로, 부분 일치도 점수에 반영된다. 따라서 동일 모델에서 항상 EM ≤ F1 관계가 성립한다.

SettingSplitAnswer EMAnswer F1Supp. Fact EMSupp. Fact F1Joint F1
DistractorDev44.44%58.28%21.95%66.66%41%
DistractorTest45.46%58.99%22.24%66.62%41%
Full WikiDev24.68%34.36%5.28%40.98%17.8%
Full WikiTest25.23%34.40%5.07%40.69%17.8%

인간 상한선(1,000 샘플): Answer EM 96.80%, F1 98.77%, Supporting Fact EM 87.40%, F1 97.56% (Table 8).

Discussion

두 문단 비교에 한정된 2-hop 구조로 인해 3-hop 이상의 복잡한 추론은 거의 포함되지 않는다(기타 유형 2%). Wikipedia 하이퍼링크에만 의존한 구성은 특정 도메인(과학, 법률 등)의 멀티-홉 추론을 과소 대표할 수 있다. 또한 dev/test에서 단일 문단으로 답 가능한 질문이 6% 잔존하여, shortcut learning의 가능성이 존재한다.

Insights

  • 주목할 점: 지지 사실(supporting facts)을 크라우드소싱으로 수집하여, 답만 수집하던 기존 방식을 넘어 설명 가능한 QA 시스템 연구의 방향을 제시했다. Joint F1 지표는 이후 멀티-홉 QA 연구의 표준 평가 기준이 되었다.
  • 연결 고리: 브릿지 엔티티 개념은 지식 그래프 기반 멀티-홉 추론(KGQA, PathRetrieval) 연구와 직결되며, Supporting Facts 레이블은 이후 Chain-of-Thought(CoT) 및 Rationale Extraction 연구의 선구자적 데이터 설계와 맥을 같이한다.
  • 시사점: Full Wiki 설정에서 Joint F1이 17.8%에 불과하다는 사실은, 검색-추론 파이프라인의 오류 전파가 핵심 병목임을 실증한다. 이는 Dense Passage Retrieval(DPR), Retrieval-Augmented Generation(RAG) 등 후속 검색 강화 연구의 직접적 동기를 제공한다.
  • 비판적 코멘트: 크라우드워커가 두 문단을 보고 직접 질문을 만드는 방식은 질문이 문단의 표층 특징에 과도하게 의존할(shortcut learning) 위험이 있으며, 단일 문단으로 6%가 풀린다는 결과가 이를 뒷받침한다.

Discussion Points

  • 논쟁점: “진정한 멀티-홉 추론이 측정되는가?”에 대한 커뮤니티 논쟁이 지속되었다. Min et al.(2019)은 HotpotQA 질문 상당수가 single-hop shortcut으로 풀린다고 지적한다.
  • 검증 필요 가정: 멀티태스크 학습으로 지지 사실과 답변의 표현이 공유된다고 가정하지만, 실제 표현 공유 정도는 probing 연구가 필요하다.
  • 후속 연구: (1) 검색-추론 공동 학습(IRRR, BeamRetriever), (2) 3-hop 이상 데이터셋 확장(MuSiQue), (3) 지지 사실 기반 설명 생성 및 신뢰도 보정 연구.

메타데이터

항목내용
제목HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering
저자Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen, Ruslan Salakhutdinov, Christopher D. Manning
소속CMU, Stanford, Mila/U. of Montreal
연도2018
발표EMNLP 2018 (arXiv:1809.09600)
링크arXiv, Project
키워드Multi-hop QA, Supporting Facts, Explainability, Bridge Entity, Comparison Questions

왜 이 연구를 하는가?

핵심 질문

모델이 여러 문서에 걸쳐 추론하고, 그 추론 과정을 문장 수준에서 설명할 수 있는 QA 시스템을 어떻게 평가할 것인가?

기존 접근법의 한계

한계설명
단일-홉 한정SQuAD는 단일 문단 내 답 추출만 요구하여 복합 추론 능력을 측정하지 못함
KB 종속성QAngaroo, ComplexWebQuestions는 지식 베이스 스키마에 구속되어 질문 다양성이 제한됨
감독 신호 부재기존 데이터셋은 답만 제공하고, 어떤 근거에서 도출했는지 감독하지 않아 모델의 추론을 검증 불가
질문 유형 편향비교 질문 등 다양한 추론 유형이 체계적으로 포함된 데이터셋이 없음

핵심 통찰

  • Wikipedia 하이퍼링크 그래프에서 브릿지 엔티티를 활용하면, KB 의존 없이도 자연스럽게 멀티-홉 질문을 유도할 수 있다.
  • 답변과 함께 지지 사실 문장을 수집하면, 설명 가능성을 정량 평가하는 새로운 차원(Joint F1)을 열 수 있다.

방법 (Method)

프레임워크 개요

graph TD
    A["Wikipedia 하이퍼링크 그래프<br/>591개 카테고리"] --> B["후보 문단 쌍 추출"]
    B --> C1["브릿지 엔티티 접근<br/>(멀티-홉 질문)"]
    B --> C2["비교 질문 생성<br/>(42개 유사 엔티티 목록)"]
    C1 --> D["크라우드워커 질문 작성<br/>+ 단일-홉 필터링"]
    C2 --> D
    D --> E["지지 문장(Supporting Facts)<br/>레이블링"]
    E --> F["HotpotQA 데이터셋<br/>112,779 QA 쌍"]
    F --> G1["Distractor 설정<br/>2 gold + 8 TF-IDF 문단"]
    F --> G2["Full Wiki 설정<br/>Wikipedia 전체 검색"]
    G1 --> H["베이스라인 모델<br/>(Bi-attention + Self-attention)"]
    G2 --> H
    H --> I1["답변 예측<br/>EM / F1"]
    H --> I2["지지 사실 예측<br/>EM / F1"]
    I1 --> J["Joint F1 평가"]
    I2 --> J

핵심 구성요소

1. 데이터 수집 파이프라인

Wikipedia 첫 문단에서 하이퍼링크를 추출하여 방향 그래프를 구성한다. 엣지 (a, b)는 문서 a의 첫 문단에서 문서 b로의 링크를 의미한다. 이 그래프에서 2-hop 경로를 따라 후보 문단 쌍을 선정하고, 크라우드워커에게 두 문단을 모두 읽어야 답할 수 있는 질문을 작성하도록 요청한다.

2. 질문 유형

멀티-홉 추론 유형을 5가지로 분류한다(100개 dev/test 샘플 분석 기준):

유형비율설명
Type I: 브릿지 엔티티 추론42%먼저 브릿지 엔티티를 식별한 후 두 번째 홉 답변
Type II: 속성 교차15%여러 속성을 동시에 만족하는 엔티티 탐색
Type III: 속성 추론6%브릿지 엔티티를 통해 속성 추론
Comparison: 비교27%두 엔티티의 속성 추출 및 비교
Other: 기타2%3개 이상 지지 사실 필요

3. 벤치마크 설정

Distractor 설정은 2개의 정답 문단에 TF-IDF로 선택한 8개의 방해 문단을 혼합하여, 모델이 노이즈 속에서 관련 정보를 찾아야 한다. Full Wiki 설정은 전체 Wikipedia에서 관련 문서를 검색하는 단계가 추가되어, 검색과 추론 능력을 동시에 평가한다.

4. 베이스라인 모델

Clark and Gardner(2017)의 아키텍처를 기반으로 문자 수준 임베딩, 셀프-어텐션, 바이-어텐션을 결합한다. Yes/No 질문을 위해 마지막 순환 층 이후 3-way 분류기(yes/no/span)를 추가한다. 지지 사실 예측을 위해 셀프-어텐션 층의 첫 번째와 마지막 위치 출력을 연결하여 이진 분류한다. 답변 예측과 지지 사실 예측을 멀티태스크 학습으로 공동 최적화한다.


발견 (Findings)

주요 결과

Model/SettingAnswer EMAnswer F1Supp. EMSupp. F1Joint F1
Distractor (Test)45.46%58.99%22.24%66.62%41%
Full Wiki (Test)25.23%34.40%5.07%40.69%17.8%
Human Upper Bound96.80%98.77%87.40%97.56%-

절제 실험 (Distractor Dev)

변형Answer EM변화
Full Model44.44%-
w/o Supporting Fact 감독42.79%-1.65%p
w/o Self-attention41.59%-2.85%p
w/o Character Model41.66%-2.78%p
Gold Paragraphs Only48.38%+3.94%p
Supporting Facts Only51.95%+7.51%p

검색 성능 (Full Wiki)

지표
MAP43.93%
Hits@239.43%
Hits@1056.06%
Mean Rank314.71

핵심 발견

첫째, Distractor에서 Full Wiki로 전환 시 Answer EM이 45.46%에서 25.23%로 20%p 이상 하락하며, 이는 검색 단계의 오류가 추론 성능에 심각하게 전파됨을 보여준다. 둘째, 지지 사실 문장만 제공하면(Supporting Facts Only) EM이 51.95%로 상승하여, 정확한 근거 문장 선택이 답변 정확도에 결정적임을 실증한다. 셋째, 지지 사실 감독을 제거하면 EM이 1.65%p 하락하여, 지지 사실 레이블이 모델 내부 표현 학습에 기여함을 확인한다. 넷째, 비교 질문은 Distractor(48.55% EM)에서 Full Wiki(43.87% EM)로의 성능 하락이 브릿지 질문(43.41% → 19.76%)보다 훨씬 작은데, 이는 비교 질문의 두 엔티티가 질문에 이미 명시되어 검색이 상대적으로 쉽기 때문이다.


이론적 의의

설명 가능한 QA 평가 패러다임의 개척

HotpotQA 이전까지 QA 벤치마크는 “답이 맞는가?”만을 평가했다. 지지 사실 레이블과 Joint F1 지표의 도입으로, “왜 그 답인가?”를 정량적으로 평가하는 새로운 차원이 열렸다. 이 설계는 이후 FEVER(사실 검증), MultiRC(다중 문장 추론) 등 설명 가능성 중심 벤치마크의 청사진이 되었다.

검색-추론 통합의 필요성 실증

Full Wiki 설정에서의 극적인 성능 하락은, 정보 검색(IR)과 기계 독해(MRC)를 별도로 최적화하는 파이프라인 접근의 근본적 한계를 데이터로 증명했다. 이는 Dense Passage Retrieval(DPR, 2020), Retrieval-Augmented Generation(RAG, 2020), IRRR(Iterative Retrieval, 2021) 등 검색-추론 공동 학습 연구의 직접적 동기가 되었다.

크라우드소싱 기반 멀티-홉 질문 구축 방법론

하이퍼링크 그래프 → 브릿지 엔티티 → 크라우드워커 질문 작성이라는 체계적 파이프라인은, 이후 MuSiQue(2022, 3-hop 이상), 2WikiMultiHopQA(2020) 등 후속 데이터셋 구축의 방법론적 토대가 되었다.


관련 연구


핵심 용어 정리

용어정의
Multi-hop QA답을 도출하기 위해 여러 문서/문단에 걸친 연쇄 추론이 필요한 질문 응답
Bridge Entity두 문서를 논리적으로 연결하는 중간 개념. 첫 번째 문서에서 브릿지를 식별한 뒤 두 번째 문서로 추론을 이어감
Supporting Facts답변의 근거가 되는 문장 수준의 증거. 모델이 어떤 문장에 기반하여 답했는지 추적 가능
Joint F1Answer F1과 Supporting Fact F1을 결합한 평가 지표. 답의 정확성과 근거의 정확성을 동시에 측정
Distractor Setting정답 문단 2개에 TF-IDF 기반 방해 문단 8개를 혼합하여 제공하는 벤치마크 설정
Full Wiki Setting전체 Wikipedia에서 관련 문서를 검색하는 단계가 추가된 벤치마크 설정
Comparison Question”A와 B 중 누가 더 ~한가?”와 같이 두 엔티티의 속성을 비교하는 질문 유형
Bi-attention질문과 문단 간 양방향 어텐션 메커니즘으로, 상호 참조 정보를 계산
Exact Match (EM)모델 예측이 정답과 정확히 일치하는 비율
F1 Score예측과 정답 간 토큰 수준의 정밀도와 재현율의 조화 평균

태그

paper #2018 QA multi-hop explainability supporting-facts benchmark EMNLP