GPQA: 대학원 수준 Google-Proof 질의응답 벤치마크

Digest: MMLU가 학부 수준에서 포화됨에 따라, NYU 연구팀은 대학원 박사 수준의 과학 문제 448개로 구성된 **GPQA(Graduate-Level Google-Proof QA)**를 제안했다. “Google-Proof”란 비전문가가 웹 검색을 해도 풀 수 없을 만큼 어렵다는 뜻이다. 물리, 화학, 생물학 분야의 도메인 전문가(PhD)가 문제를 작성하고 검증했으며, 같은 분야 전문가도 65% 수준(Table 1), 다른 분야 전문가는 34%에 불과하다. GPT-4는 39.7% (Table 3)로 비전문가 수준에 머물렀다. 핵심 통찰은 진정으로 어려운 벤치마크를 만들려면 **문제 작성자와 검증자의 전문성 불일치(expertise asymmetry)**를 활용해야 한다는 것이다.


메타데이터

항목내용
제목GPQA: A Graduate-Level Google-Proof Q&A Benchmark
저자David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
소속New York University
연도2023
발표ICLR 2024, arXiv:2311.12022
링크arXiv, GitHub
키워드GPQA, graduate-level, Google-proof, expert QA, science

데이터셋 구성

규모 및 분할

항목내용
GPQA (전체)448개 4지선다 문제
GPQA Diamond198개 (최고 품질, 전문가 합의)
GPQA Extended546개 (검증 기준 완화)
형식4지선다
작성자해당 분야 PhD 과정 이상 전문가

분야별 분포

분야GPQADiamond세부
Physics~33%~33%양자역학, 전자기학, 통계역학
Chemistry~33%~33%유기화학, 물리화학, 분석화학
Biology~33%~33%분자생물학, 유전학, 생화학

Feature/Column 구조

필드설명예시
question문제 텍스트"Consider a quantum system..."
correct_answer정답"A"
incorrect_answers오답 3개["B", "C", "D"]
subdomain세부 분야"quantum_mechanics"
difficulty전문가 정답률 기반"hard"

품질 보증 프로세스

단계설명
1. 전문가 작성PhD 전문가가 자신의 분야에서 문제 작성
2. 다른 전문가 검증같은 분야의 다른 전문가가 풀어봄
3. 비전문가 검증다른 분야 전문가가 구글 검색 30분 허용 후 풀어봄
4. Diamond 선별전문가 정답 & 비전문가 오답인 문제만 선별

실제 데이터 예시

예시 1: 양자역학 (Physics)

Question: Consider a hydrogen atom in the 2p state.
If a uniform electric field is applied, which of the
following correctly describes the first-order Stark effect?

A. The 2p level splits into three equally spaced sublevels
B. The 2p level shifts but does not split
C. There is no first-order Stark effect for the 2p state
   of hydrogen
D. The 2p level splits into two sublevels with equal and
   opposite shifts

Answer: D
(1차 Stark 효과: m_l = ±1 → 분리, m_l = 0 → 비분리)

예시 2: 유기화학 (Chemistry)

Question: What is the major product when 2-methylpropene
reacts with HBr in the presence of peroxides?

A. 1-bromo-2-methylpropane (anti-Markovnikov)
B. 2-bromo-2-methylpropane (Markovnikov)
C. 1-bromo-2-methylpropene
D. No reaction occurs

Answer: A
(과산화물 존재 시 라디칼 메커니즘 → anti-Markovnikov 첨가)

예시 3: 분자생물학 (Biology)

Question: In eukaryotic cells, which of the following
post-translational modifications is most critical for
targeting a protein to the lysosome?

A. Ubiquitination
B. Mannose-6-phosphate addition
C. SUMOylation
D. Acetylation

Answer: B
(M6P가 리소좀 타겟팅의 핵심 신호)

왜 이 연구를 하는가?

핵심 질문

LLM이 대학원 수준의 전문 과학 지식과 추론을 수행할 수 있는가?

기존 접근법의 한계

한계설명
MMLU 포화상위 모델이 88%+ 달성, 변별력 상실
검색으로 풀림많은 “어려운” 문제가 웹 검색으로 해결 가능
전문성 부족기존 벤치마크는 비전문가가 작성하여 깊이 부족

핵심 통찰

“Google-Proof” 설계: 비전문가가 인터넷 검색을 해도 풀 수 없는 문제만 남기면, 모델이 진정한 전문 지식을 가지고 있는지 검증할 수 있다.


방법 (Method)

프레임워크 개요

graph TB
    A["PhD 전문가<br/>문제 작성"] --> B["같은 분야 전문가<br/>검증 (정답?)"]
    A --> C["다른 분야 전문가<br/>+ Google 30분<br/>(오답?)"]

    B -->|"전문가 정답"| D{"비전문가<br/>오답?"}
    C --> D
    D -->|Yes| E["GPQA Diamond ✓<br/>(Google-Proof 확인)"]
    D -->|No| F["제외<br/>(너무 쉬움)"]

발견 (Findings)

주요 결과

평가 주체GPQA DiamondGPQA Main
도메인 전문가81.4%65.4%
비전문가 (+ Google)22.1%34.1%
GPT-439.7%
Claude 3 Opus50.4%
Random25.0%25.0%

(Table 1, Table 3)

핵심 발견

  1. 극단적 난이도: GPT-4가 39.7%로 비전문가 수준, 전문가(65%)에 크게 뒤처짐 (Table 1, 3)
  2. Google-Proof 검증: 비전문가가 30분 검색 후에도 22.1%만 정답 — 검색으로 풀 수 없음 확인
  3. 전문성 격차: 같은 분야 전문가(81%) vs 다른 분야 전문가(34%) → 깊은 도메인 지식 필요
  4. 분야별 차이: 물리 > 화학 > 생물 순으로 모델 성능이 낮음 (물리가 가장 어려움)

이론적 의의

포스트-MMLU 시대의 전문가 벤치마크

GPQA는 MMLU가 포화된 후 LLM의 “진정한 전문 지식”을 평가하는 차세대 벤치마크로 자리잡았다. Google-Proof 설계 방법론은 이후 다른 전문가 수준 벤치마크에도 영향을 주었다.


관련 연구


핵심 용어 정리

용어정의
GPQAGraduate-Level Google-Proof QA. 대학원 수준 과학 문제 벤치마크
Google-Proof비전문가가 웹 검색을 해도 풀 수 없을 만큼 어려운 문제 설계 원칙
Diamond SetGPQA의 최고 품질 부분집합 (198문제), 가장 엄격한 기준으로 선별
Expertise Asymmetry전문가와 비전문가의 정답률 차이를 활용한 난이도 보증
Domain Expert해당 과학 분야에서 PhD 과정 이상의 전문 지식을 가진 평가자

태그

paper #2023 benchmark expert_level GPQA science graduate Google_proof ICLR