GPQA: 대학원 수준 Google-Proof 질의응답 벤치마크

Digest: MMLU가 학부 수준에서 포화됨에 따라, NYU 연구팀은 대학원 박사 수준의 과학 문제 448개로 구성된 **GPQA(Graduate-Level Google-Proof QA)**를 제안했다. “Google-Proof”란 비전문가가 웹 검색을 해도 풀 수 없을 만큼 어렵다는 뜻이다. 물리, 화학, 생물학 분야의 도메인 전문가(PhD)가 문제를 작성하고 검증했으며, 같은 분야 전문가도 65% 수준(Table 1), 다른 분야 전문가는 34%에 불과하다. GPT-4는 39.7% (Table 3)로 비전문가 수준에 머물렀다. 핵심 통찰은 진정으로 어려운 벤치마크를 만들려면 **문제 작성자와 검증자의 전문성 불일치(expertise asymmetry)**를 활용해야 한다는 것이다.

메타데이터

항목	내용
제목	GPQA: A Graduate-Level Google-Proof Q&A Benchmark
저자	David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
소속	New York University
연도	2023
발표	ICLR 2024, arXiv:2311.12022
링크	arXiv, GitHub
키워드	GPQA, graduate-level, Google-proof, expert QA, science

데이터셋 구성

규모 및 분할

항목	내용
GPQA (전체)	448개 4지선다 문제
GPQA Diamond	198개 (최고 품질, 전문가 합의)
GPQA Extended	546개 (검증 기준 완화)
형식	4지선다
작성자	해당 분야 PhD 과정 이상 전문가

분야별 분포

분야	GPQA	Diamond	세부
Physics	~33%	~33%	양자역학, 전자기학, 통계역학
Chemistry	~33%	~33%	유기화학, 물리화학, 분석화학
Biology	~33%	~33%	분자생물학, 유전학, 생화학

Feature/Column 구조

필드	설명	예시
`question`	문제 텍스트	`"Consider a quantum system..."`
`correct_answer`	정답	`"A"`
`incorrect_answers`	오답 3개	`["B", "C", "D"]`
`subdomain`	세부 분야	`"quantum_mechanics"`
`difficulty`	전문가 정답률 기반	`"hard"`

품질 보증 프로세스

단계	설명
1. 전문가 작성	PhD 전문가가 자신의 분야에서 문제 작성
2. 다른 전문가 검증	같은 분야의 다른 전문가가 풀어봄
3. 비전문가 검증	다른 분야 전문가가 구글 검색 30분 허용 후 풀어봄
4. Diamond 선별	전문가 정답 & 비전문가 오답인 문제만 선별

실제 데이터 예시

예시 1: 양자역학 (Physics)

Question: Consider a hydrogen atom in the 2p state.
If a uniform electric field is applied, which of the
following correctly describes the first-order Stark effect?

A. The 2p level splits into three equally spaced sublevels
B. The 2p level shifts but does not split
C. There is no first-order Stark effect for the 2p state
   of hydrogen
D. The 2p level splits into two sublevels with equal and
   opposite shifts

Answer: D
(1차 Stark 효과: m_l = ±1 → 분리, m_l = 0 → 비분리)

예시 2: 유기화학 (Chemistry)

Question: What is the major product when 2-methylpropene
reacts with HBr in the presence of peroxides?

A. 1-bromo-2-methylpropane (anti-Markovnikov)
B. 2-bromo-2-methylpropane (Markovnikov)
C. 1-bromo-2-methylpropene
D. No reaction occurs

Answer: A
(과산화물 존재 시 라디칼 메커니즘 → anti-Markovnikov 첨가)

예시 3: 분자생물학 (Biology)

Question: In eukaryotic cells, which of the following
post-translational modifications is most critical for
targeting a protein to the lysosome?

A. Ubiquitination
B. Mannose-6-phosphate addition
C. SUMOylation
D. Acetylation

Answer: B
(M6P가 리소좀 타겟팅의 핵심 신호)

왜 이 연구를 하는가?

핵심 질문

LLM이 대학원 수준의 전문 과학 지식과 추론을 수행할 수 있는가?

기존 접근법의 한계

한계	설명
MMLU 포화	상위 모델이 88%+ 달성, 변별력 상실
검색으로 풀림	많은 “어려운” 문제가 웹 검색으로 해결 가능
전문성 부족	기존 벤치마크는 비전문가가 작성하여 깊이 부족

핵심 통찰

“Google-Proof” 설계: 비전문가가 인터넷 검색을 해도 풀 수 없는 문제만 남기면, 모델이 진정한 전문 지식을 가지고 있는지 검증할 수 있다.

방법 (Method)

프레임워크 개요

graph TB
    A["PhD 전문가<br/>문제 작성"] --> B["같은 분야 전문가<br/>검증 (정답?)"]
    A --> C["다른 분야 전문가<br/>+ Google 30분<br/>(오답?)"]

    B -->|"전문가 정답"| D{"비전문가<br/>오답?"}
    C --> D
    D -->|Yes| E["GPQA Diamond ✓<br/>(Google-Proof 확인)"]
    D -->|No| F["제외<br/>(너무 쉬움)"]

발견 (Findings)

주요 결과

평가 주체	GPQA Diamond	GPQA Main
도메인 전문가	81.4%	65.4%
비전문가 (+ Google)	22.1%	34.1%
GPT-4	39.7%	—
Claude 3 Opus	50.4%	—
Random	25.0%	25.0%

(Table 1, Table 3)

핵심 발견

극단적 난이도: GPT-4가 39.7%로 비전문가 수준, 전문가(65%)에 크게 뒤처짐 (Table 1, 3)
Google-Proof 검증: 비전문가가 30분 검색 후에도 22.1%만 정답 — 검색으로 풀 수 없음 확인
전문성 격차: 같은 분야 전문가(81%) vs 다른 분야 전문가(34%) → 깊은 도메인 지식 필요
분야별 차이: 물리 > 화학 > 생물 순으로 모델 성능이 낮음 (물리가 가장 어려움)

이론적 의의

포스트-MMLU 시대의 전문가 벤치마크

GPQA는 MMLU가 포화된 후 LLM의 “진정한 전문 지식”을 평가하는 차세대 벤치마크로 자리잡았다. Google-Proof 설계 방법론은 이후 다른 전문가 수준 벤치마크에도 영향을 주었다.

핵심 용어 정리

용어	정의
GPQA	Graduate-Level Google-Proof QA. 대학원 수준 과학 문제 벤치마크
Google-Proof	비전문가가 웹 검색을 해도 풀 수 없을 만큼 어려운 문제 설계 원칙
Diamond Set	GPQA의 최고 품질 부분집합 (198문제), 가장 엄격한 기준으로 선별
Expertise Asymmetry	전문가와 비전문가의 정답률 차이를 활용한 난이도 보증
Domain Expert	해당 과학 분야에서 PhD 과정 이상의 전문 지식을 가진 평가자

Juhyeon's Blog

탐색기

GPQA - A Graduate-Level Google-Proof Q&A Benchmark