Digest: MMLU가 학부 수준에서 포화됨에 따라, NYU 연구팀은 대학원 박사 수준의 과학 문제 448개로 구성된 **GPQA(Graduate-Level Google-Proof QA)**를 제안했다. “Google-Proof”란 비전문가가 웹 검색을 해도 풀 수 없을 만큼 어렵다는 뜻이다. 물리, 화학, 생물학 분야의 도메인 전문가(PhD)가 문제를 작성하고 검증했으며, 같은 분야 전문가도 65% 수준(Table 1), 다른 분야 전문가는 34%에 불과하다. GPT-4는 39.7% (Table 3)로 비전문가 수준에 머물렀다. 핵심 통찰은 진정으로 어려운 벤치마크를 만들려면 **문제 작성자와 검증자의 전문성 불일치(expertise asymmetry)**를 활용해야 한다는 것이다.
메타데이터
항목
내용
제목
GPQA: A Graduate-Level Google-Proof Q&A Benchmark
저자
David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
Question: Consider a hydrogen atom in the 2p state.
If a uniform electric field is applied, which of the
following correctly describes the first-order Stark effect?
A. The 2p level splits into three equally spaced sublevels
B. The 2p level shifts but does not split
C. There is no first-order Stark effect for the 2p state
of hydrogen
D. The 2p level splits into two sublevels with equal and
opposite shifts
Answer: D
(1차 Stark 효과: m_l = ±1 → 분리, m_l = 0 → 비분리)
예시 2: 유기화학 (Chemistry)
Question: What is the major product when 2-methylpropene
reacts with HBr in the presence of peroxides?
A. 1-bromo-2-methylpropane (anti-Markovnikov)
B. 2-bromo-2-methylpropane (Markovnikov)
C. 1-bromo-2-methylpropene
D. No reaction occurs
Answer: A
(과산화물 존재 시 라디칼 메커니즘 → anti-Markovnikov 첨가)
예시 3: 분자생물학 (Biology)
Question: In eukaryotic cells, which of the following
post-translational modifications is most critical for
targeting a protein to the lysosome?
A. Ubiquitination
B. Mannose-6-phosphate addition
C. SUMOylation
D. Acetylation
Answer: B
(M6P가 리소좀 타겟팅의 핵심 신호)
왜 이 연구를 하는가?
핵심 질문
LLM이 대학원 수준의 전문 과학 지식과 추론을 수행할 수 있는가?
기존 접근법의 한계
한계
설명
MMLU 포화
상위 모델이 88%+ 달성, 변별력 상실
검색으로 풀림
많은 “어려운” 문제가 웹 검색으로 해결 가능
전문성 부족
기존 벤치마크는 비전문가가 작성하여 깊이 부족
핵심 통찰
“Google-Proof” 설계: 비전문가가 인터넷 검색을 해도 풀 수 없는 문제만 남기면, 모델이 진정한 전문 지식을 가지고 있는지 검증할 수 있다.
방법 (Method)
프레임워크 개요
graph TB
A["PhD 전문가<br/>문제 작성"] --> B["같은 분야 전문가<br/>검증 (정답?)"]
A --> C["다른 분야 전문가<br/>+ Google 30분<br/>(오답?)"]
B -->|"전문가 정답"| D{"비전문가<br/>오답?"}
C --> D
D -->|Yes| E["GPQA Diamond ✓<br/>(Google-Proof 확인)"]
D -->|No| F["제외<br/>(너무 쉬움)"]