PIQA: 물리적 직관 QA 벤치마크

Digest: LLM이 언어적 지식은 잘 학습하지만 물리적 세계에 대한 직관은 부족하다. **PIQA(Physical Interaction QA)**는 “병 안의 물을 비우려면?”과 같은 일상적 물리 상식 문제 16,000개를 2지선다로 제시한다. 각 질문은 **목표(goal)**와 **두 가지 해결책(solution)**으로 구성되며, 물리적으로 타당한 해결책을 선택해야 한다. 인간 정확도 ~95%, GPT-3(few-shot) ~80%, Llama 2 70B ~83%로 여전히 물리적 추론에서 격차가 존재하며, GPT-3, Llama 시리즈의 표준 평가 과제로 널리 사용된다.


메타데이터

항목내용
제목PIQA: Reasoning about Physical Commonsense in Natural Language
저자Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, Yejin Choi
소속CMU, UW, AI2, Microsoft Research
연도2019 (arXiv), AAAI 2020
발표AAAI 2020, arXiv:1911.11641
링크arXiv, Dataset
키워드PIQA, physical commonsense, intuitive physics, everyday reasoning

데이터셋 구성

규모 및 분할

Split예시 수
Train16,113
Dev1,838
Test3,084
합계~21k

Feature/Column 구조

필드설명예시
goal물리적 목표”To separate egg whites from the yolk…”
sol1해결책 1”…use a plastic water bottle to suck up the yolk”
sol2해결책 2”…use a glass to suck up the yolk”
label정답 (0 or 1)0 (sol1이 정답)

실제 데이터 예시

예시 1

Goal: "To make a hard boiled egg"
Sol1: "Put egg in water, bring to boil, wait 12 minutes" ✓
Sol2: "Put egg in water, bring to boil, wait 2 minutes" ✗

예시 2

Goal: "How to remove a stripped screw"
Sol1: "Place a rubber band over the screw head, then use
       the screwdriver" ✓
Sol2: "Place a piece of paper over the screw head, then
       use the screwdriver" ✗

방법 (Method)

graph TB
    A["instructables.com에서<br/>물리적 활동 수집"] --> B["MTurk workers가<br/>goal + 2 solutions 작성"]
    B --> C["Adversarial Filtering<br/>(AF)"]
    C --> D["표면적 단서로 풀리는<br/>쉬운 문제 필터링"]
    D --> E["PIQA Dataset<br/>~21k 문제"]

발견 (Findings)

주요 결과

모델정확도
Human~95%
RoBERTa-Large77.1%
GPT-3 (few-shot)~80%
Llama 1 65B~82%
Llama 2 70B~83%
Llama 3 70B~85%
GPT-4~90%+

핵심 발견

  1. 물리적 상식의 격차: 언어 모델은 물리적 직관에서 인간 대비 10-15%p 낮음
  2. 스케일링 효과: 모델 크기 증가에 따라 꾸준히 개선되지만 포화되지 않음
  3. 일상 물리의 어려움: “세계와의 상호작용 경험” 없이 텍스트만으로는 한계

관련 연구


핵심 용어 정리

용어정의
PIQAPhysical Interaction QA. 물리적 직관 QA 벤치마크
Physical Commonsense물리적 세계에 대한 일상적 상식 (중력, 열, 재질 등)
Adversarial Filtering기본 모델이 풀 수 있는 쉬운 문제를 제거하는 필터링

태그

paper #2019 benchmark physical_commonsense PIQA intuitive_physics everyday_reasoning