PIQA: 물리적 직관 QA 벤치마크

Digest: LLM이 언어적 지식은 잘 학습하지만 물리적 세계에 대한 직관은 부족하다. **PIQA(Physical Interaction QA)**는 “병 안의 물을 비우려면?”과 같은 일상적 물리 상식 문제 16,000개를 2지선다로 제시한다. 각 질문은 **목표(goal)**와 **두 가지 해결책(solution)**으로 구성되며, 물리적으로 타당한 해결책을 선택해야 한다. 인간 정확도 ~95%, GPT-3(few-shot) ~80%, Llama 2 70B ~83%로 여전히 물리적 추론에서 격차가 존재하며, GPT-3, Llama 시리즈의 표준 평가 과제로 널리 사용된다.

메타데이터

항목	내용
제목	PIQA: Reasoning about Physical Commonsense in Natural Language
저자	Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, Yejin Choi
소속	CMU, UW, AI2, Microsoft Research
연도	2019 (arXiv), AAAI 2020
발표	AAAI 2020, arXiv:1911.11641
링크	arXiv, Dataset
키워드	PIQA, physical commonsense, intuitive physics, everyday reasoning

데이터셋 구성

규모 및 분할

Split	예시 수
Train	16,113
Dev	1,838
Test	3,084
합계	~21k

Feature/Column 구조

필드	설명	예시
`goal`	물리적 목표	”To separate egg whites from the yolk…”
`sol1`	해결책 1	”…use a plastic water bottle to suck up the yolk”
`sol2`	해결책 2	”…use a glass to suck up the yolk”
`label`	정답 (0 or 1)	`0` (sol1이 정답)

실제 데이터 예시

예시 1

Goal: "To make a hard boiled egg"
Sol1: "Put egg in water, bring to boil, wait 12 minutes" ✓
Sol2: "Put egg in water, bring to boil, wait 2 minutes" ✗

예시 2

Goal: "How to remove a stripped screw"
Sol1: "Place a rubber band over the screw head, then use
       the screwdriver" ✓
Sol2: "Place a piece of paper over the screw head, then
       use the screwdriver" ✗

방법 (Method)

graph TB
    A["instructables.com에서<br/>물리적 활동 수집"] --> B["MTurk workers가<br/>goal + 2 solutions 작성"]
    B --> C["Adversarial Filtering<br/>(AF)"]
    C --> D["표면적 단서로 풀리는<br/>쉬운 문제 필터링"]
    D --> E["PIQA Dataset<br/>~21k 문제"]

발견 (Findings)

주요 결과

모델	정확도
Human	~95%
RoBERTa-Large	77.1%
GPT-3 (few-shot)	~80%
Llama 1 65B	~82%
Llama 2 70B	~83%
Llama 3 70B	~85%
GPT-4	~90%+

핵심 발견

물리적 상식의 격차: 언어 모델은 물리적 직관에서 인간 대비 10-15%p 낮음
스케일링 효과: 모델 크기 증가에 따라 꾸준히 개선되지만 포화되지 않음
일상 물리의 어려움: “세계와의 상호작용 경험” 없이 텍스트만으로는 한계

핵심 용어 정리

용어	정의
PIQA	Physical Interaction QA. 물리적 직관 QA 벤치마크
Physical Commonsense	물리적 세계에 대한 일상적 상식 (중력, 열, 재질 등)
Adversarial Filtering	기본 모델이 풀 수 있는 쉬운 문제를 제거하는 필터링

Juhyeon's Blog

탐색기

PIQA - Reasoning about Physical Commonsense in Natural Language

PIQA: 물리적 직관 QA 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

실제 데이터 예시

예시 1

예시 2

방법 (Method)

발견 (Findings)

주요 결과

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크