Digest: LLM이 언어적 지식은 잘 학습하지만 물리적 세계에 대한 직관은 부족하다. **PIQA(Physical Interaction QA)**는 “병 안의 물을 비우려면?”과 같은 일상적 물리 상식 문제 16,000개를 2지선다로 제시한다. 각 질문은 **목표(goal)**와 **두 가지 해결책(solution)**으로 구성되며, 물리적으로 타당한 해결책을 선택해야 한다. 인간 정확도 ~95%, GPT-3(few-shot) ~80%, Llama 2 70B ~83%로 여전히 물리적 추론에서 격차가 존재하며, GPT-3, Llama 시리즈의 표준 평가 과제로 널리 사용된다.
메타데이터
항목
내용
제목
PIQA: Reasoning about Physical Commonsense in Natural Language
Goal: "To make a hard boiled egg"
Sol1: "Put egg in water, bring to boil, wait 12 minutes" ✓
Sol2: "Put egg in water, bring to boil, wait 2 minutes" ✗
예시 2
Goal: "How to remove a stripped screw"
Sol1: "Place a rubber band over the screw head, then use
the screwdriver" ✓
Sol2: "Place a piece of paper over the screw head, then
use the screwdriver" ✗
방법 (Method)
graph TB
A["instructables.com에서<br/>물리적 활동 수집"] --> B["MTurk workers가<br/>goal + 2 solutions 작성"]
B --> C["Adversarial Filtering<br/>(AF)"]
C --> D["표면적 단서로 풀리는<br/>쉬운 문제 필터링"]
D --> E["PIQA Dataset<br/>~21k 문제"]