Digest: LLM의 능력이 향상됨에 따라 “범용 AI 어시스턴트”라는 목표에 얼마나 근접했는지 평가할 벤치마크가 필요해졌다. Meta FAIR의 GAIA는 웹 검색, 파일 처리, 계산, 추론을 복합적으로 요구하는 466개 실세계 질문을 제시한다. 핵심 통찰은 “인간에게는 쉽지만 AI에게는 어려운” 과제가 AI 진보의 가장 의미 있는 지표라는 것이다. 인간은 92% (Table 2)를 달성하지만 GPT-4 + plugins는 15%에 불과하며, 특히 다단계 도구 사용이 필요한 Level 3에서는 0%를 기록했다. 정답은 짧고 명확한 팩트(이름, 숫자, 짧은 문자열)이어서 자동 평가가 용이하다.
메타데이터
항목
내용
제목
GAIA: A Benchmark for General AI Assistants
저자
Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
GAIA, general AI, assistant, tool use, real-world tasks
데이터셋 구성
규모 및 분할
항목
내용
전체 크기
466개 질문
Validation
165개 (정답 공개)
Test
301개 (정답 비공개, 리더보드)
정답 형식
짧은 팩트 (이름, 숫자, 짧은 문자열)
첨부 파일
일부 질문에 PDF, 이미지, 스프레드시트 등 첨부
3단계 난이도
Level
필요 단계
도구
비율
인간
GPT-4
1
1-3단계
0-1개
~50%
96%
30%
2
3-5단계
2-3개
~35%
89%
8%
3
5+단계
3+개, 복합 추론
~15%
85%
0%
필요 능력 분류
능력
비율
설명
웹 검색
~60%
최신 정보 검색 필요
수학적 추론
~30%
계산, 단위 변환
파일 처리
~25%
PDF, Excel, 이미지 분석
코딩
~15%
스크립트 작성/실행
다단계 추론
~80%
여러 단계 결합
Feature/Column 구조
필드
설명
예시
question
자연어 질문
"What was the GDP of France in 2022 in euros?"
final_answer
짧은 팩트 정답
"2,639 billion"
level
난이도 (1/2/3)
2
file
첨부 파일 (optional)
"data.xlsx"
annotator_metadata
풀이 과정 메모
"Google search → Wikipedia → calculation"
실제 데이터 예시
예시 1: Level 1 (단순 검색)
Question: "What is the elevation in feet of the highest
point in the city of Tucson, Arizona?"
Answer: "9,157"
(Requires: web search → Wikipedia/topographic source)
예시 2: Level 2 (다단계)
Question: "In the attached Excel file, what is the median
salary of employees who joined before 2020 and work in
the Engineering department?"
Answer: "78,500"
(Requires: file reading → filtering → calculation)
예시 3: Level 3 (복합)
Question: "Using the attached PDF of a company's annual report,
calculate the year-over-year revenue growth rate, then find
the company's stock price on the day the report was published.
What was the price-to-revenue ratio?"
Answer: "3.42"
(Requires: PDF parsing → calculation → web search → more calculation)
왜 이 연구를 하는가?
핵심 질문
현재 AI 시스템이 범용 어시스턴트로서 실세계 과제를 얼마나 잘 수행할 수 있는가?
기존 접근법의 한계
한계
설명
인공적 과제
기존 벤치마크는 학문적/인공적 과제, 실세계 반영 부족
도구 사용 미포함
대부분 순수 텍스트 입출력만 평가
자동 평가 어려움
개방형 답변은 자동 채점 어려움
핵심 통찰
“인간에게 쉬운데 AI에게 어려운” 과제가 AI 발전의 가장 의미 있는 지표이다. 이런 과제는 대부분 다단계 도구 사용 + 상식 + 추론의 결합을 요구한다.
방법 (Method)
프레임워크 개요
graph TB
A["질문 + 첨부파일"] --> B["AI 에이전트<br/>(LLM + Tools)"]
B --> C["웹 검색"]
B --> D["파일 처리"]
B --> E["코드 실행"]
B --> F["계산"]
C --> G["정보 수집"]
D --> G
E --> G
F --> G
G --> H["최종 답변<br/>(짧은 팩트)"]
H --> I["Exact Match 평가"]
발견 (Findings)
주요 결과 (정확도)
에이전트
Level 1
Level 2
Level 3
전체
Human
96%
89%
85%
92%
GPT-4 + Plugins
30%
8%
0%
15%
AutoGPT
15%
3%
0%
7%
(Table 2)
핵심 발견
인간-AI 극단적 격차: 인간 92% vs GPT-4 15%, 실세계 과제에서 ~77%p 차이 (Table 2)
Level 3 전멸: GPT-4도 복합 다단계 과제(Level 3)에서 0% — 현재 AI의 한계
도구 사용의 병목: 적절한 도구를 선택하고 순서대로 사용하는 것이 핵심 어려움
짧은 정답의 장점: “파리” 같은 짧은 팩트로 자동 평가 가능, 모호성 최소화
이론적 의의
AGI 진보의 실용적 지표
GAIA는 “범용 AI”라는 목표를 실세계 과제 성공률로 정량화했다. 인간에게 쉬운(~92%) 과제에서 AI의 성공률(~15%)을 모니터링함으로써, AGI까지의 거리를 지속적으로 측정할 수 있는 프레임워크를 제공한다.