GAIA: 범용 AI 어시스턴트를 위한 벤치마크

Digest: LLM의 능력이 향상됨에 따라 “범용 AI 어시스턴트”라는 목표에 얼마나 근접했는지 평가할 벤치마크가 필요해졌다. Meta FAIR의 GAIA는 웹 검색, 파일 처리, 계산, 추론을 복합적으로 요구하는 466개 실세계 질문을 제시한다. 핵심 통찰은 “인간에게는 쉽지만 AI에게는 어려운” 과제가 AI 진보의 가장 의미 있는 지표라는 것이다. 인간은 92% (Table 2)를 달성하지만 GPT-4 + plugins는 15%에 불과하며, 특히 다단계 도구 사용이 필요한 Level 3에서는 0%를 기록했다. 정답은 짧고 명확한 팩트(이름, 숫자, 짧은 문자열)이어서 자동 평가가 용이하다.

메타데이터

항목	내용
제목	GAIA: A Benchmark for General AI Assistants
저자	Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
소속	Meta FAIR, Hugging Face
연도	2023
발표	ICLR 2024, arXiv:2311.12983
링크	arXiv, HuggingFace
키워드	GAIA, general AI, assistant, tool use, real-world tasks

데이터셋 구성

규모 및 분할

항목	내용
전체 크기	466개 질문
Validation	165개 (정답 공개)
Test	301개 (정답 비공개, 리더보드)
정답 형식	짧은 팩트 (이름, 숫자, 짧은 문자열)
첨부 파일	일부 질문에 PDF, 이미지, 스프레드시트 등 첨부

3단계 난이도

Level	필요 단계	도구	비율	인간	GPT-4
1	1-3단계	0-1개	~50%	96%	30%
2	3-5단계	2-3개	~35%	89%	8%
3	5+단계	3+개, 복합 추론	~15%	85%	0%

필요 능력 분류

능력	비율	설명
웹 검색	~60%	최신 정보 검색 필요
수학적 추론	~30%	계산, 단위 변환
파일 처리	~25%	PDF, Excel, 이미지 분석
코딩	~15%	스크립트 작성/실행
다단계 추론	~80%	여러 단계 결합

Feature/Column 구조

필드	설명	예시
`question`	자연어 질문	`"What was the GDP of France in 2022 in euros?"`
`final_answer`	짧은 팩트 정답	`"2,639 billion"`
`level`	난이도 (1/2/3)	`2`
`file`	첨부 파일 (optional)	`"data.xlsx"`
`annotator_metadata`	풀이 과정 메모	`"Google search → Wikipedia → calculation"`

실제 데이터 예시

예시 1: Level 1 (단순 검색)

Question: "What is the elevation in feet of the highest
point in the city of Tucson, Arizona?"
Answer: "9,157"
(Requires: web search → Wikipedia/topographic source)

예시 2: Level 2 (다단계)

Question: "In the attached Excel file, what is the median
salary of employees who joined before 2020 and work in
the Engineering department?"
Answer: "78,500"
(Requires: file reading → filtering → calculation)

예시 3: Level 3 (복합)

Question: "Using the attached PDF of a company's annual report,
calculate the year-over-year revenue growth rate, then find
the company's stock price on the day the report was published.
What was the price-to-revenue ratio?"
Answer: "3.42"
(Requires: PDF parsing → calculation → web search → more calculation)

왜 이 연구를 하는가?

핵심 질문

현재 AI 시스템이 범용 어시스턴트로서 실세계 과제를 얼마나 잘 수행할 수 있는가?

기존 접근법의 한계

한계	설명
인공적 과제	기존 벤치마크는 학문적/인공적 과제, 실세계 반영 부족
도구 사용 미포함	대부분 순수 텍스트 입출력만 평가
자동 평가 어려움	개방형 답변은 자동 채점 어려움

핵심 통찰

“인간에게 쉬운데 AI에게 어려운” 과제가 AI 발전의 가장 의미 있는 지표이다. 이런 과제는 대부분 다단계 도구 사용 + 상식 + 추론의 결합을 요구한다.

방법 (Method)

프레임워크 개요

graph TB
    A["질문 + 첨부파일"] --> B["AI 에이전트<br/>(LLM + Tools)"]
    B --> C["웹 검색"]
    B --> D["파일 처리"]
    B --> E["코드 실행"]
    B --> F["계산"]

    C --> G["정보 수집"]
    D --> G
    E --> G
    F --> G
    G --> H["최종 답변<br/>(짧은 팩트)"]
    H --> I["Exact Match 평가"]

발견 (Findings)

주요 결과 (정확도)

에이전트	Level 1	Level 2	Level 3	전체
Human	96%	89%	85%	92%
GPT-4 + Plugins	30%	8%	0%	15%
AutoGPT	15%	3%	0%	7%

(Table 2)

핵심 발견

인간-AI 극단적 격차: 인간 92% vs GPT-4 15%, 실세계 과제에서 ~77%p 차이 (Table 2)
Level 3 전멸: GPT-4도 복합 다단계 과제(Level 3)에서 0% — 현재 AI의 한계
도구 사용의 병목: 적절한 도구를 선택하고 순서대로 사용하는 것이 핵심 어려움
짧은 정답의 장점: “파리” 같은 짧은 팩트로 자동 평가 가능, 모호성 최소화

이론적 의의

AGI 진보의 실용적 지표

GAIA는 “범용 AI”라는 목표를 실세계 과제 성공률로 정량화했다. 인간에게 쉬운(~92%) 과제에서 AI의 성공률(~15%)을 모니터링함으로써, AGI까지의 거리를 지속적으로 측정할 수 있는 프레임워크를 제공한다.

핵심 용어 정리

용어	정의
GAIA	General AI Assistants. 범용 AI 어시스턴트 실세계 과제 벤치마크
Tool Use	LLM이 웹 검색, 코드 실행, 파일 처리 등 외부 도구를 활용하는 능력
Multi-step Reasoning	여러 단계의 정보 수집과 추론을 결합하는 능력
Factoid Answer	이름, 숫자 등 짧고 명확한 팩트 형태의 정답
Exact Match	예측 정답과 실제 정답의 정확한 일치 여부로 평가

Juhyeon's Blog

탐색기

GAIA - A Benchmark for General AI Assistants