GAIA: 범용 AI 어시스턴트를 위한 벤치마크

Digest: LLM의 능력이 향상됨에 따라 “범용 AI 어시스턴트”라는 목표에 얼마나 근접했는지 평가할 벤치마크가 필요해졌다. Meta FAIR의 GAIA웹 검색, 파일 처리, 계산, 추론을 복합적으로 요구하는 466개 실세계 질문을 제시한다. 핵심 통찰은 “인간에게는 쉽지만 AI에게는 어려운” 과제가 AI 진보의 가장 의미 있는 지표라는 것이다. 인간은 92% (Table 2)를 달성하지만 GPT-4 + plugins는 15%에 불과하며, 특히 다단계 도구 사용이 필요한 Level 3에서는 0%를 기록했다. 정답은 짧고 명확한 팩트(이름, 숫자, 짧은 문자열)이어서 자동 평가가 용이하다.


메타데이터

항목내용
제목GAIA: A Benchmark for General AI Assistants
저자Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
소속Meta FAIR, Hugging Face
연도2023
발표ICLR 2024, arXiv:2311.12983
링크arXiv, HuggingFace
키워드GAIA, general AI, assistant, tool use, real-world tasks

데이터셋 구성

규모 및 분할

항목내용
전체 크기466개 질문
Validation165개 (정답 공개)
Test301개 (정답 비공개, 리더보드)
정답 형식짧은 팩트 (이름, 숫자, 짧은 문자열)
첨부 파일일부 질문에 PDF, 이미지, 스프레드시트 등 첨부

3단계 난이도

Level필요 단계도구비율인간GPT-4
11-3단계0-1개~50%96%30%
23-5단계2-3개~35%89%8%
35+단계3+개, 복합 추론~15%85%0%

필요 능력 분류

능력비율설명
웹 검색~60%최신 정보 검색 필요
수학적 추론~30%계산, 단위 변환
파일 처리~25%PDF, Excel, 이미지 분석
코딩~15%스크립트 작성/실행
다단계 추론~80%여러 단계 결합

Feature/Column 구조

필드설명예시
question자연어 질문"What was the GDP of France in 2022 in euros?"
final_answer짧은 팩트 정답"2,639 billion"
level난이도 (1/2/3)2
file첨부 파일 (optional)"data.xlsx"
annotator_metadata풀이 과정 메모"Google search → Wikipedia → calculation"

실제 데이터 예시

예시 1: Level 1 (단순 검색)

Question: "What is the elevation in feet of the highest
point in the city of Tucson, Arizona?"
Answer: "9,157"
(Requires: web search → Wikipedia/topographic source)

예시 2: Level 2 (다단계)

Question: "In the attached Excel file, what is the median
salary of employees who joined before 2020 and work in
the Engineering department?"
Answer: "78,500"
(Requires: file reading → filtering → calculation)

예시 3: Level 3 (복합)

Question: "Using the attached PDF of a company's annual report,
calculate the year-over-year revenue growth rate, then find
the company's stock price on the day the report was published.
What was the price-to-revenue ratio?"
Answer: "3.42"
(Requires: PDF parsing → calculation → web search → more calculation)

왜 이 연구를 하는가?

핵심 질문

현재 AI 시스템이 범용 어시스턴트로서 실세계 과제를 얼마나 잘 수행할 수 있는가?

기존 접근법의 한계

한계설명
인공적 과제기존 벤치마크는 학문적/인공적 과제, 실세계 반영 부족
도구 사용 미포함대부분 순수 텍스트 입출력만 평가
자동 평가 어려움개방형 답변은 자동 채점 어려움

핵심 통찰

“인간에게 쉬운데 AI에게 어려운” 과제가 AI 발전의 가장 의미 있는 지표이다. 이런 과제는 대부분 다단계 도구 사용 + 상식 + 추론의 결합을 요구한다.


방법 (Method)

프레임워크 개요

graph TB
    A["질문 + 첨부파일"] --> B["AI 에이전트<br/>(LLM + Tools)"]
    B --> C["웹 검색"]
    B --> D["파일 처리"]
    B --> E["코드 실행"]
    B --> F["계산"]

    C --> G["정보 수집"]
    D --> G
    E --> G
    F --> G
    G --> H["최종 답변<br/>(짧은 팩트)"]
    H --> I["Exact Match 평가"]

발견 (Findings)

주요 결과 (정확도)

에이전트Level 1Level 2Level 3전체
Human96%89%85%92%
GPT-4 + Plugins30%8%0%15%
AutoGPT15%3%0%7%

(Table 2)

핵심 발견

  1. 인간-AI 극단적 격차: 인간 92% vs GPT-4 15%, 실세계 과제에서 ~77%p 차이 (Table 2)
  2. Level 3 전멸: GPT-4도 복합 다단계 과제(Level 3)에서 0% — 현재 AI의 한계
  3. 도구 사용의 병목: 적절한 도구를 선택하고 순서대로 사용하는 것이 핵심 어려움
  4. 짧은 정답의 장점: “파리” 같은 짧은 팩트로 자동 평가 가능, 모호성 최소화

이론적 의의

AGI 진보의 실용적 지표

GAIA는 “범용 AI”라는 목표를 실세계 과제 성공률로 정량화했다. 인간에게 쉬운(~92%) 과제에서 AI의 성공률(~15%)을 모니터링함으로써, AGI까지의 거리를 지속적으로 측정할 수 있는 프레임워크를 제공한다.


관련 연구


핵심 용어 정리

용어정의
GAIAGeneral AI Assistants. 범용 AI 어시스턴트 실세계 과제 벤치마크
Tool UseLLM이 웹 검색, 코드 실행, 파일 처리 등 외부 도구를 활용하는 능력
Multi-step Reasoning여러 단계의 정보 수집과 추론을 결합하는 능력
Factoid Answer이름, 숫자 등 짧고 명확한 팩트 형태의 정답
Exact Match예측 정답과 실제 정답의 정확한 일치 여부로 평가

태그

paper #2023 benchmark general_AI GAIA tool_use assistant Meta_FAIR ICLR