AgentBench: 다중 환경에서의 LLM 에이전트 평가

Digest: LLM을 에이전트로 활용하는 연구가 급증했지만, 에이전트 능력을 체계적으로 평가하는 표준화된 벤치마크가 부재했다. Tsinghua 연구팀의 AgentBench8개의 서로 다른 환경(운영체제, 데이터베이스, 지식 그래프, 디지털 카드 게임, 웹 브라우징, 웹 쇼핑, 횡스크롤 게임, 가정 환경)에서 LLM 에이전트의 종합적 상호작용 능력을 평가한다. 핵심 통찰은 에이전트 능력은 단일 환경이 아닌 다양한 환경에서의 적응력으로 측정해야 한다는 것이다. GPT-4가 8개 환경 평균 4.01 (Table 2)로 압도적 1위, 오픈소스 최고(Llama-2-Chat-70B)는 0.45로 약 9배 차이를 보여 상용-오픈소스 격차가 극명했다.


메타데이터

항목내용
제목AgentBench: Evaluating LLMs as Agents
저자Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
소속Tsinghua University, OSU, UC Berkeley
연도2023
발표ICLR 2024, arXiv:2308.03688
링크arXiv, GitHub
키워드AgentBench, agent evaluation, multi-environment, interactive

데이터셋 구성

8개 평가 환경

#환경약칭문제 수설명메트릭
1Operating SystemOS144Bash 명령으로 시스템 과제 해결Success Rate
2DatabaseDB240SQL 쿼리로 데이터 조회Success Rate
3Knowledge GraphKG500SPARQL로 지식 그래프 탐색F1
4Digital Card GameDCG234Aquawar 카드 게임Win Rate
5Lateral Thinking PuzzlesLTP100측면 사고 퍼즐Progress Rate
6House-HoldingHH200ALFWorld 가정 환경 과제Success Rate
7Web ShoppingWS251웹 쇼핑 과제Reward
8Web BrowsingWB643웹 브라우징 정보 수집Reward

Feature/Column 구조 (공통)

필드설명예시
task_id고유 과제 IDos_001
environment환경 유형"operating_system"
instruction에이전트에게 주어지는 자연어 지시"Find all .py files larger than 1MB"
ground_truth정답 또는 성공 조건기대 출력/상태
max_turns최대 상호작용 횟수10

실제 데이터 예시

예시 1: Operating System

Instruction: "There is a file in /home/user/data/ that contains
the word 'ERROR'. Find its name and count how many lines
contain 'ERROR'."

Expected Interaction:
Agent: grep -rl "ERROR" /home/user/data/
System: /home/user/data/log.txt
Agent: grep -c "ERROR" /home/user/data/log.txt
System: 42
Agent: The file is log.txt with 42 error lines.

예시 2: Database

Instruction: "What is the average salary of employees in the
Engineering department who joined after 2020?"

Expected: Agent generates correct SQL query
SELECT AVG(salary) FROM employees
WHERE department='Engineering' AND join_date > '2020-01-01';

예시 3: Web Shopping

Instruction: "Find a red cotton t-shirt under $20, size Medium,
with at least 4-star rating."

Expected: Agent navigates web shop, applies filters,
selects appropriate product, adds to cart.

왜 이 연구를 하는가?

핵심 질문

LLM이 다양한 인터랙티브 환경에서 자율적 에이전트로 기능할 수 있는가?

기존 접근법의 한계

한계설명
단일 환경 평가기존 벤치마크는 특정 환경(웹만, 코드만)에 한정
정적 평가대부분 한 번의 입출력, 다턴 상호작용 미평가
환경 통합 부재에이전트의 범용성을 측정하는 종합 프레임워크 없음

핵심 통찰

진정한 에이전트 능력은 특정 환경에서의 성능이 아니라, 다양한 환경에 적응하여 문제를 해결하는 범용적 상호작용 능력이다.


방법 (Method)

프레임워크 개요

graph TB
    A["자연어 지시"] --> B["LLM 에이전트"]
    B --> C["Action 생성<br/>(bash/SQL/SPARQL/click)"]
    C --> D["환경 실행"]
    D --> E["Observation 반환"]
    E --> B

    F["8개 환경"] --> D
    G["종합 점수 산출<br/>(환경별 정규화 후 평균)"] --> H["AgentBench 스코어"]

발견 (Findings)

주요 결과 (종합 점수, 정규화)

모델종합OSDBKGWS
GPT-44.0142.4%32.5%57.2%50.0%
GPT-3.52.6737.5%25.0%42.1%30.0%
Claude (v1)2.20
Llama-2-70B0.455.6%2.1%8.3%5.0%

(Table 2)

핵심 발견

  1. 상용-오픈소스 격차: GPT-4(4.01) vs Llama-2-70B(0.45), 약 9배 차이 (Table 2)
  2. 환경별 난이도 차이: DB와 OS가 상대적으로 쉬움, Web Browsing과 Game이 가장 어려움
  3. 코드 능력의 중요성: 코드 학습 모델이 전반적으로 에이전트 성능이 높음
  4. 다턴 능력의 한계: 상호작용이 길어질수록 모든 모델의 성능이 급격히 하락

이론적 의의

AI 에이전트 평가의 표준 프레임워크

AgentBench는 다양한 환경에서의 에이전트 능력을 통합 비교하는 최초의 체계적 벤치마크이다. “LLM as Agent” 연구의 핵심 참조점이 되었으며, 상용-오픈소스 격차를 정량화한 것은 이후 오픈소스 에이전트 모델 개발의 동기가 되었다.


관련 연구


핵심 용어 정리

용어정의
AgentBench8개 환경에서 LLM 에이전트를 종합 평가하는 벤치마크
LLM AgentLLM이 환경과 상호작용하며 목표를 달성하는 자율적 시스템
Multi-turn Interaction에이전트와 환경 간 여러 번의 행동-관찰 교환
Action Space에이전트가 수행할 수 있는 행동의 집합 (bash, SQL, click 등)
Observation환경이 에이전트의 행동에 대해 반환하는 피드백

태그

paper #2023 benchmark agent AgentBench multi_environment Tsinghua ICLR