AgentBench: 다중 환경에서의 LLM 에이전트 평가

Digest: LLM을 에이전트로 활용하는 연구가 급증했지만, 에이전트 능력을 체계적으로 평가하는 표준화된 벤치마크가 부재했다. Tsinghua 연구팀의 AgentBench는 8개의 서로 다른 환경(운영체제, 데이터베이스, 지식 그래프, 디지털 카드 게임, 웹 브라우징, 웹 쇼핑, 횡스크롤 게임, 가정 환경)에서 LLM 에이전트의 종합적 상호작용 능력을 평가한다. 핵심 통찰은 에이전트 능력은 단일 환경이 아닌 다양한 환경에서의 적응력으로 측정해야 한다는 것이다. GPT-4가 8개 환경 평균 4.01 (Table 2)로 압도적 1위, 오픈소스 최고(Llama-2-Chat-70B)는 0.45로 약 9배 차이를 보여 상용-오픈소스 격차가 극명했다.

메타데이터

항목	내용
제목	AgentBench: Evaluating LLMs as Agents
저자	Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
소속	Tsinghua University, OSU, UC Berkeley
연도	2023
발표	ICLR 2024, arXiv:2308.03688
링크	arXiv, GitHub
키워드	AgentBench, agent evaluation, multi-environment, interactive

데이터셋 구성

8개 평가 환경

#	환경	약칭	문제 수	설명	메트릭
1	Operating System	OS	144	Bash 명령으로 시스템 과제 해결	Success Rate
2	Database	DB	240	SQL 쿼리로 데이터 조회	Success Rate
3	Knowledge Graph	KG	500	SPARQL로 지식 그래프 탐색	F1
4	Digital Card Game	DCG	234	Aquawar 카드 게임	Win Rate
5	Lateral Thinking Puzzles	LTP	100	측면 사고 퍼즐	Progress Rate
6	House-Holding	HH	200	ALFWorld 가정 환경 과제	Success Rate
7	Web Shopping	WS	251	웹 쇼핑 과제	Reward
8	Web Browsing	WB	643	웹 브라우징 정보 수집	Reward

Feature/Column 구조 (공통)

필드	설명	예시
`task_id`	고유 과제 ID	`os_001`
`environment`	환경 유형	`"operating_system"`
`instruction`	에이전트에게 주어지는 자연어 지시	`"Find all .py files larger than 1MB"`
`ground_truth`	정답 또는 성공 조건	기대 출력/상태
`max_turns`	최대 상호작용 횟수	`10`

실제 데이터 예시

예시 1: Operating System

Instruction: "There is a file in /home/user/data/ that contains
the word 'ERROR'. Find its name and count how many lines
contain 'ERROR'."

Expected Interaction:
Agent: grep -rl "ERROR" /home/user/data/
System: /home/user/data/log.txt
Agent: grep -c "ERROR" /home/user/data/log.txt
System: 42
Agent: The file is log.txt with 42 error lines.

예시 2: Database

Instruction: "What is the average salary of employees in the
Engineering department who joined after 2020?"

Expected: Agent generates correct SQL query
SELECT AVG(salary) FROM employees
WHERE department='Engineering' AND join_date > '2020-01-01';

예시 3: Web Shopping

Instruction: "Find a red cotton t-shirt under $20, size Medium,
with at least 4-star rating."

Expected: Agent navigates web shop, applies filters,
selects appropriate product, adds to cart.

왜 이 연구를 하는가?

핵심 질문

LLM이 다양한 인터랙티브 환경에서 자율적 에이전트로 기능할 수 있는가?

기존 접근법의 한계

한계	설명
단일 환경 평가	기존 벤치마크는 특정 환경(웹만, 코드만)에 한정
정적 평가	대부분 한 번의 입출력, 다턴 상호작용 미평가
환경 통합 부재	에이전트의 범용성을 측정하는 종합 프레임워크 없음

핵심 통찰

진정한 에이전트 능력은 특정 환경에서의 성능이 아니라, 다양한 환경에 적응하여 문제를 해결하는 범용적 상호작용 능력이다.

방법 (Method)

프레임워크 개요

graph TB
    A["자연어 지시"] --> B["LLM 에이전트"]
    B --> C["Action 생성<br/>(bash/SQL/SPARQL/click)"]
    C --> D["환경 실행"]
    D --> E["Observation 반환"]
    E --> B

    F["8개 환경"] --> D
    G["종합 점수 산출<br/>(환경별 정규화 후 평균)"] --> H["AgentBench 스코어"]

발견 (Findings)

주요 결과 (종합 점수, 정규화)

모델	종합	OS	DB	KG	WS
GPT-4	4.01	42.4%	32.5%	57.2%	50.0%
GPT-3.5	2.67	37.5%	25.0%	42.1%	30.0%
Claude (v1)	2.20	—	—	—	—
Llama-2-70B	0.45	5.6%	2.1%	8.3%	5.0%

(Table 2)

핵심 발견

상용-오픈소스 격차: GPT-4(4.01) vs Llama-2-70B(0.45), 약 9배 차이 (Table 2)
환경별 난이도 차이: DB와 OS가 상대적으로 쉬움, Web Browsing과 Game이 가장 어려움
코드 능력의 중요성: 코드 학습 모델이 전반적으로 에이전트 성능이 높음
다턴 능력의 한계: 상호작용이 길어질수록 모든 모델의 성능이 급격히 하락

이론적 의의

AI 에이전트 평가의 표준 프레임워크

AgentBench는 다양한 환경에서의 에이전트 능력을 통합 비교하는 최초의 체계적 벤치마크이다. “LLM as Agent” 연구의 핵심 참조점이 되었으며, 상용-오픈소스 격차를 정량화한 것은 이후 오픈소스 에이전트 모델 개발의 동기가 되었다.

핵심 용어 정리

용어	정의
AgentBench	8개 환경에서 LLM 에이전트를 종합 평가하는 벤치마크
LLM Agent	LLM이 환경과 상호작용하며 목표를 달성하는 자율적 시스템
Multi-turn Interaction	에이전트와 환경 간 여러 번의 행동-관찰 교환
Action Space	에이전트가 수행할 수 있는 행동의 집합 (bash, SQL, click 등)
Observation	환경이 에이전트의 행동에 대해 반환하는 피드백

Juhyeon's Blog

탐색기

AgentBench - Evaluating LLMs as Agents