AgentBench: 다중 환경에서의 LLM 에이전트 평가
Digest: LLM을 에이전트로 활용하는 연구가 급증했지만, 에이전트 능력을 체계적으로 평가하는 표준화된 벤치마크가 부재했다. Tsinghua 연구팀의 AgentBench는 8개의 서로 다른 환경(운영체제, 데이터베이스, 지식 그래프, 디지털 카드 게임, 웹 브라우징, 웹 쇼핑, 횡스크롤 게임, 가정 환경)에서 LLM 에이전트의 종합적 상호작용 능력을 평가한다. 핵심 통찰은 에이전트 능력은 단일 환경이 아닌 다양한 환경에서의 적응력으로 측정해야 한다는 것이다. GPT-4가 8개 환경 평균 4.01 (Table 2)로 압도적 1위, 오픈소스 최고(Llama-2-Chat-70B)는 0.45로 약 9배 차이를 보여 상용-오픈소스 격차가 극명했다.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | AgentBench: Evaluating LLMs as Agents |
| 저자 | Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang |
| 소속 | Tsinghua University, OSU, UC Berkeley |
| 연도 | 2023 |
| 발표 | ICLR 2024, arXiv:2308.03688 |
| 링크 | arXiv, GitHub |
| 키워드 | AgentBench, agent evaluation, multi-environment, interactive |
데이터셋 구성
8개 평가 환경
| # | 환경 | 약칭 | 문제 수 | 설명 | 메트릭 |
|---|---|---|---|---|---|
| 1 | Operating System | OS | 144 | Bash 명령으로 시스템 과제 해결 | Success Rate |
| 2 | Database | DB | 240 | SQL 쿼리로 데이터 조회 | Success Rate |
| 3 | Knowledge Graph | KG | 500 | SPARQL로 지식 그래프 탐색 | F1 |
| 4 | Digital Card Game | DCG | 234 | Aquawar 카드 게임 | Win Rate |
| 5 | Lateral Thinking Puzzles | LTP | 100 | 측면 사고 퍼즐 | Progress Rate |
| 6 | House-Holding | HH | 200 | ALFWorld 가정 환경 과제 | Success Rate |
| 7 | Web Shopping | WS | 251 | 웹 쇼핑 과제 | Reward |
| 8 | Web Browsing | WB | 643 | 웹 브라우징 정보 수집 | Reward |
Feature/Column 구조 (공통)
| 필드 | 설명 | 예시 |
|---|---|---|
task_id | 고유 과제 ID | os_001 |
environment | 환경 유형 | "operating_system" |
instruction | 에이전트에게 주어지는 자연어 지시 | "Find all .py files larger than 1MB" |
ground_truth | 정답 또는 성공 조건 | 기대 출력/상태 |
max_turns | 최대 상호작용 횟수 | 10 |
실제 데이터 예시
예시 1: Operating System
Instruction: "There is a file in /home/user/data/ that contains
the word 'ERROR'. Find its name and count how many lines
contain 'ERROR'."
Expected Interaction:
Agent: grep -rl "ERROR" /home/user/data/
System: /home/user/data/log.txt
Agent: grep -c "ERROR" /home/user/data/log.txt
System: 42
Agent: The file is log.txt with 42 error lines.
예시 2: Database
Instruction: "What is the average salary of employees in the
Engineering department who joined after 2020?"
Expected: Agent generates correct SQL query
SELECT AVG(salary) FROM employees
WHERE department='Engineering' AND join_date > '2020-01-01';
예시 3: Web Shopping
Instruction: "Find a red cotton t-shirt under $20, size Medium,
with at least 4-star rating."
Expected: Agent navigates web shop, applies filters,
selects appropriate product, adds to cart.
왜 이 연구를 하는가?
핵심 질문
LLM이 다양한 인터랙티브 환경에서 자율적 에이전트로 기능할 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 단일 환경 평가 | 기존 벤치마크는 특정 환경(웹만, 코드만)에 한정 |
| 정적 평가 | 대부분 한 번의 입출력, 다턴 상호작용 미평가 |
| 환경 통합 부재 | 에이전트의 범용성을 측정하는 종합 프레임워크 없음 |
핵심 통찰
진정한 에이전트 능력은 특정 환경에서의 성능이 아니라, 다양한 환경에 적응하여 문제를 해결하는 범용적 상호작용 능력이다.
방법 (Method)
프레임워크 개요
graph TB A["자연어 지시"] --> B["LLM 에이전트"] B --> C["Action 생성<br/>(bash/SQL/SPARQL/click)"] C --> D["환경 실행"] D --> E["Observation 반환"] E --> B F["8개 환경"] --> D G["종합 점수 산출<br/>(환경별 정규화 후 평균)"] --> H["AgentBench 스코어"]
발견 (Findings)
주요 결과 (종합 점수, 정규화)
| 모델 | 종합 | OS | DB | KG | WS |
|---|---|---|---|---|---|
| GPT-4 | 4.01 | 42.4% | 32.5% | 57.2% | 50.0% |
| GPT-3.5 | 2.67 | 37.5% | 25.0% | 42.1% | 30.0% |
| Claude (v1) | 2.20 | — | — | — | — |
| Llama-2-70B | 0.45 | 5.6% | 2.1% | 8.3% | 5.0% |
(Table 2)
핵심 발견
- 상용-오픈소스 격차: GPT-4(4.01) vs Llama-2-70B(0.45), 약 9배 차이 (Table 2)
- 환경별 난이도 차이: DB와 OS가 상대적으로 쉬움, Web Browsing과 Game이 가장 어려움
- 코드 능력의 중요성: 코드 학습 모델이 전반적으로 에이전트 성능이 높음
- 다턴 능력의 한계: 상호작용이 길어질수록 모든 모델의 성능이 급격히 하락
이론적 의의
AI 에이전트 평가의 표준 프레임워크
AgentBench는 다양한 환경에서의 에이전트 능력을 통합 비교하는 최초의 체계적 벤치마크이다. “LLM as Agent” 연구의 핵심 참조점이 되었으며, 상용-오픈소스 격차를 정량화한 것은 이후 오픈소스 에이전트 모델 개발의 동기가 되었다.
관련 연구
- WebArena_2023_WebAgent — 웹 환경에 특화된 에이전트 벤치마크
- GAIA_2023_GeneralAI — 범용 AI 어시스턴트 실세계 과제
- SWE-bench_2023_SoftwareEngineering — 코딩 에이전트 벤치마크
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| AgentBench | 8개 환경에서 LLM 에이전트를 종합 평가하는 벤치마크 |
| LLM Agent | LLM이 환경과 상호작용하며 목표를 달성하는 자율적 시스템 |
| Multi-turn Interaction | 에이전트와 환경 간 여러 번의 행동-관찰 교환 |
| Action Space | 에이전트가 수행할 수 있는 행동의 집합 (bash, SQL, click 등) |
| Observation | 환경이 에이전트의 행동에 대해 반환하는 피드백 |
태그
paper #2023 benchmark agent AgentBench multi_environment Tsinghua ICLR