ALFWorld: 텍스트와 체화 환경의 정렬을 통한 인터랙티브 학습

Digest: 인간은 낯선 공간에서도 물건 위치와 행동 순서를 추상적으로 추론한 뒤 실행할 수 있지만, 체화 에이전트(embodied agent)에는 이런 추상 추론과 구체적 실행을 연결하는 인프라가 부재했다. UW와 Microsoft Research의 ALFWorldTextWorld(텍스트 기반)와 ALFRED(시각 기반) 두 환경을 PDDL(Planning Domain Definition Language)로 정렬하여, 텍스트에서 학습한 추상 정책을 시각적 embodied 환경으로 zero-shot 전이하는 프레임워크를 제안한다. 핵심 통찰은 언어가 embodied 정책의 효율적 추상화 계층으로 기능하여, 텍스트 학습이 7배 빠르면서도 미지 환경 일반화(34.3% vs 23.1%, Table 3)에서 더 우수하다는 것이다. 모듈형 BUTLER 에이전트(Brain+Vision+Body)는 6개 가정 과제에서 unseen 환경 10.1% 성공률(Table 2)을 달성했다.


메타데이터

항목내용
제목ALFWorld: Aligning Text and Embodied Environments for Interactive Learning
저자Mohit Shridhar, Xingdi Yuan, Marc-Alexandre Côté, Yonatan Bisk, Adam Trischler, Matthew Hausknecht
소속University of Washington, Microsoft Research Montréal, Carnegie Mellon University
연도2020
발표ICLR 2021, arXiv:2010.03768
링크arXiv, Website
키워드ALFWorld, embodied agent, text-to-embodied transfer, BUTLER, interactive learning

데이터셋 구성

규모 및 환경

항목내용
전체 크기3,553개 학습 + 140개(seen) + 134개(unseen) 평가
환경 수120개 방 (주방 30, 침실 30, 욕실 30, 거실 30)
과제 유형6종 가정 과제
평가 방식Success Rate + Goal-Condition Success Rate

6개 과제 유형

과제설명TrainSeenUnseen
Pick & Place물건 집어 지정 위치에 놓기7903524
Examine in Light물건을 조명 아래서 관찰3081318
Clean & Place물건 세척 후 배치6502731
Heat & Place물건 가열 후 배치4591623
Cool & Place물건 냉각 후 배치5332521
Pick Two & Place물건 2개를 집어 배치8132417

Feature/Column 구조

필드설명예시
task_type6개 과제 유형 중 하나"clean_then_place"
goal자연어 목표 지시"Clean the mug and put it on the shelf"
scene환경 방 IDkitchen_12
receptacles관련 수납 가구["shelf", "sink"]
objects대상 물체["mug"]

액션 공간

레벨액션예시
TextWorld (고수준)9개goto, take, put, open, close, toggle, clean, heat, cool
Embodied (저수준)8개MoveAhead, RotateLeft/Right, LookUp/Down, Pickup, Put, Open/Close, ToggleOn/Off

실제 데이터 예시

예시 1: Clean & Place

Goal: "Clean a soapbar and put it in the cabinet."

TextWorld Trajectory:
> goto bathtub 1
> take soapbar 1 from bathtub 1
> goto sinkbasin 1
> clean soapbar 1 with sinkbasin 1
> goto cabinet 1
> put soapbar 1 in/on cabinet 1

Embodied: 각 고수준 액션이 MoveAhead/Rotate 등 저수준 시퀀스로 변환

예시 2: Heat & Place

Goal: "Heat some bread and put it in the counter."

TextWorld Trajectory:
> goto fridge 1
> open fridge 1
> take bread 1 from fridge 1
> goto microwave 1
> heat bread 1 with microwave 1
> goto countertop 1
> put bread 1 in/on countertop 1

왜 이 연구를 하는가?

핵심 질문

텍스트 환경에서 학습한 추상 정책이 시각적 체화 환경으로 전이될 수 있는가?

기존 접근법의 한계

한계설명
모달리티 분리텍스트 환경(TextWorld)과 시각 환경(ALFRED)이 별도로 존재
비효율적 학습Embodied 환경 학습은 렌더링/물리 시뮬레이션으로 매우 느림
일반화 한계Vision-only 에이전트는 unseen 환경에서 성능이 급락

핵심 통찰

언어는 체화 정책의 효율적 추상화 계층이다. 텍스트 기반 학습이 7배 빠르면서도, 시각적 세부사항에 과적합하지 않아 미지 환경으로의 일반화가 더 우수하다.


방법 (Method)

프레임워크 개요

graph TB
    subgraph ALFWorld["ALFWorld 프레임워크"]
        PDDL["PDDL 상태<br/>(공유 표현)"]
        TW["TextWorld<br/>(텍스트 관찰/액션)"]
        ALFRED["ALFRED<br/>(시각 관찰/저수준 액션)"]
        PDDL --> TW
        PDDL --> ALFRED
    end

    subgraph BUTLER["BUTLER 에이전트"]
        Brain["Brain<br/>(Transformer Seq2Seq)<br/>텍스트 정책 학습"]
        Vision["Vision<br/>(Mask R-CNN)<br/>시각→텍스트 변환"]
        Body["Body<br/>(A* + API)<br/>고수준→저수준 변환"]
    end

    TW -->|"DAgger 학습<br/>100K episodes"| Brain
    ALFRED -->|"프레임 입력"| Vision
    Vision -->|"텍스트 관찰"| Brain
    Brain -->|"고수준 액션"| Body
    Body -->|"저수준 프리미티브"| ALFRED

BUTLER 구성 요소

모듈역할세부
Brain텍스트 정책 생성Transformer Seq2Seq, BERT 임베딩, DAgger 학습, Beam Search(width=10)
Vision시각→텍스트 변환Mask R-CNN (73 클래스, 50K 이미지 학습), 템플릿 기반 관찰 생성
Body고수준→저수준 변환A* 네비게이션 + Mask R-CNN 마스크 기반 조작

발견 (Findings)

주요 결과: Zero-Shot Domain Transfer (Table 2)

과제 유형TextWorld Seen/UnseenBUTLER Seen/UnseenBUTLER-Oracle Seen/Unseen
Pick & Place69/5030/2453/31
Examine Light69/3910/0022/12
Clean & Place67/7432/2244/41
Heat & Place88/8317/1660/60
Cool & Place76/9105/1941/27
Pick Two & Place54/6515/0832/29
All Tasks40/3519/1037/26

(Table 2, 성공률 %)

학습 전략 비교 (Table 3, 50K episodes)

전략TrainSeenUnseen속도 (eps/s)
Embodied-Only21.633.623.10.9
TW-Only23.127.134.36.1
Hybrid11.921.423.10.7

모달리티 비교 (Table 5)

에이전트SeenUnseen
BUTLER (텍스트)18.810.1
Vision (ResNet18)10.06.0
Vision (MCNN-FPN)11.44.5

핵심 발견

  1. 텍스트 학습의 효율성: TextWorld 학습이 Embodied 대비 7배 빠르고(6.1 vs 0.9 eps/s), unseen 일반화가 더 우수 (34.3% vs 23.1%, Table 3)
  2. Zero-shot 전이 가능성: 텍스트에서 학습한 정책이 시각 환경으로 전이 (All Tasks: 19% seen, 10% unseen, Table 2)
  3. 텍스트 > 비전 일반화: 텍스트 표현이 시각 특징보다 미지 환경에서 유의미하게 우수 (10.1% vs 4.5-6.0%, Table 5)
  4. Beam Search의 중요성: Beam search 제거 시 seen 과제에서 21%p 성능 하락 (Table 4)
  5. 모듈형 장점: Brain/Vision/Body를 독립적으로 업그레이드 가능

이론적 의의

언어를 체화 정책의 추상화 계층으로 활용

ALFWorld는 “텍스트에서 학습 → embodied로 전이”라는 새로운 패러다임을 제시했다. 이후 AgentBench_2023_AgentEvaluation의 House-Holding(HH) 환경으로 채택되었으며, ReAct(Yao et al., 2023) 등 LLM 기반 에이전트의 핵심 평가 벤치마크가 되었다. 특히 LLM의 few-shot prompting이 DAgger 학습을 크게 능가하는 결과가 이후 연구에서 보고되어, ALFWorld는 LLM 에이전트 능력의 중요한 측정 도구로 자리잡았다.


섹션별 요약

📌 Section-by-Section Summary (접기/펼치기)

§1 Introduction

인간은 추상적 추론 → 구체적 실행의 과정을 거치지만, 기존 에이전트 연구는 텍스트/비전 환경이 분리되어 있었다. ALFWorld는 PDDL을 공유 표현으로 두 환경을 정렬한다.

TextWorld, ALFRED, BabyAI, EmbodiedQA 등 선행 연구 정리. 언어를 계층적 RL의 추상화 계층으로 사용하는 접근과의 연결.

§3 ALFWorld

PDDL 기반 TextWorld-ALFRED 정렬. 120개 방, 6개 과제 유형, 3,553개 학습 인스턴스. TextWorld는 고수준 액션(9개), ALFRED는 저수준 프리미티브(8개).

§4 BUTLER

3-모듈 에이전트: Brain(Transformer Seq2Seq, DAgger 100K), Vision(Mask R-CNN, 73 클래스), Body(A* + API). Brain은 TextWorld에서 학습 후 Vision/Body를 통해 embodied 환경에 배포.

§5 Experiments

Table 2: Zero-shot transfer 결과 (BUTLER All: 19%/10%). Table 3: TW 학습이 7× 빠르고 unseen에서 더 우수. Table 4: Beam search ablation. Table 5: 텍스트 > 비전 일반화.

§6 Discussion & Conclusion

텍스트-embodied 도메인 갭이 여전히 존재. 템플릿 기반 상태 추정의 한계. RL 접근은 액션 확률 ~10⁻⁴⁴으로 실패. 미래 방향: learned captioning, vision-language navigation.


관련 연구


핵심 용어 정리

용어정의
ALFWorldTextWorld(텍스트)와 ALFRED(시각)를 PDDL로 정렬한 인터랙티브 학습 프레임워크
BUTLERBrain(텍스트 정책)+Vision(상태 추정)+Body(액션 변환)로 구성된 모듈형 에이전트
PDDLPlanning Domain Definition Language, 두 환경의 공유 상태 표현
DAggerDataset Aggregation, 전문가 데모와 학습 에이전트를 점진적으로 혼합하는 모방 학습
Zero-shot Transfer텍스트 환경에서 학습한 정책을 추가 학습 없이 시각 환경에 적용
Goal-Condition Success다단계 목표 중 달성된 조건의 비율 (부분 점수)

태그

paper #2020 benchmark embodied_agent ALFWorld BUTLER text_transfer ICLR UW MSR