ALFWorld: 텍스트와 체화 환경의 정렬을 통한 인터랙티브 학습

Digest: 인간은 낯선 공간에서도 물건 위치와 행동 순서를 추상적으로 추론한 뒤 실행할 수 있지만, 체화 에이전트(embodied agent)에는 이런 추상 추론과 구체적 실행을 연결하는 인프라가 부재했다. UW와 Microsoft Research의 ALFWorld는 TextWorld(텍스트 기반)와 ALFRED(시각 기반) 두 환경을 PDDL(Planning Domain Definition Language)로 정렬하여, 텍스트에서 학습한 추상 정책을 시각적 embodied 환경으로 zero-shot 전이하는 프레임워크를 제안한다. 핵심 통찰은 언어가 embodied 정책의 효율적 추상화 계층으로 기능하여, 텍스트 학습이 7배 빠르면서도 미지 환경 일반화(34.3% vs 23.1%, Table 3)에서 더 우수하다는 것이다. 모듈형 BUTLER 에이전트(Brain+Vision+Body)는 6개 가정 과제에서 unseen 환경 10.1% 성공률(Table 2)을 달성했다.

메타데이터

항목	내용
제목	ALFWorld: Aligning Text and Embodied Environments for Interactive Learning
저자	Mohit Shridhar, Xingdi Yuan, Marc-Alexandre Côté, Yonatan Bisk, Adam Trischler, Matthew Hausknecht
소속	University of Washington, Microsoft Research Montréal, Carnegie Mellon University
연도	2020
발표	ICLR 2021, arXiv:2010.03768
링크	arXiv, Website
키워드	ALFWorld, embodied agent, text-to-embodied transfer, BUTLER, interactive learning

데이터셋 구성

규모 및 환경

항목	내용
전체 크기	3,553개 학습 + 140개(seen) + 134개(unseen) 평가
환경 수	120개 방 (주방 30, 침실 30, 욕실 30, 거실 30)
과제 유형	6종 가정 과제
평가 방식	Success Rate + Goal-Condition Success Rate

6개 과제 유형

과제	설명	Train	Seen	Unseen
Pick & Place	물건 집어 지정 위치에 놓기	790	35	24
Examine in Light	물건을 조명 아래서 관찰	308	13	18
Clean & Place	물건 세척 후 배치	650	27	31
Heat & Place	물건 가열 후 배치	459	16	23
Cool & Place	물건 냉각 후 배치	533	25	21
Pick Two & Place	물건 2개를 집어 배치	813	24	17

Feature/Column 구조

필드	설명	예시
`task_type`	6개 과제 유형 중 하나	`"clean_then_place"`
`goal`	자연어 목표 지시	`"Clean the mug and put it on the shelf"`
`scene`	환경 방 ID	`kitchen_12`
`receptacles`	관련 수납 가구	`["shelf", "sink"]`
`objects`	대상 물체	`["mug"]`

액션 공간

레벨	액션	예시
TextWorld (고수준)	9개	`goto`, `take`, `put`, `open`, `close`, `toggle`, `clean`, `heat`, `cool`
Embodied (저수준)	8개	`MoveAhead`, `RotateLeft/Right`, `LookUp/Down`, `Pickup`, `Put`, `Open/Close`, `ToggleOn/Off`

실제 데이터 예시

예시 1: Clean & Place

Goal: "Clean a soapbar and put it in the cabinet."

TextWorld Trajectory:
> goto bathtub 1
> take soapbar 1 from bathtub 1
> goto sinkbasin 1
> clean soapbar 1 with sinkbasin 1
> goto cabinet 1
> put soapbar 1 in/on cabinet 1

Embodied: 각 고수준 액션이 MoveAhead/Rotate 등 저수준 시퀀스로 변환

예시 2: Heat & Place

Goal: "Heat some bread and put it in the counter."

TextWorld Trajectory:
> goto fridge 1
> open fridge 1
> take bread 1 from fridge 1
> goto microwave 1
> heat bread 1 with microwave 1
> goto countertop 1
> put bread 1 in/on countertop 1

왜 이 연구를 하는가?

핵심 질문

텍스트 환경에서 학습한 추상 정책이 시각적 체화 환경으로 전이될 수 있는가?

기존 접근법의 한계

한계	설명
모달리티 분리	텍스트 환경(TextWorld)과 시각 환경(ALFRED)이 별도로 존재
비효율적 학습	Embodied 환경 학습은 렌더링/물리 시뮬레이션으로 매우 느림
일반화 한계	Vision-only 에이전트는 unseen 환경에서 성능이 급락

핵심 통찰

언어는 체화 정책의 효율적 추상화 계층이다. 텍스트 기반 학습이 7배 빠르면서도, 시각적 세부사항에 과적합하지 않아 미지 환경으로의 일반화가 더 우수하다.

방법 (Method)

프레임워크 개요

graph TB
    subgraph ALFWorld["ALFWorld 프레임워크"]
        PDDL["PDDL 상태<br/>(공유 표현)"]
        TW["TextWorld<br/>(텍스트 관찰/액션)"]
        ALFRED["ALFRED<br/>(시각 관찰/저수준 액션)"]
        PDDL --> TW
        PDDL --> ALFRED
    end

    subgraph BUTLER["BUTLER 에이전트"]
        Brain["Brain<br/>(Transformer Seq2Seq)<br/>텍스트 정책 학습"]
        Vision["Vision<br/>(Mask R-CNN)<br/>시각→텍스트 변환"]
        Body["Body<br/>(A* + API)<br/>고수준→저수준 변환"]
    end

    TW -->|"DAgger 학습<br/>100K episodes"| Brain
    ALFRED -->|"프레임 입력"| Vision
    Vision -->|"텍스트 관찰"| Brain
    Brain -->|"고수준 액션"| Body
    Body -->|"저수준 프리미티브"| ALFRED

BUTLER 구성 요소

모듈	역할	세부
Brain	텍스트 정책 생성	Transformer Seq2Seq, BERT 임베딩, DAgger 학습, Beam Search(width=10)
Vision	시각→텍스트 변환	Mask R-CNN (73 클래스, 50K 이미지 학습), 템플릿 기반 관찰 생성
Body	고수준→저수준 변환	A* 네비게이션 + Mask R-CNN 마스크 기반 조작

발견 (Findings)

주요 결과: Zero-Shot Domain Transfer (Table 2)

과제 유형	TextWorld Seen/Unseen	BUTLER Seen/Unseen	BUTLER-Oracle Seen/Unseen
Pick & Place	69/50	30/24	53/31
Examine Light	69/39	10/00	22/12
Clean & Place	67/74	32/22	44/41
Heat & Place	88/83	17/16	60/60
Cool & Place	76/91	05/19	41/27
Pick Two & Place	54/65	15/08	32/29
All Tasks	40/35	19/10	37/26

(Table 2, 성공률 %)

학습 전략 비교 (Table 3, 50K episodes)

전략	Train	Seen	Unseen	속도 (eps/s)
Embodied-Only	21.6	33.6	23.1	0.9
TW-Only	23.1	27.1	34.3	6.1
Hybrid	11.9	21.4	23.1	0.7

모달리티 비교 (Table 5)

에이전트	Seen	Unseen
BUTLER (텍스트)	18.8	10.1
Vision (ResNet18)	10.0	6.0
Vision (MCNN-FPN)	11.4	4.5

핵심 발견

텍스트 학습의 효율성: TextWorld 학습이 Embodied 대비 7배 빠르고(6.1 vs 0.9 eps/s), unseen 일반화가 더 우수 (34.3% vs 23.1%, Table 3)
Zero-shot 전이 가능성: 텍스트에서 학습한 정책이 시각 환경으로 전이 (All Tasks: 19% seen, 10% unseen, Table 2)
텍스트 > 비전 일반화: 텍스트 표현이 시각 특징보다 미지 환경에서 유의미하게 우수 (10.1% vs 4.5-6.0%, Table 5)
Beam Search의 중요성: Beam search 제거 시 seen 과제에서 21%p 성능 하락 (Table 4)
모듈형 장점: Brain/Vision/Body를 독립적으로 업그레이드 가능

이론적 의의

언어를 체화 정책의 추상화 계층으로 활용

ALFWorld는 “텍스트에서 학습 → embodied로 전이”라는 새로운 패러다임을 제시했다. 이후 AgentBench_2023_AgentEvaluation의 House-Holding(HH) 환경으로 채택되었으며, ReAct(Yao et al., 2023) 등 LLM 기반 에이전트의 핵심 평가 벤치마크가 되었다. 특히 LLM의 few-shot prompting이 DAgger 학습을 크게 능가하는 결과가 이후 연구에서 보고되어, ALFWorld는 LLM 에이전트 능력의 중요한 측정 도구로 자리잡았다.

섹션별 요약

📌 Section-by-Section Summary (접기/펼치기)

§1 Introduction

인간은 추상적 추론 → 구체적 실행의 과정을 거치지만, 기존 에이전트 연구는 텍스트/비전 환경이 분리되어 있었다. ALFWorld는 PDDL을 공유 표현으로 두 환경을 정렬한다.

TextWorld, ALFRED, BabyAI, EmbodiedQA 등 선행 연구 정리. 언어를 계층적 RL의 추상화 계층으로 사용하는 접근과의 연결.

§3 ALFWorld

PDDL 기반 TextWorld-ALFRED 정렬. 120개 방, 6개 과제 유형, 3,553개 학습 인스턴스. TextWorld는 고수준 액션(9개), ALFRED는 저수준 프리미티브(8개).

§4 BUTLER

3-모듈 에이전트: Brain(Transformer Seq2Seq, DAgger 100K), Vision(Mask R-CNN, 73 클래스), Body(A* + API). Brain은 TextWorld에서 학습 후 Vision/Body를 통해 embodied 환경에 배포.

§5 Experiments

Table 2: Zero-shot transfer 결과 (BUTLER All: 19%/10%). Table 3: TW 학습이 7× 빠르고 unseen에서 더 우수. Table 4: Beam search ablation. Table 5: 텍스트 > 비전 일반화.

§6 Discussion & Conclusion

텍스트-embodied 도메인 갭이 여전히 존재. 템플릿 기반 상태 추정의 한계. RL 접근은 액션 확률 ~10⁻⁴⁴으로 실패. 미래 방향: learned captioning, vision-language navigation.

핵심 용어 정리

용어	정의
ALFWorld	TextWorld(텍스트)와 ALFRED(시각)를 PDDL로 정렬한 인터랙티브 학습 프레임워크
BUTLER	Brain(텍스트 정책)+Vision(상태 추정)+Body(액션 변환)로 구성된 모듈형 에이전트
PDDL	Planning Domain Definition Language, 두 환경의 공유 상태 표현
DAgger	Dataset Aggregation, 전문가 데모와 학습 에이전트를 점진적으로 혼합하는 모방 학습
Zero-shot Transfer	텍스트 환경에서 학습한 정책을 추가 학습 없이 시각 환경에 적용
Goal-Condition Success	다단계 목표 중 달성된 조건의 비율 (부분 점수)

Juhyeon's Blog

탐색기

ALFWorld - Aligning Text and Embodied Environments for Interactive Learning

ALFWorld: 텍스트와 체화 환경의 정렬을 통한 인터랙티브 학습

메타데이터

데이터셋 구성

규모 및 환경

6개 과제 유형

Feature/Column 구조

액션 공간

실제 데이터 예시

예시 1: Clean & Place

예시 2: Heat & Place

왜 이 연구를 하는가?

핵심 질문

기존 접근법의 한계

핵심 통찰

방법 (Method)

프레임워크 개요

BUTLER 구성 요소

발견 (Findings)

주요 결과: Zero-Shot Domain Transfer (Table 2)

학습 전략 비교 (Table 3, 50K episodes)

모달리티 비교 (Table 5)

핵심 발견

이론적 의의

언어를 체화 정책의 추상화 계층으로 활용

섹션별 요약

§1 Introduction

§3 ALFWorld

§4 BUTLER

§5 Experiments

§6 Discussion & Conclusion

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크

ALFWorld - Aligning Text and Embodied Environments for Interactive Learning

ALFWorld: 텍스트와 체화 환경의 정렬을 통한 인터랙티브 학습

메타데이터

데이터셋 구성

규모 및 환경

6개 과제 유형

Feature/Column 구조

액션 공간

실제 데이터 예시

예시 1: Clean & Place

예시 2: Heat & Place

왜 이 연구를 하는가?

핵심 질문

기존 접근법의 한계

핵심 통찰

방법 (Method)

프레임워크 개요

BUTLER 구성 요소

발견 (Findings)

주요 결과: Zero-Shot Domain Transfer (Table 2)

학습 전략 비교 (Table 3, 50K episodes)

모달리티 비교 (Table 5)

핵심 발견

이론적 의의

언어를 체화 정책의 추상화 계층으로 활용

섹션별 요약

§1 Introduction

§2 Related Work

§3 ALFWorld

§4 BUTLER

§5 Experiments

§6 Discussion & Conclusion

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크