by Moonlight

🧠 ReAct는 대규모 언어 모델(LLM)에서 추론(reasoning)과 행동(acting)을 상호 교차하는 방식으로 통합하여 시너지를 창출하는 새로운 프롬프트 기반 패러다임을 제안합니다.

💡 이 접근 방식은 추론 트레이스(reasoning traces)를 통해 행동 계획을 유도, 추적 및 업데이트하며, 행동을 통해 외부 환경과 상호 작용하여 CoT(Chain-of-Thought) 추론의 환각 및 오류 전파 문제를 극복하고 해석 가능성을 높입니다.

🚀 HotpotQA, ALFWorld, WebShop 등 다양한 언어 및 의사결정 벤치마크에서 ReAct는 단 한두 개의 in-context 예시만으로 최신(state-of-the-art) 기준선을 크게 능가하는 우수한 성능을 보여줍니다.

추론과 행동의 시너지: 언어 모델의 ReAct 패러다임

Digest: 대형 언어 모델(LLM)의 추론 능력(Chain-of-Thought, 단계적 사고 전개)과 행동 능력(외부 환경과의 상호작용)은 서로 분리된 채 연구되어 왔다. CoT는 모델 내부에서만 추론하므로 **사실 환각(hallucination)**이 심각하고, 행동 전용 방식은 고수준 계획 없이 단순히 액션만 나열하여 복잡한 태스크에서 실패한다. ReAct는 이 두 가지를 하나의 토큰 스트림 안에서 교차 생성함으로써 시너지를 만들어낸다. 핵심 통찰은 “사고(thought)“를 환경에 영향을 주지 않는 특수한 행동으로 정식화(Â = A ∪ L)하여, 추론이 행동 계획을 안내하고 행동의 관찰 결과가 다시 추론을 갱신하는 루프를 구축한 것이다. 그 결과 HotpotQA에서 ReAct→CoT-SC 조합이 35.1 EM(Table 1)을, ALFWorld에서 71% 성공률(Table 3)을 달성했으며, **실패 사례에서 환각 비율이 0%(CoT는 56%)**로 근본적인 신뢰성 향상을 보였다. 단 1~~6개의 in-context 예시만으로 10³~~10⁵개 훈련 데이터를 사용한 모방학습/강화학습 기준선을 능가하며, 3,000개 예시로 파인튜닝한 PaLM-62B가 PaLM-540B 프롬프팅 전체를 상회하여 데이터 효율성까지 입증했다.

섹션별 요약

Introduction

인간은 추론과 행동을 긴밀하게 결합하여 문제를 해결한다. Vygotsky(1987)의 내적 언어(inner speech)와 Baddeley(1992)의 작업기억 모델에서 영감을 얻어, 저자들은 LLM이 추론 트레이스와 태스크별 행동을 교차 생성하도록 하는 ReAct 패러다임을 제안한다. 기존 CoT(Wei et al., 2022)는 외부 세계와 단절된 정적 추론이라 환각과 오류 전파가 심각하고, 행동 전용 접근(WebGPT, SayCan 등)은 고수준 추론 없이 행동만 생성한다. ReAct는 이 양쪽의 한계를 동시에 해결하면서, 추론 트레이스의 가시성을 통해 해석가능성과 human-in-the-loop 제어 가능성까지 확보한다.

Methods

ReAct의 핵심은 에이전트의 행동 공간을 확장하는 것이다. 기존 도메인 행동 집합 A에 자연어 공간 L을 추가하여 Â = A ∪ L로 정의한다.

정책 $π (a_{t} ∣ c_{t})$ 는 컨텍스트 $c_{t} = (o_{1}, a_{1}, ..., o_{t - 1}, a_{t - 1}, o_{t})$ 를 조건으로, 각 타임스텝에서 두 종류의 행동 중 하나를 생성한다:

사고 $(a_{t} \in L)$ : 환경에 어떤 피드백도 일으키지 않으며, 컨텍스트를 $c_{t + 1} = (c_{t}, a_{t})$ 로 업데이트한다. 목표 분해, 진행 추적, 상식 주입, 예외 처리 등의 역할을 수행한다.
행동 $(a_{t} \in A)$ : 외부 환경과 상호작용하여 새로운 관찰 $o_{t + 1}$ 을 생성한다.

태스크 유형에 따라 사고의 밀도가 달라진다:

특성	지식 집약형 (HotpotQA, FEVER)	의사결정 (ALFWorld, WebShop)
사고 밀도	밀집(dense) — 매 행동 사이	희소(sparse) — 관련성 높은 위치에만
in-context 예시	3-6개	1-3개 (태스크 유형별)
행동 공간	search[entity], lookup[string], finish[answer]	환경별 인터페이스 (텍스트 게임, 웹 쇼핑)
사고 배치	매 단계	모델이 비동기적으로 자율 결정

프롬프팅은 frozen LLM(PaLM-540B)에 인간이 작성한 ReAct 형식 궤적을 few-shot으로 제공하는 방식이다. 별도의 학습이나 강화학습 없이도 동작하며, 파인튜닝 시에는 모델이 생성한 궤적을 부트스트랩 데이터로 활용한다.

Results

지식 집약형 태스크 (PaLM-540B 프롬프팅)

방법	HotpotQA (EM)	FEVER (Acc)
Standard	28.7	57.1
CoT	29.4	56.3
CoT-SC (self-consistency)	33.4	60.4
Act (행동만)	25.7	58.9
ReAct	27.4	60.9
CoT-SC → ReAct	34.2	64.6
ReAct → CoT-SC	35.1	62.0
Supervised SoTA	67.5	89.5

ReAct 단독은 HotpotQA에서 CoT(29.4)보다 약간 낮은 27.4 EM을 기록했지만, 이는 행동 공간의 제약(Wikipedia API의 한계) 때문이다. 두 방법의 강점이 상보적이어서, ReAct→CoT-SC 조합이 35.1로 최고 성능을 달성했다.

오류 분석(50 샘플)에서 ReAct는 성공 사례 중 94%가 올바른 추론, 실패 사례에서 환각 0% (vs CoT 56%)를 기록했다. ReAct의 주요 실패 원인은 추론 오류(47%)와 검색 결과 부재(23%)였다.

의사결정 태스크

방법	ALFWorld 성공률	WebShop Score / SR
BUTLER (best of 8)	37%	—
Act (best of 6)	45%	62.3 / 30.1%
IL+RL	—	62.4 / 28.7%
ReAct (best of 6)	71%	66.6 / 40.0%
Human Expert	—	82.1 / 59.6%

ALFWorld에서 ReAct는 BUTLER(10³~~10⁵훈련 데이터 사용) 대비 34%p 높은 성공률을, WebShop에서 IL+RL 대비 10%p 이상 높은 성공률을 달성했다. 단 1~~2개의 in-context 예시만으로 이 결과를 얻었다는 점이 핵심이다.

ALFWorld 태스크별 상세 성공률 (Table 3):

방법	Pick	Clean	Heat	Cool	Look	Pick2	전체
Act (best of 6)	88	42	74	67	72	41	45
ReAct (best of 6)	92	58	96	86	78	41	71
BUTLER (best of 8)	46	39	74	100	22	24	37

파인튜닝 결과: PaLM-62B를 3,000개 ReAct 궤적으로 파인튜닝한 결과, PaLM-540B의 모든 프롬프팅 방법(Standard/CoT/Act/ReAct)을 상회하여 소규모 모델의 데이터 효율적 학습 가능성을 입증했다.

GPT-3 실험: GPT-3(text-davinci-002)에서도 HotpotQA 30.8 EM, ALFWorld 78.4% 성공률을 기록하여 모델 독립적 일반화를 확인했다.

Discussion

저자들은 ReAct의 한계를 명시적으로 논의한다: (1) 프롬프팅 기반 접근은 긴 행동 시퀀스에서 컨텍스트 길이 제한에 부딪힌다, (2) in-context 예시의 품질에 성능이 크게 의존한다, (3) 지도학습 SoTA(HotpotQA 67.5, FEVER 89.5)와는 여전히 큰 격차가 존재한다. 향후 방향으로 (a) 강화학습과의 결합, (b) 대규모 멀티태스크 학습, (c) 더 정교한 검색 도구 통합을 제안한다.

Insights

주목할 점 — 언어 공간의 행동화: ReAct의 가장 혁신적인 아이디어는 “사고”를 단순한 프롬프트 장치가 아니라 **공식적인 행동 공간의 일부(a_t ∈ L)**로 정의한 것이다. 이는 추론을 환경 루프 내부에 편입시키는 수학적으로 깔끔한 정식화이며, 이후 LLM 에이전트 연구 전반의 표준 프레임워크로 자리 잡았다.
주목할 점 — 인지과학적 동기: Vygotsky의 내적 언어와 Baddeley의 작업기억에서 출발하여, 추론-행동 결합이 인간 고유의 인지 능력임을 AI 시스템 설계에 명시적으로 채용한 사례다.
연결 고리: CoT(Wei et al. 2022)와 WebGPT(Nakano et al. 2021)의 교차점에 위치하며, 이후 Toolformer, AutoGPT, LangChain의 Tool-use 패턴, OpenAI의 function calling API 설계에 직접적 영향을 주었다.
시사점: Human-in-the-loop 실험(사고 2개 편집으로 태스크 방향 교정)은 AI 안전성 및 제어가능성 연구에 실천적 함의를 제공한다.
비판적 코멘트: HotpotQA에서 ReAct 단독(27.4)이 CoT(29.4)보다 낮다는 것은, 행동 공간의 비유연성이 복잡한 다단계 추론 구조 형성을 방해할 수 있음을 시사한다. Wikipedia API의 단순성(정확 검색만 가능)도 실용적 한계로 지적된다.

Discussion Points

논쟁점 — 추론 트레이스의 신실성(faithfulness): ReAct의 사고는 실제로 행동을 인과적으로 결정하는가, 아니면 사후 합리화(post-hoc rationalization)인가? 모델이 행동을 먼저 결정하고 사고를 끼워 넣는다면, 해석가능성 주장은 근본적으로 흔들린다. 이는 이후 “Reasoning Theater” 류의 연구가 정면으로 제기하는 문제이다.
검증 필요 가정 — 희소 사고의 배치: ALFWorld/WebShop에서 모델이 사고 생성 타이밍을 자율 결정하는 메커니즘이 명시되지 않았으며, 사고 배치 전략이 성능에 미치는 영향의 체계적 절제 실험이 부재하다.
후속 연구 방향: (1) ReAct + 강화학습 통합, (2) 멀티모달 ReAct (시각·음성 관찰로 확장), (3) 메타-인지적 ReAct (사고의 신뢰도를 자기평가하여 검색 여부를 동적 결정)

메타데이터

항목	내용
제목	ReAct: Synergizing Reasoning and Acting in Language Models
저자	Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
소속	Princeton University, Google Research (Brain Team)
연도	2023 (v1: 2022.10, v3 camera-ready: 2023.03)
발표	ICLR 2023
링크	arXiv, GitHub
키워드	Reasoning, Acting, LLM Agent, Prompting, Chain-of-Thought, Tool Use

@inproceedings{yao2023react,
  title={ReAct: Synergizing Reasoning and Acting in Language Models},
  author={Yao, Shunyu and Zhao, Jeffrey and Yu, Dian and Du, Nan and Shafran, Izhak and Narasimhan, Karthik and Cao, Yuan},
  booktitle={International Conference on Learning Representations},
  year={2023}
}

왜 이 연구를 하는가?

핵심 질문

추론(reasoning)과 행동(acting)을 하나의 LLM 내에서 교차 생성함으로써, 각각의 고유한 한계(환각, 계획 부재)를 동시에 극복할 수 있는가?

기존 접근법의 한계

한계	설명
CoT의 환각 문제	외부 정보 없이 내부 지식만으로 추론하므로, 잘못된 사실을 확신 있게 생성 (실패 중 56%가 환각)
CoT의 오류 전파	한 단계의 추론 오류가 이후 전체 체인을 오염시킴
행동 전용의 계획 부재	서브골 분해, 진행 추적, 예외 처리 등 고수준 추론 없이 단순 행동만 나열
기존 에이전트의 데이터 비효율	모방학습/강화학습은 10³~10⁵개 데이터 필요, 새 태스크 전이에 비용이 큼

핵심 통찰

인간의 인지 과정에서 추론과 행동은 분리되지 않는다. 내적 언어(inner speech)가 행동을 안내하고, 행동의 결과가 다시 추론을 갱신하는 피드백 루프가 존재한다. 이를 LLM에서 구현하려면, 사고를 환경에 영향을 주지 않는 특수 행동으로 정식화하여 동일한 정책 함수 내에서 추론과 행동을 통합해야 한다.

방법 (Method)

프레임워크 개요

graph TD
    A["사용자 입력<br>(질문 / 태스크)"] --> B["컨텍스트 구성<br>c_t = (o₁, a₁, ..., oₜ)"]
    B --> C{"정책 π(aₜ|cₜ)<br>사고 vs 행동?"}
    C -->|"사고 aₜ ∈ L"| D["추론 트레이스 생성<br>• 목표 분해<br>• 진행 추적<br>• 상식 주입<br>• 예외 처리"]
    C -->|"행동 aₜ ∈ A"| E["외부 환경 상호작용"]
    D -->|"컨텍스트만 업데이트<br>(환경 피드백 없음)"| B
    E -->|"관찰 oₜ₊₁ 수신"| B
    B --> F{"태스크 완료?"}
    F -->|"Yes"| G["최종 답변 출력"]
    F -->|"No"| C

    style D fill:#e8f4fd,stroke:#2196F3
    style E fill:#fff3e0,stroke:#FF9800

핵심 구성요소

1. 확장된 행동 공간 (Â = A ∪ L)

ReAct의 수학적 핵심은 행동 공간의 확장이다. 기존 도메인 행동 집합 A(예: 검색, 클릭 등)에 자연어 공간 L을 합집합으로 추가한다. L에 속하는 행동(사고)은 환경에 어떤 부수효과(side effect)도 일으키지 않으며, 오직 에이전트의 내부 컨텍스트만 갱신한다.

2. Thought-Action-Observation 루프

각 타임스텝 t에서 에이전트는 컨텍스트 c_t를 조건으로 다음 중 하나를 생성한다:

Thought: “나는 X를 찾아야 한다” → 컨텍스트에 추가되지만 환경 변화 없음
Action: “search[X]” → Wikipedia API 호출 → 관찰(Observation) 수신
Observation: 검색 결과가 컨텍스트에 추가됨

3. 태스크별 프롬프팅 전략

지식 태스크에서는 사고를 매 행동 사이에 밀집 배치하여 다단계 정보 검색을 안내한다. 의사결정 태스크에서는 서브골 전환 시점이나 예외 발생 시에만 희소하게 배치하여, 장기 지평(long-horizon) 계획에 불필요한 토큰 낭비를 방지한다.

발견 (Findings)

주요 결과

ReAct와 CoT는 상보적 강점을 가진다. ReAct는 외부 정보 접근으로 환각을 제거하고, CoT는 유연한 다단계 추론에 강하다. 이 둘의 조합(ReAct→CoT-SC, CoT-SC→ReAct)이 최고 성능을 달성하며, 이는 “내부 추론 vs 외부 행동”의 이분법이 허구임을 실증한다.

핵심 발견

환각 근절: ReAct의 가장 강력한 결과는 성능 수치가 아니라, 실패 사례에서의 환각 비율 0%이다(Table 2). CoT는 실패의 56%가 환각인 반면, ReAct는 외부 검색으로 사실을 확인하므로 환각이 원천적으로 발생하지 않는다. 이는 “왜 틀렸는가”의 질적 차이를 보여준다.

데이터 효율성: ALFWorld에서 1~~2개 예시만으로 10³~~10⁵개 훈련 데이터를 사용한 BUTLER를 34%p 상회한다. 이는 LLM의 in-context learning 능력과 추론 트레이스의 시너지가 대규모 데이터 수집의 필요성을 대체할 수 있음을 시사한다.

Human-in-the-loop 제어: 인간이 사고 2개만 편집하면 태스크 방향이 근본적으로 교정된다. 파라미터 수정 없이 추론 트레이스 수준에서 행동을 제어할 수 있다는 것은, AI 안전성과 정렬(alignment)에 실질적 가치를 갖는다.

이론적 의의

LLM 에이전트 연구의 기초 패러다임 확립

ReAct는 이후 등장한 거의 모든 LLM 에이전트 프레임워크(Toolformer, AutoGPT, LangChain, OpenAI function calling 등)의 개념적 토대를 제공했다. “사고-행동-관찰” 루프는 에이전트 아키텍처의 사실상 표준(de facto standard)이 되었으며, 이 구조 위에 도구 사용, 멀티에이전트 협업, 장기 계획 등의 확장 연구가 전개되고 있다.

추론과 행동의 상보성 실증

ReAct 단독이 CoT보다 항상 우월하지 않다는 결과(HotpotQA 27.4 vs 29.4)는 오히려 중요한 발견이다. 이는 “내부 추론”과 “외부 행동” 각각에 고유한 강점이 있으며, 최적 전략은 상황에 따라 두 모드를 동적으로 전환하는 것임을 보여준다. CoT-SC→ReAct/ReAct→CoT-SC 조합의 성공은 이 상보성의 직접적 증거다.

해석가능성에서 제어가능성으로

추론 트레이스의 가시성은 단순한 사후 설명이 아니라, 사용자가 실시간으로 개입·수정할 수 있는 인터페이스로 기능한다. 이는 해석가능성(interpretability) 연구가 제어가능성(controllability)으로 자연스럽게 확장될 수 있음을 보여주는 초기 사례다.

핵심 용어 정리

용어	정의
ReAct	Reasoning + Acting의 합성어. 추론 트레이스와 행동을 교차 생성하는 LLM 프롬프팅 패러다임
Reasoning trace (추론 트레이스)	모델이 생성하는 자연어 사고. 환경에 영향을 주지 않고 컨텍스트만 업데이트
Action space (행동 공간)	에이전트가 취할 수 있는 행동의 집합. ReAct에서는 Â = A ∪ L로 확장
Trajectory (궤적)	사고-행동-관찰의 연쇄로 구성된 태스크 해결 경로
Chain-of-Thought (CoT)	중간 추론 단계를 명시적으로 생성하여 최종 답에 도달하는 프롬프팅 기법
Self-Consistency (SC)	동일 질문에 대해 여러 추론 경로를 생성하고 다수결로 답을 선택하는 앙상블 기법
In-context learning	별도 학습 없이, 프롬프트에 포함된 소수 예시만으로 태스크를 수행하는 LLM 능력
Hallucination (환각)	모델이 사실과 다른 정보를 확신 있게 생성하는 현상
Inner Monologue (IM)	환경 피드백을 자연어로 요약하여 모델에 제공하는 방식. ReAct와 달리 자체 추론은 없음
Dense vs Sparse thought	밀집 사고: 매 행동 사이에 배치. 희소 사고: 필요 시에만 비동기적 배치

Juhyeon's Blog

탐색기

ReAct - Synergizing Reasoning and Acting in Language Models