by Moonlight
- ๐ง ReAct๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์์ ์ถ๋ก (reasoning)๊ณผ ํ๋(acting)์ ์ํธ ๊ต์ฐจํ๋ ๋ฐฉ์์ผ๋ก ํตํฉํ์ฌ ์๋์ง๋ฅผ ์ฐฝ์ถํ๋ ์๋ก์ด ํ๋กฌํํธ ๊ธฐ๋ฐ ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
- ๐ก ์ด ์ ๊ทผ ๋ฐฉ์์ ์ถ๋ก ํธ๋ ์ด์ค(reasoning traces)๋ฅผ ํตํด ํ๋ ๊ณํ์ ์ ๋, ์ถ์ ๋ฐ ์ ๋ฐ์ดํธํ๋ฉฐ, ํ๋์ ํตํด ์ธ๋ถ ํ๊ฒฝ๊ณผ ์ํธ ์์ฉํ์ฌ CoT(Chain-of-Thought) ์ถ๋ก ์ ํ๊ฐ ๋ฐ ์ค๋ฅ ์ ํ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ณ ํด์ ๊ฐ๋ฅ์ฑ์ ๋์ ๋๋ค.
- ๐ HotpotQA, ALFWorld, WebShop ๋ฑ ๋ค์ํ ์ธ์ด ๋ฐ ์์ฌ๊ฒฐ์ ๋ฒค์น๋งํฌ์์ ReAct๋ ๋จ ํ๋ ๊ฐ์ in-context ์์๋ง์ผ๋ก ์ต์ (state-of-the-art) ๊ธฐ์ค์ ์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.

์ถ๋ก ๊ณผ ํ๋์ ์๋์ง: ์ธ์ด ๋ชจ๋ธ์ ReAct ํจ๋ฌ๋ค์
Digest: ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ถ๋ก ๋ฅ๋ ฅ(Chain-of-Thought, ๋จ๊ณ์ ์ฌ๊ณ ์ ๊ฐ)๊ณผ ํ๋ ๋ฅ๋ ฅ(์ธ๋ถ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ)์ ์๋ก ๋ถ๋ฆฌ๋ ์ฑ ์ฐ๊ตฌ๋์ด ์๋ค. CoT๋ ๋ชจ๋ธ ๋ด๋ถ์์๋ง ์ถ๋ก ํ๋ฏ๋ก **์ฌ์ค ํ๊ฐ(hallucination)**์ด ์ฌ๊ฐํ๊ณ , ํ๋ ์ ์ฉ ๋ฐฉ์์ ๊ณ ์์ค ๊ณํ ์์ด ๋จ์ํ ์ก์ ๋ง ๋์ดํ์ฌ ๋ณต์กํ ํ์คํฌ์์ ์คํจํ๋ค. ReAct๋ ์ด ๋ ๊ฐ์ง๋ฅผ ํ๋์ ํ ํฐ ์คํธ๋ฆผ ์์์ ๊ต์ฐจ ์์ฑํจ์ผ๋ก์จ ์๋์ง๋ฅผ ๋ง๋ค์ด๋ธ๋ค. ํต์ฌ ํต์ฐฐ์ โ์ฌ๊ณ (thought)โ๋ฅผ ํ๊ฒฝ์ ์ํฅ์ ์ฃผ์ง ์๋ ํน์ํ ํ๋์ผ๋ก ์ ์ํ(ร = A โช L)ํ์ฌ, ์ถ๋ก ์ด ํ๋ ๊ณํ์ ์๋ดํ๊ณ ํ๋์ ๊ด์ฐฐ ๊ฒฐ๊ณผ๊ฐ ๋ค์ ์ถ๋ก ์ ๊ฐฑ์ ํ๋ ๋ฃจํ๋ฅผ ๊ตฌ์ถํ ๊ฒ์ด๋ค. ๊ทธ ๊ฒฐ๊ณผ HotpotQA์์ ReActโCoT-SC ์กฐํฉ์ด 35.1 EM(Table 1)์, ALFWorld์์ 71% ์ฑ๊ณต๋ฅ (Table 3)์ ๋ฌ์ฑํ์ผ๋ฉฐ, **์คํจ ์ฌ๋ก์์ ํ๊ฐ ๋น์จ์ด 0%(CoT๋ 56%)**๋ก ๊ทผ๋ณธ์ ์ธ ์ ๋ขฐ์ฑ ํฅ์์ ๋ณด์๋ค. ๋จ 1
6๊ฐ์ in-context ์์๋ง์ผ๋ก 10ยณ10โต๊ฐ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๋ชจ๋ฐฉํ์ต/๊ฐํํ์ต ๊ธฐ์ค์ ์ ๋ฅ๊ฐํ๋ฉฐ, 3,000๊ฐ ์์๋ก ํ์ธํ๋ํ PaLM-62B๊ฐ PaLM-540B ํ๋กฌํํ ์ ์ฒด๋ฅผ ์ํํ์ฌ ๋ฐ์ดํฐ ํจ์จ์ฑ๊น์ง ์ ์ฆํ๋ค.
์น์ ๋ณ ์์ฝ
Introduction
์ธ๊ฐ์ ์ถ๋ก ๊ณผ ํ๋์ ๊ธด๋ฐํ๊ฒ ๊ฒฐํฉํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. Vygotsky(1987)์ ๋ด์ ์ธ์ด(inner speech)์ Baddeley(1992)์ ์์ ๊ธฐ์ต ๋ชจ๋ธ์์ ์๊ฐ์ ์ป์ด, ์ ์๋ค์ LLM์ด ์ถ๋ก ํธ๋ ์ด์ค์ ํ์คํฌ๋ณ ํ๋์ ๊ต์ฐจ ์์ฑํ๋๋ก ํ๋ ReAct ํจ๋ฌ๋ค์์ ์ ์ํ๋ค. ๊ธฐ์กด CoT(Wei et al., 2022)๋ ์ธ๋ถ ์ธ๊ณ์ ๋จ์ ๋ ์ ์ ์ถ๋ก ์ด๋ผ ํ๊ฐ๊ณผ ์ค๋ฅ ์ ํ๊ฐ ์ฌ๊ฐํ๊ณ , ํ๋ ์ ์ฉ ์ ๊ทผ(WebGPT, SayCan ๋ฑ)์ ๊ณ ์์ค ์ถ๋ก ์์ด ํ๋๋ง ์์ฑํ๋ค. ReAct๋ ์ด ์์ชฝ์ ํ๊ณ๋ฅผ ๋์์ ํด๊ฒฐํ๋ฉด์, ์ถ๋ก ํธ๋ ์ด์ค์ ๊ฐ์์ฑ์ ํตํด ํด์๊ฐ๋ฅ์ฑ๊ณผ human-in-the-loop ์ ์ด ๊ฐ๋ฅ์ฑ๊น์ง ํ๋ณดํ๋ค.
Methods
ReAct์ ํต์ฌ์ ์์ด์ ํธ์ ํ๋ ๊ณต๊ฐ์ ํ์ฅํ๋ ๊ฒ์ด๋ค. ๊ธฐ์กด ๋๋ฉ์ธ ํ๋ ์งํฉ A์ ์์ฐ์ด ๊ณต๊ฐ L์ ์ถ๊ฐํ์ฌ ร = A โช L๋ก ์ ์ํ๋ค.
์ ์ฑ ๋ ์ปจํ ์คํธ ๋ฅผ ์กฐ๊ฑด์ผ๋ก, ๊ฐ ํ์์คํ ์์ ๋ ์ข ๋ฅ์ ํ๋ ์ค ํ๋๋ฅผ ์์ฑํ๋ค:
- ์ฌ๊ณ : ํ๊ฒฝ์ ์ด๋ค ํผ๋๋ฐฑ๋ ์ผ์ผํค์ง ์์ผ๋ฉฐ, ์ปจํ ์คํธ๋ฅผ ๋ก ์ ๋ฐ์ดํธํ๋ค. ๋ชฉํ ๋ถํด, ์งํ ์ถ์ , ์์ ์ฃผ์ , ์์ธ ์ฒ๋ฆฌ ๋ฑ์ ์ญํ ์ ์ํํ๋ค.
- ํ๋ : ์ธ๋ถ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ์ฌ ์๋ก์ด ๊ด์ฐฐ ์ ์์ฑํ๋ค.
ํ์คํฌ ์ ํ์ ๋ฐ๋ผ ์ฌ๊ณ ์ ๋ฐ๋๊ฐ ๋ฌ๋ผ์ง๋ค:
| ํน์ฑ | ์ง์ ์ง์ฝํ (HotpotQA, FEVER) | ์์ฌ๊ฒฐ์ (ALFWorld, WebShop) |
|---|---|---|
| ์ฌ๊ณ ๋ฐ๋ | ๋ฐ์ง(dense) โ ๋งค ํ๋ ์ฌ์ด | ํฌ์(sparse) โ ๊ด๋ จ์ฑ ๋์ ์์น์๋ง |
| in-context ์์ | 3-6๊ฐ | 1-3๊ฐ (ํ์คํฌ ์ ํ๋ณ) |
| ํ๋ ๊ณต๊ฐ | search[entity], lookup[string], finish[answer] | ํ๊ฒฝ๋ณ ์ธํฐํ์ด์ค (ํ ์คํธ ๊ฒ์, ์น ์ผํ) |
| ์ฌ๊ณ ๋ฐฐ์น | ๋งค ๋จ๊ณ | ๋ชจ๋ธ์ด ๋น๋๊ธฐ์ ์ผ๋ก ์์จ ๊ฒฐ์ |
ํ๋กฌํํ ์ frozen LLM(PaLM-540B)์ ์ธ๊ฐ์ด ์์ฑํ ReAct ํ์ ๊ถค์ ์ few-shot์ผ๋ก ์ ๊ณตํ๋ ๋ฐฉ์์ด๋ค. ๋ณ๋์ ํ์ต์ด๋ ๊ฐํํ์ต ์์ด๋ ๋์ํ๋ฉฐ, ํ์ธํ๋ ์์๋ ๋ชจ๋ธ์ด ์์ฑํ ๊ถค์ ์ ๋ถํธ์คํธ๋ฉ ๋ฐ์ดํฐ๋ก ํ์ฉํ๋ค.
Results
์ง์ ์ง์ฝํ ํ์คํฌ (PaLM-540B ํ๋กฌํํ )
| ๋ฐฉ๋ฒ | HotpotQA (EM) | FEVER (Acc) |
|---|---|---|
| Standard | 28.7 | 57.1 |
| CoT | 29.4 | 56.3 |
| CoT-SC (self-consistency) | 33.4 | 60.4 |
| Act (ํ๋๋ง) | 25.7 | 58.9 |
| ReAct | 27.4 | 60.9 |
| CoT-SC โ ReAct | 34.2 | 64.6 |
| ReAct โ CoT-SC | 35.1 | 62.0 |
| Supervised SoTA | 67.5 | 89.5 |
ReAct ๋จ๋ ์ HotpotQA์์ CoT(29.4)๋ณด๋ค ์ฝ๊ฐ ๋ฎ์ 27.4 EM์ ๊ธฐ๋กํ์ง๋ง, ์ด๋ ํ๋ ๊ณต๊ฐ์ ์ ์ฝ(Wikipedia API์ ํ๊ณ) ๋๋ฌธ์ด๋ค. ๋ ๋ฐฉ๋ฒ์ ๊ฐ์ ์ด ์๋ณด์ ์ด์ด์, ReActโCoT-SC ์กฐํฉ์ด 35.1๋ก ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
์ค๋ฅ ๋ถ์(50 ์ํ)์์ ReAct๋ ์ฑ๊ณต ์ฌ๋ก ์ค 94%๊ฐ ์ฌ๋ฐ๋ฅธ ์ถ๋ก , ์คํจ ์ฌ๋ก์์ ํ๊ฐ 0% (vs CoT 56%)๋ฅผ ๊ธฐ๋กํ๋ค. ReAct์ ์ฃผ์ ์คํจ ์์ธ์ ์ถ๋ก ์ค๋ฅ(47%)์ ๊ฒ์ ๊ฒฐ๊ณผ ๋ถ์ฌ(23%)์๋ค.
์์ฌ๊ฒฐ์ ํ์คํฌ
| ๋ฐฉ๋ฒ | ALFWorld ์ฑ๊ณต๋ฅ | WebShop Score / SR |
|---|---|---|
| BUTLER (best of 8) | 37% | โ |
| Act (best of 6) | 45% | 62.3 / 30.1% |
| IL+RL | โ | 62.4 / 28.7% |
| ReAct (best of 6) | 71% | 66.6 / 40.0% |
| Human Expert | โ | 82.1 / 59.6% |
ALFWorld์์ ReAct๋ BUTLER(10ยณ10โตํ๋ จ ๋ฐ์ดํฐ ์ฌ์ฉ) ๋๋น 34%p ๋์ ์ฑ๊ณต๋ฅ ์, WebShop์์ IL+RL ๋๋น 10%p ์ด์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค. ๋จ 12๊ฐ์ in-context ์์๋ง์ผ๋ก ์ด ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค๋ ์ ์ด ํต์ฌ์ด๋ค.
ALFWorld ํ์คํฌ๋ณ ์์ธ ์ฑ๊ณต๋ฅ (Table 3):
| ๋ฐฉ๋ฒ | Pick | Clean | Heat | Cool | Look | Pick2 | ์ ์ฒด |
|---|---|---|---|---|---|---|---|
| Act (best of 6) | 88 | 42 | 74 | 67 | 72 | 41 | 45 |
| ReAct (best of 6) | 92 | 58 | 96 | 86 | 78 | 41 | 71 |
| BUTLER (best of 8) | 46 | 39 | 74 | 100 | 22 | 24 | 37 |
ํ์ธํ๋ ๊ฒฐ๊ณผ: PaLM-62B๋ฅผ 3,000๊ฐ ReAct ๊ถค์ ์ผ๋ก ํ์ธํ๋ํ ๊ฒฐ๊ณผ, PaLM-540B์ ๋ชจ๋ ํ๋กฌํํ ๋ฐฉ๋ฒ(Standard/CoT/Act/ReAct)์ ์ํํ์ฌ ์๊ท๋ชจ ๋ชจ๋ธ์ ๋ฐ์ดํฐ ํจ์จ์ ํ์ต ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ๋ค.
GPT-3 ์คํ: GPT-3(text-davinci-002)์์๋ HotpotQA 30.8 EM, ALFWorld 78.4% ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ฌ ๋ชจ๋ธ ๋ ๋ฆฝ์ ์ผ๋ฐํ๋ฅผ ํ์ธํ๋ค.
Discussion
์ ์๋ค์ ReAct์ ํ๊ณ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ ผ์ํ๋ค: (1) ํ๋กฌํํ ๊ธฐ๋ฐ ์ ๊ทผ์ ๊ธด ํ๋ ์ํ์ค์์ ์ปจํ ์คํธ ๊ธธ์ด ์ ํ์ ๋ถ๋ชํ๋ค, (2) in-context ์์์ ํ์ง์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์์กดํ๋ค, (3) ์ง๋ํ์ต SoTA(HotpotQA 67.5, FEVER 89.5)์๋ ์ฌ์ ํ ํฐ ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํ๋ค. ํฅํ ๋ฐฉํฅ์ผ๋ก (a) ๊ฐํํ์ต๊ณผ์ ๊ฒฐํฉ, (b) ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ ํ์ต, (c) ๋ ์ ๊ตํ ๊ฒ์ ๋๊ตฌ ํตํฉ์ ์ ์ํ๋ค.
Insights
- ์ฃผ๋ชฉํ ์ โ ์ธ์ด ๊ณต๊ฐ์ ํ๋ํ: ReAct์ ๊ฐ์ฅ ํ์ ์ ์ธ ์์ด๋์ด๋ โ์ฌ๊ณ โ๋ฅผ ๋จ์ํ ํ๋กฌํํธ ์ฅ์น๊ฐ ์๋๋ผ **๊ณต์์ ์ธ ํ๋ ๊ณต๊ฐ์ ์ผ๋ถ(a_t โ L)**๋ก ์ ์ํ ๊ฒ์ด๋ค. ์ด๋ ์ถ๋ก ์ ํ๊ฒฝ ๋ฃจํ ๋ด๋ถ์ ํธ์ ์ํค๋ ์ํ์ ์ผ๋ก ๊น๋ํ ์ ์ํ์ด๋ฉฐ, ์ดํ LLM ์์ด์ ํธ ์ฐ๊ตฌ ์ ๋ฐ์ ํ์ค ํ๋ ์์ํฌ๋ก ์๋ฆฌ ์ก์๋ค.
- ์ฃผ๋ชฉํ ์ โ ์ธ์ง๊ณผํ์ ๋๊ธฐ: Vygotsky์ ๋ด์ ์ธ์ด์ Baddeley์ ์์ ๊ธฐ์ต์์ ์ถ๋ฐํ์ฌ, ์ถ๋ก -ํ๋ ๊ฒฐํฉ์ด ์ธ๊ฐ ๊ณ ์ ์ ์ธ์ง ๋ฅ๋ ฅ์์ AI ์์คํ ์ค๊ณ์ ๋ช ์์ ์ผ๋ก ์ฑ์ฉํ ์ฌ๋ก๋ค.
- ์ฐ๊ฒฐ ๊ณ ๋ฆฌ: CoT(Wei et al. 2022)์ WebGPT(Nakano et al. 2021)์ ๊ต์ฐจ์ ์ ์์นํ๋ฉฐ, ์ดํ Toolformer, AutoGPT, LangChain์ Tool-use ํจํด, OpenAI์ function calling API ์ค๊ณ์ ์ง์ ์ ์ํฅ์ ์ฃผ์๋ค.
- ์์ฌ์ : Human-in-the-loop ์คํ(์ฌ๊ณ 2๊ฐ ํธ์ง์ผ๋ก ํ์คํฌ ๋ฐฉํฅ ๊ต์ )์ AI ์์ ์ฑ ๋ฐ ์ ์ด๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ์ ์ค์ฒ์ ํจ์๋ฅผ ์ ๊ณตํ๋ค.
- ๋นํ์ ์ฝ๋ฉํธ: HotpotQA์์ ReAct ๋จ๋ (27.4)์ด CoT(29.4)๋ณด๋ค ๋ฎ๋ค๋ ๊ฒ์, ํ๋ ๊ณต๊ฐ์ ๋น์ ์ฐ์ฑ์ด ๋ณต์กํ ๋ค๋จ๊ณ ์ถ๋ก ๊ตฌ์กฐ ํ์ฑ์ ๋ฐฉํดํ ์ ์์์ ์์ฌํ๋ค. Wikipedia API์ ๋จ์์ฑ(์ ํ ๊ฒ์๋ง ๊ฐ๋ฅ)๋ ์ค์ฉ์ ํ๊ณ๋ก ์ง์ ๋๋ค.
Discussion Points
- ๋ ผ์์ โ ์ถ๋ก ํธ๋ ์ด์ค์ ์ ์ค์ฑ(faithfulness): ReAct์ ์ฌ๊ณ ๋ ์ค์ ๋ก ํ๋์ ์ธ๊ณผ์ ์ผ๋ก ๊ฒฐ์ ํ๋๊ฐ, ์๋๋ฉด ์ฌํ ํฉ๋ฆฌํ(post-hoc rationalization)์ธ๊ฐ? ๋ชจ๋ธ์ด ํ๋์ ๋จผ์ ๊ฒฐ์ ํ๊ณ ์ฌ๊ณ ๋ฅผ ๋ผ์ ๋ฃ๋๋ค๋ฉด, ํด์๊ฐ๋ฅ์ฑ ์ฃผ์ฅ์ ๊ทผ๋ณธ์ ์ผ๋ก ํ๋ค๋ฆฐ๋ค. ์ด๋ ์ดํ โReasoning Theaterโ ๋ฅ์ ์ฐ๊ตฌ๊ฐ ์ ๋ฉด์ผ๋ก ์ ๊ธฐํ๋ ๋ฌธ์ ์ด๋ค.
- ๊ฒ์ฆ ํ์ ๊ฐ์ โ ํฌ์ ์ฌ๊ณ ์ ๋ฐฐ์น: ALFWorld/WebShop์์ ๋ชจ๋ธ์ด ์ฌ๊ณ ์์ฑ ํ์ด๋ฐ์ ์์จ ๊ฒฐ์ ํ๋ ๋ฉ์ปค๋์ฆ์ด ๋ช ์๋์ง ์์์ผ๋ฉฐ, ์ฌ๊ณ ๋ฐฐ์น ์ ๋ต์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์ฒด๊ณ์ ์ ์ ์คํ์ด ๋ถ์ฌํ๋ค.
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ReAct + ๊ฐํํ์ต ํตํฉ, (2) ๋ฉํฐ๋ชจ๋ฌ ReAct (์๊ฐยท์์ฑ ๊ด์ฐฐ๋ก ํ์ฅ), (3) ๋ฉํ-์ธ์ง์ ReAct (์ฌ๊ณ ์ ์ ๋ขฐ๋๋ฅผ ์๊ธฐํ๊ฐํ์ฌ ๊ฒ์ ์ฌ๋ถ๋ฅผ ๋์ ๊ฒฐ์ )
๋ฉํ๋ฐ์ดํฐ
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ์ ๋ชฉ | ReAct: Synergizing Reasoning and Acting in Language Models |
| ์ ์ | Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao |
| ์์ | Princeton University, Google Research (Brain Team) |
| ์ฐ๋ | 2023 (v1: 2022.10, v3 camera-ready: 2023.03) |
| ๋ฐํ | ICLR 2023 |
| ๋งํฌ | arXiv, GitHub |
| ํค์๋ | Reasoning, Acting, LLM Agent, Prompting, Chain-of-Thought, Tool Use |
@inproceedings{yao2023react,
title={ReAct: Synergizing Reasoning and Acting in Language Models},
author={Yao, Shunyu and Zhao, Jeffrey and Yu, Dian and Du, Nan and Shafran, Izhak and Narasimhan, Karthik and Cao, Yuan},
booktitle={International Conference on Learning Representations},
year={2023}
}์ ์ด ์ฐ๊ตฌ๋ฅผ ํ๋๊ฐ?
ํต์ฌ ์ง๋ฌธ
์ถ๋ก (reasoning)๊ณผ ํ๋(acting)์ ํ๋์ LLM ๋ด์์ ๊ต์ฐจ ์์ฑํจ์ผ๋ก์จ, ๊ฐ๊ฐ์ ๊ณ ์ ํ ํ๊ณ(ํ๊ฐ, ๊ณํ ๋ถ์ฌ)๋ฅผ ๋์์ ๊ทน๋ณตํ ์ ์๋๊ฐ?
๊ธฐ์กด ์ ๊ทผ๋ฒ์ ํ๊ณ
| ํ๊ณ | ์ค๋ช |
|---|---|
| CoT์ ํ๊ฐ ๋ฌธ์ | ์ธ๋ถ ์ ๋ณด ์์ด ๋ด๋ถ ์ง์๋ง์ผ๋ก ์ถ๋ก ํ๋ฏ๋ก, ์๋ชป๋ ์ฌ์ค์ ํ์ ์๊ฒ ์์ฑ (์คํจ ์ค 56%๊ฐ ํ๊ฐ) |
| CoT์ ์ค๋ฅ ์ ํ | ํ ๋จ๊ณ์ ์ถ๋ก ์ค๋ฅ๊ฐ ์ดํ ์ ์ฒด ์ฒด์ธ์ ์ค์ผ์ํด |
| ํ๋ ์ ์ฉ์ ๊ณํ ๋ถ์ฌ | ์๋ธ๊ณจ ๋ถํด, ์งํ ์ถ์ , ์์ธ ์ฒ๋ฆฌ ๋ฑ ๊ณ ์์ค ์ถ๋ก ์์ด ๋จ์ ํ๋๋ง ๋์ด |
| ๊ธฐ์กด ์์ด์ ํธ์ ๋ฐ์ดํฐ ๋นํจ์จ | ๋ชจ๋ฐฉํ์ต/๊ฐํํ์ต์ 10ยณ~10โต๊ฐ ๋ฐ์ดํฐ ํ์, ์ ํ์คํฌ ์ ์ด์ ๋น์ฉ์ด ํผ |
ํต์ฌ ํต์ฐฐ
์ธ๊ฐ์ ์ธ์ง ๊ณผ์ ์์ ์ถ๋ก ๊ณผ ํ๋์ ๋ถ๋ฆฌ๋์ง ์๋๋ค. ๋ด์ ์ธ์ด(inner speech)๊ฐ ํ๋์ ์๋ดํ๊ณ , ํ๋์ ๊ฒฐ๊ณผ๊ฐ ๋ค์ ์ถ๋ก ์ ๊ฐฑ์ ํ๋ ํผ๋๋ฐฑ ๋ฃจํ๊ฐ ์กด์ฌํ๋ค. ์ด๋ฅผ LLM์์ ๊ตฌํํ๋ ค๋ฉด, ์ฌ๊ณ ๋ฅผ ํ๊ฒฝ์ ์ํฅ์ ์ฃผ์ง ์๋ ํน์ ํ๋์ผ๋ก ์ ์ํํ์ฌ ๋์ผํ ์ ์ฑ ํจ์ ๋ด์์ ์ถ๋ก ๊ณผ ํ๋์ ํตํฉํด์ผ ํ๋ค.
๋ฐฉ๋ฒ (Method)
ํ๋ ์์ํฌ ๊ฐ์
graph TD A["์ฌ์ฉ์ ์ ๋ ฅ<br>(์ง๋ฌธ / ํ์คํฌ)"] --> B["์ปจํ ์คํธ ๊ตฌ์ฑ<br>c_t = (oโ, aโ, ..., oโ)"] B --> C{"์ ์ฑ ฯ(aโ|cโ)<br>์ฌ๊ณ vs ํ๋?"} C -->|"์ฌ๊ณ aโ โ L"| D["์ถ๋ก ํธ๋ ์ด์ค ์์ฑ<br>โข ๋ชฉํ ๋ถํด<br>โข ์งํ ์ถ์ <br>โข ์์ ์ฃผ์ <br>โข ์์ธ ์ฒ๋ฆฌ"] C -->|"ํ๋ aโ โ A"| E["์ธ๋ถ ํ๊ฒฝ ์ํธ์์ฉ"] D -->|"์ปจํ ์คํธ๋ง ์ ๋ฐ์ดํธ<br>(ํ๊ฒฝ ํผ๋๋ฐฑ ์์)"| B E -->|"๊ด์ฐฐ oโโโ ์์ "| B B --> F{"ํ์คํฌ ์๋ฃ?"} F -->|"Yes"| G["์ต์ข ๋ต๋ณ ์ถ๋ ฅ"] F -->|"No"| C style D fill:#e8f4fd,stroke:#2196F3 style E fill:#fff3e0,stroke:#FF9800
ํต์ฌ ๊ตฌ์ฑ์์
1. ํ์ฅ๋ ํ๋ ๊ณต๊ฐ (ร = A โช L)
ReAct์ ์ํ์ ํต์ฌ์ ํ๋ ๊ณต๊ฐ์ ํ์ฅ์ด๋ค. ๊ธฐ์กด ๋๋ฉ์ธ ํ๋ ์งํฉ A(์: ๊ฒ์, ํด๋ฆญ ๋ฑ)์ ์์ฐ์ด ๊ณต๊ฐ L์ ํฉ์งํฉ์ผ๋ก ์ถ๊ฐํ๋ค. L์ ์ํ๋ ํ๋(์ฌ๊ณ )์ ํ๊ฒฝ์ ์ด๋ค ๋ถ์ํจ๊ณผ(side effect)๋ ์ผ์ผํค์ง ์์ผ๋ฉฐ, ์ค์ง ์์ด์ ํธ์ ๋ด๋ถ ์ปจํ ์คํธ๋ง ๊ฐฑ์ ํ๋ค.
2. Thought-Action-Observation ๋ฃจํ
๊ฐ ํ์์คํ t์์ ์์ด์ ํธ๋ ์ปจํ ์คํธ c_t๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ค์ ์ค ํ๋๋ฅผ ์์ฑํ๋ค:
- Thought: โ๋๋ X๋ฅผ ์ฐพ์์ผ ํ๋คโ โ ์ปจํ ์คํธ์ ์ถ๊ฐ๋์ง๋ง ํ๊ฒฝ ๋ณํ ์์
- Action: โsearch[X]โ โ Wikipedia API ํธ์ถ โ ๊ด์ฐฐ(Observation) ์์
- Observation: ๊ฒ์ ๊ฒฐ๊ณผ๊ฐ ์ปจํ ์คํธ์ ์ถ๊ฐ๋จ
3. ํ์คํฌ๋ณ ํ๋กฌํํ ์ ๋ต
์ง์ ํ์คํฌ์์๋ ์ฌ๊ณ ๋ฅผ ๋งค ํ๋ ์ฌ์ด์ ๋ฐ์ง ๋ฐฐ์นํ์ฌ ๋ค๋จ๊ณ ์ ๋ณด ๊ฒ์์ ์๋ดํ๋ค. ์์ฌ๊ฒฐ์ ํ์คํฌ์์๋ ์๋ธ๊ณจ ์ ํ ์์ ์ด๋ ์์ธ ๋ฐ์ ์์๋ง ํฌ์ํ๊ฒ ๋ฐฐ์นํ์ฌ, ์ฅ๊ธฐ ์งํ(long-horizon) ๊ณํ์ ๋ถํ์ํ ํ ํฐ ๋ญ๋น๋ฅผ ๋ฐฉ์งํ๋ค.
๋ฐ๊ฒฌ (Findings)
์ฃผ์ ๊ฒฐ๊ณผ
ReAct์ CoT๋ ์๋ณด์ ๊ฐ์ ์ ๊ฐ์ง๋ค. ReAct๋ ์ธ๋ถ ์ ๋ณด ์ ๊ทผ์ผ๋ก ํ๊ฐ์ ์ ๊ฑฐํ๊ณ , CoT๋ ์ ์ฐํ ๋ค๋จ๊ณ ์ถ๋ก ์ ๊ฐํ๋ค. ์ด ๋์ ์กฐํฉ(ReActโCoT-SC, CoT-SCโReAct)์ด ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ์ด๋ โ๋ด๋ถ ์ถ๋ก vs ์ธ๋ถ ํ๋โ์ ์ด๋ถ๋ฒ์ด ํ๊ตฌ์์ ์ค์ฆํ๋ค.
ํต์ฌ ๋ฐ๊ฒฌ
ํ๊ฐ ๊ทผ์ : ReAct์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ ์ฑ๋ฅ ์์น๊ฐ ์๋๋ผ, ์คํจ ์ฌ๋ก์์์ ํ๊ฐ ๋น์จ 0%์ด๋ค(Table 2). CoT๋ ์คํจ์ 56%๊ฐ ํ๊ฐ์ธ ๋ฐ๋ฉด, ReAct๋ ์ธ๋ถ ๊ฒ์์ผ๋ก ์ฌ์ค์ ํ์ธํ๋ฏ๋ก ํ๊ฐ์ด ์์ฒ์ ์ผ๋ก ๋ฐ์ํ์ง ์๋๋ค. ์ด๋ โ์ ํ๋ ธ๋๊ฐโ์ ์ง์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ฐ์ดํฐ ํจ์จ์ฑ: ALFWorld์์ 12๊ฐ ์์๋ง์ผ๋ก 10ยณ10โต๊ฐ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ BUTLER๋ฅผ 34%p ์ํํ๋ค. ์ด๋ LLM์ in-context learning ๋ฅ๋ ฅ๊ณผ ์ถ๋ก ํธ๋ ์ด์ค์ ์๋์ง๊ฐ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ ํ์์ฑ์ ๋์ฒดํ ์ ์์์ ์์ฌํ๋ค.
Human-in-the-loop ์ ์ด: ์ธ๊ฐ์ด ์ฌ๊ณ 2๊ฐ๋ง ํธ์งํ๋ฉด ํ์คํฌ ๋ฐฉํฅ์ด ๊ทผ๋ณธ์ ์ผ๋ก ๊ต์ ๋๋ค. ํ๋ผ๋ฏธํฐ ์์ ์์ด ์ถ๋ก ํธ๋ ์ด์ค ์์ค์์ ํ๋์ ์ ์ดํ ์ ์๋ค๋ ๊ฒ์, AI ์์ ์ฑ๊ณผ ์ ๋ ฌ(alignment)์ ์ค์ง์ ๊ฐ์น๋ฅผ ๊ฐ๋๋ค.
์ด๋ก ์ ์์
LLM ์์ด์ ํธ ์ฐ๊ตฌ์ ๊ธฐ์ด ํจ๋ฌ๋ค์ ํ๋ฆฝ
ReAct๋ ์ดํ ๋ฑ์ฅํ ๊ฑฐ์ ๋ชจ๋ LLM ์์ด์ ํธ ํ๋ ์์ํฌ(Toolformer, AutoGPT, LangChain, OpenAI function calling ๋ฑ)์ ๊ฐ๋ ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค. โ์ฌ๊ณ -ํ๋-๊ด์ฐฐโ ๋ฃจํ๋ ์์ด์ ํธ ์ํคํ ์ฒ์ ์ฌ์ค์ ํ์ค(de facto standard)์ด ๋์์ผ๋ฉฐ, ์ด ๊ตฌ์กฐ ์์ ๋๊ตฌ ์ฌ์ฉ, ๋ฉํฐ์์ด์ ํธ ํ์ , ์ฅ๊ธฐ ๊ณํ ๋ฑ์ ํ์ฅ ์ฐ๊ตฌ๊ฐ ์ ๊ฐ๋๊ณ ์๋ค.
์ถ๋ก ๊ณผ ํ๋์ ์๋ณด์ฑ ์ค์ฆ
ReAct ๋จ๋ ์ด CoT๋ณด๋ค ํญ์ ์ฐ์ํ์ง ์๋ค๋ ๊ฒฐ๊ณผ(HotpotQA 27.4 vs 29.4)๋ ์คํ๋ ค ์ค์ํ ๋ฐ๊ฒฌ์ด๋ค. ์ด๋ โ๋ด๋ถ ์ถ๋ก โ๊ณผ โ์ธ๋ถ ํ๋โ ๊ฐ๊ฐ์ ๊ณ ์ ํ ๊ฐ์ ์ด ์์ผ๋ฉฐ, ์ต์ ์ ๋ต์ ์ํฉ์ ๋ฐ๋ผ ๋ ๋ชจ๋๋ฅผ ๋์ ์ผ๋ก ์ ํํ๋ ๊ฒ์์ ๋ณด์ฌ์ค๋ค. CoT-SCโReAct/ReActโCoT-SC ์กฐํฉ์ ์ฑ๊ณต์ ์ด ์๋ณด์ฑ์ ์ง์ ์ ์ฆ๊ฑฐ๋ค.
ํด์๊ฐ๋ฅ์ฑ์์ ์ ์ด๊ฐ๋ฅ์ฑ์ผ๋ก
์ถ๋ก ํธ๋ ์ด์ค์ ๊ฐ์์ฑ์ ๋จ์ํ ์ฌํ ์ค๋ช ์ด ์๋๋ผ, ์ฌ์ฉ์๊ฐ ์ค์๊ฐ์ผ๋ก ๊ฐ์ ยท์์ ํ ์ ์๋ ์ธํฐํ์ด์ค๋ก ๊ธฐ๋ฅํ๋ค. ์ด๋ ํด์๊ฐ๋ฅ์ฑ(interpretability) ์ฐ๊ตฌ๊ฐ ์ ์ด๊ฐ๋ฅ์ฑ(controllability)์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ํ์ฅ๋ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ์ด๊ธฐ ์ฌ๋ก๋ค.
๊ด๋ จ ์ฐ๊ตฌ
- Chain-of-Thought Prompting โ ReAct๊ฐ ๊ทน๋ณตํ๊ณ ์ ํ ๋ด๋ถ ์ถ๋ก ์ ์ฉ ์ ๊ทผ. CoT์ ReAct์ ์กฐํฉ์ด ์ต๊ณ ์ฑ๋ฅ.
- WebGPT (Nakano et al. 2021) โ ์ธ๋ถ ๊ฒ์๊ณผ LLM์ ๊ฒฐํฉํ ์ด๊ธฐ ์ฐ๊ตฌ. ReAct๋ ํ๋์ ์ถ๋ก ํธ๋ ์ด์ค๋ฅผ ์ถ๊ฐ.
- Inner Monologue (Huang et al. 2022b) โ ReAct-IM ์ ์ ์คํ์์ ์ง์ ๋น๊ต. ํ๊ฒฝ ํผ๋๋ฐฑ๋ง์ผ๋ก๋ ๋ถ์ถฉ๋ถํจ์ ์ค์ฆ.
- SayCan (Ahn et al. 2022) โ ๋ก๋ด ํ๋ ๊ณํ์ LLM ํ์ฉ. ReAct๋ ๋ ์ผ๋ฐ์ ์ธ ํ๋ ์์ํฌ.
- Toolformer (Schick et al. 2023) โ ReAct์ ๋๊ตฌ ์ฌ์ฉ ๊ฐ๋ ์ ์๊ธฐ์ง๋ํ์ต์ผ๋ก ํ์ฅ.
ํต์ฌ ์ฉ์ด ์ ๋ฆฌ
| ์ฉ์ด | ์ ์ |
|---|---|
| ReAct | Reasoning + Acting์ ํฉ์ฑ์ด. ์ถ๋ก ํธ๋ ์ด์ค์ ํ๋์ ๊ต์ฐจ ์์ฑํ๋ LLM ํ๋กฌํํ ํจ๋ฌ๋ค์ |
| Reasoning trace (์ถ๋ก ํธ๋ ์ด์ค) | ๋ชจ๋ธ์ด ์์ฑํ๋ ์์ฐ์ด ์ฌ๊ณ . ํ๊ฒฝ์ ์ํฅ์ ์ฃผ์ง ์๊ณ ์ปจํ ์คํธ๋ง ์ ๋ฐ์ดํธ |
| Action space (ํ๋ ๊ณต๊ฐ) | ์์ด์ ํธ๊ฐ ์ทจํ ์ ์๋ ํ๋์ ์งํฉ. ReAct์์๋ ร = A โช L๋ก ํ์ฅ |
| Trajectory (๊ถค์ ) | ์ฌ๊ณ -ํ๋-๊ด์ฐฐ์ ์ฐ์๋ก ๊ตฌ์ฑ๋ ํ์คํฌ ํด๊ฒฐ ๊ฒฝ๋ก |
| Chain-of-Thought (CoT) | ์ค๊ฐ ์ถ๋ก ๋จ๊ณ๋ฅผ ๋ช ์์ ์ผ๋ก ์์ฑํ์ฌ ์ต์ข ๋ต์ ๋๋ฌํ๋ ํ๋กฌํํ ๊ธฐ๋ฒ |
| Self-Consistency (SC) | ๋์ผ ์ง๋ฌธ์ ๋ํด ์ฌ๋ฌ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์์ฑํ๊ณ ๋ค์๊ฒฐ๋ก ๋ต์ ์ ํํ๋ ์์๋ธ ๊ธฐ๋ฒ |
| In-context learning | ๋ณ๋ ํ์ต ์์ด, ํ๋กฌํํธ์ ํฌํจ๋ ์์ ์์๋ง์ผ๋ก ํ์คํฌ๋ฅผ ์ํํ๋ LLM ๋ฅ๋ ฅ |
| Hallucination (ํ๊ฐ) | ๋ชจ๋ธ์ด ์ฌ์ค๊ณผ ๋ค๋ฅธ ์ ๋ณด๋ฅผ ํ์ ์๊ฒ ์์ฑํ๋ ํ์ |
| Inner Monologue (IM) | ํ๊ฒฝ ํผ๋๋ฐฑ์ ์์ฐ์ด๋ก ์์ฝํ์ฌ ๋ชจ๋ธ์ ์ ๊ณตํ๋ ๋ฐฉ์. ReAct์ ๋ฌ๋ฆฌ ์์ฒด ์ถ๋ก ์ ์์ |
| Dense vs Sparse thought | ๋ฐ์ง ์ฌ๊ณ : ๋งค ํ๋ ์ฌ์ด์ ๋ฐฐ์น. ํฌ์ ์ฌ๊ณ : ํ์ ์์๋ง ๋น๋๊ธฐ์ ๋ฐฐ์น |
ํ๊ทธ
paper #2023 Reasoning Acting LLM_Agent Prompting CoT Tool_Use ICLR