by Moonlight
- ๐ก๋ณธ ์ฐ๊ตฌ๋ ์คํ LLM์ ์ผ๋ฐ ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ ์์ด์ ํธ ๋ฅ๋ ฅ์ ๊ฐํํ๋ AgentTuning ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- ๐AgentTuning์ 6๊ฐ์ง ๋ค์ํ ์์ด์ ํธ ํ์คํฌ์์ ์์ง๋ 1,866๊ฐ์ ๊ณ ํ์ง ์ํธ์์ฉ ๊ถค์ ์ ํฌํจํ๋ AgentInstruct ๋ฐ์ดํฐ์ ๊ณผ ์ผ๋ฐ ๋๋ฉ์ธ ์ง์นจ์ ํผํฉํ๋ ํ์ด๋ธ๋ฆฌ๋ ์ธ์คํธ๋ญ์ ํ๋ ์ ๋ต์ ํ์ฉํฉ๋๋ค.
- ๐๊ทธ ๊ฒฐ๊ณผ, AgentTuning์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋ AgentLM์ ๋ฏธ๊ณต๊ฐ ์์ด์ ํธ ํ์คํฌ์์ GPT-3.5-turbo์ ๋น๊ฒฌ๋ ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ผ๋ฐ์ ์ธ LLM ๋ฅ๋ ฅ์ ๊ทธ๋๋ก ์ ์งํจ์ ์ ์ฆํ์ต๋๋ค.

Summary
SFT๋ก ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์ง์ ์์ .
CoT๋ฅผ ํ์ต์ํค๋ ๊ณผ์ ๊ณผ ์ ์ฌํ๋ค๊ณ ํ๋จ๋จ.์ผ๋ฐ์ ์ธ CoTํ์ต์ reasoning path ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ณ ,
Question โ thought โ Answer ํํ๋ก ๋์ค๋๋ก SFT.
AgentTuning์ Action์ด ์ต์ข ๊ฒฐ๊ณผ๋ฌธ์ด ๋๋๋ก ํ์ต.