by Moonlight

  1. ๐Ÿ’ก๋ณธ ์—ฐ๊ตฌ๋Š” ์˜คํ”ˆ LLM์˜ ์ผ๋ฐ˜ ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์—์ด์ „ํŠธ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” AgentTuning ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿ“ŠAgentTuning์€ 6๊ฐ€์ง€ ๋‹ค์–‘ํ•œ ์—์ด์ „ํŠธ ํƒœ์Šคํฌ์—์„œ ์ˆ˜์ง‘๋œ 1,866๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์ƒํ˜ธ์ž‘์šฉ ๊ถค์ ์„ ํฌํ•จํ•˜๋Š” AgentInstruct ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ผ๋ฐ˜ ๋„๋ฉ”์ธ ์ง€์นจ์„ ํ˜ผํ•ฉํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ธ์ŠคํŠธ๋Ÿญ์…˜ ํŠœ๋‹ ์ „๋žต์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿš€๊ทธ ๊ฒฐ๊ณผ, AgentTuning์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •๋œ AgentLM์€ ๋ฏธ๊ณต๊ฐœ ์—์ด์ „ํŠธ ํƒœ์Šคํฌ์—์„œ GPT-3.5-turbo์™€ ๋น„๊ฒฌ๋  ๋งŒํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ผ๋ฐ˜์ ์ธ LLM ๋Šฅ๋ ฅ์€ ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

Summary

SFT๋กœ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ง์ ‘ ์ˆ˜์ •.
CoT๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๊ณผ์ •๊ณผ ์œ ์‚ฌํ•˜๋‹ค๊ณ  ํŒ๋‹จ๋จ.

์ผ๋ฐ˜์ ์ธ CoTํ•™์Šต์€ reasoning path ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค๊ณ ,
Question โ†’ thought โ†’ Answer ํ˜•ํƒœ๋กœ ๋‚˜์˜ค๋„๋ก SFT.
AgentTuning์€ Action์ด ์ตœ์ข…๊ฒฐ๊ณผ๋ฌธ์ด ๋˜๋„๋ก ํ•™์Šต.