by Moonlight

  1. πŸ’‘ Reflexion은 LLM 기반 μ—μ΄μ „νŠΈκ°€ κ°€μ€‘μΉ˜ μ—…λ°μ΄νŠΈ λŒ€μ‹  언어적 ν”Όλ“œλ°±μ„ 톡해 ν•™μŠ΅ν•˜λ„λ‘ λ•λŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬μž…λ‹ˆλ‹€.
  2. πŸ“š μ—μ΄μ „νŠΈλŠ” μž‘μ—… ν”Όλ“œλ°±μ„ μ–Έμ–΄μ μœΌλ‘œ λ°˜μ˜ν•˜κ³ , 이 λ°˜μ„± ν…μŠ€νŠΈλ₯Ό μ—ν”Όμ†Œλ“œ λ©”λͺ¨λ¦¬ 버퍼에 μ €μž₯ν•˜μ—¬ 후속 μ‹œλ„μ—μ„œ 더 λ‚˜μ€ μ˜μ‚¬κ²°μ •μ„ μœ λ„ν•©λ‹ˆλ‹€.
  3. πŸš€ 이 μ ‘κ·Ό 방식은 AlfWorld, HotPotQA, HumanEval λ“± λ‹€μ–‘ν•œ μž‘μ—…μ—μ„œ κΈ°μ‘΄ 베이슀라인 λŒ€λΉ„ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμœΌλ©°, 특히 HumanEval μ½”λ”© λ²€μΉ˜λ§ˆν¬μ—μ„œ 91%의 pass@1 μ •ν™•λ„λ‘œ GPT-4의 80%λ₯Ό λ›°μ–΄λ„˜λŠ” SOTAλ₯Ό κΈ°λ‘ν–ˆμŠ΅λ‹ˆλ‹€.


Summary

Context 내뢀에 reflection λ‚΄μš©μ΄λ‚˜ eval λ‚΄μš©μ„ ν¬ν•¨ν•˜μ—¬ μ—¬λŸ¬ 번 λŒλ¦¬λŠ” pipeline