by Moonlight
- π‘ Reflexionμ LLM κΈ°λ° μμ΄μ νΈκ° κ°μ€μΉ μ λ°μ΄νΈ λμ μΈμ΄μ νΌλλ°±μ ν΅ν΄ νμ΅νλλ‘ λλ μλ‘μ΄ νλ μμν¬μ λλ€.
- π μμ΄μ νΈλ μμ νΌλλ°±μ μΈμ΄μ μΌλ‘ λ°μνκ³ , μ΄ λ°μ± ν μ€νΈλ₯Ό μνΌμλ λ©λͺ¨λ¦¬ λ²νΌμ μ μ₯νμ¬ νμ μλμμ λ λμ μμ¬κ²°μ μ μ λν©λλ€.
- π μ΄ μ κ·Ό λ°©μμ AlfWorld, HotPotQA, HumanEval λ± λ€μν μμ μμ κΈ°μ‘΄ λ² μ΄μ€λΌμΈ λλΉ μλΉν μ±λ₯ ν₯μμ λ¬μ±νμΌλ©°, νΉν HumanEval μ½λ© λ²€μΉλ§ν¬μμ 91%μ pass@1 μ νλλ‘ GPT-4μ 80%λ₯Ό λ°μ΄λλ SOTAλ₯Ό κΈ°λ‘νμ΅λλ€.


Summary
Context λ΄λΆμ reflection λ΄μ©μ΄λ eval λ΄μ©μ ν¬ν¨νμ¬ μ¬λ¬ λ² λ리λ pipeline