Introduction


  • 정적 벤치마크는 LLM의 빠른 발전에 대응하지 못함
  • LLM이 자체적으로 벤치마크를 진화시키는 multi-agent framework 제안
  • 64 citations, COLING venue

Related Papers


  • LLM evaluation benchmarks
  • Data contamination 문제

Methods


  • Multi-agent system에서 LLM이 benchmark를 동적으로 생성/업데이트
  • Self-evolving mechanism

Results


  • 정적 벤치마크 대비 더 신뢰성 있는 평가 가능
  • Data contamination 문제 완화

Discussion


  • LLM의 self-evaluation 능력을 benchmark design에 활용
  • Self-awareness 평가를 위한 동적 벤치마크의 가능성