본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: automatic-evaluation
1건의 항목
2026년 4월 13일
WildBench - Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
benchmark
LLM-evaluation
real-user-tasks
WildBench
checklist-evaluation
LLM-as-Judge
chatbot-arena
AI2
automatic-evaluation
ecological-validity