본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: chatbot-arena
2건의 항목
2026년 4월 13일
Chatbot Arena - An Open Platform for Evaluating LLMs by Human Preference
benchmark
human-preference
elo-rating
bradley-terry
pairwise-comparison
crowdsourcing
lmsys
chatbot-arena
llm-evaluation
icml-2024
2026년 4월 13일
WildBench - Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
benchmark
LLM-evaluation
real-user-tasks
WildBench
checklist-evaluation
LLM-as-Judge
chatbot-arena
AI2
automatic-evaluation
ecological-validity