본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: LLM-evaluation
3건의 항목
2026년 6월 04일
Aider Polyglot - 다언어 코드 편집 벤치마크
benchmark
code-editing
multi-language
polyglot
aider
exercism
practical-coding
LLM-evaluation
2026년 6월 04일
TextArena
paper
LLM-evaluation
benchmark
agentic
competitive-game
soft-skill
TrueSkill
theory-of-mind
reinforcement-learning
multi-agent
social-reasoning
2026년 6월 04일
WildBench - Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
benchmark
LLM-evaluation
real-user-tasks
WildBench
checklist-evaluation
LLM-as-Judge
chatbot-arena
AI2
automatic-evaluation
ecological-validity