본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: AI2
3건의 항목
2026년 4월 13일
Can a Suit of Armor Conduct Electricity A New Dataset for Open Book Question Answering
paper
benchmark
science_commonsense
OpenBookQA
open_book
AI2
2026년 4월 13일
Think you have Solved Question Answering Try ARC, the AI2 Reasoning Challenge
paper
benchmark
science_reasoning
ARC
challenge_set
AI2
adversarial_filtering
2026년 4월 13일
WildBench - Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
benchmark
LLM-evaluation
real-user-tasks
WildBench
checklist-evaluation
LLM-as-Judge
chatbot-arena
AI2
automatic-evaluation
ecological-validity