본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: evaluation
4건의 항목
2026년 4월 13일
AIME 2024 - 미국 수학 올림피아드 벤치마크
1에서
15로
benchmark
math
reasoning
AIME
competition
olympiad
chain-of-thought
evaluation
2026년 4월 13일
Needle in a Haystack - Pressure Testing LLMs
benchmark
long-context
retrieval
pressure-test
needle-in-a-haystack
lost-in-the-middle
heatmap
evaluation
2026년 4월 13일
No Language Left Behind - Scaling Human-Centered Machine Translation
benchmark
multilingual
translation
low-resource
FLORES
NLLB
spBLEU
Meta-AI
evaluation
2026년 4월 13일
RULER - What's the Real Context Size of Your Long-Context Language Models
benchmark
long-context
NIAH
NVIDIA
evaluation
synthetic-data
effective-context-length
NAACL2025