본문으로 건너뛰기

Juhyeon's Blog

태그: evaluation

4건의 항목

  • 2026년 4월 13일

    AIME 2024 - 미국 수학 올림피아드 벤치마크

    • 1에서
    • 15로
    • benchmark
    • math
    • reasoning
    • AIME
    • competition
    • olympiad
    • chain-of-thought
    • evaluation
  • 2026년 4월 13일

    Needle in a Haystack - Pressure Testing LLMs

    • benchmark
    • long-context
    • retrieval
    • pressure-test
    • needle-in-a-haystack
    • lost-in-the-middle
    • heatmap
    • evaluation
  • 2026년 4월 13일

    No Language Left Behind - Scaling Human-Centered Machine Translation

    • benchmark
    • multilingual
    • translation
    • low-resource
    • FLORES
    • NLLB
    • spBLEU
    • Meta-AI
    • evaluation
  • 2026년 4월 13일

    RULER - What's the Real Context Size of Your Long-Context Language Models

    • benchmark
    • long-context
    • NIAH
    • NVIDIA
    • evaluation
    • synthetic-data
    • effective-context-length
    • NAACL2025

키보드 단축키

/ 또는 Ctrl+K검색
?단축키 도움말
Esc모달 닫기

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Blog