본문으로 건너뛰기

Juhyeon's Blog

태그: multimodal

8건의 항목

  • 2026년 4월 13일

    ChartQA - A Benchmark for Question Answering about Charts with Visual and Logical Reasoning

    • benchmark
    • chart-understanding
    • visual-qa
    • multimodal
    • relaxed-accuracy
    • data-extraction
    • visual-reasoning
    • ACL2022
  • 2026년 4월 13일

    DocVQA - A Dataset for VQA on Document Images

    • benchmark
    • document-ai
    • VQA
    • OCR
    • layout-understanding
    • multimodal
    • ANLS
    • WACV2021
  • 2026년 4월 13일

    MMMU - A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

    • paper
    • benchmark
    • multimodal
    • MMMU
    • expert_level
    • multi_discipline
    • CVPR
  • 2026년 4월 13일

    MathVista - Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

    • paper
    • benchmark
    • mathematics
    • multimodal
    • visual_reasoning
    • MathVista
    • ICLR
  • 2026년 4월 13일

    GPT Models

    • gpt-4
    • gpt-4o
    • openai
    • multimodal
    • omni
    • scaling
    • baseline-selection
  • 2026년 4월 13일

    Gemini Models

    • gemini
    • gemini-1.5
    • google
    • multimodal
    • ultra
    • pro
    • nano
    • long-context
    • moe
    • baseline-selection
  • 2026년 4월 13일

    Gemma Models

    • gemma
    • gemma3
    • google
    • open-source
    • small-model
    • multimodal
    • vision
    • long-context
    • baseline-selection
    • hyperparameters
  • 2026년 4월 13일

    Visual Instruction Tuning

    • paper
    • multimodal
    • instruction-tuning
    • LLaVA
    • vision-language
    • NeurIPS

키보드 단축키

/ 또는 Ctrl+K검색
?단축키 도움말
Esc모달 닫기

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Blog