본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: multimodal
8건의 항목
2026년 4월 13일
ChartQA - A Benchmark for Question Answering about Charts with Visual and Logical Reasoning
benchmark
chart-understanding
visual-qa
multimodal
relaxed-accuracy
data-extraction
visual-reasoning
ACL2022
2026년 4월 13일
DocVQA - A Dataset for VQA on Document Images
benchmark
document-ai
VQA
OCR
layout-understanding
multimodal
ANLS
WACV2021
2026년 4월 13일
MMMU - A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
paper
benchmark
multimodal
MMMU
expert_level
multi_discipline
CVPR
2026년 4월 13일
MathVista - Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts
paper
benchmark
mathematics
multimodal
visual_reasoning
MathVista
ICLR
2026년 4월 13일
GPT Models
gpt-4
gpt-4o
openai
multimodal
omni
scaling
baseline-selection
2026년 4월 13일
Gemini Models
gemini
gemini-1.5
google
multimodal
ultra
pro
nano
long-context
moe
baseline-selection
2026년 4월 13일
Gemma Models
gemma
gemma3
google
open-source
small-model
multimodal
vision
long-context
baseline-selection
hyperparameters
2026년 4월 13일
Visual Instruction Tuning
paper
multimodal
instruction-tuning
LLaVA
vision-language
NeurIPS