본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: Multimodal
3건의 항목
2026년 6월 04일
Hierarchical Text-Conditional Image Generation with CLIP Latents
Architecture
DiffusionModels
TextToImage
CLIP
DALL-E2
unCLIP
GenerativeModels
Multimodal
OpenAI
HierarchicalGeneration
2026년 6월 04일
Making the V in VQA Matter - Elevating the Role of Image Understanding in VQA
Benchmark
VQA
Multimodal
VisualQA
LanguageBias
ComplementaryPairs
COCO
CVPR2017
2026년 6월 04일
PaliGemma - A versatile 3B VLM for transfer
paper
VLM
Vision
TransferLearning
Multimodal
SigLIP
Gemma
Google
PrefixLM