본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

❯

Vision Transformer

❯

Vision Transformer(ViT)

Vision Transformer(ViT)

2026년 4월 13일1분 분량

Summary

transformer model의 attention을 사용해서 만든 vision model.
img를 patch로 분할하고 바로 transformer에 넣음.

Example in Image Captioning

Example

Tip

2020년 쯤부터 기존 NLP에서만 사용되던 transformer가 Vision 분야에서도 사용되기 시작함.
최근에는 CNN, ResNet 보다도 ViT를 훨씬 선호함. 정확도가 높으니까.

공유하기

그래프 뷰

Properties

No properties

백링크

RR00. Intro & History of AI
RR19. Transformers
The Student's Guide to Cognitive NeuroScience
Transformer
Vision Language Model
Memory
Architecture
Benchmarks
LLMs
Fundamentals
self-consciousness
Theory of mind
Vision
BERT PreTraining of Image Transformers(BEiT)
Mobile Vision Transformer(mobileViT)

Created with Quartz v4.5.2 © 2026

GitHub
Blog