이미지는 16×16 단어들이다: 대규모 이미지 인식을 위한 Transformer (ViT)

Digest: 컴퓨터 비전(computer vision) 분야는 오랫동안 **합성곱 신경망(CNN, Convolutional Neural Network)**이 지배해왔는데, 이는 CNN이 이미지의 지역적 구조를 자동으로 인식하는 귀납적 편향(inductive bias)—평행이동 등변성(translation equivariance)과 지역성(locality)—을 구조적으로 내장하고 있기 때문이다. 그런데 이 논문은 “그 편향이 정말 필수인가?”라고 묻는다. 저자들이 발견한 핵심 통찰은, CNN 특유의 편향 없이 순수 Transformer만으로도, 충분한 규모의 데이터로 사전학습(pre-training)하면 이미지를 더 잘 이해할 수 있다는 것이다. 해법은 직관적이다: 이미지를 16×16 픽셀의 패치(patch)로 잘라 일렬로 늘어놓은 뒤, NLP(자연어처리)에서 단어를 다루듯 Transformer의 토큰(token)으로 취급한다. BERT에서 빌려온 [class] 토큰을 맨 앞에 붙이고 표준 Transformer 인코더를 통과시키면 이미지 분류(classification)가 가능해진다. 성능은 수치로 증명된다: JFT-300M(Google 내부 3억 장 이미지 데이터셋)으로 사전학습한 ViT-H/14는 ImageNet에서 88.55%를 달성하며, 기존 최강자인 BiT-L(ResNet 기반)과 Noisy Student를 약 4배 적은 학습 비용(2.5k vs. 9.9k~12.3k TPUv3-core-days)으로 앞질렀다 (Table 2). 단, 중요한 조건이 있다: 작은 데이터셋(ImageNet-only, 약 1.3M장)에서는 오히려 ResNet보다 성능이 낮고 과적합(overfitting)이 발생하며, 성능 역전은 ImageNet-21k(14M장) 수준부터 시작되어 JFT-300M에서 완성된다. 저자들이 인정한 한계로는 분류 과제만 검증되었다는 점, JFT-300M이 외부 공개되지 않은 독점 데이터라는 점이 있고, 자기지도학습(self-supervised learning) 시도인 마스크 패치 예측(masked patch prediction)은 지도학습 대비 약 4% 성능 차이(ViT-B/16 기준 79.9%)를 보여 미해결로 남겼다. 열린 질문들이 뒤를 잇는다: 대규모 데이터 없이 Transformer의 장점을 살리는 방법은 무엇인가? 탐지(detection)·분할(segmentation) 같은 조밀한 예측 과제에는 어떻게 적용할 것인가? 그리고 자기지도학습으로 데이터 효율성 문제를 극복할 수 있는가?

섹션별 요약

Abstract

ViT (Vision Transformer)는 이미지를 고정 크기의 패치(patch)로 분할한 뒤 각 패치를 토큰(token)으로 취급하여 표준 Transformer 인코더에 직접 입력하는 순수 Transformer 기반 이미지 분류 모델이다. 합성곱 신경망(CNN)에 의존하지 않고도, 대규모 데이터(JFT-300M, ImageNet-21k)로 사전학습(pre-training)한 후 다양한 벤치마크에 전이(transfer)하면 CNN 기반 SOTA를 뛰어넘는 성능을 달성한다. ViT-H/14 기준 ImageNet 88.55%, CIFAR-100 94.55%, VTAB 77.63%를 기록하며, 동급 성능의 ResNet 대비 훈련 연산 비용이 약 4배 절감된다. 핵심 발견은 “충분히 큰 데이터로 학습하면 CNN의 귀납적 편향(inductive bias)이 제공하는 이점을 Transformer의 규모 확장으로 대체할 수 있다”는 점이다. 다만 현 시점에서는 이미지 분류에만 검증되었으며, 객체 탐지·분할(segmentation) 등 밀도 예측(dense prediction) 태스크로의 확장은 향후 과제로 남겨져 있다.

저자 contribution

이미지 패치를 시퀀스 토큰으로 처리하는 순수 Transformer 아키텍처(ViT)를 제안하여, CNN 없이도 대규모 이미지 분류 벤치마크에서 SOTA를 달성함을 최초로 실증하였다.
대규모 사전학습(JFT-300M, 300M 이미지)이 CNN 고유의 귀납적 편향(translation equivariance, locality)을 효과적으로 대체함을 체계적 데이터 규모 실험으로 검증하였다.
ViT는 동급 성능 대비 ResNet 계열보다 훈련 연산 비용이 약 4배 저렴하여, Transformer 기반 비전 모델의 실용적 확장 가능성을 제시하였다.

왜 이 연구를 하는가?

동기 (Motivation)

NLP(자연어 처리) 분야에서 Transformer는 사실상 표준 아키텍처로 자리잡았으며, 100B 파라미터 이상의 모델도 성능 포화 없이 확장 가능하다는 점이 입증되어 있다. 그러나 컴퓨터 비전(computer vision)에서는 CNN이 지배적 패러다임으로 유지되어 왔고, Transformer를 비전에 적용하려는 기존 시도들은 CNN과 self-attention을 혼합하거나 CNN 일부 구성 요소를 교체하는 방식에 그쳤다.

선행 연구의 한계

하이브리드 의존성: 기존 비전 Transformer 시도들은 CNN backbone을 유지하거나 특수한 attention 패턴(예: 축 방향(axial) attention, 국소(local) attention)을 사용하여 현대 하드웨어에서의 효율적 확장이 어려웠다.
소규모 학습 한계: 순수 self-attention을 이미지에 적용한 선행 연구들은 소규모 데이터셋에서 CNN 대비 열등한 성능을 보였으며, 이는 Transformer가 translation equivariance·locality와 같은 이미지 특화 귀납적 편향이 부재하기 때문으로 분석되어 왔다.
규모 확장 미검증: NLP에서 증명된 “모델·데이터 규모 확장(scaling)이 성능을 지속적으로 향상시킨다”는 원칙이 비전 Transformer에서도 성립하는지 체계적으로 검증된 바 없었다.

핵심 연구 질문 / 통찰

“CNN의 귀납적 편향에 의존하지 않는 순수 Transformer를, 이미지를 패치 시퀀스로 취급하는 최소한의 수정만으로 대규모 이미지 분류에 직접 적용할 수 있는가? 그리고 충분한 데이터 규모가 이 귀납적 편향의 부재를 보상할 수 있는가?”

Introduction

Transformer는 NLP에서 지배적 아키텍처로 자리 잡았으며, GPT·BERT 계열처럼 대규모 텍스트 코퍼스로 사전학습 후 다운스트림 태스크에 전이하는 방식이 표준화되었다. 이러한 성공에도 불구하고 컴퓨터 비전에서는 CNN이 주류를 유지해 왔다. 비전에 self-attention을 접목하려는 기존 연구들은 합성곱 레이어와 attention 메커니즘을 병렬·순차적으로 결합하거나, 하드웨어 효율을 위해 국소(local)·분리(factorized) attention 패턴을 도입하는 방식이었다.

본 연구는 이러한 CNN 의존성을 완전히 제거하고, 표준 Transformer 인코더를 이미지에 직접 적용하는 Vision Transformer(ViT)를 제안한다. 이미지를 고정 크기 패치(예: 16×16 픽셀)로 분할하고 각 패치를 선형 투영(linear projection)한 벡터를 토큰 시퀀스로 입력하며, BERT의 [CLS] 토큰에 대응하는 학습 가능한 [class] 토큰을 앞에 붙여 분류를 수행한다.

Transformer는 CNN이 갖는 translation equivariance·locality 같은 귀납적 편향이 없기 때문에, 데이터가 충분하지 않은 환경에서는 일반화 성능이 저하된다. 그러나 JFT-300M(3억 장)과 같은 대규모 데이터셋으로 사전학습하면 이 약점이 극복되어, 귀납적 편향이 제공하는 이점을 대규모 학습으로 대체할 수 있음을 실험적으로 보인다. ViT는 ImageNet 88.55%, CIFAR-100 94.55%, VTAB 77.63% 등 다수의 벤치마크에서 SOTA를 달성하면서도, 훈련에 필요한 연산량은 BiT-L(ResNet152x4) 대비 약 4배 적다.

Methods

1. 패치 임베딩 (Patch Embedding)

입력 이미지 x ∈ R^(H×W×C) 를 N = HW/P² 개의 2D 패치 x_p ∈ R^(N × (P²·C)) 로 분할한다 (P: 패치 크기). 각 패치를 학습 가능한 선형 투영 행렬 E로 D차원 벡터로 매핑한다 (patch embedding). D는 모든 레이어에서 동일하게 유지된다.

2. [class] 토큰 및 위치 임베딩 (Position Embedding)

BERT의 [CLS] 토큰에 대응하는 학습 가능한 [class] 토큰 x_class 를 시퀀스 앞에 삽입한다. 학습 가능한 1D 위치 임베딩 E_pos 를 각 토큰에 더해 위치 정보를 인코딩한다.

초기 시퀀스:

z_0 = [x_class ; x_p¹E ; x_p²E ; … ; x_pᴺE] + E_pos

2D 위치 임베딩을 실험했으나 1D 대비 유의미한 성능 향상이 없었다.

3. Transformer 인코더

L개의 블록으로 구성되며, 각 블록은 다음 순서를 따른다 (pre-norm 구조):

단계	수식
MSA 서브레이어	*z’l = MSA(LN(z{l-1})) + z_{l-1}*
MLP 서브레이어	z_l = MLP(LN(z’_l)) + z’_l

LayerNorm(LN)은 각 서브레이어 앞에 적용 (pre-norm)
MLP: 2-layer, GELU 활성화 함수, 중간 차원 = 4D
잔차 연결(residual connection)은 각 서브레이어 뒤에 적용

4. 분류 헤드 (Classification Head)

최종 레이어의 [class] 토큰 상태 z_L^0 에 LayerNorm을 적용한 후 MLP 분류 헤드(사전학습: 1 hidden layer; 파인튜닝: single linear layer)에 입력하여 클래스 예측 y 를 출력한다.

y = LN(z_L^0)

5. 귀납적 편향 비교

CNN과 달리 ViT에서 이미지 특화 귀납적 편향이 개입되는 지점은 두 곳뿐이다: (1) 패치 추출 단계, (2) 고해상도 파인튜닝 시 위치 임베딩의 2D 보간(interpolation). Self-attention 자체는 전역적(global)이며, MLP만 지역성(locality) 성질을 가진다.

6. 하이브리드 아키텍처 (Hybrid ViT)

패치를 원본 픽셀에서 추출하는 대신, CNN(ResNet) backbone의 feature map에서 추출하는 하이브리드 변형도 실험하였다.

7. 고해상도 파인튜닝

파인튜닝 시 더 높은 해상도를 사용하되 패치 크기는 고정하면 시퀀스 길이가 늘어난다. 사전학습된 위치 임베딩을 2D 보간으로 조정하여 적용한다.

8. 모델 변형 (Variants)

모델	레이어(L)	차원(D)	MLP 크기	헤드 수	파라미터
ViT-Base	12	768	3072	12	86M
ViT-Large	24	1024	4096	16	307M
ViT-Huge	32	1280	5120	16	632M

표기법: ViT-L/16 = Large 모델, 16×16 패치 (패치가 작을수록 시퀀스 길이가 길어지고 연산량 증가).

발견 (Findings)

핵심 발견 1: 대규모 학습이 귀납적 편향을 대체한다

소규모 데이터(ImageNet-only)에서는 Transformer의 귀납적 편향 부재가 명백한 성능 저하로 나타났으나, 데이터 규모가 14M(ImageNet-21k)을 넘어 300M(JFT-300M)에 도달하면 이 격차가 역전된다. 이는 이미지 특화 구조적 가정(structural assumption)이 학습 데이터의 양으로 대체 가능함을 의미하며, 비전 아키텍처 설계 패러다임에 중요한 함의를 갖는다.

핵심 발견 2: 연산 효율성 우위

ViT는 동일한 최종 성능에 도달하는 데 ResNet 계열 모델 대비 2-4배 적은 훈련 연산(TPUv3-core-days)을 필요로 한다. 이는 단순히 성능 우위를 넘어, 대규모 비전 모델의 훈련 비용 측면에서도 Transformer가 경쟁력을 가짐을 보인다.

핵심 발견 3: 성능 포화 없는 스케일링

실험 범위 내에서 ViT의 성능은 모델 크기 및 연산량이 증가할수록 지속적으로 향상되었으며, ResNet이 보이는 수준의 포화(saturation)가 관찰되지 않았다. 이는 ViT 계열이 더 큰 규모로 확장될 여지가 크다는 것을 시사한다.

부수적 발견: 어텐션의 자발적 구조 학습

명시적 2D 구조를 주입하지 않아도, 위치 임베딩이 2D 행·열 거리 관계를 자동으로 학습하고, 어텐션 헤드가 의미론적 영역에 집중하는 등 모델이 이미지의 구조적 특성을 데이터 기반으로 학습함이 확인되었다.

Results

1. SOTA 비교 (JFT-300M 사전학습)

모델	ImageNet	ImageNet-ReaL	CIFAR-10	CIFAR-100	VTAB(19개)	훈련 비용
ViT-H/14	88.55% ±0.04	90.72% ±0.05	99.50%	94.55% ±0.04	77.63% ±0.23	2.5k TPUv3-core-days
BiT-L (ResNet152x4)	87.54%	90.54%	99.37%	93.51%	76.29%	9.9k TPUv3-core-days
Noisy Student (EfficientNet)	88.4%	90.55%	—	—	—	12.3k TPUv3-core-days

ViT-H/14는 BiT-L 및 Noisy Student 대비 대부분의 벤치마크에서 동등하거나 우월한 성능을 보이면서 훈련 연산 비용은 각각 약 4배, 5배 절감한다. 추가 벤치마크 (ViT-H/14): Oxford-IIIT Pets 97.56%, Oxford Flowers-102 99.68%.

2. 중간 규모 사전학습 (ImageNet-21k, 14M 이미지)

ViT-L/16: ImageNet 85.30%, CIFAR-100 93.25%, 훈련 비용 0.23k TPUv3-core-days
JFT-300M 대비 낮지만, 연산 비용이 약 10배 이상 저렴하여 실용적 선택지로 제시됨.

3. 데이터 규모 효과 (Fig. 4 기반)

ImageNet-only (~1.3M): ViT가 동급 ResNet 대비 저조; ViT-Large < ViT-Base (소규모 데이터에서 과적합)
ImageNet-21k (~14M): ViT와 ResNet 성능 유사 (귀납적 편향의 이점이 희석됨)
JFT-300M (~300M): ViT가 ResNet을 초과 (“대규모 학습이 귀납적 편향을 대체한다”는 주장 실증)

4. 연산 효율 스케일링 (Fig. 5 기반)

동일 성능 기준, ViT는 ResNet 대비 2-4배 적은 연산량 사용
소규모 연산 예산에서는 하이브리드(CNN+ViT)가 우세하나, 연산량이 커질수록 격차 소멸
ViT는 실험 범위 내에서 성능 포화(saturation) 없이 스케일링 지속

5. 자기지도 학습 예비 실험 (Self-supervised Pre-training)

마스크 패치 예측(masked patch prediction) 방식으로 사전학습한 ViT-B/16: ImageNet 79.9%
스크래치(scratch) 학습 대비 +2%p 향상이나, 지도 학습(supervised) 사전학습 대비 -4%p 차이 — 향후 개선 여지 확인

6. 모델 내부 분석

학습된 패치 임베딩 필터: 저수준 특징 검출기(basis function)와 유사한 패턴 형성
위치 임베딩: 행·열 거리 구조(row/column distance structure)를 자동 학습
Attention distance: 깊은 레이어일수록 원거리 어텐션 증가; 얕은 레이어에서도 일부 헤드가 전역적 주의(global attention) 수행
어텐션 맵: 의미론적으로 관련된 영역(semantically relevant regions)에 집중하는 경향 관찰

Discussion

성과 요약

ViT는 순수 Transformer 인코더를 이미지 패치 시퀀스에 직접 적용함으로써, CNN 기반 SOTA 모델과 동등하거나 우월한 이미지 분류 성능을 달성하면서 훈련 연산 비용을 대폭 절감함을 실증하였다. 이미지 특화 귀납적 편향을 최소화하고도 대규모 사전학습을 통해 이를 보상할 수 있다는 개념 증명(proof of concept)으로서의 의의가 크다.

한계점

태스크 범위의 제한: ViT의 효과는 이미지 분류(classification)에만 검증되었다. 객체 탐지(object detection), 의미론적 분할(semantic segmentation) 등 밀도 예측(dense prediction) 태스크에서의 성능은 미검증 상태이며, 이러한 태스크들은 다중 스케일(multi-scale) 특징과 고해상도 출력을 요구하므로 패치 기반 접근법의 직접 적용이 비자명하다.
대규모 데이터 의존성: ViT는 소규모 데이터셋(예: ImageNet-only, ~1.3M)으로 사전학습할 경우 ResNet 대비 성능이 저조하다. 대부분의 연구 기관이 JFT-300M과 같은 수억 장 규모의 사내 데이터셋에 접근하기 어렵다는 점에서, 재현성과 공정한 비교에 제약이 있다.
자기지도 학습의 격차: 마스크 패치 예측 기반 자기지도 사전학습(self-supervised pre-training)은 지도 학습(supervised) 사전학습 대비 4%p 성능 차이가 존재하여, NLP에서 BERT 스타일 마스킹이 달성한 수준의 자기지도 전이 학습 효과를 아직 비전 도메인에서 재현하지 못하고 있다.

향후 방향

탐지·분할로의 확장: ViT를 객체 탐지(DETR 등)와 의미론적 분할에 적용하고, 다중 스케일 특징 추출을 위한 구조적 개선 탐색
자기지도 사전학습 개선: 마스크 오토인코더(masked autoencoder) 등 비전 도메인 특화 자기지도 학습 기법 개발로 지도 학습 격차 해소
지속적 스케일링 탐구: 현 실험 범위에서 성능 포화가 관찰되지 않았으므로, ViT-Huge를 초과하는 더 큰 모델과 더 많은 데이터에서의 스케일링 법칙(scaling law) 규명

이론적 의의

비전 아키텍처 설계 패러다임의 전환: ViT는 “이미지 처리를 위해서는 합성곱(convolution)의 귀납적 편향이 필수적”이라는 비전 커뮤니티의 오랜 가정에 정면으로 반박한다. Translation equivariance와 locality 없이도 대규모 학습만으로 비전 SOTA를 달성할 수 있음을 증명함으로써, NLP에서 확립된 “스케일이 모든 것을 해결한다(scale is all you need)“는 원칙이 비전으로 전이 가능함을 실증하였다.

NLP-비전 아키텍처 통합의 가능성: 동일한 Transformer 아키텍처로 텍스트와 이미지를 처리할 수 있게 됨으로써, 멀티모달(multimodal) 모델 개발의 이론적·실용적 기반을 마련하였다. 이는 이후 CLIP, DALL-E, Flamingo 등 멀티모달 모델들의 직접적 선행 연구로 작용하였다.

귀납적 편향(inductive bias) 재고: 기존에 모델의 샘플 효율성(sample efficiency)을 높이기 위해 도입된 구조적 편향이, 충분한 데이터 규모에서는 오히려 표현력(expressiveness)의 제약이 될 수 있다는 트레이드오프를 실험적으로 부각시켰다.

Discussion Points

논쟁점: ViT의 우수한 성능이 아키텍처 자체의 우월성 때문인지, 아니면 JFT-300M이라는 대규모 사내 비공개 데이터셋 접근 덕분인지 인과적으로 분리하기 어렵다. 공개 데이터만으로 사전학습한 ViT는 동급 ResNet 대비 일관되게 열세를 보이며, 이는 공정한 아키텍처 비교를 저해한다.
검증 필요 가정: “1D 위치 임베딩이 2D 위치 임베딩과 성능 차이가 없다”는 주장은 이미지 분류라는 전역적 태스크에서는 타당할 수 있으나, 픽셀 수준의 공간 정밀도가 요구되는 탐지·분할 태스크에서도 동일하게 성립하는지 검증이 필요하다. 또한 ViT가 CNN에 비해 분포 이동(distribution shift)에 더 강건하다는 후속 연구 주장이 이 논문의 훈련 체제(대규모 사전학습)에서도 재현되는지 확인이 요구된다.
후속 연구: (1) 밀도 예측 태스크 확장 — 다중 스케일 특징을 위한 계층적 ViT(예: Swin Transformer 방향), (2) 공개 대규모 데이터 기반의 공정한 재현 실험(예: LAION 등 활용), (3) 마스크 오토인코더(MAE) 등 비전 자기지도 학습 기법을 통한 데이터 효율성 개선, (4) ViT 스케일링 법칙의 체계적 규명 및 더 큰 모델(ViT-Huge 초과)로의 확장.

실험 결과 상세

Model/Method	Dataset	Metric	Score	vs. Baseline
ViT-H/14 (JFT-300M)	ImageNet	Top-1 Acc.	88.55% ±0.04	+0.05~0.15%p vs. Noisy Student 88.4%
ViT-H/14 (JFT-300M)	ImageNet-ReaL	Top-1 Acc.	90.72% ±0.05	+0.18%p vs. BiT-L 90.54%
ViT-H/14 (JFT-300M)	CIFAR-10	Top-1 Acc.	99.50%	— (SOTA급)
ViT-H/14 (JFT-300M)	CIFAR-100	Top-1 Acc.	94.55% ±0.04	+1.04%p vs. BiT-L 93.51%
ViT-H/14 (JFT-300M)	Oxford-IIIT Pets	Top-1 Acc.	97.56%	—
ViT-H/14 (JFT-300M)	Oxford Flowers-102	Top-1 Acc.	99.68%	—
ViT-H/14 (JFT-300M)	VTAB (19 tasks)	Mean Acc.	77.63% ±0.23	+1.34%p vs. BiT-L 76.29%
ViT-L/16 (ImageNet-21k)	ImageNet	Top-1 Acc.	85.30%	—
ViT-L/16 (ImageNet-21k)	CIFAR-100	Top-1 Acc.	93.25%	-0.26%p vs. BiT-L 93.51%
ViT-B/16 (자기지도, JFT)	ImageNet	Top-1 Acc.	79.9%	+2%p vs. from-scratch; -4%p vs. 지도 사전학습

Pre-training Compute 비교 (TPUv3-core-days)

Model	Compute	ImageNet Top-1
ViT-H/14 (JFT-300M)	2,500	88.55%
ViT-L/16 (JFT-300M)	680	—
ViT-L/16 (ImageNet-21k)	230	85.30%
BiT-L (ResNet152x4)	9,900	~87%+
Noisy Student	12,300	88.4%

ViT-H/14 기준: BiT-L 대비 약 4× 적은 compute로 동등~우월한 성능.

프레임워크 다이어그램

graph TB
    A["입력 이미지 H×W×C"] --> B["패치 분할 N = HW/P² 개 패치, 각 P×P×C"]
    B --> C["선형 투영 (E) 패치 임베딩 D차원"]
    D["[class] 토큰 (학습 가능)"] --> E["시퀀스 결합 z0 = [x_class; x_p E; ...] + E_pos"]
    C --> E
    F["위치 임베딩 (E_pos) 1D 학습 가능"] --> E
    E --> G["Transformer 인코더 (L 블록 반복)"]

    subgraph TransformerBlock["Transformer 인코더 블록 (l = 1..L)"]
        G1["LayerNorm (LN)"] --> G2["Multi-Head Self-Attention (MSA)"]
        G2 --> G3["잔차 연결 (+)"]
        G3 --> G4["LayerNorm (LN)"]
        G4 --> G5["MLP (2층, GELU)"]
        G5 --> G6["잔차 연결 (+)"]
    end

    G --> G1
    G6 --> H["z_L0 추출 ([class] 토큰 출력)"]
    H --> I["LayerNorm (LN)"]
    I --> J["MLP 헤드 (분류)"]
    J --> K["클래스 예측 y"]

    style TransformerBlock fill:#f0f4ff,stroke:#4a6fa5
    style A fill:#ffe0b2,stroke:#e65100
    style K fill:#c8e6c9,stroke:#2e7d32
    style D fill:#fce4ec,stroke:#880e4f

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	✅	공식 GitHub 공개 (https://github.com/google-research/vision_transformer). JAX/Flax 구현 포함, 주요 모델 체크포인트 제공.
데이터 공개	⚠️	ImageNet/ImageNet-21k/CIFAR/Oxford 등 공개 벤치마크는 재현 가능. 그러나 핵심 사전학습 데이터인 JFT-300M은 Google 내부 데이터셋으로 비공개 — 최고 성능(ViT-H/14 88.55%) 완전 재현 불가.
하이퍼파라미터	✅	모델 크기(L/D/MLP dim/heads), 패치 크기, 배치 크기, 학습률, warmup 스텝 등 Appendix에 상세 기재. ViT-B/L/H 세 변형 모두 명시.
실험 환경	✅	TPUv3 core-days 단위로 compute 명시, 모델별 파라미터 수(86M/307M/632M) 공개. 단, 정확한 TPU 토폴로지/소프트웨어 버전 상세는 부분적.
통계적 신뢰도	⚠️	일부 결과에 ±표준편차 보고(예: ImageNet 88.55%±0.04, VTAB 77.63%±0.23). 그러나 모든 결과에 통계 검증이 있지 않으며, 시드 수/반복 실험 횟수 불명확.
종합 등급	B	코드·하이퍼파라미터 공개로 공개 데이터 실험은 재현 가능하나, JFT-300M 비공개로 인해 논문 핵심 주장(대규모 데이터에서 CNN 초월)의 완전 재현은 사실상 불가. ImageNet-21k 기반 재현은 현실적으로 가능.

주장별 신뢰도

#	주장	근거	신뢰도
1	대규모 사전학습(JFT-300M) 시 ViT-H/14가 기존 SOTA CNN을 대부분 벤치마크에서 초과	수치 직접 보고(88.55% vs. 88.4%), compute 비교(2.5k vs. 9.9~12.3k) 명시. 단 JFT-300M 재현 불가로 독립 검증 어려움.	🟡
2	데이터 규모가 inductive bias보다 중요 — ImageNet-only에서는 ResNet 열세, JFT-300M에서는 역전	Fig 4의 스케일별 성능 곡선으로 체계적 실증, 여러 모델 크기에서 일관.	🟢
3	ViT는 ResNet 대비 동등 성능에 2~4배 적은 사전학습 compute 소요	Fig 5 compute-accuracy Pareto frontier 직접 제시.	🟢
4	자기지도 사전학습이 지도 학습 대비 ~4%p 격차 존재	ViT-B/16 79.9% 비교. 단 한 모델 크기에서만 보고.	🔴
5	1D position embedding이 2D-aware 대비 성능 차이 미미	Ablation 결과 직접 보고.	🟢

읽기 난이도: ⭐⭐⭐

Transformer 아키텍처(Self-Attention, LayerNorm, residual connection) 및 컴퓨터 비전(ImageNet, CNN inductive bias, transfer learning)에 대한 중급 이상의 사전 지식이 필요. 필요 배경지식: Transformer/BERT 구조, 이미지 분류 파이프라인, transfer learning 개념, ResNet 계열 CNN 기초.

축	본 논문 (ViT, 2021) [direct]	Attention Is All You Need (2017) [base]	BERT (2018) [base]	BiT (2020) [sota/base]	Noisy Student (2020) [sota]	iGPT (2020) [alternative]
핵심 접근	Image patch sequence를 Transformer encoder에 입력; inductive bias 최소화; 대규모 사전학습 후 fine-tune	Self-attention만으로 구성된 encoder-decoder; recurrence·convolution 제거	Masked LM + NSP로 양방향 Transformer 사전학습; [CLS] 분류	ResNet을 JFT-300M으로 대규모 지도 사전학습; GroupNorm + Weight Standardization	EfficientNet 기반 self-training; pseudo-label + 잡음	Pixel sequence를 autoregressive/BERT-style로 사전학습
문제 정의	Image classification (대규모 사전학습 → 소규모 transfer)	Sequence-to-Sequence (기계번역)	NLP 범용 표현 학습	Image classification (대규모 사전학습 → transfer)	ImageNet (반지도)	Image classification (생성적 사전학습 → transfer)
데이터	JFT-300M / ImageNet-21k → ImageNet, CIFAR 등	WMT 2014 EN-DE/EN-FR	BooksCorpus + Wikipedia (~3.3B tokens)	JFT-300M → VTAB·ImageNet	ImageNet labeled + JFT-300M unlabeled	ImageNet 64×64
핵심 메트릭	ViT-H/14 ImageNet 88.55%; compute 2-4× 절감	BLEU EN-DE 28.4 / EN-FR 41.0	GLUE 80.5, SQuAD 2.0 F1 83.1	BiT-L ImageNet 87.54%; VTAB 76.29%	EfficientNet-L2 ImageNet 88.4%	iGPT-L linear probe 65.2%; fine-tune 72.0%
확장성	모델·데이터 규모 증가 시 단조 향상; 데이터 부족 시 CNN 열위	스케일업 가능하나 vision 검증 없음	Base→Large 스케일업 효과 확인; vision 미적용	ResNet 스케일업; 소규모 데이터서도 양호	EfficientNet 스케일링 + 더 큰 unlabeled	Pixel 수 증가 시 O(N²) → 고해상도 극히 제한
한계	분류만 검증; JFT 의존; 자기지도 격차	vision 미적용; locality 무시	vision 미적용; 고해상도 시 sequence 폭발	CNN 편향 의존; 장거리 모델링 열위	반복 비용 높음; Transformer 미채택	계산 비용 극히 높음; 성능 낮음
코드 공개	✅	✅ (tensor2tensor)	✅	✅ (big_transfer)	✅ (noisy-student)	✅ (openai/image-gpt)

원자적 인사이트 (Zettelkasten)

💡 대규모 사전학습이 구조적 귀납적 편향을 대체한다

출처: 본 논문 (Dosovitskiy et al., 2021) — 유형: 이론적

CNN이 갖는 지역성(locality)·평행이동 등변성(translation equivariance)이라는 귀납적 편향은 데이터가 제한적일 때 필수적인 보조 장치다. 그러나 ViT는 JFT-300M(3억 장) 규모의 데이터로 사전학습했을 때 이러한 편향 없이도 BiT-L(ResNet152x4)을 4배 적은 연산 비용으로 앞질렀다. 이는 “좋은 아키텍처 편향”이 “충분한 데이터”로 대체될 수 있음을 실증한다.
핵심 조건: 데이터 규모가 최소 수천만 장(ImageNet-21k 이상)이어야 효과가 나타나며, 소규모 데이터셋에서는 역전 현상이 발생한다.
연결: Attention Is All You Need, BERT - Pre-training of Deep Bidirectional Transformers for Language Understanding

💡 이미지를 패치 시퀀스로 재해석하면 NLP 인프라를 그대로 재사용할 수 있다

출처: 본 논문 (Dosovitskiy et al., 2021) — 유형: 방법론적

이미지를 16×16 픽셀 패치로 분할하고 각 패치를 선형 투영으로 임베딩하면, 이미지는 NLP의 문장과 동일한 “토큰 시퀀스”가 된다. 이 단순한 재해석 덕분에 BERT의 [class] 토큰 전략, 학습 가능한 위치 임베딩, Transformer 인코더 전체를 수정 없이 가져올 수 있다. 비전과 언어의 아키텍처 통합은 이 단계에서 시작된다.
핵심 조건: 패치 크기는 시퀀스 길이와 계산 비용의 트레이드오프를 결정하며, 더 작은 패치는 더 세밀한 표현이지만 O(N²) 자기주의 비용을 급증시킨다.

💡 자기지도학습은 비전 Transformer의 미완성 프론티어였다

출처: 본 논문 (Dosovitskiy et al., 2021) — 유형: 실패-한계

ViT 논문에서 마스크 패치 예측을 시도했으나 ViT-B/16 기준 79.9%로 지도학습 대비 약 4% 뒤처졌다. 이 실패는 오히려 이후 연구 방향을 선명하게 제시했다: MAE, DINO, I-JEPA는 모두 이 공백을 메우기 위해 등장했다.
연결: MAE, DINO, I-JEPA

핵심 용어 정리

용어	정의
패치 임베딩 (patch embedding)	이미지를 고정 크기(예: 16×16 픽셀)의 조각으로 나눈 뒤 각 조각을 1D 벡터로 선형 변환하는 과정. Transformer가 이미지를 처리할 수 있도록 시각 정보를 토큰 형태로 변환하는 첫 단계.
[class] 토큰	시퀀스 맨 앞에 추가하는 학습 가능한 특수 토큰. 모든 패치 토큰과 자기주의를 통해 상호작용한 뒤 최종 분류 레이어의 입력으로 사용된다. BERT에서 도입된 개념.
위치 임베딩 (position embedding)	패치의 순서 정보를 인코딩하는 학습 가능한 벡터. Transformer는 본래 순서를 인식하지 못하므로 위치 임베딩을 패치 임베딩에 더해 위치를 알려준다. ViT는 1D 방식 사용.
귀납적 편향 (inductive bias)	모델이 일반화하기 위해 구조 안에 사전 내장된 가정. CNN의 경우 “가까운 픽셀끼리 더 관련 깊다(지역성)“와 “물체를 이동해도 같은 물체다(평행이동 등변성)“가 핵심. ViT는 이를 제거하고 데이터로부터 학습한다.
자기주의 (MSA, Multi-head Self-Attention)	시퀀스 내 모든 토큰 쌍의 관계 강도를 계산하여 각 토큰이 다른 토큰을 얼마나 참조할지 동적으로 결정하는 연산. 멀리 떨어진 패치 간 전역적 의존성을 포착.
JFT-300M	Google 내부의 약 3억 장 레이블 이미지 데이터셋. ViT 최고 성능의 핵심이나 비공개로 재현 장벽.
고해상도 파인튜닝	사전학습보다 큰 해상도로 미세조정하는 기법. 패치 수 증가에 따라 위치 임베딩을 2D 보간으로 조정.
하이브리드 아키텍처	CNN 특징 맵을 패치 대신 Transformer 입력 토큰으로 사용하는 방식. 순수 ViT와 CNN의 중간.

BibTeX

@inproceedings{dosovitskiy2021,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  booktitle={International Conference on Learning Representations},
  year={2021},
  url={https://arxiv.org/abs/2010.11929},
  eprint={2010.11929},
  archivePrefix={arXiv}
}

An Image is Worth 16x16 Words - Transformers for Image Recognition at Scale