비디오로부터 시각 표현 학습을 위한 특징 예측 재고 (V-JEPA)

Digest: 딥러닝 기반 비디오 이해(video understanding)는 오랫동안 픽셀 재구성(pixel reconstruction)이나 텍스트 감독(text supervision) 같은 외부 신호에 의존해 왔으나, 이는 고수준 의미(semantics)보다 저수준 텍스처 복원에 계산 자원을 낭비한다는 문제가 있었다. V-JEPA가 발견한 핵심 통찰은 표현 공간 내 특징 예측(feature prediction in representation space) 만으로도 — 픽셀 재구성, 텍스트, 사전 학습된 이미지 인코더, 부정 샘플(negatives) 없이 — 비디오에서 충분히 풍부한 시각 표현을 학습할 수 있다는 것이다. 이 통찰은 자연스럽게 구조로 이어진다: 마스킹된 비디오를 처리하는 x-인코더와 EMA(지수 이동 평균, Exponential Moving Average) 방식으로 업데이트되는 y-인코더(목표 인코더), 그리고 협소한 예측기(narrow predictor) 트랜스포머로 구성된 아키텍처가 L1 손실로 표현 공간 예측을 수행한다. 핵심 기법은 시공간 다중 블록 마스킹(spatiotemporal multi-block masking): 단거리(15%, 8블록)와 장거리(70%, 2블록)를 조합해 입력의 약 90%를 가려 모델이 단순 보간이 아닌 의미론적 추론을 하도록 강제한다. 결과는 설득력 있다 — ViT-L/16 기준 K400 80.8% vs VideoMAE(픽셀 재구성)의 77.8%, SSv2(Something-Something v2, 동작 이해 벤치마크) 69.5% vs 65.5%이며 계산량은 약 절반(Table 2, 3); 특히 동작 이해에서 이미지 사전 학습 모델과의 격차가 극명해 DINOv2 50.6%, I-JEPA 50.0%, OpenCLIP 34.8%에 비해 ViT-H/16이 71.4%를 기록했다(+21 pts, Table 5). 단 5% 레이블만 사용하는 저레이블 환경에서도 V-JEPA는 VideoMAEv2 대비 성능 하락이 훨씬 작아 표현의 범용성을 입증한다. 한계는 두 가지다: 저자들이 명시적으로 인정하듯 200만 공개 비디오(VideoMix2M) 학습은 ImageNet 규모의 시각 다양성에 못 미쳐 정적 이미지 분류(IN1K 75.977.4%)에서 이미지 전용 모델에 뒤처지며, 평가 방식으로 채택한 어텐티브 프로빙(attentive probing, 학습 가능한 교차 어텐션 풀링) 은 기존 평균 풀링 대비 K400 +17.3%p 향상을 보여주지만 이것이 표현 품질인지 프로빙 방식 이득인지 분리하기 어렵다는 점도 있다. 열린 질문으로는: 비디오 사전 학습 데이터를 이미지 규모로 확장하면 두 도메인을 동시에 지배할 수 있는가, 행동 조건부(action-conditioned) 예측으로 확장한 V-JEPA 2가 실제 로봇 계획에서 어디까지 일반화되는가, 그리고 JEPA 계열의 특징 예측 원리가 멀티모달 이해로 확장 가능한가가 남아 있다.


섹션별 요약

Abstract

V-JEPA (Video Joint-Embedding Predictive Architecture)는 비디오로부터 비지도 시각 표현을 학습하기 위해 **특징 예측(feature prediction)**을 단독 목표 함수로 활용한다. 사전 학습된 이미지 인코더, 텍스트 감독, 네거티브 샘플, 픽셀 수준 재구성 등 어떠한 외부 감독 신호도 사용하지 않으며, 약 200만 개의 공개 비디오만으로 학습한다. 핵심 주장은 피처 공간에서의 예측이 픽셀 수준 재구성보다 더 효율적이고 범용적인 표현을 산출한다는 것이다. 컨텍스트 인코더가 마스킹된 비디오를 처리하고, EMA로 업데이트되는 타깃 인코더의 출력을 예측한다. 동결 평가(frozen evaluation) 기준 ViT-H/16이 Kinetics-400 82.0%, SSv2 71.4%, ImageNet-1K 75.9%를 달성하며(ViT-H/16@384는 K400 81.9, SSv2 72.2, IN1K 77.4; abstract는 H/16 IN1K를 77.9로 보고), 픽셀 예측 기반 방법을 동결 상태에서 크게 상회하고 학습 효율도 약 2배 향상된다.

저자 contribution

  • 비디오 SSL에서 특징 예측만으로 고품질 표현 학습이 가능함을 체계적으로 검증
  • 픽셀 재구성 없이도 동작 이해(SSv2)와 외형 인식(K400) 모두에서 강력한 성능 달성
  • 동결 백본 기준 픽셀 예측 대비 우월한 성능 + 약 2배 학습 속도 향상
  • Attentive probing 평가 프로토콜 도입(평균 풀링 대비 K400 +17.3p, SSv2 +16.1p)
  • 5% 레이블 조건에서 경쟁 모델의 절반 수준 성능 하락(높은 레이블 효율성)

왜 이 연구를 하는가?

문제 진단: 비디오 SSL의 두 주류 — 픽셀 재구성과 이미지 사전학습 전이 — 는 각각 결함이 있다. 픽셀 재구성은 예측 불필요한 세부 정보(조명, 텍스처 노이즈)를 목표에 포함시켜 계산 낭비와 표현 품질 저하를 유발한다. 이미지 사전학습 기반 방법은 정적 외형에는 강하나 비디오 고유의 시간적 동작 패턴 포착에 구조적 한계가 있다.

이론적 동기: 예측 코딩(predictive coding) 이론에 따르면 좋은 표현은 인접 시공간 정보를 서로 예측할 수 있는 추상 구조여야 한다. 픽셀이 아닌 피처 수준에서 예측하면 모델은 저수준 디테일을 무시하고 의미 있는 시공간 구조를 포착하도록 압력을 받는다.

공백: 피처 예측이 픽셀 예측 없이 단독으로 범용 비디오 표현 — 특히 동작 이해와 외형 인식 모두 — 을 학습할 수 있는지는 V-JEPA 이전에 체계적으로 검증되지 않았다.

Introduction

비디오 SSL은 크게 두 흐름으로 발전했다. (1) 픽셀 수준 재구성(VideoMAE, MAE 계열): 마스킹된 패치의 원본 픽셀값을 복원. 계산 비용이 높고 예측 불가한 세부까지 목표에 포함. (2) 이미지 사전학습 전이(DINOv2, OpenCLIP): 대규모 이미지 코퍼스 인코더를 비디오에 적용, 동작 이해에 취약.

V-JEPA는 두 한계를 동시에 극복한다. 핵심 원리는 시간적으로 인접한 자극의 표현은 서로 예측 가능해야 한다는 예측 코딩 직관이다. 픽셀이 아닌 피처 공간에서 예측함으로써 픽셀 재구성 비용 제거, 예측 불필요한 저수준 디테일 배제, 동작·외형 모두를 아우르는 범용 표현 획득을 노린다. JEPA(Joint-Embedding Predictive Architecture) 프레임워크를 비디오로 확장하여 어떠한 외부 감독도 없이 ~200만 공개 비디오만으로 학습한다.

Methods

아키텍처 개요

컴포넌트역할업데이트
x-encoder (컨텍스트 인코더)마스킹된 비디오의 보이는 부분 인코딩역전파
y-encoder (타깃 인코더)전체 비디오 인코딩 → 예측 타깃EMA
Predictor (예측기)x-rep → y-rep 매핑역전파

붕괴 방지: 타깃에 stop-gradient + EMA를 적용. 손실은 L1 회귀:

L = ||P(E_x(x), Δy) − sg(EMA-E_y(y))||_1

(Δy: 마스킹 위치의 위치 임베딩, sg: stop-gradient)

시공간 마스킹 전략

  • Short-range 마스크: 프레임당 15%, 8블록, 공간적으로 연속
  • Long-range 마스크: 70%, 2블록, 시간 전체에 반복
  • 평균 마스킹 비율 ~90% (피처 공간 예측이라 재구성 부담 없음)
  • 각 블록은 다양한 종횡비로 샘플링

백본 및 입력

  • 백본: ViT — 시공간 패치(16×16 픽셀 × 2-프레임 tubelet)
  • 예측기: 좁은 트랜스포머(12블록, 차원 384)
  • 입력: 16프레임, stride 4 (~3초 클립)
  • 모델: ViT-L/16, ViT-H/16, ViT-H/16@384
  • 데이터: VideoMix2M = HowTo100M + Kinetics-400/600/700 + SSv2, ~200만 비디오 (텍스트·레이블·사전학습 인코더 없음)

평가: Attentive Probing

동결 백본 + 학습 가능한 크로스-어텐션 풀링 + 2-layer MLP + 선형 분류기. 백본 파라미터는 일절 수정하지 않음. 평균 풀링 대비 K400 +17.3p, SSv2 +16.1p 향상.

발견 (Findings)

핵심 발견 1 — 피처 예측의 충분성: 피처 예측 단독으로 픽셀 재구성보다 우수한 동결 표현을 학습. 픽셀 수준 타깃이 실제로는 표현 학습에 불필요하거나 방해가 될 수 있음을 시사.

핵심 발견 2 — 동작-외형 이중 강점: 동작 이해(SSv2 +20.8p vs DINOv2)와 외형 인식(K400 82.0) 모두 강력. 비디오 피처 예측이 정적 외형과 시간 패턴을 함께 포착하는 범용 표현을 유도.

핵심 발견 3 — 학습 효율: 더 적은 샘플(270M vs 410M), 더 짧은 학습(90K vs 400K iter)으로 더 나은 결과. 피처 공간 예측의 학습 신호 품질이 픽셀 재구성보다 높음.

핵심 발견 4 — 레이블 효율성: 5% 레이블에서 성능 하락폭이 VideoMAEv2의 절반 수준. 학습 표현이 구조적으로 더 분리·전이 가능함을 나타냄.

Results

동결 어텐티브 프로빙

모델K400SSv2ImageNet-1K
ViT-L/1673.766.274.8
ViT-H/1682.071.475.9
ViT-H/16@38481.972.277.4

픽셀 재구성 기반 방법과 비교 (ViT-L/16, 동결)

방법K400SSv2학습 샘플반복
V-JEPA80.869.5270M90K
VideoMAE77.865.5410M400K
OmniMAE65.660.6
Hiera75.564.2

V-JEPA는 K400 +3.0p, SSv2 +4.0p를 달성하면서 학습 샘플 34% 적고 반복 약 4.4배 적음.

이미지 사전학습 모델과 비교 (동결)

  • SSv2(동작): V-JEPA ViT-H/16 71.4 vs DINOv2 50.6, I-JEPA 50.0, OpenCLIP 34.8 → +21p 우위
  • K400(외형): V-JEPA 82.0 vs DINOv2 83.4 (이미지 사전학습과 경쟁적)

엔드-투-엔드 파인튜닝

방법K400SSv2
V-JEPA ViT-L/1685.675.1
VideoMAE ViT-L/1685.474.3
OmniMAE ViT-L/1684.074.2

레이블 효율성 (5% 레이블)

방법K400(5%)하락SSv2(5%)하락
V-JEPA ViT-H@38468.2−12%54.0−13.9%
VideoMAEv237.0−30%28.0−26%

학습 효율: 대규모 픽셀 예측 모델 대비 wallclock 약 2배 빠름.

Discussion

V-JEPA는 피처 예측이 비디오 SSL의 충분한 단독 목표 함수임을 실증한다. 텍스트·이미지 사전학습·픽셀 재구성 어느 것도 필요 없으며, 공개 비디오 ~200만 개만으로 범용·효율적 표현을 학습한다.

강점: 범용성(동작/외형/객체/장면/세밀 분류·행동 위치파악에서 동결 상태로 강력), 효율성(픽셀 예측 대비 약 2배 빠름), 레이블 효율(소량 레이블에서 두드러진 안정성).

한계:

  • 데이터 다양성 부족: 비디오 사전학습 데이터가 인터넷 규모 이미지 코퍼스보다 시각 다양성이 낮아 ImageNet 등 일반 이미지 분류에서 이미지 전용 모델(DINOv2)에 열세.
  • 공개 비디오 데이터셋 구축: 다양성 높은 대규모 공개 비디오 데이터셋 확보가 핵심 미래 과제.
  • 평가 프로토콜 의존성: Attentive probing은 선형 프로빙보다 학습 파라미터가 많아 비교 기준선 일관성에 주의 필요.

이론적 의의

“무엇을 예측 목표로 삼느냐가 표현의 질을 결정한다”는 명제를 비디오 도메인에서 실증한다. 생성적 모델 대신 예측적 임베딩 공간에서 학습하는 LeCun의 JEPA 프레임워크가 시각 표현 학습에 실용적으로 유효함을 보이며, 생성적 재구성 없이 예측 기반 표현 학습이 가능한 개념 증명이다. 이후 행동 조건부 예측을 더한 V-JEPA 2(2025)의 직접 선행으로, JEPA를 실제 로봇 계획이 가능한 world model로 발전시키는 출발점이 된다.

Discussion Points

  • 논쟁점 1 — Attentive probing의 공정성: 선형 프로빙보다 학습 파라미터가 많아(cross-attention + 2-layer MLP) 표현 품질을 과대평가하는지, 아니면 선형 프로빙이 과소평가했던 구조적 풍부함을 올바르게 인출하는지 논쟁 가능.
  • 논쟁점 2 — EMA 붕괴 방지의 이론적 근거: stop-gradient + EMA가 붕괴를 막는 이유에 대한 이론적 설명이 부족. BYOL/DINO 등과의 체계적 비교 부재.
  • 검증 필요 가정 1 — VideoMix2M 도메인 중첩: K400/SSv2가 학습 데이터에 포함되어 평가 성능이 학습-테스트 중첩 혜택을 받을 수 있음. 완전 홀드아웃 평가 필요.
  • 검증 필요 가정 2 — 마스킹 ~90%의 최적성: 90% 마스킹이 비디오 피처 예측에 최적이라는 ablation의 범위·엄밀성 확인 필요. abstract(77.9)와 표(75.9/77.4)의 IN1K 수치 출처 구분도 명확화 필요.
  • 후속 연구: (1) 다양한 공개 비디오 데이터셋 구축 및 스케일링 법칙 분석, (2) V-JEPA 2(행동 조건부) 로봇 계획 일반화, (3) 멀티모달(비디오-오디오/언어) 확장.

실험 결과 상세

동결 어텐티브 프로빙 (V-JEPA 자체)

Model/MethodDatasetMetricScore
V-JEPA ViT-H/16Kinetics-400Top-1 (%)82.0
V-JEPA ViT-H/16@384Kinetics-400Top-1 (%)81.9
V-JEPA ViT-L/16Kinetics-400Top-1 (%)73.7
V-JEPA ViT-H/16@384SSv2Top-1 (%)72.2
V-JEPA ViT-H/16SSv2Top-1 (%)71.4
V-JEPA ViT-L/16SSv2Top-1 (%)66.2
V-JEPA ViT-H/16@384ImageNet-1KTop-1 (%)77.4
V-JEPA ViT-H/16ImageNet-1KTop-1 (%)75.9 (abstract: 77.9)

vs 픽셀 재구성 (Frozen, ViT-L/16)

Model/MethodK400SSv2vs. Baseline
V-JEPA80.869.5+3.0 / +4.0 vs VideoMAE
VideoMAE77.865.5기준
OmniMAE65.660.6
Hiera75.564.2

V-JEPA 270M samples / 90K iters vs VideoMAE 410M / 400K → 약 2× wallclock 효율.

vs 이미지 사전학습 (Frozen, SSv2 동작 이해)

Model/MethodSSv2vs. Baseline
V-JEPA ViT-H/1671.4+20.8 vs DINOv2
DINOv250.6기준
I-JEPA50.0
OpenCLIP34.8

Fine-tune & Label Efficiency

Model/MethodK400 (FT)SSv2 (FT)
V-JEPA ViT-L/1685.675.1
VideoMAE ViT-L/1685.474.3
Model/MethodK400 (5%)SSv2 (5%)
V-JEPA ViT-H@38468.2 (−12%)54.0 (−13.9%)
VideoMAEv237.0 (−30%)28.0 (−26%)

프레임워크 다이어그램

graph LR
    A["Video Clip (16 frames, stride 4)"] --> B["3D Spatiotemporal Masking"]
    B --> C["Context Tokens (unmasked, ~10%)"]
    B --> D["Mask Tokens (target positions)"]

    C --> E["x-encoder (ViT, context only)"]
    A --> F["y-encoder (ViT, full clip, EMA target)"]

    E --> G["Predictor (Transformer 12b, dim 384)"]
    D --> G

    F --> H["Target Representations (stop-grad)"]
    G --> I["L1 Loss (feature space)"]
    H --> I

    I -->|backprop| E
    I -->|backprop| G
    E -.->|EMA update| F

    style E fill:#4a90d9,color:#fff
    style F fill:#e8a838,color:#fff
    style G fill:#9b59b6,color:#fff
    style I fill:#e05c5c,color:#fff

재현성 및 신뢰도 평가

항목등급비고
코드 공개https://github.com/facebookresearch/jepa (Apache 2.0)
데이터 공개⚠️K400/600/700, SSv2, HowTo100M은 별도 신청 필요; VideoMix2M 큐레이션 스크립트 일부 공개
하이퍼파라미터masking 비율, predictor(12블록, dim 384), tubelet(2프레임, 16×16), EMA 스케줄 상세
실험 환경⚠️GPU 유형/수 언급 있으나 seed·mixed precision 세부 미흡; 2× speedup은 상대 수치
통계적 신뢰도⚠️표준편차/신뢰구간 미보고; 단일 run 추정
종합 등급B코드·핵심 하이퍼파라미터 공개로 재현 가능하나, 데이터 접근성·통계 보고 부재로 완전 재현에 제약

주장별 신뢰도

#주장근거신뢰도
1Feature prediction이 pixel reconstruction보다 frozen 표현 우수동일 ViT-L/16·동일 프로토콜 비교(K400 +3.0, SSv2 +4.0)🟢
2동작 이해(SSv2)에서 이미지 사전학습 대비 +21pDINOv2/I-JEPA/OpenCLIP 동일 frozen 비교; SSv2는 temporal reasoning 결정적🟢
3~2× wallclock 효율sample(270M vs 410M)·iter(90K vs 400K)로 뒷받침; 직접 GPU-시간 미제시🟡
45% label efficiency 우위K400 68.2 vs 37.0 등; 모델 크기 동일성 불명확하나 차이 큼🟡
5IN1K에서 경쟁력(77.9%)abstract 77.9 vs table H/16 75.9 불일치; H/16@384 77.4🔴

읽기 난이도: ⭐⭐⭐

SSL, ViT, JEPA 계열(I-JEPA 선수 권장), 마스킹 사전학습(MAE/VideoMAE), EMA 기반 target network(BYOL/MoCo 유사) 배경이 필요. attentive vs linear probing 차이, spatiotemporal tubelet 개념도 이해해야 결과 해석 가능.

관련 연구 비교 매트릭스

선정 근거: I-JEPA는 V-JEPA의 직접 이미지 선행, VideoMAE는 동일 도메인 픽셀 재구성의 주요 경쟁 기준선, OmniMAE는 이미지+비디오 통합 픽셀 재구성 대안, DINOv2는 이미지 SSL SOTA로 motion 한계를 대조, LeCun(2022)은 JEPA 이론적 기원이다.

V-JEPA (본 논문)I-JEPA [base]VideoMAE [sota/alt]OmniMAE [alt]DINOv2 [sota/alt]LeCun 2022 [base]
모달리티 & Objective비디오; 표현 공간 feature prediction (no negatives)이미지; 표현 공간 block prediction비디오; 픽셀 재구성(MAE)이미지+비디오; 픽셀 재구성이미지; self-distillationposition paper; JEPA 비전
예측 대상 공간표현 공간 (EMA target)표현 공간 (EMA target)픽셀 공간픽셀 공간표현 공간(증류, 간접)표현 공간(개념)
사용 지도 신호없음(텍스트·이미지인코더·네거티브·픽셀 모두 X)없음없음(픽셀 자체)없음(픽셀)curated 대규모 이미지(LVD-142M)N/A
마스킹 전략spatiotemporal multi-block ~90%2D multi-blocktube masking 90%tube/patch masking없음(crop augmentation)미정의(개념)
Frozen SSv2(동작)71.4 (H/16)50.0 (이미지→비디오)~65.5 (L)~60.650.6N/A
Frozen K400/IN1K(외형)K400 82.0; IN1K 75.9~77.4IN1K linear ~81.1 (이미지)K400 77.8(frozen L)K400 ~65.6K400 83.4; IN1K 최강N/A
코드 공개

원자적 인사이트 (Zettelkasten)

💡 픽셀 재구성 없는 표현 공간 예측만으로 비디오 이해가 가능하다

출처: 본 논문 (Bardes et al., 2024) — 유형: 방법론적

지배적이던 픽셀 재구성은 계산의 상당 부분을 저수준 텍스처 복원에 낭비한다. V-JEPA는 EMA 목표 인코더의 표현 공간에서 직접 예측 손실을 계산해 이 낭비를 제거한다(ViT-L/16 K400에서 VideoMAE 대비 +3p, 계산량 약 절반). “무엇을 예측 목표로 삼느냐”가 “얼마나 계산하느냐”보다 표현 품질에 더 결정적임을 시사한다.
핵심 조건: stop-gradient + EMA가 붕괴 방지에 필수; 네거티브 없이 작동; 사전학습 이미지 인코더 불요.
연결: I-JEPA, MAE

💡 극단적 시공간 마스킹(~90%)이 동작 이해를 강제한다

출처: 본 논문 (Bardes et al., 2024) — 유형: 실험적

이미지 MAE가 75% 공간 마스킹으로 성공했다면, V-JEPA는 단거리(15%, 8블록)+장거리(70%, 2블록) 튜블릿 마스킹으로 ~90%를 가린다. 이 공격적 마스킹은 단순 공간 보간을 막고 시간 흐름 추론을 요구해 SSv2에서 이미지 사전학습 모델(DINOv2 50.6, I-JEPA 50.0)을 +21p 압도한다. 반면 정적 분류(IN1K)는 이미지 모델에 뒤져, 마스킹·학습 도메인이 표현의 시공간 편향을 직접 결정함을 보여준다.
연결: ViT

💡 어텐티브 프로빙은 동결 평가의 표준을 바꾼다

출처: 본 논문 (Bardes et al., 2024) — 유형: 방법론적

동결 백본 위 평균 풀링+선형 분류기인 기존 선형 프로빙은 비디오 시공간 정보를 충분히 추출하지 못한다. V-JEPA는 학습 가능한 크로스-어텐션 풀링을 프로빙 헤드로 채택해 평균 풀링 대비 K400 +17.3p, SSv2 +16.1p 격차를 만든다. 표현에 정보가 담겨 있어도 추출 방식이 결과를 크게 좌우함을 의미하며, 동결 평가 비교에서 프로빙 방법 통일이 필수임을 시사한다.
핵심 조건: 어텐티브 프로빙도 학습 파라미터를 포함 → 완전 “선형” 평가는 아님. 백본은 완전 동결.
연결: JEPA 원조 (LeCun 2022)

핵심 용어 정리

용어정의
V-JEPAVideo Joint-Embedding Predictive Architecture. 비디오 클립에서 마스킹된 시공간 영역의 표현을 예측하도록 학습하는 SSL 프레임워크. 픽셀이 아닌 표현 공간에서 예측.
feature prediction (특징 예측)원본 픽셀 대신 목표 인코더가 생성한 고수준 표현 벡터를 예측하는 학습 목표.
representation-space objective손실을 픽셀 공간이 아닌 내부 표현 공간에서 계산하는 방식. 픽셀 재구성의 계산 낭비 제거.
spatiotemporal multi-block masking공간·시간 축을 동시에 마스킹하되 단거리 여러 블록 + 장거리 소수 블록을 혼합하는 전략. ~90% 마스킹.
tubelet (튜블릿)여러 프레임에 걸쳐 같은 공간 위치를 묶은 3D 패치. V-JEPA는 2-프레임 튜블릿을 토큰 단위로 사용.
attentive probing동결 백본 위에 학습 가능한 크로스-어텐션 풀링을 올려 평가하는 방식. 평균 풀링보다 시공간 분산 표현을 잘 집약.
frozen evaluation백본 가중치를 전혀 갱신하지 않고 경량 헤드만 학습해 표현 품질을 측정하는 평가.
EMA target encodery-인코더. 역전파가 아닌 x-인코더의 EMA로만 갱신. stop-gradient와 함께 표현 붕괴를 방지.
motion understanding (동작 이해)정적 외관이 아닌 시간에 따른 움직임·인과를 이해해야 풀리는 능력. SSv2가 대표 벤치마크.
VideoMix2MV-JEPA 사전학습용 ~200만 공개 비디오 혼합. ImageNet 규모 대비 시각 다양성 제한이 이미지 분류 병목.

관련 연구

  • I-JEPA — 동일 JEPA 원리를 정적 이미지에 적용한 선행. V-JEPA는 시간 축 확장 + 비디오 특화 마스킹 추가.
  • JEPA 원조 (LeCun 2022) — V-JEPA가 구현하려는 world model 비전의 이론적 원천.
  • MAE — 픽셀 재구성 마스킹 SSL의 대표. V-JEPA는 그 비디오 확장 VideoMAE와 직접 비교하며 표현 공간 목표의 우위를 주장.
  • ViT — V-JEPA 백본의 원형. 패치 토큰화를 비디오 튜블릿으로 확장.
  • IWM — 이미지 world model 관점에서 표현 예측을 분석한 후속.

태그

paper #2024 video-representation-learning self-supervised-learning jepa v-jepa world-model feature-prediction masked-modeling


BibTeX

@article{bardes2024revisiting,
  title={Revisiting Feature Prediction for Learning Visual Representations from Video},
  author={Bardes, Adrien and Garrido, Quentin and Ponce, Jean and Chen, Xinlei and Rabbat, Michael and LeCun, Yann and Assran, Mahmoud and Ballas, Nicolas},
  journal={arXiv preprint arXiv:2404.08471},
  year={2024},
  url={https://arxiv.org/abs/2404.08471},
  eprint={2404.08471},
  archivePrefix={arXiv}
}