Summary BERT의 MLM(Masked Language Modeling) task에 영감을 받아, image 처리하는 Vision Transformer(ViT)에 적용하자가 아이디어. Introduction Related Papers Methods Results Discussion