Classification

컴퓨터 비전 분야에서 중요한 task 중 하나로, 이미지 데이터의 label을 예측하는 task.

Challenge - Semantic Gap


Semantic Gap

실제 모델이 읽는 값들은 (0, 255) x 3 channel (RGB)범위의 수치들이니, 사람이 이미지 정보 처리 하는 것과는 사뭇 다르다.

  • Viewpoint variation : 관측점, 사진이 찍힌 각도에 따라 동일한 대상도 다르게 보인다.
  • Illumination: 광량에 따라 대상의 색상 정보 파악이 확연히 다르다.
  • Background Clutter: 배경 정보가 경계 구분에 어려움을 줄 수 있다.
  • Occlusion : 중요한 정보가 누락될 수 있다.
  • Deformation: 같은 객체더라도, 여러 모습이 존재한다.
  • Intraclass variation: 같은 클래스 내에도 여러 변산이 존재한다.
  • Context: 맥락이 인식에 영향을 준다.

Approach


Traditional Approach


  • 예전에는 feature들을 hard coding하기도 했다고 한다.
  • ex) Harris Corner Detection 이런 걸 보면 심리학의 “지온” 가설 같은 접근 같기도,,
    • 인접 pixel 간 값 차이가 큰 부분을 detect. → corner ~ boundary

Modern Approach


  • Data-driven (End-to-End Learning) : DL, ML
    • data 자체로 pattern 인식.
    1. Collect a dataset of images and labels ← big cost,,
      1. CIFAR10, COCO,
    2. Use ML algorithms to train a classifier
    3. Evaluate the classifier on unseen data