Summary

Semantic Segmentation처럼, 이미지의 모든 픽셀에 대해 “이 픽셀이 어떠한 클래스에 속하는가?” 를 예측.
그러나, 같은 클래스더라도, 객체 단위로 구분.

Outputs

각 개체 별 고유한 mask + class label + bounding box

Example

  • 한 장에 사람이 3명 있으면, 사람 별 별도의 mask → 총 3개.

Tip

대표 모델들로는,

  • Mask R-CNN
  • YOLACT