LinearProbing

Summary

(모델의 activation, 별도로 rater의 평정 label)을 train set으로 해서 classifier를 학습시켜, activation을 해석할 수 있는 클래스 분류 문제로 환원해보자는 발상.

Tip

이 당시에는 inception-V3나 resnet-50을 대상으로 했는데, 최근 LLM 해석 방법으로 사용되는 듯.
LLM이나 다른 모델을 대상으로 사용할 때, 원본 모델을 freeze하고 별도의 classifier를 달아 학습시켜 사용.