Quote

“내가 아는 진실을 남이 모를 수 있다는 것을 이해할 수 있는 능력. ”

Example

Summary

**“타인의 마음(신념, 의도, 욕구 등)을 추론하고 이해할 수 있는 능력”**을 의미. 단순히 공감하는 수준을 넘어, 타인이 나와는 다른 정보나 관점을 가질 수 있다는 사실을 인지하는 고차원적 인지 기능으로 통용됨.

대표적으로 Sally Anne Test 실험이 있으며, 어린 아이의 발달 연구에서 사용되기도 한다.
대략 4~5세에 발달하며, 자폐 스펙트럼 장애 등에서 결핍이 관찰됨.

Consciousness(Self) in the perspective of ToM

마음 이론 자체가 의식(consciousness)을 직접 정의하지 않음.
다만, 타인의 마음에 대한 이해를 하려면 먼저 자신이 독립적인 정신 상태를 가진 존재라는 자각이 필요함.

  • 자신의 마음을 인식할 수 있어야 타인의 마음도 별개로 존재한다고 이해할 수 있으니

따라서 ToM을 확인해볼 수 있는 task self-consciousness 편린을 볼 수 있는 task. 라는 추론은 어느정도 타당하다고 생각됨.

ToM은 자의식과 또 다른 밀접성을 가지는데, 자의식은 **‘나를 관찰의 대상으로 삼는 능력’**이고, 이는 타인의 마음을 읽는 메커니즘과 동일한 경로를 공유하기 때문.

  • 경로 공유에 대한 신경과학적 증거로,
    1. ToM 훈련을 통해 metacognition 능력이 향상되었다는 보고가 존재.
    2. ToM, 자의식 관련 실험에 활성화되는 뇌 영역이 상당 수 겹침.  
      • prefrontal cortex(dmPFC, TPJ)와 default mode network(DMN)
      • https://pmc.ncbi.nlm.nih.gov/articles/PMC5629813/
      • 구분 기제 (rTPJ / rSMG): 우측 측두두정접합부(rTPJ)나 우측 상변연회(rSMG) 같은 부위가 **“이것은 내 생각이 아니라 남의 생각이야”**라고 꼬리표를 달아주는 역할을 하여 차이를 만든다고 하고, 저 부위를 control하여 실제 자신/타인 감정 구별을 어렵게 해본 실험도 있다고 보고됨.
  • perplexity로 관련 연구들 찾아보니까, 지지하는 연구들이 좀 있는 것으로 보임.

Question

그러면 해볼 법한건, ToM task를 LLM에 했을 때, ToM 능력과 metacognition 내지는 self-consiousness에 관련된 task 수행도 증가가 같이 이루어지는지 보면 재미있지 않을까?

idda

RQ

“LLM이 자의식을 가지고 있다는 현상을 보이고 있지만, 과연 그 기저 메커니즘도 인간과 유사한가?
ToM과 자의식의 **구조적 연결성(Structural Coupling)**을 측정하여 이를 검증해보자.”

framing이 존재여부보다는 사람과 비슷한가에 초점.

Key-Idea: 신경과학에서 ToM랑 연관 있는 영역이랑 자의식이랑 연관있는 영역이랑 꽤 많은 공유를 하고 있다는 보고.

Q. 그러면 basemodel에 ToM task랑, metacognition task에 맞게 FT를 했을 때, 많이 변하는 parameter들이 겹칠까?

Step 1: 델타 파라미터 추출 ()

베이스 모델()에서 각각의 태스크로 튜닝된 두 모델을 만듭니다.

  • Model A (): ToM 데이터로 튜닝
  • Model B (): 메타인지 데이터로 튜닝

그 후, 베이스 모델 대비 변화된 가중치 벡터를 추출합니다.

Step 2: 중첩도(Overlap) 측정 지표

이 두 벡터(, )가 얼마나 유사한지 수치화합니다.

1) 코사인 유사도 (Cosine Similarity)
두 변화의 방향성이 같은지 봅니다.

  • 이 값이 1에 가까울수록: 두 태스크를 배울 때 모델은 동일한 방향으로 뇌를 업데이트했습니다. (즉, 같은 원리라고 인식함)
  • 0에 가깝거나 음수: 서로 전혀 다른 기능이거나, 상충되는 기능입니다.

만약 LoRA를 써서 SFT를 한다면, LoRA matrix 각 레이어 당 2개 정해진 걸 곱한 matrix를 기준으로 유사도(cosine, Jaccard-index) 같은 걸 보면 좋겠지.(Layer-wise하게)