Multi-ToM: Evaluating Multilingual Theory of Mind Capabilities in Large Language Models

Digest (CISELQ)

  • Context (C): Theory of Mind(ToM)은 타인의 신념·의도·지식 등 정신 상태를 추론·귀속하는 인지 능력으로, LLM의 사회적 추론 역량을 측정하는 핵심 축으로 부상했다. 그러나 기존 ToM 벤치마크는 대부분 영어·서구 문화 맥락에 한정되어 LLM의 실제 범언어적 사회 인지 능력을 평가하지 못한다.
  • Issue (I): 영어 중심 ToM 평가는 LLM이 다국어·다문화 맥락에서도 견고한 정신 상태 추론을 수행하는지, 또는 학습 분포에 의존한 얕은 패턴 매칭인지를 구분할 수 없다. 문화적 관습·사회적 대본이 달라질 때 모델이 얼마나 일반화되는가는 열린 질문이다.
  • Solution (S): 저자들은 기존 ToM 데이터셋을 다수 언어로 번역하고, 각 언어권의 사회·문화적 요소(관습, 이름, 상황 맥락 등)를 반영한 “culturally-adapted” 변형을 추가 구성한 Multi-ToM 벤치마크를 제안한다. 8개 언어 패밀리에 걸쳐 6개의 최신 LLM을 (i) 순수 번역본과 (ii) 문화 적응본에서 동일한 ToM 과제로 평가하여, 언어·문화 요소가 각각 미치는 영향을 분리 분석한다.
  • Evaluation (E): 6개 SOTA LLM을 대상으로 다국어 ToM 정확도, 언어 간 격차, 문화 적응 전후 성능 변화를 비교한다. 영어 기준선 대비 저자원 언어에서의 drop과, 문화 적응이 성능에 미치는 양/음의 효과를 측정한다.
  • Limitation (L): 번역·문화 적응 품질은 일부 인간 검수에 의존하며 완벽한 문화적 타당성을 보장하지 않는다. 커버하는 문화권·과제 유형이 제한적이며, ToM의 모든 하위 차원(2차 신념, 거짓 신념, 아이러니 등)을 균일하게 다루지는 않는다.
  • Question (Q): LLM의 “ToM”은 언어·문화 불변의 일반 능력인가, 아니면 영어-서구 분포에 과적합된 표피적 스킬인가? 문화 적응은 왜 일부 언어에선 성능을 향상시키고 다른 언어에선 떨어뜨리는가?

섹션별 요약

Introduction

ToM은 인간 사회 인지의 핵심이며, 최근 LLM이 false-belief·second-order belief 과제에서 일정 수준을 보이면서 “인공 ToM” 논쟁이 커졌다. 그러나 평가의 대부분은 영어로 이루어져, 모델이 단순히 영어 코퍼스의 내러티브 규칙을 암기한 것일 가능성을 배제하지 못한다. 저자들은 이 간극을 메우기 위해 다국어·문화 적응 ToM 평가를 제안한다.

Methods

(1) 기존 ToM 데이터셋을 다수 언어로 번역하여 “translation-only” 세트를 구성하고, (2) 각 언어권의 이름·관습·사회적 대본을 반영하여 이야기의 표면을 교체한 “culturally-adapted” 세트를 별도 구성한다. 6개의 LLM에 동일 프롬프트 프로토콜로 두 세트를 투입하여 ToM 질문(신념·의도·지식 귀속)에 대한 정확도를 측정한다.

Results

저자들이 제공한 비교 표(Model-Comparison-for-ToM-Across-Languages, with-/without-culture 두 버전)에 따르면 모델 성능은 언어별·문화 적응 여부별로 유의미하게 갈린다. 영어에서 가장 높은 정확도를 보이며, 저자원 언어에서는 drop이 관찰된다. 문화 적응은 일부 언어에서 성능을 끌어올리는 반면 다른 언어에선 오히려 혼란을 유발한다.

Discussion

결과는 현행 LLM의 ToM이 언어·문화 불변의 능력이라기보다 학습 분포에 의존한 스킬임을 시사한다. 문화 적응 시 나타나는 혼재된 효과는 모델이 표면적 단서(이름·배경)에 예민하게 반응한다는 증거로 해석된다.

Insights

  • 영어 ToM 벤치마크만으론 모델의 사회 인지를 과대평가할 수 있다.
  • 번역 품질과 문화적 타당성은 평가 타당도의 전제이며, 벤치마크 설계 자체가 연구 기여다.
  • 문화 적응의 양면 효과는 LLM의 사회적 추론이 표층적 서사 단서에 상당 부분 의존함을 시사한다.

Discussion Points

  • 문화 적응이 성능을 떨어뜨리는 언어권은 어떤 공통점을 가지는가?
  • 다국어 파인튜닝 또는 RAG 기반 문화 지식 주입이 격차를 줄일 수 있는가?
  • 2차 ToM·아이러니·기만 등 고차원 ToM 과제에서 격차가 더 벌어지는가?

메타데이터

항목
제목Multi-ToM: Evaluating Multilingual Theory of Mind Capabilities in Large Language Models
저자Jayanta Sadhu, Ayan Antik Khan, Noshin Nawal, Sanju Basak, Abhik Bhattacharjee, Rifat Shahriyar
발표arXiv preprint, 2024.11
카테고리Benchmark/Evaluation
과제Multilingual Theory of Mind
언어 커버리지8개 언어 패밀리
모델 수6개 SOTA LLM
공개데이터·코드 공개

왜 이 연구를 하는가?

LLM의 ToM 논쟁은 지금까지 영어에 국한된 평가에 기반해왔다. 만약 LLM이 진짜로 정신 상태 추론 능력을 갖추었다면, 언어·문화가 바뀌어도 성능이 유지되어야 한다. 반대로 언어·문화 변화에 민감하다면, 이는 ToM이 아닌 영어-서구 서사 패턴 암기에 가깝다는 증거가 된다. Multi-ToM은 이 가설을 정면으로 검증하는 벤치마크이며, 문화적으로 책임 있는 AI(culturally-aware AI) 연구의 실증적 토대를 제공한다.

방법 (Method)

flowchart TD
    A[영어 ToM 데이터셋] --> B[다국어 번역]
    B --> C[Translation-only 세트]
    B --> D[문화 적응<br/>이름·관습·사회 대본 치환]
    D --> E[Culturally-adapted 세트]
    C --> F[6개 LLM 평가]
    E --> F
    F --> G[언어별 정확도 비교]
    F --> H[문화 적응 전/후 격차 분석]
    G --> I[ToM 일반화 검증]
    H --> I
  1. 기존 영어 ToM 과제(신념 귀속·의도 추론 등)를 소스로 선택.
  2. 번역 단계: 8개 언어 패밀리에 걸친 대상 언어로 번역.
  3. 문화 적응 단계: 각 언어권 특유의 이름, 장소, 관습, 사회적 스크립트로 표면 재작성.
  4. 평가: 6개 LLM에 동일 프롬프트, 동일 질문 유형 적용, 정확도 측정.
  5. 분석: 언어별·세트별 성능 분해로 “번역만 했을 때 drop”과 “문화 적응 시 변화”를 분리.

발견

관찰
언어 격차영어 기준선이 가장 높고, 저자원 언어에서 눈에 띄는 성능 저하
문화 적응 효과일부 언어에선 향상, 다른 언어에선 저하 — 일관되지 않음
모델 간 편차최신 SOTA LLM 사이에도 다국어 ToM 격차가 존재
공통 교훈영어 평가만으로는 ToM 일반화 능력을 결론 내릴 수 없음

이론적 의의

  • 인공 ToM 논쟁 재조정: ToM 역량 주장은 언어·문화 불변성 검증 없이는 지지하기 어렵다.
  • 평가 과학: 번역과 문화 적응을 분리한 2단 평가 설계는 다른 사회 인지 과제(공감·도덕 판단)로도 확장 가능한 방법론.
  • 정렬·안전: 다문화 배포 환경에서 LLM의 사회적 추론 신뢰도를 평가할 실증 기반을 제공.

재현성 및 신뢰도 평가

기준등급근거
Evidence QualityB6개 SOTA LLM에 대한 체계적 비교, 두 세트(번역/문화 적응) 설계는 견고하나 샘플 크기·인간 검수 세부가 제한적
ReproducibilityB데이터·코드 공개 명시, 단 번역·문화 적응의 주관성으로 엄밀 재현은 부분적
제한문화권 커버리지·ToM 하위 차원 균형·번역 품질의 정량 지표 부재

관련 연구

  • ToMi / BigToM / SocialIQA 등 영어 ToM 벤치마크
  • 다국어 LLM 평가(MEGA, XTREME 계열)
  • 문화적 정렬·지역화 LLM 연구(CultureBank, BLEnD 등)
  • False-belief·second-order ToM의 언어학적 분석

원자적 인사이트

  1. “영어 ToM ≠ 일반 ToM”: 같은 과제라도 언어가 바뀌면 LLM 성능이 체계적으로 떨어진다. 이는 ToM을 주장하려면 최소 다언어 검증이 필수임을 시사한다.
  2. 문화 적응의 양면성: 문화적 표층(이름·관습) 교체가 모델을 돕기도 하고 혼란시키기도 한다. 즉, LLM의 사회 추론은 서사 표층에 민감하며 “심층 정신 상태 모델”에서 나온 것이 아닐 가능성이 높다.
  3. 벤치마크 설계가 곧 기여: 번역-only vs 문화 적응을 분리한 2축 설계는 “언어 효과”와 “문화 효과”를 디커플링하는 평가 도구로서 재사용 가치가 크다.

핵심 용어 정리

  • Theory of Mind (ToM): 타인·자신의 신념·의도·지식 등 정신 상태를 추론하고 귀속하는 인지 능력.
  • False-belief task: 타인이 실제와 다른 신념을 가질 수 있음을 이해하는지 측정하는 고전 ToM 과제.
  • Cultural adaptation: 번역을 넘어 대상 문화권의 이름·관습·사회적 스크립트로 이야기의 표면을 재구성하는 과정.
  • Translation-only: 원문을 언어만 바꾼 베이스라인; 문화 적응과 대비해 “언어 효과”를 격리한다.
  • Social reasoning: 신념·욕구·감정 같은 사회적 변수에 대한 추론 능력, ToM의 상위 범주.

태그

Paper ToM Multilingual Benchmark LLM-Evaluation Cross-Cultural Social-Reasoning