본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

❯

Re evaluating Theory of Mind evaluation in large language models

Re-evaluating Theory of Mind evaluation in large language models

2026년 2월 11일2분 분량

Introduction

LLM이 Theory of Mind(ToM)을 가지는지에 대한 과학적/대중적 관심이 증가하나, 증거가 혼재
평가 방법이 늘어나고 있음에도 수렴(convergence)이 이루어지지 않음
인지과학에서 영감을 받아, LLM의 ToM 평가 현황을 근본적으로 재검토

Related Papers

LLM ToM 평가 연구들의 결과가 일관되지 않는 현상
인지과학에서의 ToM 평가 방법론과의 비교

Methods

LLM이 인간의 행동(behaviour)과 일치해야 하는지, 아니면 그 행동의 기저 연산(computation)과 일치해야 하는지에 대한 명확한 구분 제시
현재 평가들이 ‘순수한(pure)’ ToM 능력 측정에서 벗어나는 방식들을 분석
행동적 매칭 vs. 연산적 매칭의 구분이 혼란의 주요 원인임을 주장

Results

LLM이 ToM을 가지는지에 대한 불일치의 주요 원인: 행동 매칭과 연산 매칭 간의 불명확한 구분
현재 평가들이 ToM 외의 다른 능력도 측정하고 있어 결과를 오염시킴

Discussion

ToM과 pragmatic communication의 관계를 포함한 향후 연구 방향 제시
인공 시스템뿐 아니라 인간 인지에 대한 이해도 발전시킬 수 있는 연구 방향
LLM ToM 평가에서 ‘무엇을 측정하는가’를 명확히 해야 한다는 메타-방법론적 기여

공유하기

그래프 뷰

Introduction
Related Papers
Methods
Results
Discussion

Properties

Author: Hu et al.
Comment: 인지과학 관점에서 LLM ToM 평가 방법론의 근본적 문제점을 재검토 (Ullman 공저)
IsTargetPaper: true
Journal: Philosophical Transactions of the Royal Society B
Linked Bases: [[templates.base]]
Published Year: 2025
Reading Status: Not Started
Review Date: 2026-02-04
Topic: Theory of Mind, LLM Evaluation Methodology, Cognitive Science
URL: https://www.semanticscholar.org/paper/0bfcdbdfd063797dc02d994c431e952d4045a093

백링크

Architecture
Fundamentals
LLMs
Memory
self-consciousness
Unlabeled
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog