Introduction
- 기존 ToM 벤치마크의 세 가지 괴리: (1) 제한된 정신 상태 범위(믿음만), (2) 포괄적 false belief 탐구 부족, (3) 캐릭터 성격 특성 간과
- 복잡한 사회적 상호작용에서 요구되는 다층적 정신 상태 추론 능력을 제대로 평가 못함
- 핵심 기여: Inner Speech 프롬프팅 + 정보 비대칭을 통해 5가지 정신 상태 카테고리에서 1차/2차 추론 평가
Related Papers
- ToMi, BigToM, FANToM 등 기존 ToM 벤치마크
- False belief task의 한계에 관한 연구
- LLM의 메타인지(metacognition) 및 자기성찰(self-reflection) 연구
- Multi-agent 시스템에서 정보 비대칭과 협력 문제
Methods
- Inner Speech 프롬프팅: 역할극 LLM에게 각 발화 전 생각(thoughts)을 언어화하도록 요구
- 5가지 정신 상태 카테고리: 믿음(Belief), 의도(Intention), 욕구(Desire), 감정(Emotion), 지식(Knowledge)
- 1차 및 2차 정신 상태 포착
- 정보 비대칭(Information Asymmetry): 상대방에게 내적 생각 숨겨 false belief 자연 유도
- 15가지 성격 패턴: 발화와 생각의 다양성 확보
- 데이터셋 구성: 753개 대화, 5,400개 질문
방법론 다이어그램
graph TD A[ToMATO 데이터셋 생성 시작] --> B[2개 LLM 에이전트 초기화] B --> C[각 에이전트에 성격 특성 할당<br/>15가지 패턴 중 선택] C --> D[Inner Speech 프롬프팅 적용] D --> E[에이전트 A: 생각 생성<br/>Belief, Intention, Desire,<br/>Emotion, Knowledge] E --> F[에이전트 A: 발화 생성] F --> G{정보 비대칭 적용} G -->|에이전트 B에게| H[발화만 전달<br/>생각은 숨김] G -->|데이터셋에| I[생각 + 발화 모두 저장] H --> J[에이전트 B: 생각 생성<br/>A의 정신 상태 추론 포함] J --> K[에이전트 B: 응답 발화] K --> L{대화 종료?} L -->|아니오| E L -->|예| M[대화 완료: 753개 중 하나] M --> N[저장된 생각으로부터<br/>QA 쌍 생성] N --> O[1차/2차 정신 상태별<br/>다지선다 질문 생성] O --> P[정답: 언어화된 생각에서 추출] P --> Q[ToMATO 벤치마크<br/>5,400 질문 완성] Q --> R[9개 LLM + 인간으로 평가]
Results
- 9개 LLM 평가: GPT-4o mini조차 인간 성능에 미치지 못함
- 특히 False belief 이해에서 취약
- 성격 특성 변화에 대한 강건성 부족
- 정보 비대칭 접근법이 false belief를 빈번하게 생성하는 데 효과적
- 성격 할당이 발화와 생각의 다양성을 성공적으로 증가
실험 결과 상세
| Model/Method | Overall Accuracy | 1st Order (True) | 1st Order (False) | 2nd Order (True) | 2nd Order (False) |
|---|---|---|---|---|---|
| Human | ~85-90% | High | High | High | High |
| GPT-4o mini | <85% | Medium-High | Low | Medium | Very Low |
| Other LLMs | ~60-80% | Variable | Low | Low | Very Low |
주요 발견:
- False belief 시나리오에서 LLM 정확도 20-30%p 급감
- 성격 특성 변화에 따른 성능 표준편차가 LLM에서 인간보다 2-3배 높음
Discussion
- 데이터셋이 LLM-LLM 대화로 생성되어 인간 대화의 자연스러움과 다를 수 있음
- LLM 생성 편향이 벤치마크 자체에 반영되었을 가능성
- 15개 성격 패턴이 인간 성격의 전체 스펙트럼을 충분히 대표하는지 의문
- Inner Speech가 LLM의 실제 내적 표상을 반영하는지 철학적 질문
Insights
- 주목할 점: 정신 상태를 언어화(verbalization)하는 접근법을 통해 ToM 평가의 ground truth 확보. LLM의 내적 사고 과정을 명시적으로 드러내어 평가 기준으로 삼음
- 연결 고리: “Looking Inward” 같은 introspection 연구와 보완적 관계. Multi-agent 시스템의 정보 비대칭 연구와도 연결
- 시사점: 현재 최고 성능 LLM도 인간 수준의 ToM에 미치지 못함, 특히 false belief와 성격 특성 변화에 취약. 사회적 AI 에이전트 개발의 중요한 한계 시사
- 질문: Inner Speech로 생성된 “생각”이 LLM의 실제 내적 표상을 반영하는가, 단순히 프롬프트 따라 생성된 텍스트인가?
- 비판적 코멘트: LLM이 만든 평가 기준으로 LLM을 평가하는 방법론의 순환논리 가능성
Discussion Points
- 논쟁점: LLM이 생성한 대화와 정신 상태로 LLM의 ToM 능력을 평가하는 것이 순환논리 아닌가?
- 검증 필요 가정: 정보 비대칭이 인간 수준의 false belief를 유도하는지, 단순히 LLM의 컨텍스트 관리 실패를 측정하는 것인지
- 후속 연구: 인간-LLM 대화 데이터로 확장, multimodal ToM 평가, ToM 향상 특화 fine-tuning/prompting 전략 개발