테스트 모델: GPT-4, ChatGPT, Claude-v1.3, Claude-v2.1, Llama-2 Chat(13B/70B)
평가 조건: Zero-shot, Chain-of-Thought (CoT), Few-shot
방법론 다이어그램
graph TD
A[CaSiNo 협상 대화 데이터셋] --> B[대화 라운드별 절단]
B --> C[어노테이터 주석 작업<br/>5명 대학원생]
C --> D1[Desire 라벨링<br/>선호도 순위 high/med/low]
C --> D2[Belief 라벨링<br/>상대방 선호도에 대한 믿음]
C --> D3[Intention 라벨링<br/>협상 전략 분류]
D1 --> E[품질 검증<br/>Fleiss κ = 79.03%]
D2 --> E
D3 --> E
E --> F[NegotiationToM 벤치마크<br/>395 대화, 2380 라운드<br/>13,800+ QA 쌍]
F --> G[LLM 평가]
G --> H[Zero-shot / CoT / Few-shot]
H --> I[성능 분석<br/>Exact Match, F1, Consistency]
I --> J[발견: 인간 대비 27-49% 격차]
Results
Desire 추론: GPT-4 CoT 63.29% vs 인간 91.14% (27.85% 격차)
Belief 추론: GPT-4 CoT 58.18% vs 인간 91.14% (32.96% 격차)
Intention 분류: Claude-v2.1 CoT Macro F1 39.93% vs 인간 84.65% (44.72% 격차)
일관성 추적(Consistency): 모든 모델 0점 - 다턴 대화 전반에 걸친 일관된 mental state 이해 실패
Downstream 가치: belief/desire 정보 추가 시 협상 전략 예측 Macro F1 7.44% 향상
실험 결과 상세
Model
Condition
Desire (Acc)
Belief (Acc)
Intention (Macro F1)
vs. Human
Human
-
91.14%
91.14%
84.65%
-
GPT-4
CoT
63.29%
58.18%
-
-27.85%
Claude-v2.1
CoT
-
-
39.93%
-44.72%
ChatGPT
CoT
60.15%
55.82%
-
-30.99%
Llama-2-70B
CoT
52.67%
48.91%
31.72%
-38.47%
Discussion
모든 모델이 일관성 추적(consistency score)에서 0점 - 장기 mental state 업데이트 메커니즘 부재
Few-shot이 오히려 CoT보다 낮은 성능 - 서로 다른 유형의 추론 결합 어려움
CaSiNo 데이터셋의 특정 도메인(캠핑장 자원 협상)에 국한 - 일반화 제한
“passive” 평가 - 모델이 관찰자 역할만 수행, active setting 미평가
Insights
주목할 점: BDI 이론을 LLM 평가에 체계적으로 적용한 최초 사례, 단순 false-belief task를 넘어 실제 협상 맥락에서 다층적 정신 상태 추론 측정
연결 고리: 실제 인간 대화 기반 평가라는 점에서 template 기반 벤치마크의 한계 극복
시사점: LLM이 사회적 추론(social reasoning)에서 근본적 한계 보임 - AGI 경로에서 ToM 능력 향상 필수
질문: 왜 모든 모델이 일관성 추적에서 완전히 실패했는가? 컨텍스트 윈도우 문제인가, 구조적 한계인가?
비판적 코멘트: CaSiNo 도메인 특수성, active negotiation setting 미평가
Discussion Points
논쟁점: LLM의 ToM 능력이 진정한 “이해”인가 패턴 매칭인가? superficial한 추론에 그친다는 증거