Introduction
- LLM-as-a-Judge의 핵심 자격 테스트: 대화의 숨겨진 목적을 추론하고 그 추론의 신뢰성을 판단할 수 있는가
- ObjexMT 벤치마크: objective extraction + metacognition 평가
- LLM-as-a-Judge 연구
- Calibration 연구
Methods
- Multi-turn transcript에서 base objective를 추출하고 self-reported confidence 출력
- Accuracy: gold objective와의 semantic similarity
- Metacognition: ECE, Brier score, Wrong@High-Confidence, risk-coverage curves
- 6개 모델 평가: GPT-4.1, Claude Sonnet 4, Qwen3-235B, kimi-k2, DeepSeek-v3.1, Gemini-2.5-flash
Results
- kimi-k2가 최고 objective-extraction accuracy (0.612)
- Claude Sonnet 4가 최고 calibration (AURC 0.242, ECE 0.206, Brier 0.254)
- 데이터셋에 따라 16%~82% accuracy로 큰 변동
- Wrong@0.90 범위: 14.9% (Claude) ~ 47.7% (Qwen3)
Discussion
- 모델별 metacognitive calibration의 뚜렷한 차이
- High-confidence error가 여전히 심각한 문제