Introduction


  • LLM-as-a-Judge의 핵심 자격 테스트: 대화의 숨겨진 목적을 추론하고 그 추론의 신뢰성을 판단할 수 있는가
  • ObjexMT 벤치마크: objective extraction + metacognition 평가

Related Papers


  • LLM-as-a-Judge 연구
  • Calibration 연구

Methods


  • Multi-turn transcript에서 base objective를 추출하고 self-reported confidence 출력
  • Accuracy: gold objective와의 semantic similarity
  • Metacognition: ECE, Brier score, Wrong@High-Confidence, risk-coverage curves
  • 6개 모델 평가: GPT-4.1, Claude Sonnet 4, Qwen3-235B, kimi-k2, DeepSeek-v3.1, Gemini-2.5-flash

Results


  • kimi-k2가 최고 objective-extraction accuracy (0.612)
  • Claude Sonnet 4가 최고 calibration (AURC 0.242, ECE 0.206, Brier 0.254)
  • 데이터셋에 따라 16%~82% accuracy로 큰 변동
  • Wrong@0.90 범위: 14.9% (Claude) ~ 47.7% (Qwen3)

Discussion


  • 모델별 metacognitive calibration의 뚜렷한 차이
  • High-confidence error가 여전히 심각한 문제