Introduction
- LLM 에이전트가 복잡한 multi-step 태스크에 투입될 때, 자신이 성공할 수 있는지 사전에 판단할 수 있는가?
- 실패 비용이 큰 시나리오에서 태스크 수행 여부를 스스로 결정할 수 있는지 연구
- 주요 기여: LLM의 self-knowledge와 calibration을 체계적으로 평가하는 프레임워크 제시
Methods
- LLM에게 가상 시나리오를 제시하고 성공 여부를 예측하게 함
- Multi-step agentic task에서 단계별 자기 성공 확률 추정 능력 측정
- In-context failure experience를 통한 학습 가능성 검증
Results
- 모든 테스트된 LLM이 과신(overconfident) — 그러나 대부분 random보다는 나은 판별력(discriminatory power) 보유
- 모델 크기가 크다고 반드시 성능이 좋지는 않음 (Claude 계열만 예외)
- Agentic task에서 단계가 진행될수록 과신이 심화됨
- Reasoning 모델이 non-reasoning 모델보다 오히려 성능 저하
- 일부 LLM은 실패 경험 후 예측을 조정하여 의사결정 개선
Discussion
- “Current LLM agents are hindered by their lack of awareness of their own capabilities”
- AI safety 관점에서 self-knowledge 부재의 위험성 강조
- Calibration 개선이 LLM 에이전트 배포의 핵심 과제