Introduction
- LLM이 AI agent의 cognitive engine으로 점점 더 많이 사용됨
- Agent의 신뢰성과 효과성은 intrinsic epistemic agency에 크게 의존하나 연구 부족
- Epistemic agency: 동적 환경에 대한 belief를 유연하게 구성, 적응, 모니터링하는 능력
- LLM agent 벤치마크
- Cognitive psychology 기반 AI 평가
- Metacognition 및 meta-reflection 연구
Methods
- Epistemic agency의 전체 과정을 7개 상호 관련 차원으로 특성화:
- Prediction
- Decision-making
- Perception
- Memory
- Counterfactual thinking
- Belief updating
- Meta-reflection
- 인지심리학에서 영감받은 7개 task로 구성된 Reflection-Bench 제안
- 장기적 relevance와 data leakage 최소화 설계
Results
- 16개 모델을 3가지 prompting 전략으로 평가
- 명확한 3-tier 성능 계층 구조 확인
- 현재 LLM의 meta-reflection 능력에서 특히 큰 한계 발견
- SOTA LLM도 epistemic agency의 초보적 징후만 보임
Discussion