본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

❯

Self Evaluating LLMs for Multi Step Tasks Stepwise Confidence Estimation for Failure Detection

Self-Evaluating LLMs for Multi-Step Tasks - Stepwise Confidence Estimation for Failure Detection

2026년 2월 11일1분 분량

Introduction

Multi-step reasoning task에서 LLM의 failure detection이 중요
기존 confidence estimation은 single-step output에 초점
Holistic scoring vs step-by-step scoring 비교

Related Papers

LLM confidence calibration
Multi-step reasoning evaluation

Methods

두 가지 직관적 접근: holistic scoring, stepwise scoring
2개 multi-step benchmark dataset에서 평가
Self-evaluating LLM-scorer 시스템

Results

Stepwise evaluation이 holistic scoring 대비 최대 15% AUC-ROC 향상
Self-evaluating LLM이 complex reasoning에서 meaningful confidence estimate 제공

Discussion

Metacognitive monitoring의 granularity가 중요
Step 수준의 self-awareness가 전체 수준보다 유용

공유하기

그래프 뷰

Introduction
Related Papers
Methods
Results
Discussion

Properties

Author: Vaibhav Mavi et al.
Comment: Multi-step reasoning에서 stepwise self-evaluation이 holistic scoring보다 최대 15% AUC-ROC 향상
IsTargetPaper: true
Journal/Conference: arXiv
Published Year: 2025
Reading Status: Not Started
Review Date: 2026-02-01
Topic: LLM self-evaluation, confidence estimation, multi-step reasoning
URL: https://arxiv.org/abs/2511.07364

백링크

Architecture
Fundamentals
LLMs
Memory
self-consciousness
Unlabeled
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog