Trustworthiness and Self-awareness in LLMs - Think-Solve-Verify
8분 분량
Introduction
LLM이 수학적 추론 과제에서 눈부신 발전을 이루었으나, GPT-4조차 MATH 데이터셋에서 약 42% 정확도에 그침
기존 CoT 방법론들(Complex CoT, Tab CoT, Auto CoT, PHP)은 예측 정확도에만 집중하며, **신뢰성(trustworthiness)과 자기인식(self-awareness)**에 대한 탐구가 부족
LLM이 틀린 답을 낸 후에도 자신의 출력이 맞다고 믿는 자기인식 결핍 현상 발견
주요 기여: (1) TSV(Think-Solve-Verify) 프레임워크 제안 — 인간의 사고-풀이-검증 과정을 모방, (2) 모델의 자기인식 능력 정량적 평가를 위한 새로운 메트릭 (Accuracy_v, SAw, SAc) 정의, (3) 모델 간 협업을 통한 성능 향상 탐구
Related Papers
CoT 관련: Complex CoT (Fu et al., 2022), Tab CoT (Ziqi & Lu, 2023), Faithful CoT (Lyu et al., 2023) — 추론 정확도 향상에 집중, 검증 단계 부재
신뢰성 관련: ReAct (Yao et al., 2022)의 피드백 루프 방식, Yin et al. (2023)의 모델 불확실성 인식 연구
일관성 관련: Self-consistency (Wang et al., 2022)의 다수결 투표 방식 — 본 연구에서 이를 개선
기존 한계: 검증(Verification) 단계가 포함된 프레임워크 부재, 모델의 자기인식 정량 평가 부재
SAc (Self Awareness for Correct): 맞는 답을 틀렸다고 오인하는 비율 = TF/(TF+TT)
Enhanced Answer Trustworthiness Calibration: N개 solver 출력 + threshold 기반 투표 알고리즘 — 확신도 낮을 때 LLM Selector로 대체
모델 협업: GPT-4로 Think → GPT-3.5로 Solve — 비용-성능 균형
방법론 다이어그램
graph TD
A[문제 Q + 맥락 C] --> B[Think: 사고 과정 생성]
B --> C[Solve: N개 Solver로 풀이]
C --> D[Verify: 논리/계산 검증]
D --> E{검증 결과}
E -->|통과| F[답변 A 출력]
E -->|실패| G[Rethink: 재사고]
G --> C
C --> H[Self-Consistency 투표]
H --> I{확신도 >= threshold?}
I -->|Yes| F
I -->|No| J[LLM Selector 판단]
J --> F
style A fill:#e1f5fe
style F fill:#e8f5e9
Results
추론 정확도: TSV는 7개 수학 데이터셋 중 평균 83.2% (GPT-3.5 기반) — 기존 CoT(81.0%), PHP(82.5%) 대비 우수
자기인식 결핍: TSV 없이 검증 시, GPT-3.5의 SAw = 0.05 — 틀린 답의 95%를 맞다고 믿음