Introduction

LLM이 수학적 추론 과제에서 눈부신 발전을 이루었으나, GPT-4조차 MATH 데이터셋에서 약 42% 정확도에 그침
기존 CoT 방법론들(Complex CoT, Tab CoT, Auto CoT, PHP)은 예측 정확도에만 집중하며, **신뢰성(trustworthiness)과 자기인식(self-awareness)**에 대한 탐구가 부족
LLM이 틀린 답을 낸 후에도 자신의 출력이 맞다고 믿는 자기인식 결핍 현상 발견
주요 기여: (1) TSV(Think-Solve-Verify) 프레임워크 제안 — 인간의 사고-풀이-검증 과정을 모방, (2) 모델의 자기인식 능력 정량적 평가를 위한 새로운 메트릭 (Accuracy_v, SAw, SAc) 정의, (3) 모델 간 협업을 통한 성능 향상 탐구

CoT 관련: Complex CoT (Fu et al., 2022), Tab CoT (Ziqi & Lu, 2023), Faithful CoT (Lyu et al., 2023) — 추론 정확도 향상에 집중, 검증 단계 부재
신뢰성 관련: ReAct (Yao et al., 2022)의 피드백 루프 방식, Yin et al. (2023)의 모델 불확실성 인식 연구
일관성 관련: Self-consistency (Wang et al., 2022)의 다수결 투표 방식 — 본 연구에서 이를 개선
기존 한계: 검증(Verification) 단계가 포함된 프레임워크 부재, 모델의 자기인식 정량 평가 부재

Methods

TSV 프레임워크: 추론 과제를 (Q, C, T, S, V, A) 튜플로 형식화
- Think: 문제에 대한 초기 사고 과정 생성 (답을 풀지 않고 사고 아이디어만)
- Solve: 사고 과정을 바탕으로 실제 문제 풀이 (다수의 solver 사용 가능)
- Verify: 논리적/계산적 오류 검증 — 직접 검증 및 단계별 검증
자기인식 메트릭: Confusion Matrix 기반
- Accuracy: 표준 정확도 (TT+TF)/(전체)
- Accuracy_v: 검증 출력(Vo)과 실제 정답(Ao) 일치율 — 자기인식 성능
- SAw (Self Awareness for Wrong): 틀린 답을 틀렸다고 인식하는 비율 = FF/(FT+FF)
- SAc (Self Awareness for Correct): 맞는 답을 틀렸다고 오인하는 비율 = TF/(TF+TT)
Enhanced Answer Trustworthiness Calibration: N개 solver 출력 + threshold 기반 투표 알고리즘 — 확신도 낮을 때 LLM Selector로 대체
모델 협업: GPT-4로 Think → GPT-3.5로 Solve — 비용-성능 균형

방법론 다이어그램

graph TD
    A[문제 Q + 맥락 C] --> B[Think: 사고 과정 생성]
    B --> C[Solve: N개 Solver로 풀이]
    C --> D[Verify: 논리/계산 검증]
    D --> E{검증 결과}
    E -->|통과| F[답변 A 출력]
    E -->|실패| G[Rethink: 재사고]
    G --> C
    C --> H[Self-Consistency 투표]
    H --> I{확신도 >= threshold?}
    I -->|Yes| F
    I -->|No| J[LLM Selector 판단]
    J --> F

    style A fill:#e1f5fe
    style F fill:#e8f5e9

Results

추론 정확도: TSV는 7개 수학 데이터셋 중 평균 83.2% (GPT-3.5 기반) — 기존 CoT(81.0%), PHP(82.5%) 대비 우수
자기인식 결핍: TSV 없이 검증 시, GPT-3.5의 SAw = 0.05 — 틀린 답의 95%를 맞다고 믿음
모델 협업 효과: GPT-4(Think) + GPT-3.5(Solve/Check)로 SAw = 0.74까지 향상, 정확도 62% → 72%
Enhanced Calibration: AQuA에서 10개 solver 사용 시 67.3% → 72.8% 달성
MATH 데이터셋: TSV가 평균 37.8% — PHP(33.7%) 대비 +4.1% 향상

실험 결과 상세

수학 추론 데이터셋 정확도 비교 (GPT-3.5, Acc↑)

Method	AddSub	MultiArith	ASDiv	SVAMP	GSM8K	AQuA	Avg
Standard	84.2	90.1	78.2	79.2	32.7	31.9	66.0
CoT	89.1	98.3	81.2	82.2	75.2	59.8	81.0
Complex CoT	85.5	97.5	81.2	81.0	82.8	57.4	80.9
PHP	85.3	98.0	82.6	83.1	85.1	60.6	82.5
TSV (Ours)	92.0	97.0	83.2	84.0	79.2	63.8	83.2

모델 협업 및 자기인식 (AQuA 데이터셋)

Break	Think	Check	Acc	Acc_v	SAw	SAc
Yes	v3.5	v3.5	0.62	0.56	0.05	0.13
Yes	v4	v3.5	0.72	0.62	0.00	0.14
Yes	v3.5	v4	0.62	0.74	0.74	0.26
No	v3.5	v3.5	0.62	0.68	0.21	0.03
No	v3.5	v4	0.62	0.90	0.95	0.13

Enhanced Calibration (AQuA, N=solver 수)

N	ACC	ACC_S	ACC_R	Acc_v	SAw	SAc
1	63.8	63.8	63.8	59.4	22.3	19.4
5	66.1	67.3	72.0	61.0	15.2	4.6
10	67.3	72.8	79.1	57.7	14.1	4.1
20	67.3	71.3	79.9	55.3	12.5	4.3

Discussion

한계 1: 수학적 추론 과제에 특화 — 일반적 자기인식 평가에의 확장성 미검증
한계 2: OpenAI API 비용 제약으로 대규모 데이터셋(GSM8K, MATH)은 100개 샘플만 테스트
한계 3: 독자적 벤치마크 데이터셋을 제공하지 않음 — 기존 수학 데이터셋 활용
향후 방향: 다양한 도메인으로의 TSV 확장, 모델 자기인식 향상을 위한 훈련 방법론 개발

Insights

주목할 점: GPT-3.5가 혼자 검증할 때 SAw=0.05 (틀린 답의 5%만 인식) → GPT-4가 검증하면 SAw=0.95 — 자기 평가와 타자 평가의 극단적 차이
연결 고리: SelfAware (Yin et al., 2023)의 “모르는 것을 아는 능력”과 직결. TSV는 이를 수학적 추론 맥락에서 검증 단계로 구현
시사점: 단순히 답을 맞히는 것보다, 틀렸을 때 이를 인식하는 능력(SAw)이 실용적 신뢰성의 핵심
질문: SAw가 solver 수 증가 시 오히려 감소(22.3% → 12.5%)하는 현상 — 앙상블이 자기인식을 약화시키는가?
비판적 코멘트: (1) 전용 self-awareness 벤치마크/데이터셋을 제공하지 않아 후속 연구에서의 재현이 제한적. (2) 자기인식 평가가 수학 문제의 맞/틀림에만 의존하여, 보다 넓은 의미의 자기인식(지식 한계 인식, 불확실성 표현)을 다루지 못함

Discussion Points

논쟁점: “자기인식”을 검증 정확도로 정의하는 것이 적절한가? 검증 능력과 진정한 자기인식은 다를 수 있음 — 단순히 더 강한 모델이 약한 모델의 오류를 발견하는 것은 ‘타자 인식’에 가까움
검증 필요 가정: “맞는 답이면 풀이 과정도 맞다”는 가정 — 우연히 맞출 수 있어 SAc 메트릭에 편향 유발
후속 연구: (1) TSV 프레임워크를 지식 한계 인식, 불확실성 표현 등 broader self-awareness 과제로 확장, (2) 자기 검증이 아닌 자기 보고(self-report) 기반 자기인식 평가와의 비교
벤치마크 적합성 참고: 본 논문은 프레임워크/방법론 논문으로, 전용 train/eval split 벤치마크를 제공하지 않음. 기존 수학 데이터셋(AQuA 등)을 활용하며, AQuA는 multiple-choice 형식

Juhyeon's Blog

탐색기

Trustworthiness and Self-awareness in LLMs - Think-Solve-Verify

Introduction

Methods

방법론 다이어그램

Results

실험 결과 상세

수학 추론 데이터셋 정확도 비교 (GPT-3.5, Acc↑)

모델 협업 및 자기인식 (AQuA 데이터셋)

Enhanced Calibration (AQuA, N=solver 수)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

Trustworthiness and Self-awareness in LLMs - Think-Solve-Verify

Introduction

Related Papers

Methods

방법론 다이어그램

Results

실험 결과 상세

수학 추론 데이터셋 정확도 비교 (GPT-3.5, Acc↑)

모델 협업 및 자기인식 (AQuA 데이터셋)

Enhanced Calibration (AQuA, N=solver 수)

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크