Introduction
- LLM 에이전트가 복잡한 멀티테이블 데이터에서 추론할 때 과신(overconfident) 출력 생성 문제
- 쿼리 조건부 멀티테이블 요약을 위한 불확실성 인식 에이전트 제안
- 두 가지 보완적 불확실성 신호 활용: 검색 불확실성, 요약 불확실성
- 불확실성을 제어 신호로 활용하여 신뢰성 향상
- LLM 불확실성 정량화 연구
- Self-consistency 및 calibration 연구
- 강화학습 기반 LLM 최적화 연구
Methods
- Retrieval Uncertainty: 다중 테이블 선택 롤아웃에 대한 엔트로피
- Summary Uncertainty: self-consistency와 perplexity 결합
- Group Relative Policy Optimization (GRPO)에 요약 불확실성 통합
- 추론 시간 필터링 및 고품질 합성 데이터셋 구축에 두 불확실성 활용
Results
- Multi-omics 벤치마크에서 사실성(factuality)과 calibration 향상
- 요약당 정확하고 유용한 주장 거의 3배 증가 (3.0→8.4 내부; 3.6→9.9 암 multi-omics)
- 생존 예측 C-index 크게 향상 (0.32→0.63)
Discussion
- 불확실성이 제어 신호로 작용할 수 있음 입증
- 에이전트가 abstain, 신뢰도 전달, 신뢰성 향상 가능
- 복잡한 구조화 데이터 환경에서 더 신뢰할 수 있는 도구로 활용
- 향후 연구: 다른 도메인으로 확장