본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

❯

Can AI Assistants Know What They Dont Know

Can AI Assistants Know What They Dont Know

2026년 2월 11일1분 분량

Introduction

LLM이 자신이 모르는 것을 자연어로 표현할 수 있는지 탐구
AI assistant의 unknown question 거부가 hallucination 감소의 핵심 방법
Model-specific “I don’t know” (Idk) 데이터셋 구축

Related Papers

Hallucination mitigation
Honesty alignment

Methods

기존 open-domain QA 데이터셋 기반으로 모델별 known/unknown question 분류
Idk 데이터셋으로 alignment 학습
Alignment 후 unknown question 거부 능력 평가

Results

Alignment 후 대부분의 unknown question 거부 가능
답변을 시도하는 질문의 accuracy가 alignment 전보다 유의미하게 향상
Self-knowledge와 honesty의 연결 가능성 제시

Discussion

Model-specific self-knowledge 활용의 실용적 접근법
Known/unknown 경계의 정확한 정의와 측정이 여전히 과제

공유하기

그래프 뷰

Introduction
Related Papers
Methods
Results
Discussion

Properties

Author: Qinyuan Cheng et al.
Comment: Model-specific Idk 데이터셋 구축 후 alignment하여 unknown question 거부 능력 향상
IsTargetPaper: true
Journal/Conference: arXiv
Published Year: 2024
Reading Status: Not Started
Review Date: 2026-02-01
Topic: LLM self-knowledge, hallucination, alignment
URL: https://arxiv.org/abs/2401.13275

백링크

Architecture
Fundamentals
LLMs
Memory
self-consciousness
Unlabeled
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog