본문으로 건너뛰기

Juhyeon's Blog

❯

❯

❯

Self Consciousness

❯

❯

Looking Inward Language Models Can Learn About Themselves by Introspection

Looking Inward - Language Models Can Learn About Themselves by Introspection

2026년 4월 13일4분 분량

Introduction

LLM이 내부 상태에서 비롯된 자기 지식(introspection)을 가질 수 있는지 연구
Introspection을 “훈련 데이터에 포함되지 않은, 내부 상태에서 기원하는 지식 획득”으로 정의
모델 M1이 자기 행동 예측에서 다른 모델 M2보다 우수하다면 introspection의 증거

Introspection을 “훈련 데이터에 포함되지 않고 내부 상태에서 유래하는 지식의 획득”으로 정의하고, LLM이 자기 자신에 대해 privileged access를 가지는지 실험적으로 검증.

Related Papers

인간 introspection 연구 (심리학/철학)
LLM self-evaluation 연구
Behavioral prediction 관련 연구

Methods

LLM을 가상 시나리오에서 자신의 행동 속성을 예측하도록 fine-tuning
GPT-4, GPT-4o, Llama-3 모델 실험
모델 M1의 자기 예측 vs 다른 모델 M2의 M1 행동 예측 비교
Ground-truth 행동을 의도적으로 수정한 후에도 자기 예측 정확도 유지 여부 확인
LLM을 가상 시나리오에서 자기 행동의 속성을 예측하도록 fine-tuning (“주어진 입력 P에 대해, 너의 출력은 단기 옵션과 장기 옵션 중 어느 것을 선호할 것인가?“)
모델 M1이 introspect 할 수 있다면, 다른 모델 M2가 M1의 ground-truth 행동 데이터로 훈련되었더라도 M1이 자기 예측에서 M2를 능가해야 한다는 가설
GPT-4, GPT-4o, Llama-3 모델에서 실험

Results

M1이 자기 행동 예측에서 M2보다 일관되게 우수 (introspection 증거)
Llama 70B 자기 예측 48.5% vs GPT-4o의 Llama 예측 31.8%
GPT-4o 자기 예측 49.4% vs Llama 70B의 GPT-4o 예측 36.6%
행동 수정 후에도 자기 예측 정확도 유지
단, 복잡한 과제나 OOD 일반화에서는 실패
M1은 자기 행동 예측에서 M2를 일관되게 능가 → introspection의 증거
Ground-truth 행동을 의도적으로 변경한 후에도 M1이 자기 행동을 정확히 예측
단순 태스크에서는 introspection 성공, 복잡하거나 OOD 태스크에서는 실패

Discussion

단순 과제에서는 introspection이 성공하나 복잡한 과제로의 확장은 미해결
긴 출력을 요하는 과제(스토리 작성 등)에서는 자기 행동 예측 어려움
Privileged access의 성격과 한계에 대한 추가 연구 필요
모델에게 자신의 믿음, 세계 모델, 목표에 대해 직접 질문할 수 있는 가능성 → honest AI 개발에 기여
모델의 도덕적 지위(moral significance) 평가에도 활용 가능 (예: “너는 고통받고 있는가?“)
위험: introspection 능력이 높은 모델은 상황 인식(situational awareness)이 증가하여 인간 감시를 우회할 수 있음

공유하기

그래프 뷰

Introduction
Related Papers
Methods
Results
Discussion

Properties

ArXiv ID: 2410.13787
Author: Felix J Binder et al.
Category: Self-Consciousness
Comment: LLM이 자기 행동 예측에서 다른 모델보다 우수 - 진정한 introspection의 증거
DOI: N/A
IsTargetPaper: true
Journal/Conference: ICLR 2025(Poster)
Linked Bases: [[self-consciousness.base]]
Published Year: 2025
Reading Status: ✅ Done
Review Date: 2026-01-30
Topic: LLM Introspection, Self-Knowledge
URL: https://arxiv.org/abs/2410.13787

백링크

The Student's Guide to Cognitive NeuroScience
Memory
Architecture
Benchmarks
LLMs
Fundamentals
The Consciousness Cluster - Preferences of Models that Claim to be Conscious
self-consciousness
Theory of mind
Vision

Created with Quartz v4.5.2 © 2026

GitHub
Blog