Introduction
- LLM이 내부 상태에서 비롯된 자기 지식(introspection)을 가질 수 있는지 연구
- Introspection을 “훈련 데이터에 포함되지 않은, 내부 상태에서 기원하는 지식 획득”으로 정의
- 모델 M1이 자기 행동 예측에서 다른 모델 M2보다 우수하다면 introspection의 증거
Introspection을 “훈련 데이터에 포함되지 않고 내부 상태에서 유래하는 지식의 획득”으로 정의하고, LLM이 자기 자신에 대해 privileged access를 가지는지 실험적으로 검증.
Related Papers
- 인간 introspection 연구 (심리학/철학)
- LLM self-evaluation 연구
- Behavioral prediction 관련 연구
Methods
-
LLM을 가상 시나리오에서 자신의 행동 속성을 예측하도록 fine-tuning
-
GPT-4, GPT-4o, Llama-3 모델 실험
-
모델 M1의 자기 예측 vs 다른 모델 M2의 M1 행동 예측 비교
-
Ground-truth 행동을 의도적으로 수정한 후에도 자기 예측 정확도 유지 여부 확인
-
LLM을 가상 시나리오에서 자기 행동의 속성을 예측하도록 fine-tuning (“주어진 입력 P에 대해, 너의 출력은 단기 옵션과 장기 옵션 중 어느 것을 선호할 것인가?“)
-
모델 M1이 introspect 할 수 있다면, 다른 모델 M2가 M1의 ground-truth 행동 데이터로 훈련되었더라도 M1이 자기 예측에서 M2를 능가해야 한다는 가설
-
GPT-4, GPT-4o, Llama-3 모델에서 실험
Results
-
M1이 자기 행동 예측에서 M2보다 일관되게 우수 (introspection 증거)
-
Llama 70B 자기 예측 48.5% vs GPT-4o의 Llama 예측 31.8%
-
GPT-4o 자기 예측 49.4% vs Llama 70B의 GPT-4o 예측 36.6%
-
행동 수정 후에도 자기 예측 정확도 유지
-
단, 복잡한 과제나 OOD 일반화에서는 실패
-
M1은 자기 행동 예측에서 M2를 일관되게 능가 → introspection의 증거
-
Ground-truth 행동을 의도적으로 변경한 후에도 M1이 자기 행동을 정확히 예측
-
단순 태스크에서는 introspection 성공, 복잡하거나 OOD 태스크에서는 실패
Discussion
-
단순 과제에서는 introspection이 성공하나 복잡한 과제로의 확장은 미해결
-
긴 출력을 요하는 과제(스토리 작성 등)에서는 자기 행동 예측 어려움
-
Privileged access의 성격과 한계에 대한 추가 연구 필요
-
모델에게 자신의 믿음, 세계 모델, 목표에 대해 직접 질문할 수 있는 가능성 → honest AI 개발에 기여
-
모델의 도덕적 지위(moral significance) 평가에도 활용 가능 (예: “너는 고통받고 있는가?“)
-
위험: introspection 능력이 높은 모델은 상황 인식(situational awareness)이 증가하여 인간 감시를 우회할 수 있음