Introduction
- LLM이 self-execution 능력이 없어 자기 출력의 속성을 예측할 수 없다는 한계
- 자기 출력의 난이도, 거부 여부, 연상 패턴 등을 예측하는 능력 측정
- Self-execution의 부재가 자기 행동에 대한 추론의 근본적 한계를 드러냄
- Situational Awareness Dataset (Laine et al., 2024)
- LLM self-evaluation 연구
- Behavioral prediction in LLMs
Methods
- 모델의 자기 출력 속성 예측 능력을 측정하는 벤치마크 개발
- 예측 대상: 질문 난이도, 답변 거부 여부, 생성할 연상 유형
- 다양한 크기/능력의 모델에서 평가
- Self-execution이 필요한 과제와 불필요한 과제 구분
Results
- 모델이 자기 출력 속성 예측 과제에서 전반적으로 저조한 성능
- 더 크거나 능력 있는 모델이 반드시 더 나은 결과를 보이지 않음
- Self-execution 부재가 자기 행동 표상/추론의 근본적 한계를 드러냄
Discussion
- Self-execution의 부재가 LLM 자기 인식의 구조적 한계
- Introspection과 self-execution의 관계에 대한 함의
- 향후 self-execution 능력 향상 방안 연구 필요