Introduction


  • LLM이 self-execution 능력이 없어 자기 출력의 속성을 예측할 수 없다는 한계
  • 자기 출력의 난이도, 거부 여부, 연상 패턴 등을 예측하는 능력 측정
  • Self-execution의 부재가 자기 행동에 대한 추론의 근본적 한계를 드러냄

Related Papers


  • Situational Awareness Dataset (Laine et al., 2024)
  • LLM self-evaluation 연구
  • Behavioral prediction in LLMs

Methods


  • 모델의 자기 출력 속성 예측 능력을 측정하는 벤치마크 개발
  • 예측 대상: 질문 난이도, 답변 거부 여부, 생성할 연상 유형
  • 다양한 크기/능력의 모델에서 평가
  • Self-execution이 필요한 과제와 불필요한 과제 구분

Results


  • 모델이 자기 출력 속성 예측 과제에서 전반적으로 저조한 성능
  • 더 크거나 능력 있는 모델이 반드시 더 나은 결과를 보이지 않음
  • Self-execution 부재가 자기 행동 표상/추론의 근본적 한계를 드러냄

Discussion


  • Self-execution의 부재가 LLM 자기 인식의 구조적 한계
  • Introspection과 self-execution의 관계에 대한 함의
  • 향후 self-execution 능력 향상 방안 연구 필요