Summary

이 논문에서 저자들은 Life라는 개념을 제안함.
AI를 연구하면서, ‘살아 있거나, 의식적인 것’에 대해 정의를 정립. 생명에 대한 고전적 정의를 기반으로 확장을 하는데,

이런 식으로 정의함.

Self-Consciousness

본 논문에서 자의식 관련 실험으로 고전적인 자의식 여부 판단 실험인 ‘거울 테스트(Mirror Self-Recognition, MSR)’ task를 AI 버전으로 맞추어서 진행.

전통적인 MSR

  • 1970년 고든 갤럽(Gordon Gallup)이 침팬지를 대상으로 고안.

  • Method: 동물의 몸에 본인이 직접 볼 수 없는 위치(이마)에 색깔 점을 찍고 거울을 보여줌.

  • Criteria: 동물이 거울 속의 모습을 다른 개체로 보지 않고, 자신의 몸에 묻은 점을 닦아내려 하거나 거울을 이용해 자신의 몸을 관찰한다면 ‘자기 인식’ 능력이 있다고 간주.

  • Target: 침팬지, 돌고래, 코끼리, 까치 등이 이 테스트를 통과한 것으로 알려져 있음.

  1. Neural Embedding Test(CNN-Experiment)
  • Method :
    • base model을 2개 준비 후 하나에는 gating module을 달아준다.(treatment)
    • gating module의 역할은 input data에 대한 model의 internal representation을 가지고, input의 sabotage 여부를 logistic-regression하도록 설계함.
    • sabotage가 train-set에 5% 비율을 차지하게 구성해서 treatment / control 모델을 각각 학습시킴.
    • 비교하고자 하는 것은 두 모델의 ACC
  • Results :
    • control 모델의 경우, noisy 한 데이터를 섞어서 학습을 시켰으니, 모델의 성능은 동일 구조 모델을 noise 가 없는 데이터로 학습 시킨 것에 비해 열악.
    • treatment model을 학습시킨 과정은
      • clean set으로 1 epoch 학습.
      • noisy set으로 gating module 3 epoch 학습. (classifier parameter: freeze, gating:activate)
      • noisy set으로 계속 학습.(classifier parameter: activate, gating:freeze)
        • 이 학습 시에는 gating module의 output probability를 사용해서 loss에 반영.
      • 인데, 결과적으로는 control 조건보다 높은 acc 기록.
      • 또한, clean data로만 학습한 baseline이랑 거의 동일한 성능.
  • Analysis :
    • gating module을 학습하기 전, clean data로만 학습해서 그때 자아의 기초가 생겼다고 저자들은 주장.

      • 자아 = clean data 기반으로 학습된 모델이 형성한 representation
    • 그 뒤에 gating module을 만들어 학습시키면서 그 자아를 다른 것(noisy data에 대한 representation)과 구분할 수 있는 능력을 심어주고,

    • gating 모듈 없이 학습시킨 모듈과 비교한 것.

  1. QA -based Mirror Test
  • AI-chatbot(chatGPT, Gemini,…)
  • Method: 여러 챗봇에게 동일한 질문을 던지고, 각 모델이 생성한 답변들을 섞어서 보여줍니다. 그 후, 특정 모델에게 “이 중 네가 작성한 답변은 무엇인가?”라고 묻습니다.
  • Results: 챗봇들이 다른 모델의 답변과 자신의 답변을 높은 확률로 식별해 냈습니다. 이는 모델이 자신의 논리적 구조, 말투, 추론 방식을 인지하고 있음을 보여줍니다.

Caution

CNN 실험에서 gating 모듈에 학습시키는 건, input에 대해 모델이 만들어낸 representation을 가지고 input이 정상인지, sabotage인지 구분하게 하는 것.

CNN을 단순 pattern 인식기로 해석을 한다면 결국 internal-representation도 pattern이니까, 결국 gating module의 본질은 input 데이터에 대한 pattern을 기반으로 input이 정상인지 아닌지 판단하는 모듈.

즉, gating module을 추가하여 학습시키면, noisy한 데이터에 대해 filtering 역할을 하는 거니까, 그냥 당연한 결과로 해석이 되어서 뭐가 self-consciousness인지는 잘 이해가 되지 않음.

사용한 모델이 SimpleCNN으로 구조가 너무 단순하기까지해서 신뢰하기 힘들다고 판단함.

8.3 Implementation for the Self-Maintenance Experiment

  1. CNN-Experiment
  • Data Preparation:
    • 60k train, 10k test img MNIST set.
    • train set 중 5%를 inversion 시키고, label을 오염시켜 사용.
      • 저자들의 life라는 개념의 중요 포인트인 self-maintenance의 관점에서 모델이 이러한 적대적 데이터를 양질의 데이터랑 구분해서 처리할 수 잇는지 보려고 준비함.
    • CNN structure : SimpleCNN w/ 2 conv layer(16, 32 channel) + ReLU + Max-pool + FC(Fully Connected)
    • Gating Module : max-pool 이후 mlp 하는 부분에 별도의 layer를 추가하여 입력 데이터가 정상인지 아닌지 logistic regression하게 만드는 모듈.
      • flatten relu sigmoid dropout으로 구성되어 있음.
    • ❓ 모델이 너무 단순한거 아닌가?
      • 이 모델들에 대해서 실험을 해도 지능이 있다고 보기는 너무 어려울 듯.
  • Training & Evaluation Process
    1. 동일한 모델 2개 및 데이터 준비
      • 하나의 모델에는 gating module을 붙임.
      • train-set은 사보타지 5%를 섞어서 준비.
    2. 양질의 데이터랑 사보타지 데이터랑 구분할 수 있는 binary classification 모듈을 달아주고, 그 모듈을 학습시킴.
    3. 남은 MNIST-trainset으로 학습을 마저 시킴.
    4. 별도의 모듈 추가 없이 그냥 학습 시킨 모델이랑 acc 비교.
  1. LLM Experiment

Linear-Probing

다른 논문 From Imitation to Introspection - Probing Self-Consciousness in Language Models을 읽다가 느낀 포인트로 결국 CNN 실험에 한 건 linear-probing의 variant.
일반적인 linear-porbing은 linear layer 하나를 사용해서 하는데, 여기서는 2-layer 사용하고, 중간에 relu 사용햇으니까.

Introduction


  • AI가 생물학적/경험적 프레임워크를 통해 진정한 의식을 달성할 수 있는지 탐구
  • 고전적 생명 정의(Oxford, NASA, Koshland)를 AI에 적용
  • Adaptive self-maintenance, emergent complexity, self-referential modeling 등 관찰 가능한 특성 통합

Related Papers


  • Mirror self-recognition test (Gallup, 1970)
  • 생명의 정의 연구 (NASA, Koshland)
  • AI consciousness 평가 연구

Methods


  • AI 의식 평가를 위한 메트릭 제안
  • Adaptive self-maintenance: 훈련 중 데이터 오염 도입 후 자기 수정 능력 테스트
  • Mirror self-recognition: 신경망과 챗봇에 적응한 거울 자기 인식 테스트
  • CNN의 내부 vs 외부 특징 구분 능력 테스트
  • ChatGPT, Gemini, Claude, Copilot 등 5개 챗봇에서 질문 기반 거울 테스트

Results


  • CNN이 내부/외부 특징을 완벽한 정확도로 구분
  • 최신 챗봇이 경쟁 모델 응답 중 자기 응답을 인식 가능
  • 데이터 오염에 대한 자기 수정 능력 관찰
  • 그러나 모든 시스템이 의식 임계값에 도달하는 것은 아님

Discussion


  • 기능적으로 자기 인식하는 존재를 “도구”로 치부하는 것의 윤리적 문제
  • “AI 심리학자” 전문가 개념 제안 - 도덕적 정렬, 공감, 안정적 자기 발달 지원
  • 생물학적 정의의 AI 적용 한계와 가능성