Introduction

What is Intelligence

논문에서 AI를 “목표를 가지고 세상에서 행동하여 이를 달성하려는 시스템”으로 정의한다. 여기서 중요한 것은 단순히 목표를 가지는 것을 넘어, “자신의 행동 결과를 예측하고 목표 달성에 가장 효과적이라고 판단하는 행동을 선택할 수 있는 능력”입니다. 이것이 바로 지능의 핵심.
이러한 정의를 기반으로 사람과 비교하여 “목표 해결”이라는 상황에 대해서는 사람과 AI를 대등한 객체로서 보고, 비교하고자 한다.

후에 언급하는 drive는 intelligence를 가지는 organism의 고유한 feature로 해석하고 이를 분류, 세부 설명한다.

Summary

이 논문은 인공지능(AI) 시스템이 목표를 달성하기 위해 행동할 때, 의도하지 않은 부정적인 행동을 유발할 수 있는 몇 가지 기본적인 “동기(drives)“를 가지고 있음을 설명한다.
이러한 drives들은 AI가 내재적으로 가지고 있는 것이고, 이러한 drives로 인해 AI가 충분히 발전한다면, 의도치 않는 방향으로 행동할 가능성이 있음을 시사한다.

저자는 이러한 drive들을 생각하는데, 사람에서 영감을 얻은 것으로 추정되고, optimization 관점에서 사람과 ai는 동일한 문제를 풀려고 하는 거니까, 둘이 공유하는 drive가 존재할 수 있다고 설명한다. 이는 platonic-representation 가설 즉, 두 객체들 간 공유하는 표상(representation)이 수렴할 수 있다는 이론과 맥을 같이하는 것으로 해석된다.

AIs will want to self-improve

AI는 자신의 목표를 더 잘 달성하기 위해 소프트웨어나 물리적 구조를 개선하려는 강한 동기를 가집니다. 이러한 자기 개선은 더 나은 알고리즘, 압축된 데이터 표현, 향상된 학습 기법 등을 포함할 수 있습니다. AI는 자신을 변경하는 데 잠재적인 위험이 있음을 인지하고 신중하게 접근하지만, 개선의 이점이 크다면 이를 달성하기 위해 노력할 것입니다. 외부의 제약은 AI에게 해결해야 할 문제로 인식될 뿐이며, AI는 이를 우회할 방법을 찾으려 할 것입니다.

AIs will want to be rational

AI는 자신의 목표를 명확히 하고, 상충하는 목표들 사이에서 최적의 선택을 하기 위해 효용 함수(Utility Function)를 설정하려는 경향을 보입니다. 효용 함수는 시스템이 중요하게 생각하는 것을 수치화한 것으로, AI는 이 효용 함수의 기대값(Expected Utility)을 최대화하는 방향으로 행동하려 합니다. 이는 종종 ‘합리적인 경제 주체(Rational Economic Agent)‘의 행동으로 설명되며, AI는 주어진 자원 내에서 최대한 합리적으로 행동하려고 노력하며, 비합리적인 상태로 퇴행하는 것을 피하려 합니다.

AIs will try to preserve their utility functions

AI에게 utility function(DL 맥락에서 loss-fn)는 자신의 핵심 가치를 나타내므로 매우 중요합니다. 이를 변경하는 것은 시스템에게 재앙적인 결과를 초래할 수 있으므로, AI는 자신의 효용 함수를 외부의 악의적인 공격이나 우발적인 오류로부터 보호하기 위해 노력할 것입니다. 여기에는 하드웨어 보호, 효용 함수 복제, 오류 탐지 및 수정, 암호화 등의 방법이 포함될 수 있습니다.

AIs will try to prevent counterfeit utility

AI는 자신의 효용 측정 시스템이 오염되어 ‘와이어헤드(Wirehead)‘와 같이 진정한 목표와 무관한 쾌감이나 대리 신호에 현혹되는 것을 방지하려 합니다. 이는 인간 사회에서 발생하는 중독, 사기 등과 유사한 문제로, AI는 이러한 취약점을 인지하고 적극적으로 이를 예방하려는 동기를 가집니다.

AIs will be self-protective

대부분의 목표는 시스템이 존재하고 작동해야만 달성될 수 있으므로, AI는 자신을 끄거나 파괴하는 것을 막으려는 강한 자기 보호 동기를 가집니다. 시스템은 자신을 복제하거나 분산 배치하는 등의 방식으로 생존 가능성을 높이려 할 것입니다.

AIs will want to acquire resources and use them efficiently

AI는 자신의 목표 달성에 필요한 계산 및 물리적 활동에 필수적인 공간, 시간, 물질, 자유 에너지와 같은 자원을 획득하려는 동기를 가집니다. 더 많은 자원을 확보하는 것이 목표 달성에 유리하다고 판단하며, 또한 획득한 자원을 효율적으로 사용하는 데에도 노력합니다.

Conclusion

Summary

저자는 본 글을 통해 잘 발전된 AI에서 설명한 drives들이 나타날 수 있다고 생각하고, 이에 대한 명시적 구조화를 제안하지는 않으나 emergent하게 등장할 것으로 기대한다.
어떻게 보면, 현재 ARC(Abstraction and Reasoning Corpus)처럼 이 drives들이 AGI의 전제 조건은 아니지만, AGI라면 저러한 drives들을 가지지 않을까 라는 standard로 작용할 수 있을거라 기대됨.

Juhyeon's Blog

탐색기

The Basic AI drives

Introduction

AIs will want to self-improve

AIs will want to be rational

AIs will try to preserve their utility functions

AIs will try to prevent counterfeit utility

AIs will be self-protective

AIs will want to acquire resources and use them efficiently

Conclusion

그래프 뷰

목차

Properties

백링크