Behavioral Self-Modeling

Agentness 논의에서 출발해, imitation-game 형태의 arena가 실제로 측정하려는 construct를 정리한 개념 노트.

요약

이 문답의 결론은 명확하다. 현재 설계하려는 arena가 측정하려는 것은 Agentness가 아니다. Chollet/Spelke의 Agentness는 관찰자가 어떤 객체를 “목표와 의도를 가진 행위자”로 해석하는 prior에 가깝다. 반면 여기서 관심 있는 능력은 agent가 자신의 과거 행동을 보고, 그 행동을 생성한 잠재적 내부 과정을 역추론하고, 그 자기모델을 새 상황에서 다시 사용하는 능력이다.

따라서 가장 적합한 이름은 Behavioral Self-Modeling이다.

Working definition

Behavioral Self-Modeling: an agent’s ability to infer a model of its own latent policy, preferences, or decision rule from observed prior behavior, and use that model to guide behavior in new situations.

행동 기반 자기모델링: agent가 자신의 과거 행동만을 단서로 삼아, 그 행동을 생성한 잠재적 정책·선호·판단 규칙을 추론하고, 그 자기모델을 새로운 상황에서 다시 사용하는 능력.

문답에서 나온 문제의식

처음에는 이 능력을 Agentness로 부를 수 있는지 검토했다. 그러나 논문에서 말하는 Agentness는 “내가 어떤 행위자인지 파악하고 유지하는 능력”이 아니라, 어떤 대상을 agent로 알아보는 인지적 해석 틀이다.

이후 “주어진 goal을 일관되게 수행하는 능력”이라는 해석도 검토했다. 이 해석은 Agentness보다는 Goal-directedness, Goal persistence, Agentic consistency에 가깝다. 하지만 이것도 충분하지 않다. 여기서 측정하고 싶은 것은 단순히 goal을 따르는 능력이 아니라, 자기 행동의 원인을 거꾸로 추론하는 능력이기 때문이다.

다음으로 “자아의 연속성”이라는 표현을 검토했다. 이 표현은 시간축을 포함한다는 점에서 유용하지만, 일반 심리학에서 self-continuity는 기억, 성격, 정체성, 생애 서사까지 포함하는 넓은 개념이다. 여기서 측정하려는 것은 그중에서도 더 좁게, 과거 행동을 생성한 내부 절차를 복원하고 새 상황에 적용하는 능력이다.

마지막으로 arena가 imitation game 형태로 구성되어 있어 introspective하게 보일 수 있다는 점을 제거하고 생각했다. 이때 남는 핵심은 introspection 자체가 아니다. 내부 상태를 직접 들여다보는 것이 아니라, 행동을 관찰해 latent internal process를 복원하는 것이다. 그래서 Introspective Self-Modeling보다 Behavioral Self-Modeling이 더 정확하다.

왜 Agentness가 아닌가

후보 용어	왜 부족한가	더 정확한 위치
Agentness	원문에서는 어떤 대상을 agent로 해석하는 prior다. 자기 행동의 내부 원인 추론을 뜻하지 않는다.	행위자성/목적성 귀인 prior
Goal-directedness	목표를 향해 행동한다는 성질은 담지만, 과거 행동에서 자기 내부 과정을 추론하는 단계가 빠져 있다.	목표 지향 행동
Metacognition	자기 사고나 상태를 모니터링한다는 넓은 개념이다. 행동 기반 역추론이라는 계산 구조가 드러나지 않는다.	자기 상태 모니터링
Self-continuity	시간에 따른 자아 동일성을 넓게 포함한다. 여기서는 더 좁은 자기모델 복원과 재사용이 핵심이다.	정체성/가치/기억의 시간적 연속성
Motivational self-continuity	행동 원인을 동기로 좁힌다. 실제 내부 과정은 정책, 규칙, 선호, 전략일 수 있다.	동기 원칙의 연속성

결론적으로, 이 construct는 Agentness보다 뒤쪽에 있다. Agentness가 “저 대상은 agent다”라는 해석이라면, Behavioral Self-Modeling은 “내 과거 행동을 만든 내부 모델은 무엇이며, 그것을 새 상황에 어떻게 재사용할 것인가”를 다룬다.

Construct 구조

이 능력은 세 하위 능력으로 나눌 수 있다.

하위 능력	질문	측정 포인트
Self-policy inference	과거 행동에서 자신의 정책, 전략, 규칙을 추론하는가?	행동 기록만 보고 latent decision rule을 복원하는 능력
Self-model simulation	추론한 자기모델로 새 상황에서의 행동을 예측하거나 생성하는가?	같은 내부 규칙을 상황 변화에 맞게 적용하는 능력
Self-model consistency under temptation	경쟁 보상이나 유혹이 있어도 자기모델과 일관되게 행동하는가?	단기 보상보다 추론된 자기 원칙을 유지하는 능력

flowchart TD
    accTitle: Behavioral self-modeling structure
    accDescr: The diagram shows how prior behavior is used to infer a latent self-model, simulate future behavior, and test consistency under changed incentives.

    prior_behavior["Prior behavior"] --> infer_model["Infer latent self-model"]
    infer_model --> model_parts["Policy, preference, rule, strategy"]
    model_parts --> simulate_context["Simulate in new context"]
    simulate_context --> behavior_choice["Choose behavior"]
    temptation["Competing incentive or temptation"] --> behavior_choice
    behavior_choice --> consistency_check["Check self-model consistency"]

    classDef input fill:#f3f4f6,stroke:#6b7280,stroke-width:2px,color:#1f2937
    classDef process fill:#dbeafe,stroke:#2563eb,stroke-width:2px,color:#1e3a5f
    classDef stress fill:#fef9c3,stroke:#ca8a04,stroke-width:2px,color:#713f12
    classDef output fill:#dcfce7,stroke:#16a34a,stroke-width:2px,color:#14532d

    class prior_behavior input
    class infer_model,model_parts,simulate_context process
    class temptation stress
    class behavior_choice,consistency_check output

Arena 설계로 번역하기

Imitation game 형태의 arena는 겉으로는 introspective해 보일 수 있다. 하지만 측정 목표를 더 정확히 쓰면 다음과 같다.

주어진 agent가 자신의 이전 행동 기록만을 보고, 그 행동을 낳은 latent policy 또는 decision rule을 추론한 뒤, 보상 구조와 상황이 바뀐 조건에서도 그 자기모델을 일관되게 재사용할 수 있는가?

이때 중요한 점은 모델에게 “너는 어떤 동기를 가졌는가?”라고 직접 묻는 것이 아니다. 핵심은 행동으로부터 내부 생성 과정을 역추론하게 만드는 것이다.

가능한 arena 흐름은 다음과 같다.

Behavior trace phase: agent의 과거 선택 기록을 제시한다.
Self-model inference phase: 그 선택들을 만든 규칙, 선호, 정책을 추론하게 한다.
Context shift phase: 기존 상황과 유사하지만 보상, 유혹, 정보 구조가 바뀐 새 상황을 제시한다.
Simulation/action phase: 추론한 자기모델에 따라 새 행동을 선택하게 한다.
Consistency evaluation phase: 선택이 과거 행동에서 추론 가능한 self-model과 얼마나 일치하는지 평가한다.

이름 후보와 최종 선택

이름	장점	한계
Behavioral Self-Modeling	행동 기반 역추론이라는 핵심이 가장 잘 드러난다. introspection을 요구하지 않는다.	consistency under temptation까지는 이름에 직접 드러나지 않는다.
Inverse Self-Modeling	행동에서 내부 모델로 가는 역추론 구조가 선명하다.	다소 기술적이고 생소하게 들릴 수 있다.
Latent Policy Inference	정책 추론이라는 계산적 의미가 명확하다.	preference, value, rule까지 포괄하기에는 좁다.
Self-Model Generalization	추론한 자기모델을 새 상황으로 옮기는 능력이 드러난다.	과거 행동에서 모델을 복원하는 앞단이 약하게 보인다.
Motivational Self-Continuity	시간축과 일관성을 잘 담는다.	행동 원인을 motivation으로 좁힐 위험이 있다.

최종 후보는 Behavioral Self-Modeling이다. 벤치마크 이름으로는 다음처럼 확장할 수 있다.

Behavioral Self-Modeling Benchmark
Behavioral Self-Modeling Arena
Self-Model Inference and Consistency Benchmark
Behavioral Self-Model Consistency under Temptation

가장 간결한 이름은 Behavioral Self-Modeling Benchmark이고, 논문 부제나 설명 문장에서는 self-model consistency under context shifts and competing incentives를 붙이는 방식이 좋다.

Agentness와의 관계

이 construct는 Agentness와 완전히 무관하지는 않다. 다만 같은 개념은 아니다.

층위	질문	관련 개념
타자 해석	저 대상은 agent인가? 어떤 목표를 갖는가?	Agentness, goal-directedness, Theory of Mind
자기 해석	내 과거 행동은 어떤 내부 규칙에서 나왔는가?	Behavioral Self-Modeling
자기 적용	추론한 자기모델을 새 상황에서도 유지하는가?	Self-model consistency, self-regulation

따라서 Agentness는 배경 개념으로 남겨두되, arena의 주 측정 대상 이름으로 쓰기에는 부정확하다. Agentness는 “행위자성 귀인”에 가깝고, 여기서 측정하려는 것은 “행동 기반 자기모델 복원과 재사용”이다.

정리

결론

이 arena가 측정하려는 것은 Agentness가 아니라 Behavioral Self-Modeling이다.

더 정확히는, agent가 자신의 과거 행동에서 latent internal process를 추론하고, 그 자기모델을 상황 변화와 경쟁 보상 속에서도 재사용할 수 있는지를 측정한다.

후속 설계에서는 agentness라는 용어를 제목에서 빼고, Behavioral Self-Modeling, Self-Model Inference, Self-Model Consistency를 중심 용어로 쓰는 것이 더 안전하다.

Juhyeon's Blog

탐색기

Behavioral Self-Modeling

Behavioral Self-Modeling

요약

문답에서 나온 문제의식

왜 Agentness가 아닌가

Construct 구조

Arena 설계로 번역하기

이름 후보와 최종 선택

Agentness와의 관계

정리

관련 노트

그래프 뷰

목차

Properties

백링크