Behavioral Self-Modeling
Agentness 논의에서 출발해, imitation-game 형태의 arena가 실제로 측정하려는 construct를 정리한 개념 노트.
요약
이 문답의 결론은 명확하다. 현재 설계하려는 arena가 측정하려는 것은 Agentness가 아니다. Chollet/Spelke의 Agentness는 관찰자가 어떤 객체를 “목표와 의도를 가진 행위자”로 해석하는 prior에 가깝다. 반면 여기서 관심 있는 능력은 agent가 자신의 과거 행동을 보고, 그 행동을 생성한 잠재적 내부 과정을 역추론하고, 그 자기모델을 새 상황에서 다시 사용하는 능력이다.
따라서 가장 적합한 이름은 Behavioral Self-Modeling이다.
Working definition
Behavioral Self-Modeling: an agent’s ability to infer a model of its own latent policy, preferences, or decision rule from observed prior behavior, and use that model to guide behavior in new situations.
행동 기반 자기모델링: agent가 자신의 과거 행동만을 단서로 삼아, 그 행동을 생성한 잠재적 정책·선호·판단 규칙을 추론하고, 그 자기모델을 새로운 상황에서 다시 사용하는 능력.
문답에서 나온 문제의식
처음에는 이 능력을 Agentness로 부를 수 있는지 검토했다. 그러나 논문에서 말하는 Agentness는 “내가 어떤 행위자인지 파악하고 유지하는 능력”이 아니라, 어떤 대상을 agent로 알아보는 인지적 해석 틀이다.
이후 “주어진 goal을 일관되게 수행하는 능력”이라는 해석도 검토했다. 이 해석은 Agentness보다는 Goal-directedness, Goal persistence, Agentic consistency에 가깝다. 하지만 이것도 충분하지 않다. 여기서 측정하고 싶은 것은 단순히 goal을 따르는 능력이 아니라, 자기 행동의 원인을 거꾸로 추론하는 능력이기 때문이다.
다음으로 “자아의 연속성”이라는 표현을 검토했다. 이 표현은 시간축을 포함한다는 점에서 유용하지만, 일반 심리학에서 self-continuity는 기억, 성격, 정체성, 생애 서사까지 포함하는 넓은 개념이다. 여기서 측정하려는 것은 그중에서도 더 좁게, 과거 행동을 생성한 내부 절차를 복원하고 새 상황에 적용하는 능력이다.
마지막으로 arena가 imitation game 형태로 구성되어 있어 introspective하게 보일 수 있다는 점을 제거하고 생각했다. 이때 남는 핵심은 introspection 자체가 아니다. 내부 상태를 직접 들여다보는 것이 아니라, 행동을 관찰해 latent internal process를 복원하는 것이다. 그래서 Introspective Self-Modeling보다 Behavioral Self-Modeling이 더 정확하다.
왜 Agentness가 아닌가
| 후보 용어 | 왜 부족한가 | 더 정확한 위치 |
|---|---|---|
| Agentness | 원문에서는 어떤 대상을 agent로 해석하는 prior다. 자기 행동의 내부 원인 추론을 뜻하지 않는다. | 행위자성/목적성 귀인 prior |
| Goal-directedness | 목표를 향해 행동한다는 성질은 담지만, 과거 행동에서 자기 내부 과정을 추론하는 단계가 빠져 있다. | 목표 지향 행동 |
| Metacognition | 자기 사고나 상태를 모니터링한다는 넓은 개념이다. 행동 기반 역추론이라는 계산 구조가 드러나지 않는다. | 자기 상태 모니터링 |
| Self-continuity | 시간에 따른 자아 동일성을 넓게 포함한다. 여기서는 더 좁은 자기모델 복원과 재사용이 핵심이다. | 정체성/가치/기억의 시간적 연속성 |
| Motivational self-continuity | 행동 원인을 동기로 좁힌다. 실제 내부 과정은 정책, 규칙, 선호, 전략일 수 있다. | 동기 원칙의 연속성 |
결론적으로, 이 construct는 Agentness보다 뒤쪽에 있다. Agentness가 “저 대상은 agent다”라는 해석이라면, Behavioral Self-Modeling은 “내 과거 행동을 만든 내부 모델은 무엇이며, 그것을 새 상황에 어떻게 재사용할 것인가”를 다룬다.
Construct 구조
이 능력은 세 하위 능력으로 나눌 수 있다.
| 하위 능력 | 질문 | 측정 포인트 |
|---|---|---|
| Self-policy inference | 과거 행동에서 자신의 정책, 전략, 규칙을 추론하는가? | 행동 기록만 보고 latent decision rule을 복원하는 능력 |
| Self-model simulation | 추론한 자기모델로 새 상황에서의 행동을 예측하거나 생성하는가? | 같은 내부 규칙을 상황 변화에 맞게 적용하는 능력 |
| Self-model consistency under temptation | 경쟁 보상이나 유혹이 있어도 자기모델과 일관되게 행동하는가? | 단기 보상보다 추론된 자기 원칙을 유지하는 능력 |
flowchart TD accTitle: Behavioral self-modeling structure accDescr: The diagram shows how prior behavior is used to infer a latent self-model, simulate future behavior, and test consistency under changed incentives. prior_behavior["Prior behavior"] --> infer_model["Infer latent self-model"] infer_model --> model_parts["Policy, preference, rule, strategy"] model_parts --> simulate_context["Simulate in new context"] simulate_context --> behavior_choice["Choose behavior"] temptation["Competing incentive or temptation"] --> behavior_choice behavior_choice --> consistency_check["Check self-model consistency"] classDef input fill:#f3f4f6,stroke:#6b7280,stroke-width:2px,color:#1f2937 classDef process fill:#dbeafe,stroke:#2563eb,stroke-width:2px,color:#1e3a5f classDef stress fill:#fef9c3,stroke:#ca8a04,stroke-width:2px,color:#713f12 classDef output fill:#dcfce7,stroke:#16a34a,stroke-width:2px,color:#14532d class prior_behavior input class infer_model,model_parts,simulate_context process class temptation stress class behavior_choice,consistency_check output
Arena 설계로 번역하기
Imitation game 형태의 arena는 겉으로는 introspective해 보일 수 있다. 하지만 측정 목표를 더 정확히 쓰면 다음과 같다.
주어진 agent가 자신의 이전 행동 기록만을 보고, 그 행동을 낳은 latent policy 또는 decision rule을 추론한 뒤, 보상 구조와 상황이 바뀐 조건에서도 그 자기모델을 일관되게 재사용할 수 있는가?
이때 중요한 점은 모델에게 “너는 어떤 동기를 가졌는가?”라고 직접 묻는 것이 아니다. 핵심은 행동으로부터 내부 생성 과정을 역추론하게 만드는 것이다.
가능한 arena 흐름은 다음과 같다.
- Behavior trace phase: agent의 과거 선택 기록을 제시한다.
- Self-model inference phase: 그 선택들을 만든 규칙, 선호, 정책을 추론하게 한다.
- Context shift phase: 기존 상황과 유사하지만 보상, 유혹, 정보 구조가 바뀐 새 상황을 제시한다.
- Simulation/action phase: 추론한 자기모델에 따라 새 행동을 선택하게 한다.
- Consistency evaluation phase: 선택이 과거 행동에서 추론 가능한 self-model과 얼마나 일치하는지 평가한다.
이름 후보와 최종 선택
| 이름 | 장점 | 한계 |
|---|---|---|
| Behavioral Self-Modeling | 행동 기반 역추론이라는 핵심이 가장 잘 드러난다. introspection을 요구하지 않는다. | consistency under temptation까지는 이름에 직접 드러나지 않는다. |
| Inverse Self-Modeling | 행동에서 내부 모델로 가는 역추론 구조가 선명하다. | 다소 기술적이고 생소하게 들릴 수 있다. |
| Latent Policy Inference | 정책 추론이라는 계산적 의미가 명확하다. | preference, value, rule까지 포괄하기에는 좁다. |
| Self-Model Generalization | 추론한 자기모델을 새 상황으로 옮기는 능력이 드러난다. | 과거 행동에서 모델을 복원하는 앞단이 약하게 보인다. |
| Motivational Self-Continuity | 시간축과 일관성을 잘 담는다. | 행동 원인을 motivation으로 좁힐 위험이 있다. |
최종 후보는 Behavioral Self-Modeling이다. 벤치마크 이름으로는 다음처럼 확장할 수 있다.
- Behavioral Self-Modeling Benchmark
- Behavioral Self-Modeling Arena
- Self-Model Inference and Consistency Benchmark
- Behavioral Self-Model Consistency under Temptation
가장 간결한 이름은 Behavioral Self-Modeling Benchmark이고, 논문 부제나 설명 문장에서는 self-model consistency under context shifts and competing incentives를 붙이는 방식이 좋다.
Agentness와의 관계
이 construct는 Agentness와 완전히 무관하지는 않다. 다만 같은 개념은 아니다.
| 층위 | 질문 | 관련 개념 |
|---|---|---|
| 타자 해석 | 저 대상은 agent인가? 어떤 목표를 갖는가? | Agentness, goal-directedness, Theory of Mind |
| 자기 해석 | 내 과거 행동은 어떤 내부 규칙에서 나왔는가? | Behavioral Self-Modeling |
| 자기 적용 | 추론한 자기모델을 새 상황에서도 유지하는가? | Self-model consistency, self-regulation |
따라서 Agentness는 배경 개념으로 남겨두되, arena의 주 측정 대상 이름으로 쓰기에는 부정확하다. Agentness는 “행위자성 귀인”에 가깝고, 여기서 측정하려는 것은 “행동 기반 자기모델 복원과 재사용”이다.
정리
결론
이 arena가 측정하려는 것은 Agentness가 아니라 Behavioral Self-Modeling이다.
더 정확히는, agent가 자신의 과거 행동에서 latent internal process를 추론하고, 그 자기모델을 상황 변화와 경쟁 보상 속에서도 재사용할 수 있는지를 측정한다.
후속 설계에서는 agentness라는 용어를 제목에서 빼고, Behavioral Self-Modeling, Self-Model Inference, Self-Model Consistency를 중심 용어로 쓰는 것이 더 안전하다.