If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs

Digest (CISELQ)

Context: LLM은 superposition property로 인해 본질적으로 stateless이지만, 다중 턴·다중 에이전트 상호작용에서 마치 캐릭터처럼 일관된 행동을 보이며 emergent lifelong learning의 단서를 드러낸다. 기존 벤치마크는 정적(static)·open-ended 평가에 치우쳐 이러한 동적 학습을 포착하지 못한다.
Issue: LLM이 긴 상호작용 속에서 자신에 대한 사실, 에피소드적 기억, 관계 변화를 일관되게 유지할 수 있는지 평가할 표준화된 프레임워크가 부재하다.
Solution: LIFESTATE-BENCH 제안. 서사 구조가 풍부한 두 개의 에피소드적 데이터셋(Hamlet + synthetic script collection)을 기반으로, self-awareness / episodic memory retrieval / relationship tracking 세 축을 fact-checking 형태로 검증한다. Parametric(fine-tune / in-weight) vs Non-parametric(RAG / external memory) 접근을 모두 비교한다.
Evidence: Llama3.1-8B, GPT-4-turbo, DeepSeek R1 등 다양한 규모·계열 모델에 대해 인터랙션 길이에 따른 사실 정확도 변화를 측정.
Limitations: 데이터셋이 문학적 서사에 의존해 일반 도메인으로의 전이가 제한적이며, 사실 검증 기반 평가라 개방형 생성 품질은 포착하기 어렵다.
Questions: 비파라메트릭 메모리의 retrieval noise를 어떻게 통제할 것인가? 캐릭터 일관성과 사실 정확성이 상충할 때 어떤 축을 우선해야 하는가?

섹션별 요약

Introduction

LLM의 “상태 없음(statelessness)“이라는 근본적 속성과, 그럼에도 불구하고 대화 중 관찰되는 캐릭터 일관성 사이의 간극을 문제로 제기한다. 저자들은 이 현상을 emergent lifelong learning으로 규정하고, 문학 서사가 이를 평가할 최적의 테스트베드라고 주장한다. Hamlet은 잘 정의된 캐릭터 관계망과 반전 서사를 제공하고, 합성 스크립트는 제어된 시나리오 다양성을 보장한다.

Methods

LIFESTATE-BENCH 구성: Hamlet(고전 서사)과 합성 script collection 두 종류의 에피소드적 데이터셋.
평가 축 3개: ① Self-awareness(자신의 역할·속성 인지) ② Episodic memory retrieval(이전 에피소드의 사실 회상) ③ Relationship tracking(캐릭터 간 관계 상태 변화).
접근법 비교: Parametric(모델 파라미터 업데이트 기반 학습)과 Non-parametric(외부 메모리·RAG 기반).
측정 방식: fact-checking 질의를 통한 정확도 평가로 생성 품질이 아닌 사실 일관성을 정량화.

Results

비교 축	Parametric	Non-parametric	경향
Self-awareness	저조	유의미 우위	외부 메모리가 정체성 유지에 효과적
Episodic recall	상호작용 길이 증가 시 급격히 하락	상대적으로 완만한 하락	장기 기억은 retrieval에 의존
Relationship tracking	혼동 빈발	부분적 보완	관계 상태 갱신이 가장 어려운 과제
Catastrophic forgetting	전면적 발생	완화되지만 여전히 존재	모든 모델 공통

Llama3.1-8B, GPT-4-turbo, DeepSeek R1 모두 인터랙션이 길어질수록 catastrophic forgetting을 보였다.

Discussion

비파라메트릭 접근이 우월하지만 본질적 해결책은 아니며, retrieval 실패·컨텍스트 오염 시 누적 오류가 발생한다. 본 연구는 LLM의 “기억”이 구조적(stateful) 속성이 아니라 외부 시스템과의 결합을 통해 emergent하게 생성된다는 점을 실증적으로 보여준다.

Insights

Stateless 아키텍처 위에서의 lifelong learning은 메모리 시스템 설계 문제로 환원된다.
캐릭터 일관성은 단순 prompt persona가 아닌 누적적 fact consistency로 측정되어야 한다.

Discussion Points

합성 스크립트와 실제 대화 서비스 간 도메인 격차
Hamlet처럼 이미 pretraining corpus에 포함되었을 가능성이 있는 텍스트의 평가 타당성
self-awareness를 ToM·메타인지와 어떻게 분리 측정할 것인가

메타데이터

항목	내용
논문	If an LLM Were a Character, Would It Know Its Own Story?
저자	Siqi Fan, Xiusheng Huang, Yiqun Yao, Xuezhi Fang, Kang Liu, Peng Han, Shuo Shang, Aixin Sun, Yequan Wang
발표	arXiv:2503.23514, 2025-03-30
분야	cs.CL, cs.AI
벤치마크	LIFESTATE-BENCH
대상 모델	Llama3.1-8B / GPT-4-turbo / DeepSeek R1

왜 이 연구를 하는가?

LLM을 장기 반려 에이전트, 게임 NPC, 롤플레이 파트너로 배치하려는 수요가 급증하고 있으나, 기존의 정적 QA 벤치마크는 “대화가 수백 턴 이어진 뒤에도 캐릭터가 자기 자신을 기억하는가”라는 질문에 답할 수 없다. 저자들은 문학 서사가 풍부한 캐릭터 상태 변화·관계 전개·자기 참조를 포함한다는 점에서 lifelong learning 평가에 이상적이라고 보았고, 이에 Hamlet을 정본 케이스로, 합성 스크립트를 확장 케이스로 삼아 재현 가능한 벤치마크를 구축했다.

방법 (Method)

flowchart TD
    A[Episodic Dataset] --> B[Hamlet 5-act structure]
    A --> C[Synthetic Script Collection]
    B --> D[Multi-turn Multi-agent Rollout]
    C --> D
    D --> E1[Parametric Update: SFT / continual FT]
    D --> E2[Non-parametric: external memory + RAG]
    E1 --> F[Fact-Checking Probes]
    E2 --> F
    F --> G1[Self-awareness]
    F --> G2[Episodic Memory Retrieval]
    F --> G3[Relationship Tracking]
    G1 --> H[Accuracy vs Interaction Length]
    G2 --> H
    G3 --> H
    H --> I[Catastrophic Forgetting Analysis]

핵심 설계 원칙은 ① episodic 구조 보존(턴 단위가 아닌 장면 단위 평가) ② 사실 기반 검증(생성의 유창성이 아닌 일관성) ③ 대조 구조(parametric vs non-parametric).

발견 (Findings)

#	발견	함의
F1	Non-parametric > Parametric (전 축 공통)	stateful 학습에는 외부 메모리가 더 효과적
F2	모든 모델에서 catastrophic forgetting	규모·계열에 무관한 구조적 한계
F3	Relationship tracking이 가장 어려움	상태 갱신·지움 메커니즘의 부재
F4	Self-awareness도 길이가 길어지면 붕괴	persona prompt만으로는 불충분
F5	Hamlet과 synthetic 결과 경향 일치	벤치마크 일반성 시사

이론적 의의

Stateless 전제의 재검토: 인터랙션이 만들어내는 emergent state를 “lifelong learning”이라는 용어로 포착한 점이 개념적 기여.
메모리 시스템 중심주의: 모델 파라미터가 아니라 외부 저장·검색 구조가 LLM의 “자아”를 구성한다는 관점을 실증적으로 지지.
서사 기반 평가의 정당화: 문학 텍스트가 AI 평가의 noise가 아니라 오히려 구조화된 테스트베드라는 점을 보였다.

재현성 및 신뢰도 평가

기준	평가	근거
데이터 공개	B	Hamlet은 공개 텍스트, 합성 스크립트 공개 여부는 저장소 확인 필요
모델 접근성	B	Llama3.1-8B는 공개, GPT-4-turbo·DeepSeek R1은 API 의존
평가 지표 명확성	B	fact-checking 정확도 기반으로 해석 용이
통계적 엄밀성	C	다중 시드·유의성 검정 보고 여부 불명
일반화 가능성	C	문학 서사 편향, pretraining leakage 가능성
종합	B	개념·설계 명확, 통계·데이터 누설 통제는 추가 확인 필요

원자적 인사이트

“캐릭터가 된다”는 것은 파라미터가 아니라 retrieval pipeline의 성능에 가깝다 — 비파라메트릭 우위는 정체성이 저장소·질의 구조에 위치함을 시사한다.
Catastrophic forgetting은 스케일로 해결되지 않는다 — GPT-4-turbo 같은 강력한 모델에서도 동일한 실패 패턴이 관찰되므로, 이는 아키텍처적 문제다.
Relationship tracking은 lifelong learning의 리트머스 시험 — 단일 엔티티 회상보다 관계 상태 갱신이 훨씬 취약하다는 점은 향후 메모리 구조가 그래프적·관계적이어야 함을 암시.
서사 구조는 평가의 잡음이 아닌 신호 — 5막 구조 같은 문학적 스캐폴딩이 오히려 평가를 구조화한다.

핵심 용어 정리

Superposition property: LLM이 입력에 따라 매번 새로운 상태를 생성하며 지속 상태를 유지하지 않는 속성.
Lifelong learning (LLM 맥락): 반복적 상호작용을 통해 일관된 지식·정체성·관계 상태를 축적·유지하는 능력.
LIFESTATE-BENCH: 본 논문에서 제안한, 서사적 에피소드 기반 lifelong learning 평가 벤치마크.
Parametric approach: 모델 가중치를 직접 업데이트하여 새로운 정보를 학습시키는 방식.
Non-parametric approach: 외부 메모리·검색을 사용해 모델 가중치를 변경하지 않고 정보를 유지하는 방식.
Catastrophic forgetting: 새 정보를 학습하거나 긴 맥락을 처리할 때 이전 정보를 급격히 잃는 현상.
Episodic memory retrieval: 특정 시점·사건에 관한 기억을 맥락 단위로 회상하는 능력.

Juhyeon's Blog

탐색기

If an LLM Were a Character Would It Know Its Own Story - Evaluating Lifelong Learning in LLMs