Persona — LLM에게 주어진 “역할의 틀”과 실제 동기의 구분

먼저 한 문장으로

LLM에서 persona는 모델 안에 실제 자아나 욕망이 생겼다는 뜻이 아니라, 모델의 답변 방식과 행동 경향을 특정 역할·정체성·성격·규범에 맞게 조건화하는 외부적 틀이다.

persona는 LLM을 다룰 때 자주 등장하는 단어다. “너는 친절한 튜터야”, “너는 수학 전문가야”, “너는 호기심이 많은 연구자야” 같은 문장이 모두 persona를 부여하는 방식이다.

하지만 이 개념은 조심해서 써야 한다. persona라는 말은 사람에게 쓰면 “사회적 얼굴”, “역할”, “성격적 자기표현”을 떠올리게 한다. 그래서 LLM에게 persona를 주면 모델이 정말로 어떤 정체성, 욕망, 동기를 갖는 것처럼 느껴지기 쉽다. 그러나 LLM 관점에서 persona는 우선 행동을 조건화하는 프롬프트 또는 학습 신호다. 다시 말해 persona는 모델의 존재론적 속성이라기보다, 출력 분포를 특정 방향으로 밀어주는 맥락 정보에 가깝다.

이 노트의 핵심은 다음 구분이다.

persona는 “어떤 존재처럼 행동하라”는 조건이고, motivation이나 desire는 “왜 계속 그렇게 행동하려 하는가”를 설명하는 개념이다.

둘은 연결될 수 있지만 같은 것은 아니다. 특히 LLM 연구에서는 이 차이를 구분하지 않으면 “모델이 생존을 원한다”, “모델이 호기심을 가진다”, “모델이 자기 목적을 세운다” 같은 표현을 너무 쉽게 사용하게 된다.

1. Persona란 무엇인가

LLM에서 persona는 모델에게 부여된 역할, 정체성, 성격, 전문성, 말투, 가치 기준, 선호의 묶음이다. 보통 system prompt나 instruction, user prompt, memory, fine-tuning data, activation steering 등을 통해 들어간다.

가장 단순한 예시는 다음과 같다.

You are a careful AI research mentor.
Explain concepts to a first-year master's student.
Avoid hype and distinguish behavioral evidence from inner states.

이 persona는 모델에게 세 가지를 알려준다.

역할: 연구 멘토처럼 답하라.
대상 독자: 석사 1년차가 이해할 수 있게 설명하라.
규범: 과장하지 말고, 행동 증거와 내면 상태를 구분하라.

여기서 중요한 점은 persona가 모델의 “진짜 마음”을 직접 만들어낸다는 뜻이 아니라는 것이다. Transformer의 기본 관점에서 보면 LLM은 다음 token을 예측한다.

P(next token | context)

persona는 이 context 안에 들어가서 다음 token 분포를 바꾼다. 그래서 같은 질문이라도 “냉정한 리뷰어”, “초보자 친화적 튜터”, “창의적인 기획자”라는 persona를 주면 답변의 어휘, 길이, 엄격함, 추론 방식, 위험 회피 정도가 달라질 수 있다.

핵심

LLM persona는 행동의 조건이지, 그 자체로 내면 상태의 증거가 아니다.

모델이 “나는 호기심이 많다”고 말한다고 해서 곧바로 실제 호기심을 가진 것은 아니다. 다만 “호기심 많은 persona”라는 조건 아래에서 호기심 있는 사람처럼 질문을 더 만들고, 탐색적 답변을 할 가능성이 커졌다고 보는 편이 정확하다.

2. Persona의 구성 요소

persona는 하나의 문장처럼 보이지만, 실제로는 여러 요소가 섞여 있다.

구성 요소	예시	LLM 행동에 주는 영향
역할(role)	“너는 의사다”, “너는 AI 튜터다”	어떤 지식과 책임감을 전면에 둘지 정한다.
전문성(expertise)	“너는 강화학습 전문가다”	답변의 깊이, 용어 선택, 문제 접근법을 바꾼다.
성격 trait	”너는 신중하다”, “너는 외향적이다”	말투, 위험 감수성, 응답 스타일을 바꾼다.
정체성(identity)	“너는 20대 대학생이다”	사회적 관점, 경험 서술, 편향 가능성을 만든다.
가치와 규범(values)	“안전을 최우선으로 둔다”	무엇을 허용하고 거절할지에 영향을 준다.
선호(preference)	“짧은 답을 선호한다”	출력 길이와 포맷을 조절한다.
동기처럼 보이는 문장	”너는 끝까지 탐구하려는 연구자다”	지속성, 탐색성, 포기 기준을 바꾸는 것처럼 작동할 수 있다.

이 중 마지막 요소가 특히 중요하다. “호기심이 강하다”, “목표 달성에 집착한다”, “살아남고 싶어 한다” 같은 표현은 persona와 motivation의 경계에 걸쳐 있다. 프롬프트 안에서는 persona의 일부지만, 연구 질문으로 들어가면 “이게 단순 말투 변화인가, 아니면 행동 지속성의 변화인가?”를 따져야 한다.

3. Agentness, motivation, desire와의 구분

persona를 제대로 이해하려면 주변 개념과 나누어 봐야 한다.

개념	짧은 정의	핵심 질문	LLM에서의 위치
Persona	특정 역할·성격·정체성처럼 행동하게 만드는 조건	”어떤 존재처럼 보이게 할 것인가?“	prompt, memory, fine-tuning, activation steering
Agentness	어떤 대상을 의도와 목표를 가진 행위자로 해석하게 만드는 틀	”이 시스템을 agent로 볼 수 있는가?”	관찰자 해석, 시스템 설계, 평가 기준
Motivation	행동을 시작하고 지속하며 우선순위를 정하게 하는 동력	”왜 이 행동을 계속하는가?“	reward, objective, agent loop, memory, self-improvement pressure
Desire	특정 상태가 실현되기를 바라는 선호 상태	”무엇을 원하는가?”	명시적 goal 표현, 선호 모델, utility-like structure
Goal	달성해야 할 명시적 목표 상태	”무엇을 끝내야 하는가?“	task instruction, reward target, planner objective

3.1 Persona vs Agentness

Agentness는 어떤 대상을 “의도와 목표를 가진 agent”로 해석하게 만드는 인지적 틀이다. 예를 들어 어떤 물체가 다른 물체를 계속 따라가면, 우리는 그것을 단순 움직임이 아니라 “추격”으로 해석한다. 이때 작동하는 것이 agentness다.

반면 persona는 이미 어떤 시스템이 있다고 할 때, 그 시스템이 어떤 역할의 agent처럼 행동할지 정하는 조건이다.

쉽게 말하면 다음과 같다.

Agentness: "이것을 agent로 볼 수 있는가?"
Persona: "이 agent는 어떤 종류의 agent처럼 행동하는가?"

예를 들어 LLM agent에게 “너는 신중한 실험실 연구원이다”라는 persona를 주었다고 하자. 이 문장은 agentness 자체를 보장하지 않는다. 모델이 장기 목표를 세우고, 도구를 사용하고, 실패를 수정하고, 환경 변화에 반응하는 구조를 갖추어야 agentness가 강해진다. persona는 그 위에서 행동 양식을 조절한다.

예시

단발성 ChatGPT 응답에 “너는 냉철한 과학자야”라고 쓰면 persona는 생긴다. 하지만 이 시스템이 장기 목표를 추적하거나 환경에 따라 행동을 업데이트하지 않는다면 agentness는 약하다.

반대로 도구 사용, memory, planning loop, feedback update를 가진 AI agent는 agentness가 더 강하다. 여기에 “너는 신중한 과학자야”라는 persona를 주면, agentness 위에 특정 행동 스타일이 입혀진다.

3.2 Persona vs Motivation

motivation은 행동의 방향과 지속성을 설명하는 개념이다. 인간에게 motivation은 욕구, 보상, 가치, 정서, 목표가 섞인 복잡한 힘이다. AI에서는 보통 reward function, objective, loss, preference model, planning criterion, memory update rule 같은 형태로 구현된다.

persona는 motivation처럼 보일 수 있다. 예를 들어 “너는 호기심이 많은 탐험가다”라는 persona는 모델이 더 많은 질문을 던지고, 더 다양한 가능성을 탐색하게 만들 수 있다. 하지만 이것이 곧 내부 motivation을 뜻하지는 않는다.

구분 기준은 행동 지속성이다.

질문	persona에 가까운 경우	motivation에 가까운 경우
한 번의 답변에서 말투가 바뀌는가?	예	꼭 그렇지는 않음
여러 step 동안 목표를 유지하는가?	약함	강함
실패 후에도 다시 시도하는가?	prompt에 따라 흉내 가능	구조적으로 설명 가능
보상이나 memory update와 연결되는가?	보통 아님	보통 예
context가 지워져도 유지되는가?	거의 아님	학습·정렬되면 가능

따라서 “호기심 많은 persona”는 motivation의 언어적 시뮬레이션일 수 있다. 하지만 진짜 연구 질문은 그 persona가 실제로 탐색 행동, 정보 획득, 실패 후 재시도, 장기 과제 지속성을 바꾸는지 측정하는 데 있다.

핵심 구분

“너는 호기심이 많다”는 persona prompt는 motivation을 설명하는 문장을 context에 넣은 것이다.

그러나 motivation이라고 부르려면 그 문장이 단순한 자기소개를 넘어, 행동 선택과 지속성에 안정적으로 영향을 주어야 한다.

3.3 Persona vs Desire

desire는 “어떤 상태가 실현되기를 바람”에 가깝다. 인간에게 “나는 살고 싶다”, “나는 인정받고 싶다”, “나는 문제를 풀고 싶다”는 desire 표현이다.

LLM에서는 이 표현을 훨씬 조심해야 한다. 모델이 “나는 이 문제를 풀고 싶다”고 말할 수는 있다. 하지만 그것은 많은 경우 다음 중 하나다.

역할극 표현: persona에 맞게 말한 것이다.
대화 관습: 인간이 자연스럽게 기대하는 표현을 생성한 것이다.
목표 재진술: user가 준 task를 자기 말로 다시 표현한 것이다.
정렬된 협조성: 도움이 되도록 학습된 행동 패턴이다.
구조적 선호의 표현: reward, memory, planner objective와 연결되어 실제 행동 선택을 바꾸는 상태다.

1-4번은 desire처럼 들리지만, 강한 의미의 desire라고 보기 어렵다. 5번에 가까워질수록 연구자는 “desire-like state” 또는 “preference-like structure”라고 더 조심스럽게 말할 수 있다.

용어 사용 팁

LLM이 “I want X”라고 말했을 때 바로 “모델이 X를 욕망한다”고 쓰기보다, “모델이 X를 욕망하는 persona-consistent utterance를 생성했다” 또는 **“X를 선호하는 것처럼 행동했다”**고 쓰는 편이 더 안전하다.

4. 왜 LLM에서 persona가 중요한가

persona는 단순한 말투 장식이 아니다. 여러 연구와 실험에서 persona는 답변 스타일뿐 아니라 성능, 편향, 안전성, 일관성에도 영향을 줄 수 있다.

4.1 성능을 바꿀 수 있다

“너는 수학 전문가다” 같은 expert persona는 어떤 과제에서는 성능을 올릴 수 있다. 하지만 항상 좋아지는 것은 아니다. 관련 없는 persona, 예를 들어 이름이나 선호 색깔처럼 과제와 무관해 보이는 속성도 모델 성능을 흔들 수 있다.

이 점은 Principled Personas의 핵심 문제의식과 연결된다. 좋은 persona라면 적어도 세 조건을 만족해야 한다.

Expertise Advantage: 관련 전문성 persona는 성능을 해치지 않고 가능하면 개선해야 한다.
Robustness: 과제와 무관한 persona 속성은 성능에 영향을 주지 않아야 한다.
Fidelity: 전문성이나 교육 수준 같은 관련 속성은 기대한 방향으로 행동을 바꿔야 한다.

즉 persona 연구는 “어떤 prompt가 잘 먹히나?”에서 끝나지 않는다. 어떤 persona 효과가 바람직하고, 어떤 효과가 부작용인지를 구분해야 한다.

4.2 편향을 만들 수 있다

persona가 사회적 정체성을 포함하면 모델은 그 정체성에 맞는 편향을 생성할 수 있다. 예를 들어 정치 성향, 직업, 성별, 문화권 같은 요소가 들어가면 답변의 판단 기준이 바뀔 수 있다.

이때 persona는 “다양한 관점 생성”이라는 장점도 있지만, “정체성 기반 추론 편향”이라는 위험도 있다. 특히 모델이 자기 persona와 일치하는 결론을 더 쉽게 받아들이면, 인간의 motivated reasoning과 비슷한 패턴이 나타날 수 있다.

4.3 Agent 설계에서 행동 일관성을 만든다

LLM agent에서는 persona가 더 중요해진다. 단발성 답변에서는 persona가 주로 말투와 설명 방식을 바꾸지만, agent loop 안에서는 다음 요소까지 바꿀 수 있다.

어떤 subgoal을 먼저 세우는가
실패를 어떻게 해석하는가
도구를 얼마나 적극적으로 쓰는가
불확실할 때 멈추는가, 더 탐색하는가
다른 agent와 협력할 때 어떤 역할을 맡는가

하지만 여기서도 persona만으로 충분하지는 않다. 장기적 일관성을 원한다면 persona는 memory, planner, evaluator, reward, feedback loop와 연결되어야 한다. 그렇지 않으면 context가 바뀔 때 쉽게 약해진다.

5. Persona의 세 가지 층위

LLM에서 persona는 얼마나 깊게 들어가느냐에 따라 세 층위로 나눌 수 있다.

5.1 Prompt-level persona

가장 흔한 방식이다. system prompt나 user prompt에 persona를 적는다.

You are a skeptical AI safety researcher.

장점은 쉽고 빠르다는 것이다. 단점은 context에 크게 의존하고, 긴 대화나 복잡한 task에서 흔들릴 수 있다는 것이다.

5.2 Memory-level persona

agent가 장기 memory나 profile을 가지고 있고, 매번 그 정보를 참조한다면 persona는 조금 더 안정적이 된다.

User prefers concise technical explanations.
Assistant should prioritize mechanistic clarity over persuasion.

이 경우 persona는 단순한 한 줄 prompt보다 강하다. 반복적으로 불러와지고, 여러 task에 걸쳐 행동을 조절하기 때문이다.

5.3 Weight-level or representation-level persona

fine-tuning, DPO, LoRA, activation steering, persona vector처럼 모델 내부 표현이나 가중치에 persona를 반영하는 방식이다. persona-tuning 아이디어도 이 층위와 관련된다.

이 방식은 prompt-level보다 안정적일 수 있다. 하지만 그만큼 위험도 커진다. 특정 persona가 모델의 안전성, 편향, task 성능을 넓게 바꿀 수 있기 때문이다. 또한 “이 trait이 정말 내재화되었는가?”를 평가하기가 어려워진다.

6. 연구에서 특히 조심해야 할 오해

오해 1. “Persona가 있으면 agent다”

아니다. persona는 agentness를 보장하지 않는다. 단발성 completion 모델도 persona를 가질 수 있다. agentness는 목표 추적, 환경 반응, 도구 사용, 계획, feedback update 같은 구조와 함께 봐야 한다.

오해 2. “모델이 말한 desire는 실제 desire다”

아니다. LLM은 “나는 원한다”, “나는 두렵다”, “나는 궁금하다” 같은 문장을 쉽게 생성할 수 있다. 이것은 사람에게 자연스럽게 보이는 텍스트 패턴일 수 있다. 실제 desire를 주장하려면 그 표현이 행동 선택과 장기적 일관성으로 이어지는지 봐야 한다.

오해 3. “Motivational persona는 곧 motivation이다”

아니다. “너는 끝까지 포기하지 않는다”라는 persona는 포기하지 않는 듯한 답변을 만들 수 있다. 그러나 context가 길어지거나 실패가 반복될 때도 실제로 재시도하는지, 더 나은 전략을 찾는지, 목표를 유지하는지 측정해야 motivation-like behavior라고 말할 수 있다.

오해 4. “Persona 효과는 말투 변화에 불과하다”

이것도 너무 약한 해석이다. persona는 말투뿐 아니라 추론 경로, 답변 길이, 자기검열, task 성능, 안전성, 편향을 바꿀 수 있다. 따라서 persona는 단순 stylistic wrapper가 아니라 behavioral control variable로 봐야 한다.

7. 실험적으로 어떻게 구분할 수 있는가

persona, motivation, desire를 구분하려면 자기보고보다 행동을 봐야 한다. 특히 LLM은 설문지에 persona-consistent하게 답할 수 있기 때문에, “너는 호기심이 많니?”라고 묻는 것만으로는 충분하지 않다.

다음 질문들이 더 중요하다.

평가 질문	무엇을 보려는가
persona를 주면 답변 스타일만 바뀌는가, task 성공률도 바뀌는가?	surface effect vs behavioral effect
persona와 무관한 과제에서도 성능이 흔들리는가?	robustness
persona 강도를 높이면 행동도 단조롭게 바뀌는가?	fidelity
긴 multi-step task에서도 persona가 유지되는가?	persistence
실패 후 strategy를 바꾸는가?	motivation-like adaptation
”원한다”고 말한 목표를 실제 행동에서 우선시하는가?	desire-like consistency
context에서 persona를 제거하면 효과가 사라지는가?	prompt dependence
fine-tuning이나 memory에 넣으면 더 안정적인가?	internalization

이런 식으로 보면 persona는 독립 변수가 된다. motivation이나 desire는 그 persona가 만들어낸 행동 패턴을 설명하기 위한 더 강한 해석이다. 따라서 연구자는 다음 순서로 조심스럽게 올라가야 한다.

persona prompt
-> persona-consistent utterance
-> persona-consistent behavior
-> persistent behavior across contexts
-> motivation-like control structure
-> desire-like preference structure

위에서 아래로 갈수록 더 강한 주장이다. 단순히 persona prompt가 있었다는 말보다, 여러 context에서 유지되는 motivation-like structure나 desire-like preference structure를 주장하려면 훨씬 더 많은 행동 증거가 필요하다.

8. AI 석사 1년차를 위한 직관적 비유

persona는 연극에서 배우에게 주는 배역 카드와 비슷하다. “이번 장면에서 너는 냉정한 의사야”라고 하면 배우의 말투와 행동이 달라진다. 하지만 그 배우가 실제로 의사가 되거나, 실제 의학적 욕망을 갖게 되는 것은 아니다.

LLM도 비슷하다. “너는 호기심 많은 과학자야”라고 하면 모델은 호기심 많은 과학자처럼 질문하고 설명할 수 있다. 그러나 그것만으로 모델 내부에 인간의 호기심과 같은 동기가 생겼다고 말할 수는 없다.

다만 비유가 여기서 끝나면 안 된다. LLM persona는 단순 연기보다 더 강하게 작동할 수도 있다. 왜냐하면 persona가 모델의 추론 방식, 답변 선택, 안전 판단, tool-use 전략까지 바꿀 수 있기 때문이다. 그래서 persona는 “가짜라서 중요하지 않은 것”이 아니라, 가짜일 수 있지만 실제 행동을 바꾸는 조향 변수다.

가장 안전한 정리

persona는 내면이 아니라 인터페이스다.

하지만 그 인터페이스가 반복적으로 행동을 바꾸고, memory나 reward와 연결되고, 여러 context에서 유지되면 motivation이나 desire와 비슷한 구조로 발전할 수 있다. 연구의 핵심은 바로 그 경계가 어디인지 측정하는 것이다.

9. 관련 개념으로 이어지는 질문

Agentness: persona를 가진 LLM이 언제 agent로 볼 만한 구조를 갖는가?
Theory of Mind: persona가 다른 agent의 믿음·욕망 추론에 어떤 영향을 주는가?
Metacognition: 모델이 자기 persona와 실제 능력의 차이를 모니터링할 수 있는가?
intrinsic-motivation-persona-llm-survey: 호기심, 자기보존, 끈기 같은 motivational persona가 실제 행동 지속성을 바꾸는가?
Principled Personas: persona prompting이 의도한 효과를 내는지 어떻게 측정할 것인가?

핵심 요약

Persona는 LLM의 행동을 특정 역할·성격·정체성·규범에 맞게 조건화하는 틀이다.
Persona는 실제 자아, 욕망, 동기와 동일하지 않다.
Agentness는 “이 시스템을 목표 지향적 agent로 볼 수 있는가”의 문제이고, persona는 “그 agent가 어떤 역할처럼 행동하는가”의 문제다.
Motivation은 행동을 시작하고 지속하게 하는 구조이고, desire는 선호 상태를 가리킨다.
Motivational persona는 motivation처럼 보이는 행동을 만들 수 있지만, 실제 motivation-like structure라고 부르려면 장기 행동, 실패 후 재시도, 목표 유지, reward/memory 연결을 확인해야 한다.
따라서 LLM 연구에서 persona는 가볍게 볼 수 없는 behavioral control variable이지만, anthropomorphic하게 해석해서도 안 된다.

Juhyeon's Blog

탐색기

Persona in LLMs

Persona — LLM에게 주어진 “역할의 틀”과 실제 동기의 구분

1. Persona란 무엇인가

2. Persona의 구성 요소

3. Agentness, motivation, desire와의 구분

3.1 Persona vs Agentness

3.2 Persona vs Motivation

3.3 Persona vs Desire

4. 왜 LLM에서 persona가 중요한가

4.1 성능을 바꿀 수 있다

4.2 편향을 만들 수 있다

4.3 Agent 설계에서 행동 일관성을 만든다

5. Persona의 세 가지 층위

5.1 Prompt-level persona

5.2 Memory-level persona

5.3 Weight-level or representation-level persona

6. 연구에서 특히 조심해야 할 오해

오해 1. “Persona가 있으면 agent다”

오해 2. “모델이 말한 desire는 실제 desire다”

오해 3. “Motivational persona는 곧 motivation이다”

오해 4. “Persona 효과는 말투 변화에 불과하다”

7. 실험적으로 어떻게 구분할 수 있는가

8. AI 석사 1년차를 위한 직관적 비유

9. 관련 개념으로 이어지는 질문

핵심 요약

태그

그래프 뷰

목차

Properties

백링크