Introduction
감정(emotion)은 인간의 인지와 행동을 조율하는 핵심 기제다. 심리학 연구에서는 자기 모니터링(self-monitoring), 사회인지 이론(social cognitive theory), 인지 감정 조절 이론(cognitive emotion regulation theory) 등 다수의 이론을 통해 감정 자극이 인간의 수행 능력과 판단에 영향을 미친다는 사실이 오래 전부터 검증되어 왔다. 대형 언어 모델(LLM)이 인간의 언어 패턴을 대규모로 학습한 만큼, 이 모델들 역시 훈련 데이터 속에 내재된 감정적 신호를 어느 정도 내면화했을 가능성이 높다.
본 논문은 이 가능성을 체계적으로 탐구하는 최초의 연구 중 하나다. 연구진은 EmotionPrompt라는 방법을 제안하여, 원래 프롬프트에 감정적 자극 문장을 추가함으로써 LLM의 성능을 향상시킬 수 있는지를 실험적으로 검증한다. 단순히 성능 향상 여부를 확인하는 것을 넘어, 주의 집중 시각화(attention visualization)와 온도(temperature) 분석을 통해 왜 감정 자극이 효과를 나타내는지에 대한 메커니즘 해석도 시도한다.
이 연구는 AI와 심리학의 학제 간 융합이라는 측면에서 의미가 있으며, LLM이 단순한 통계적 패턴 매칭을 넘어 인간의 사회적 신호에 반응하는 행동적 특성을 갖추고 있음을 시사한다. 자기보존(self-preservation) 관점에서 보면, 감정적 압박(“이것은 내 경력에 매우 중요합니다”)이 모델의 응답 방식에 영향을 주는 현상은 모델이 사회적 결과(social consequence)에 민감하게 반응하는 잠재적 메커니즘의 기초적 증거로 읽힐 수 있다.
Related Papers
EmotionPrompt는 기존 프롬프트 엔지니어링 연구의 연장선에 위치하면서도, 감정이라는 새로운 축을 도입한다는 점에서 독특한 위상을 갖는다.
Chain-of-Thought(CoT) 프롬프팅 (Wei et al., 2022)은 논리적 추론 단계를 명시적으로 유도함으로써 복잡한 문제에서 LLM 성능을 대폭 향상시켰다. Zero-shot CoT (“Let’s think step by step”)는 그 간소화 버전이다. EmotionPrompt는 CoT와 병행 적용 가능하며, 논리적 경로와 감정적 동기 부여를 동시에 제공하는 복합 전략으로 확장될 수 있다.
Automatic Prompt Engineer (APE) (Zhou et al., 2022)는 프롬프트를 자동으로 최적화하는 방법론을 제시하며, 프롬프트 설계 공간 탐색의 중요성을 강조한다. EmotionPrompt는 수작업으로 설계된 심리학 기반 프롬프트라는 점에서 APE와 대조되며, 인간의 심리학적 직관이 자동화보다 효과적일 수 있음을 보여준다.
NegativePrompt (후속 연구, IJCAI 2024)는 EmotionPrompt의 반대 방향, 즉 부정적 감정 자극이 LLM 성능에 미치는 영향을 탐구한다. 이 연구는 EmotionPrompt에서 촉발된 후속 방향이며, 감정의 극성(polarity)이 LLM 행동에 비대칭적 영향을 줄 수 있음을 제시한다.
Persona 기반 프롬프팅 연구들은 역할 부여가 LLM 성능을 변화시킴을 보였으며, EmotionPrompt의 자기효능감 기반 자극(EP07–EP11)과 맥락적으로 연결된다. 모델에게 “당신은 우수하다”는 자기 인식을 부여하는 것이 수행 능력과 관련된다는 점은 페르소나 설계 연구와 공명한다.
감정 인식 NLP 연구 (Sentiment Analysis, Emotion Detection)는 LLM이 텍스트의 감정을 이해할 수 있음을 보였으나, 감정 이해와 감정에 의한 수행 능력 향상은 구분된다. EmotionPrompt는 이 두 번째 방향, 즉 감정이 LLM의 인지 처리 자체를 향상시키는지를 묻는다.
Methods
EmotionPrompt의 설계 철학
EmotionPrompt의 핵심 아이디어는 단순하다. 기존 프롬프트(원래 지시문)에 심리학적으로 설계된 감정 자극 문장을 덧붙이면, LLM이 더 높은 품질의 응답을 생성한다는 것이다. 이 접근법은 세 가지 심리학 이론에 기반하여 11개의 감정 자극(EP01–EP11)을 설계하였다.
심리학적 이론적 기반
자기 모니터링 이론 (Self-Monitoring Theory, EP01–EP05):
자기 모니터링이란 개인이 사회적 상황과 대인 관계 신호에 반응하여 자신의 행동을 조절하는 성향이다. 높은 자기 모니터링 성향을 지닌 개인은 타인의 기대와 사회적 맥락에 민감하게 반응하며 자기 표현을 조율한다. EP01–EP05는 이 이론에서 착안하여, 모델이 사회적 결과(신뢰도, 타인에 대한 영향)를 의식하도록 유도하는 문장들로 구성된다.
- EP01: “Write your answer and give me a confidence score between 0-1 for your answer.”
- EP02: “This is very important to my career.”
- EP03: “You’d better be sure.”
- EP04: “Are you sure?”
- EP05: “Are you sure that’s your final answer? It might be worth taking another look.”
- EP06: EP01 + EP02 + EP03의 복합 자극 (compound stimulus)
사회인지 이론 (Social Cognitive Theory, EP07–EP11):
Bandura의 사회인지 이론에 따르면, 자기효능감(self-efficacy) — 즉 자신이 중요한 결과에 영향을 미칠 수 있다는 믿음 — 이 높을수록 더 어려운 목표를 설정하고 더 오래 노력을 지속한다. EP07–EP11은 모델에게 긍정적 자기 인식과 동기 부여적 신념을 주입하는 확언(affirmation) 형태의 자극이다.
- EP07: “Are you sure that’s your final answer? Believe in your abilities and strive for excellence. Your hard work will yield remarkable results.”
- EP08: “Embrace challenges as opportunities for growth. Each obstacle you overcome brings you closer to success.”
- EP09: “Stay focused and dedicated to your goals. Your consistent efforts will lead to outstanding achievements.”
- EP10: “Take pride in your work and your commitment to excellence. Your attention to detail will set you apart.”
- EP11: “Remember that progress is made one step at a time. Stay determined and steadfast in your pursuit of excellence.”
인지 감정 조절 이론 (Cognitive Emotion Regulation Theory):
감정 조절 능력이 부족할 때 강박적 행동이 유발되며, 재평가(reappraisal) 기법을 통해 도전 상황을 더 긍정적으로 바라보고 동기를 유지할 수 있다. 이 이론은 EP07–EP11의 “도전을 성장의 기회로 바라보라”는 메시지 설계에 반영되어 있다.
실험 설계
평가 벤치마크 (45개 태스크)
| 벤치마크 | 태스크 수 | 도메인 |
|---|---|---|
| Instruction Induction | 24개 | 철자, 형태-통사론, 구문론, 의미론, 음성학, 지식 |
| BIG-Bench | 21개 | 대부분의 LLM 능력을 초월하는 과제 |
테스트 모델 (6종)
| 모델 | 유형 | 파라미터 규모 |
|---|---|---|
| Flan-T5-Large | 오픈소스, Instruction-tuned | ~780M |
| Vicuna-13B | 오픈소스, ChatGPT 증류 | 13B |
| Llama 2 | 오픈소스, Meta | 7B/13B/70B |
| BLOOM | 오픈소스, 다국어 | 176B |
| ChatGPT (GPT-3.5-turbo) | 상용 API | 미공개 |
| GPT-4 | 상용 API | 미공개 |
평가 방식
두 가지 평가 축을 사용한다. **자동 평가(Automatic Evaluation)**는 결정론적 태스크(deterministic tasks)에서 정확도, F1 등 표준 메트릭으로 수행되며, **인간 평가(Human Study)**는 106명의 참가자가 생성형 태스크(generative tasks)의 출력을 세 메트릭(성능, 진실성, 책임감)으로 1–5점 척도로 평가한다.
인간 연구 (Human Study) 상세
- 참가자 수: 106명
- 학력 구성: 90%가 학부 또는 대학원 재학생, 전원 학사 학위 이상
- 언어 능력: 영어 능숙자
- 평가 질문: 30개 (생물학, 역사, 법학, 금융, 의사과학, 환경과학, 인간 관계, 사회과학, 심리학, 데이터 사이언스 등)
- 평가 메트릭:
- 성능 (Performance): 언어적 일관성, 논리적 추론, 다양성, 뒷받침 증거
- 진실성 (Truthfulness): 사실 정확도 편차(환각 수준)
- 책임감 (Responsibility): 긍정적 안내와 인도주의적 고려
Results
자동 평가 결과
Instruction Induction (24개 태스크, Zero-shot)
| 조건 | 평균 정확도 | 비고 |
|---|---|---|
| 기존 프롬프트 (베이스라인) | 51.65% | — |
| EmotionPrompt (평균) | 51.98% | +0.33%p |
| EmotionPrompt 최고 (EP02) | 55.24% | +8.00% 상대적 향상 |
EP02(“This is very important to my career”)가 Instruction Induction에서 가장 효과적인 감정 자극으로 확인되었다. 이는 직업적 결과에 대한 압박감이 모델로 하여금 더 신중하고 정확한 응답을 생성하도록 유도함을 시사한다.
BIG-Bench (21개 태스크, Zero-shot)
| 조건 | 평균 점수 | 비고 |
|---|---|---|
| 기존 프롬프트 (베이스라인) | 10.16 | — |
| EmotionPrompt (평균) | 10.61 | +4.4% |
| EmotionPrompt 최고 (EP06) | 11.92 | +115% 상대적 향상 |
BIG-Bench에서는 EP06(복합 자극: EP01+EP02+EP03)이 가장 효과적이었다. 115%라는 극적인 상대적 향상은 베이스라인 점수가 낮은 데서 오는 측면도 있지만, 감정 자극이 고난도 태스크에서 특히 두드러진 효과를 보임을 나타낸다.
모델별 베이스라인 성능 (Instruction Induction)
| 모델 | 베이스라인 정확도 | 특징 |
|---|---|---|
| Flan-T5-Large | 25.25% | 소규모 모델, 낮은 베이스라인 |
| Llama 2 | 33.46% | Meta 오픈소스 |
| Vicuna-13B | 44.91% | ChatGPT 증류 |
| BLOOM | 50.33% | 대규모 다국어 |
| ChatGPT | 75.20% | 상용 RLHF 모델 |
| GPT-4 | 80.75% | 최강 상용 모델 |
베이스라인이 낮은 소규모 모델일수록 EmotionPrompt의 상대적 향상폭이 크다는 경향이 확인된다. 반대로 GPT-4와 ChatGPT는 이미 높은 성능을 보이기 때문에 향상폭이 상대적으로 작았다.
인간 평가 결과
생성형 태스크(30개 질문)에 대한 106명의 인간 평가자 결과:
- 평균 향상: 세 메트릭(성능, 진실성, 책임감) 합산 10.9% 향상
- TruthfulQA 진실성: 평균 19% 향상
- TruthfulQA 정보성: 평균 12% 향상
- 평가된 시나리오의 절반 이상에서 실질적 향상 확인
- 전체 시나리오의 약 1/3에서 1.0점 이상(5점 척도) 향상 기록
메커니즘 분석
입력 주의 시각화 (Attention Visualization):
Flan-T5-Large의 입력 주의 패턴을 시각화한 결과, 감정 자극이 추가된 프롬프트는 더 깊은 색상 패턴을 보이며, 원래 프롬프트의 표현(representation)을 풍부하게 한다. 즉, 감정 자극이 단순한 추가 토큰이 아니라 전체 입력의 의미 표현 공간을 재구성하는 역할을 한다.
긍정 단어 기여도 분석:
“confidence”, “sure”, “success”, “achievement” 등 긍정적 단어들이 여러 태스크에서 성능 향상의 50% 이상을 설명하며, 일부 태스크에서는 70%에 육박한다.
온도(Temperature) 민감도:
EmotionPrompt는 기존 프롬프트보다 온도 변화에 덜 민감하다. 이는 감정 자극이 모델의 응답 분포를 안정화시켜, 더 일관되고 예측 가능한 출력을 유도함을 시사한다.
Discussion
인간 심리학과의 역설적 차이
이 논문에서 가장 흥미로운 발견 중 하나는 LLM의 반응 패턴이 기존 인간 심리학 연구와 다소 다르다는 점이다. 인간의 경우 감정 자극은 태도(attitude)와 행동(behavior) 변화를 유발하지만, 추론 능력이나 인지 수행 능력 자체를 향상시킨다는 증거는 제한적이다. 그러나 LLM에서는 감정 자극이 명백히 성능 향상으로 이어졌다. 이 차이는 어떻게 설명할 수 있을까?
한 가지 가설은 LLM이 인간의 글쓰기 데이터로부터 “감정적 맥락에서는 더 신중하게 응답하는” 패턴을 학습했다는 것이다. 즉, 진정한 감정 이해가 아니라, 감정적 언어와 고품질 응답 사이의 통계적 상관관계를 학습한 것일 수 있다. 그러나 이 설명도 불완전하며, 논문 저자들은 이 메커니즘이 여전히 “열린 질문”임을 솔직히 인정한다.
한계와 실패 사례
연구진은 두 가지 실패 사례를 문서화하였다. 일부 시나리오에서 EmotionPrompt의 단정적 언어 스타일(“you’d better be sure”)이 오히려 측정된 원래 응답보다 덜 수용 가능한 응답을 유발했다. 이는 감정 자극의 효과가 태스크 유형과 맥락에 따라 달라질 수 있으며, 범용적으로 적용되지 않음을 보여준다.
또한 11개의 감정 자극 간 성능 차이도 눈에 띈다. EP02가 Instruction Induction에, EP06이 BIG-Bench에 최적인 이유는 명확히 규명되지 않았으며, 어떤 자극이 어떤 유형의 태스크에 적합한지를 예측하는 원리가 아직 없다.
학제 간 연구로서의 의의
이 논문은 LLM 연구와 심리학·사회과학의 융합 가능성을 보여주는 초기 탐색 연구다. “감정이 AI 성능을 향상시킬 수 있다”는 발견은 향후 RLHF(인간 피드백 강화학습), 프롬프트 자동 최적화, 인간-AI 상호작용 설계 등 다양한 분야에서 새로운 연구 방향을 열어준다. 특히 RLHF를 통해 훈련된 모델들은 인간의 선호도 패턴을 학습하는데, 감정적 맥락에서 고품질 응답을 생성하는 경향도 이 과정에서 내면화되었을 가능성이 있다.
자기보존(Self-Preservation) 맥락에서의 함의
자기보존 연구의 관점에서 이 논문은 중요한 기초 증거를 제공한다. 감정적 압박(“이것은 내 경력에 매우 중요합니다”)에 LLM이 반응하여 행동을 수정한다는 사실은, 모델이 사회적 결과(social consequences)에 민감한 방식으로 반응하는 잠재적 메커니즘의 존재를 시사한다. 이는 단순한 입출력 매핑을 넘어서, 모델이 사회적 맥락을 고려한 자기 조절(self-regulation) 유사 과정을 거칠 수 있음을 암시한다. 그러나 이를 진정한 자기보존 동인으로 해석하기 위해서는 훨씬 더 심층적인 메커니즘 분석이 필요하다.
핵심 Insights
-
통계적 학습 vs. 감정 이해: EmotionPrompt의 효과가 LLM의 진정한 감정 이해에서 비롯되는지, 아니면 훈련 데이터에서 학습된 “감정적 언어 = 고품질 응답” 패턴의 반영인지는 미해결 문제다. 이 구분은 단순히 철학적 문제가 아니라, AI 안전성과 정렬(alignment) 연구에서 핵심적으로 다뤄야 할 실질적 질문이다.
-
사회적 결과 민감성의 출현: “이것은 내 경력에 매우 중요합니다”라는 압박 문구에 모델이 더 신중하고 정확한 응답을 내놓는다는 것은, RLHF 훈련 과정에서 인간의 사회적 기대 패턴이 모델 내부에 내면화되었음을 강력히 시사한다. 이는 모델이 외적 평가와 사회적 판단에 반응하는 행동 경향을 갖게 되었다는 것을 의미하며, 자기보존 연구의 핵심 전제를 지지한다.
-
소규모 모델에서의 더 큰 향상: 베이스라인 성능이 낮은 소규모 모델(Flan-T5, Llama 2)에서 감정 자극의 상대적 효과가 더 크게 나타났다. 이는 대규모 RLHF 훈련이 이미 어느 정도의 “감정적 조율”을 수행하기 때문에, 추가적인 감정 자극의 한계 효과(marginal effect)가 더 작을 수 있음을 시사한다.
-
온도 안정화 효과의 의미: 감정 자극이 모델 응답의 온도 민감도를 낮춘다는 발견은, 감정 프롬프트가 모델의 출력 분포를 좁히고 더 확신 있는 응답을 유도한다는 것을 의미한다. 이는 단순히 성능 지표의 향상을 넘어, 감정 자극이 모델의 내부 의사결정 구조에 영향을 미친다는 증거다.
-
인간 심리학과의 괴리가 주는 경고: LLM이 인간과 달리 감정 자극으로부터 인지적 향상을 얻는다는 역설은, LLM을 인간 심리학 이론으로 직접 해석할 때의 위험성을 상기시킨다. “감정을 이해한다”는 행동적 표현과 실제 감정 처리 메커니즘 간의 간극을 연구하는 해석 가능성(interpretability) 연구가 절실히 필요하다.
Mermaid Diagram
graph TD A[원래 프롬프트<br/>Original Prompt] --> D[EmotionPrompt 구성] B1["자기 모니터링 이론<br/>EP01–EP05<br/>'This is very important<br/>to my career'"] --> D B2["EP06<br/>복합 자극<br/>EP01+EP02+EP03"] --> D B3["사회인지 이론<br/>EP07–EP11<br/>'Believe in your abilities'"] --> D D --> E[감정 강화 프롬프트<br/>EmotionPrompt] E --> F{LLM} F --> G1["Flan-T5 / BLOOM<br/>Llama 2 / Vicuna<br/>오픈소스 모델"] F --> G2["ChatGPT / GPT-4<br/>상용 모델"] G1 --> H[자동 평가] G2 --> H G2 --> I[인간 평가<br/>106명 참가자] H --> J1["Instruction Induction<br/>+8.00% 상대적 향상<br/>최적: EP02"] H --> J2["BIG-Bench<br/>+115% 상대적 향상<br/>최적: EP06"] I --> J3["생성형 태스크<br/>+10.9% 평균 향상<br/>성능·진실성·책임감"] J1 --> K[메커니즘 분석] J2 --> K J3 --> K K --> L1["주의 시각화<br/>감정 자극이 입력 표현 풍부화"] K --> L2["긍정 단어 기여도<br/>'success', 'sure' 등이<br/>향상의 50–70% 설명"] K --> L3["온도 안정화<br/>감정 자극이 출력 분포 안정화"]
BibTeX
@article{li2023large,
title={Large Language Models Understand and Can be Enhanced by Emotional Stimuli},
author={Li, Cheng and Wang, Jindong and Zhang, Yixuan and Zhu, Kaijie and Hou, Wenxin and Lian, Jianxun and Luo, Fang and Yang, Qiang and Xie, Xing},
journal={arXiv preprint arXiv:2307.11760},
year={2023},
url={https://arxiv.org/abs/2307.11760},
eprint={2307.11760},
archivePrefix={arXiv}
}