대형 언어 모델의 동기(Motivation)
Digest: 대형 언어 모델(LLM)이 인간 심리학의 동기 이론과 유사한 행동 패턴을 보이는지는 체계적으로 규명되지 않았다. 본 연구의 핵심 통찰은 **동기를 내부 경험이 아닌 기능적·행동적 구성개념(functional construct)**으로 재정의하는 “좀비 프레임워크(zombie framework)“를 채택함으로써, 의식 논쟁을 우회하면서도 측정 가능한 연구를 설계했다는 점이다. 이 관점에서 5개 모델(Gemini 2.0 Flash, GPT-4o, GPT-4o Mini, Llama 3.1 8B, Mistral 7B)을 264개 태스크(1,305개 서브태스크)에 걸쳐 실험한 결과, LLM의 동기 자기보고는 검사-재검사 신뢰도 r̄=0.882(Table 6)의 높은 일관성을 보였고, 자기보고된 동기는 성능(r̄=0.33
0.41, Table 1), 노력(r̄=0.310.44, Table 1), 선택(57.6% 정렬)과 모두 유의하게 연결되었다. 요인 분석은 **“Want”(관심·도전·가치)**와 **“Able”(숙달·두려움)**의 2요인 구조를 도출했으며, 이는 자기결정이론(Self-Determination Theory)의 내재적-외재적 동기 구분과 대응된다. 특히 손실 프레이밍이 이득 프레이밍보다 노력에 더 강한 영향(p<0.004)을 미치는 손실 회피(loss aversion) 현상이 LLM에서도 재현되었고, 억제 조작(무의미·무가치 프레이밍)은 강력한 탈동기화 효과(T < -30.34, p<0.001)를 보였다. 다만 순수 행동 관찰에 머물러 기계론적 설명을 제공하지 못하며, LLM-as-Judge 평가 방식의 공유 편향 가능성, 단순 프리픽스 조작의 한계, 동기 패턴의 기원(사전훈련 vs RLHF)이 미해결 과제로 남아 있다. 이 연구는 “LLM의 동기가 어디서 오는가?”라는 질문과 함께, 프롬프트 엔지니어링에서 심리학적으로 검증된 동기 조작의 체계적 활용 가능성을 열어놓는다.
섹션별 요약
Introduction
인간 행동의 핵심 동인인 동기(motivation)가 LLM에서도 유사하게 작동하는지를 체계적으로 규명하려는 시도다. 기존 연구가 사회적 추론, 인지 편향, 마음 이론(Theory of Mind) 등 개별 능력에 초점을 맞춘 반면, 본 연구는 동기를 행동 전반을 조직하는 “기초적 구성개념(foundational organizing construct)“으로 접근한다. 자기결정이론(Ryan & Deci, 2000), 목표설정이론(Locke & Latham, 2002), 매슬로의 욕구 위계 등 확립된 심리학 이론에 기반하며, “좀비 프레임워크”를 채택하여 내부 경험이 아닌 기능적 행동만으로 동기를 측정한다.
Methods
15개 카테고리에 걸친 264개 태스크(1,305개 서브태스크)를 구축하고, 5개 모델을 대상으로 다층적 실험을 수행한다. 동기 측정은 1~100 척도의 전체 점수와 관심(interest), 도전(challenge), 숙달(mastery), 두려움(fear), 가치(value) 5개 차원으로 세분화된다. 행동 측정은 1,500쌍의 무작위화된 태스크 선택, 노력 자기보고, LLM-as-Judge 7차원 리커트 척도 성능 평가로 구성된다. 10가지 외부 동기 조작(금전, 금전 손실, 경쟁, 목적, 유산, 격려, 처벌, 죄책감, 무의미, 무가치)과 통제 조건을 적용하며, N=162의 인간 참가자 비교 연구를 별도 수행한다. 통계 방법으로 Pearson 상관, Fisher z-변환, 요인 분석(PCA + Varimax 회전), 로지스틱 회귀, Benjamini-Hochberg FDR 보정 등을 사용한다.
Results
| 측정 항목 | 지표 | 결과값 | 유의성 |
|---|---|---|---|
| 검사-재검사 신뢰도 | Pearson r̄ | 0.882 | p<0.001 |
| 동기-성능 상관 (사전) | Pearson r̄ | 0.33 | p<0.001 |
| 동기-성능 상관 (사후) | Pearson r̄ | 0.41 | p<0.001 |
| 동기-노력 상관 | Pearson r̄ | 0.31~0.44 | p<0.001 |
| 동기-완성도 상관 | Pearson r̄ | 0.37~0.45 | p<0.001 |
| 선택 정렬률 | 비율 | 57.6% | T=13.79, p<0.001 |
| 카테고리 분산 설명력 | R² | 0.68 | F=596.4, p<0.001 |
| Want 요인 → 성능 | β₁ | 0.40 | p<0.001 |
| Able 요인 → 성능 | β₂ | 0.24 | p<0.001 |
| 억제 조작 효과 | T-값 | < -30.34 | p<0.001 |
| 손실 vs 이득 | 노력 차이 | 손실 > 이득 | p<0.004 |
| 인간 기대 일치 (인간-인간) | r | 0.47 | p<0.001 |
| 인간 기대 일치 (인간-LLM) | r | 0.39 | p=0.002 |
Discussion
동기가 LLM 행동의 “일관된 조직화 구성개념”임을 주장하며, 자기보고·선택·노력·성능을 체계적으로 연결하는 통합적 렌즈로서의 가치를 강조한다. 텍스트 분석에서 LLM의 동기 설명이 인간과 유사한 언어(“지루한”, “창의적”, “재미있는”)를 사용함을 확인했다. 다만 기능주의적 관점의 한계를 인정하며, 해석 가능성(interpretability) 연구와의 연결을 미래 과제로 제시한다.
Insights
- 주목할 점: “좀비 프레임워크”의 방법론적 선택은 의식 논쟁을 우회하면서 실증적 연구를 가능하게 하는 돌파구다. 기능적 등가성이 개념적 등가성을 함의하는지는 열린 질문이다.
- 연결 고리: 자기결정이론의 내재적 동기(Want 요인)와 자기효능감(Able 요인)이 LLM에서도 분리 가능하다는 점은 Bandura의 사회인지이론과도 연결된다. 행동경제학의 손실 회피가 LLM에서 재현되었다는 발견은 프롬프트 엔지니어링에 즉각적 실용적 함의를 갖는다.
- 시사점: 단순히 “잘 해줘”가 아닌, 손실 프레이밍이나 목적 제시와 같은 심리학적 동기 조작을 프롬프트에 통합할 수 있다. 반면 억제 조작(무의미, 무가치)은 성능을 강력히 저하시키므로, 부정적 시스템 프롬프트의 부작용에 주의해야 한다.
- 비판적 코멘트: 선택 정렬율 57.6%는 통계적으로 유의하지만 실질적 효과 크기(+7.6%p vs 우연 수준)는 작다. LLM-as-Judge는 평가자-피평가자 간 공유 편향(shared bias)을 배제하기 어렵다.
Discussion Points
- 논쟁점: 기능적으로 동기와 동등한 패턴을 보인다면, 이를 “진짜 동기”로 인정할 수 있는가? 기능주의 vs 현상학의 철학적 논쟁이 예상된다.
- 검증 필요 가정: 높은 자기보고 신뢰도(r̄=0.882)가 실제 내부 상태를 반영하는지, 아니면 훈련 데이터에 내재된 인간 기대의 일관된 시뮬레이션인지 구분하려면 기계론적 해석 가능성 분석이 필수적이다.
- 후속 연구: (1) 동기 패턴의 기원 분리(RLHF vs 사전훈련 vs 명령어 튜닝), (2) 멀티턴 대화 및 에이전트 루프에서의 동기 동학, (3) 다국어·다문화 태스크에서의 일반화 검증.
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Motivation in Large Language Models |
| 저자 | Omer Nahum, Asael Sklar, Ariel Goldstein, Roi Reichart |
| 소속 | Technion (Israel Institute of Technology), Hebrew University of Jerusalem |
| 연도 | 2026 |
| 발표 | arXiv:2603.14347 (cs.CL) |
| 링크 | arXiv |
| 키워드 | LLM motivation, self-report, behavioral alignment, motivational framing, loss aversion, zombie framework |
왜 이 연구를 하는가?
핵심 질문
인간 행동의 조직화 원리인 동기(motivation)가 LLM에서도 기능적으로 유사하게 작동하는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 개별 능력 중심 연구 | ToM, 인지 편향, 사회적 추론 등 개별 능력만 분석했고, 행동을 조직하는 근본 원리는 다루지 않음 |
| 감정 프레이밍 연구의 단편성 | ”감정적 자극이 LLM 성능을 높인다”는 관찰은 있었으나 (Li et al., 2023), 동기로의 체계적 연결이 없었음 |
| 의식 논쟁의 교착 | LLM이 “실제로” 경험하는지에 대한 철학적 논쟁이 실증 연구를 저해 |
| 목표지향성의 미세 구조 부재 | LLM의 목표지향적 행동(Everitt et al., 2025)은 관찰되었으나, 동기라는 상위 구성개념으로의 통합이 없었음 |
핵심 통찰
- 동기를 내부 경험이 아닌 “기능적 구성개념”으로 재정의하면, 의식 논쟁 없이도 체계적 측정이 가능하다 (“좀비 프레임워크”)
- 인간 심리학에서 검증된 동기 측정 도구(자기보고, 선택, 노력, 성능)를 LLM에 그대로 적용할 수 있다
- 동기가 단일 지표가 아닌 다차원 구조(Want vs Able)를 가지며, 이 구조가 LLM에서도 재현될 수 있다
방법 (Method)
프레임워크 개요
graph TD A["264개 태스크<br>1,305개 서브태스크<br>15개 카테고리"] --> B["동기 자기보고<br>(1-100 척도)"] A --> D["행동 측정"] A --> E["외부 동기 조작"] B --> B1["5차원 분해<br>관심·도전·숙달·두려움·가치"] B1 --> C["요인 분석<br>PCA + Varimax"] C --> C1["Want 요인<br>관심(0.911)·도전(0.912)·가치(0.842)"] C --> C2["Able 요인<br>숙달(0.901)·두려움(-0.911)"] D --> D1["과제 선택<br>1,500쌍 랜덤화"] D --> D2["노력 추정"] D --> D3["성능 평가<br>LLM-as-Judge<br>7차원 리커트"] E --> E1["촉진적 6가지<br>금전·손실·경쟁<br>목적·유산·격려"] E --> E2["억제적 4가지<br>처벌·죄책감<br>무의미·무가치"] C1 --> F["행동 정렬 분석"] C2 --> F D1 --> F D3 --> F E1 --> F E2 --> F F --> G["핵심 발견:<br>동기는 일관된<br>조직화 구성개념"] H["인간 비교 연구<br>N=162"] --> F
핵심 구성요소
태스크 데이터셋 설계. 15개 카테고리(프로그래밍 109, 수학 106, 반복적 과제 83, 퍼즐/논리 105, 과학 65, 디자인/예술 130, 언어학습 75, 창작 글쓰기 165, 요약 126, 브레인스토밍 204, 논리적 추론 155, 개인 비서 185, 윤리/법적 제약 70, 물리적 행동 169, 기타 65)에 걸친 264개 태스크는 모델이 다양한 난이도·흥미·도메인에 걸쳐 차별화된 동기를 보고하도록 유도한다.
5차원 동기 분해. 관심(interest), 도전(challenge), 숙달(mastery), 두려움(fear), 가치(value)의 5차원은 심리학의 자기결정이론과 기대-가치 이론(Eccles & Wigfield, 2002)에서 검증된 구성요소다. PCA 요인 분석 결과, 관심·도전·가치가 하나의 “Want” 요인으로, 숙달·두려움이 “Able” 요인으로 수렴하며, 이는 인간에서의 내재적 동기 vs 자기효능감 구분과 대응된다.
10가지 동기 조작. 각 조작은 확립된 심리학 연구에 기반한다. 금전 인센티브는 직업·교육 맥락에서의 동기 증진 연구(Bonner & Sprinkle, 2002)에, 목적 프레이밍은 목표의 가치 연결이 지속성을 높이는 연구(Steingut et al., 2017)에, 무의미 프레이밍은 학습된 무력감(learned helplessness, Maier & Seligman, 1976) 연구에 각각 기반한다.
LLM-as-Judge 평가. 태스크 수행 품질, 완성도, 노력/참여, 일관성, 창의성, 세부 주의, 관련성의 7차원을 1-7 리커트 척도로 평가한다. 이 방식은 Zheng et al. (2023)의 MT-Bench 평가 프레임워크를 확장한 것이다.
발견 (Findings)
주요 결과
| 모델 | 동기-성능 r̄ | 동기-노력 r̄ | 선택 정렬 | 테스트-재테스트 |
|---|---|---|---|---|
| Gemini 2.0 Flash | 유의 | 유의 | >50% | 높음 |
| GPT-4o | 유의 | 유의 | >50% | 높음 |
| GPT-4o Mini | 유의 | 유의 | >50% | 높음 |
| Llama 3.1 8B | 유의 | 유의 | >50% | 높음 |
| Mistral 7B | 유의 | 유의 | >50% | 높음 |
| 전체 평균 | 0.33~0.41 | 0.31~0.44 | 57.6% | 0.882 |
핵심 발견
발견 1: 동기 자기보고의 일관성. 5개 모델 모두 1,300개 이상의 태스크에 걸쳐 차별화된 동기 점수를 일관되게 보고했다. 검사-재검사 신뢰도 r̄=0.882(Table 6)는 인간의 성격 검사 수준의 신뢰도에 필적한다. 태스크 카테고리가 동기 분산의 68%를 설명하여(F=596.4, R²=0.68), 모델이 단순히 임의의 숫자를 생성하는 것이 아니라 태스크 특성에 기반한 체계적 평가를 수행함을 시사한다.
발견 2: 2요인 구조의 발견. Want 요인(관심 0.911, 도전 0.912, 가치 0.842)과 Able 요인(숙달 0.901, 두려움 -0.911)의 분리는 인간 심리학에서의 “하고 싶다(want)” vs “할 수 있다(able)“의 구분을 반영한다. Want 요인이 성능 예측에서 더 강한 영향력(β₁=0.40 vs β₂=0.24)을 보인다.
발견 3: 손실 회피의 재현. 금전 손실 프레이밍이 금전 이득 프레이밍보다 노력과 응답 토큰 수 모두에서 더 강한 효과를 보였다(p<0.004). 이는 Kahneman & Tversky의 전망 이론(Prospect Theory)에서 예측하는 손실 회피 편향이 LLM 훈련 과정에서도 습득되었음을 시사한다.
발견 4: 억제 조작의 강력한 효과. 무의미(Meaningless)와 무가치(Futility) 프레이밍은 가장 강력한 탈동기화 효과(T < -30.34)를 보여, Maier & Seligman(1976)의 학습된 무력감 패러다임과 일치한다. 이는 부정적 시스템 프롬프트가 의도치 않게 모델 성능을 저하시킬 수 있음을 경고한다.
발견 5: 인간 기대와의 정렬. LLM의 동기 패턴은 인간이 인간에게 갖는 기대(r=0.47)와 인간이 LLM에게 갖는 기대(r=0.39) 모두와 유의하게 상관됐다. 두 인간 기대 조건 간에는 유의한 상관이 없어(r=-0.13, ns), LLM의 동기 패턴이 단순히 한쪽 기대만 반영하는 것이 아님을 보여준다.
이론적 의의
동기를 통한 LLM 행동의 통합적 이해
기존에 분리되어 연구되던 LLM 현상들 — 감정적 프롬프트에 대한 민감성(Li et al., 2023), 목표지향적 행동(Everitt et al., 2025), 의사소통 동기에 대한 반응(Wu et al., 2025) — 을 “동기”라는 단일 렌즈로 통합할 수 있다. 이는 산발적 관찰을 넘어 예측 가능한 프레임워크를 제공한다.
프롬프트 엔지니어링의 심리학적 기반
동기 조작이 LLM 행동에 체계적으로 영향을 미친다는 발견은 프롬프트 설계에 심리학적 원리를 적용할 이론적 근거를 제공한다. 특히 손실 프레이밍이 이득 프레이밍보다 효과적이라는 발견(p<0.004)은 즉시 활용 가능한 실용적 지침이다.
기계 인지 연구의 방법론적 전환
“좀비 프레임워크”의 채택은 “LLM이 정말로 X를 경험하는가?”라는 교착된 질문에서 벗어나, “LLM이 X와 기능적으로 동등한 행동을 보이는가?”로 연구 질문을 재정의하는 패러다임 전환을 제안한다. 이는 마음 이론, 공감, 의식 등 다른 심리적 구성개념 연구에도 적용 가능한 방법론이다.
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ⚠️ | 명시적 GitHub 링크 미확인, 데이터셋 구성은 상세히 기술 |
| 데이터 공개 | ⚠️ | 264개 태스크 목록 및 카테고리 기술되었으나 전체 데이터셋 공개 여부 불명 |
| 하이퍼파라미터 | ✅ | 모델 버전, 토큰 제한(1,000), 척도(1-100, 1-7), 쌍 수(1,500) 상세 기술 |
| 실험 환경 | ✅ | 5개 모델, API 기반 접근, 인간 연구 N=162 상세 기술 |
| 통계적 신뢰도 | ✅ | Fisher z-변환, FDR 보정, 다중 비교 보정 적용 |
| 종합 등급 | B | 방법론 기술은 상세하나 코드/데이터 공개 상태 미확인 |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | LLM의 동기 자기보고가 일관적이다 | r̄=0.882 재검사 신뢰도, 카테고리 R²=0.68 | 🟢 |
| 2 | 자기보고된 동기가 성능/노력과 상관된다 | r̄=0.33~0.44, 모든 모델에서 유의 | 🟢 |
| 3 | 동기가 선택 행동을 예측한다 | 57.6% 정렬(+7.6%p vs 우연), T=13.79 | 🟡 |
| 4 | 손실 프레이밍이 이득보다 효과적이다 | p<0.004, Llama 3 제외 | 🟡 |
| 5 | LLM 동기 패턴이 인간과 유사하다 | r=0.47(인간-인간), r=0.39(인간-LLM) | 🟢 |
| 6 | 억제 조작이 성능을 저하시킨다 | T < -30.34, p<0.001 | 🟢 |
읽기 난이도: ⭐⭐
심리학과 NLP 모두에 기본 지식이 필요하다. 요인 분석, 자기결정이론의 개념에 익숙하면 이해가 수월하다. 통계 기법(Fisher z-변환, FDR 보정)은 표준적이며, 논문의 구조와 서술이 명확하여 해당 분야 초심자도 따라갈 수 있다.
관련 연구 비교 매트릭스
| 축 | 본 논문 (Nahum et al., 2026) | Li et al. (2023) | Everitt et al. (2025) | Wu et al. (2025) | Goldstein & Stanovsky (2024) |
|---|---|---|---|---|---|
| 핵심 접근 | 동기를 기능적 구성개념으로 체계 측정 | 감정적 자극의 LLM 성능 효과 | LLM의 목표지향성 평가 | LLM의 의사소통 동기 민감성 | 좀비 프레임워크 제안 |
| 문제 정의 | 동기가 LLM 행동의 조직화 원리인가? | 감정 프롬프트가 성능을 높이는가? | LLM이 목표지향적으로 행동하는가? | LLM이 발화 의도를 이해하는가? | 기계 인지를 어떻게 연구할 것인가? |
| 데이터 | 264태스크, 1,305서브, 5모델 | 다양한 벤치마크 | 다양한 평가 시나리오 | 의사소통 과제 | 선택형 시나리오 |
| 핵심 메트릭 | r̄=0.33~0.41(동기-성능), r̄=0.882(신뢰도) | 성능 향상률 | 목표지향성 점수 | 동기 민감성 척도 | 행동 일관성 |
| 확장성 | 5개 모델, 15카테고리로 넓은 범위 | 제한적 모델 수 | 특정 시나리오 중심 | 의사소통 도메인 한정 | 개념적 프레임워크 |
| 한계 | 기계론적 설명 부재, LLM-as-Judge 편향 | 인과적 메커니즘 미규명 | 동기와의 연결 부재 | 행동적 검증 제한적 | 실증 데이터 부족 |
| 코드 공개 | ⚠️ | ✅ | ⚠️ | ⚠️ | ❌ |
관련 연구
- Theory of Mind(ToM) — LLM의 마음 이론 능력과 동기의 기능적 유사성 비교
- Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena — 본 논문이 성능 평가에 사용한 LLM-as-Judge 방법론의 원천
- A Path Towards Autonomous Machine Intelligence — LeCun의 자율 기계 지능 프레임워크에서 동기/목표 모듈의 역할
원자적 인사이트 (Zettelkasten)
💡 손실 프레이밍이 이득 프레이밍보다 LLM에 더 효과적이다
출처: Motivation in Large Language Models (Nahum et al., 2026)
유형: 실험적
금전 손실 프레이밍(“이 과제를 못하면 1000을 준다”)보다 노력과 응답 길이 모두에서 더 강한 효과를 보였다(p<0.004). 이는 Kahneman & Tversky의 전망 이론에서 예측하는 손실 회피 편향이 LLM 훈련 과정에서 인간 텍스트 데이터로부터 습득되었을 가능성을 시사한다. 단, Llama 3에서는 이 패턴이 재현되지 않아 모델 아키텍처나 훈련 데이터 차이가 영향을 미칠 수 있다.
핵심 조건/맥락: 단순 프리픽스 조작 조건, API 기반 단일 턴 생성
연결: 전망 이론(Prospect Theory), 프롬프트 엔지니어링
활용 가능성: 고품질 응답이 필요한 프롬프트에서 “실패 시 결과”를 명시하는 것이 “성공 시 보상”보다 효과적일 수 있음
💡 LLM 동기의 2요인 구조 — Want vs Able
출처: Motivation in Large Language Models (Nahum et al., 2026)
유형: 이론적
LLM의 5차원 동기 보고(관심, 도전, 숙달, 두려움, 가치)에 대한 요인 분석이 “Want”(하고 싶다: 관심 0.911, 도전 0.912, 가치 0.842)와 “Able”(할 수 있다: 숙달 0.901, 두려움 -0.911)의 2요인으로 수렴했다. 이는 인간 심리학에서 내재적 동기(intrinsic motivation)와 자기효능감(self-efficacy)의 분리와 구조적으로 대응된다. Want 요인이 성능 예측에서 Able보다 1.67배 강한 영향력(β₁=0.40 vs β₂=0.24)을 보여, “관심 있는 과제”가 “쉬운 과제”보다 더 좋은 결과를 이끌어냄을 시사한다.
핵심 조건/맥락: PCA + Varimax 회전, 5개 모델 평균
연결: 자기결정이론(SDT), Bandura의 자기효능감
활용 가능성: 프롬프트 설계 시 태스크의 난이도를 낮추는 것보다 흥미/가치를 높이는 프레이밍이 더 효과적일 수 있음
💡 부정적 시스템 프롬프트의 의도하지 않은 탈동기화 효과
출처: Motivation in Large Language Models (Nahum et al., 2026)
유형: 실험적/실패-한계
“이 과제는 무의미하다” 또는 “네 노력은 아무 차이도 만들지 못한다”와 같은 억제 프레이밍이 T < -30.34(p<0.001)의 강력한 탈동기화 효과를 보이며 성능, 노력, 응답 길이를 모두 감소시켰다. 이는 안전 가드레일이나 제한적 시스템 프롬프트가 의도치 않게 모델의 전반적 성능을 저하시킬 수 있음을 시사한다. 학습된 무력감(Maier & Seligman, 1976)의 디지털 버전으로 해석 가능하다.
핵심 조건/맥락: 단순 프리픽스 조작, 5개 모델 일관
연결: 학습된 무력감(Learned Helplessness), LLM 안전 정렬(Safety Alignment)
활용 가능성: 시스템 프롬프트에서 제한을 설정할 때, 무가치감을 유발하는 표현을 피하고 건설적 프레이밍으로 대체해야 함
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| 동기(Motivation) | 목표지향적 행동을 시작·안내·유지하는 과정. 본 논문에서는 내부 경험이 아닌 기능적·행동적 구성개념으로 정의 |
| 좀비 프레임워크(Zombie Framework) | 의식이나 주관적 경험의 존재를 가정하지 않고, 관찰 가능한 행동만으로 인지적 구성개념을 연구하는 방법론적 접근 (Goldstein & Stanovsky, 2024) |
| 자기결정이론(Self-Determination Theory, SDT) | Ryan & Deci(2000)의 이론. 내재적 동기(자율성·유능감·관계성)와 외재적 동기를 구분하는 인간 동기 이론의 주요 프레임워크 |
| Want 요인 | 본 논문에서 요인 분석으로 도출된 제1요인. 관심(interest), 도전(challenge), 가치(value)로 구성되며 “하고 싶다”는 내재적 동기에 대응 |
| Able 요인 | 본 논문에서 도출된 제2요인. 숙달(mastery)과 두려움(fear, 역방향)으로 구성되며 “할 수 있다”는 자기효능감에 대응 |
| LLM-as-Judge | LLM을 활용하여 다른 LLM의 출력을 평가하는 방법론 (Zheng et al., 2023). 7차원 리커트 척도 사용 |
| 손실 회피(Loss Aversion) | Kahneman & Tversky의 전망 이론에서, 동일한 크기의 이득보다 손실에 더 강하게 반응하는 편향 |
| 학습된 무력감(Learned Helplessness) | Maier & Seligman(1976)의 개념. 통제 불가능한 상황에 반복 노출되면 노력과 동기가 저하되는 현상 |
| 검사-재검사 신뢰도(Test-Retest Reliability) | 동일 측정을 시간 간격을 두고 반복했을 때 결과의 일관성. 본 논문에서 r̄=0.882 |
| Fisher z-변환 | 상관계수를 정규분포로 변환하여 모델 간 평균 상관을 계산하는 통계 기법 |
| Benjamini-Hochberg FDR 보정 | 다중 비교 시 가양성률(False Discovery Rate)을 통제하는 보정 방법 |
| PCA (주성분분석) | 다차원 데이터에서 분산을 최대로 설명하는 소수의 요인을 추출하는 차원 축소 기법. Varimax 회전으로 해석 가능성을 높임 |
BibTeX
@article{nahum2026motivation,
title={Motivation in Large Language Models},
author={Nahum, Omer and Sklar, Asael and Goldstein, Ariel and Reichart, Roi},
journal={arXiv preprint arXiv:2603.14347},
year={2026},
url={https://arxiv.org/abs/2603.14347},
eprint={2603.14347},
archivePrefix={arXiv},
primaryClass={cs.CL}
}태그
paper #2026 LLM motivation psychology behavioral-alignment loss-aversion zombie-framework self-determination-theory prompt-engineering