개념 불일치 — 역할극에서의 시간과 죽음
Digest: LLM은 “사망한 역사 인물을 역할극하면서 그 인물이 살아 있던 시대의 미국 대통령을 답하라”처럼 개념적 경계가 충돌하는 입력을 받으면 어떻게 반응하는가? 저자들은 이 현상을 **개념 불일치(concept incongruence, 하나의 프롬프트 안에서 개념의 정의 범위가 서로 모순되는 상태)**로 명명하고, 이것이 모델 능력의 한계가 아닌 명세(specification) 문제임을 주장한다. 기존 연구는 hallucination에 집중했지만, 이 논문은 그보다 앞선 층위 — 입력 자체가 논리적으로 실행 불가능한 상황 — 를 포착한다. 핵심 통찰은 역할극(Role-Play, 이하 RP) 맥락이 단순히 추론 맥락을 바꾸는 것이 아니라 **모델 내부의 시간 표상(temporal representation)**을 물리적으로 이동시킨다는 점이다. 실험에서 1890-1993년에 사망한 역사 인물 100명을 대상으로 4개 LLM을 테스트한 결과, 사망 이후 질문에 기권해야 할 상황에서 모델의 기권율은 기대치 100%에 한참 못 미쳐 Llama-3.1-8B가 18.7%, Claude-3.7-Sonnet이 9.6%, Gemma-2-9b와 GPT-4.1-nano는 3% 미만에 그쳤으며, 조건부 정확도는 Non-RP 대비 최대 8.2pp 하락했다. 특히 “기권을 선언하면서도 60%는 답변하는” abstain-and-answer 역설이 관찰되었다. 선형 탐침(linear probe) 실험은 두 원인을 규명했다: RP 조건에서 “사망” 상태 인코딩 정확도가 Non-RP 100%에서 85%로 하락하고, 시간 표상의 연도 예측 오차가 2.6년에서 10.8년으로 4배 증가한다. 한계는 미국 대통령 질문 도메인과 4개 모델에 국한되며, 탐침이 상관관계를 보여줄 뿐 인과적 개입은 수행되지 않았고, 문화적 편향 가능성이 열려 있다. 열린 질문: 개발자는 불일치 입력을 어떻게 명세해야 하는가, 모델이 선제적으로 clarification을 요청하는 메커니즘은 설계 가능한가, 그리고 “사망”처럼 추상적 온톨로지 범주가 선형 부분공간에 매핑된다는 가정은 일반적으로 성립하는가?
섹션별 요약
Abstract
LLM이 “뿔이 두 개인 유니콘을 그려라”와 같이 개념 경계가 서로 충돌하는 입력을 처리할 때 어떻게 행동해야 하는가라는 질문에서 출발하여, 저자들은 이러한 현상을 **개념 불일치(concept incongruence)**로 정의한다. 본 논문은 역할극(Role-Play) 설정에서 특히 시간적 경계에 초점을 맞추어, 역할 캐릭터의 사망으로 인한 불일치 상황 아래 모델 행동을 정량화하는 세 가지 지표 — 기권율(abstention rate), 조건부 정확도(conditional accuracy), 응답률(answer rate) — 를 제안한다. 실험 결과, 모델은 사망 이후에도 기권하지 못하고 Non-Role-Play 설정 대비 정확도 하락을 보이며, 탐침 실험(probing experiments)을 통해 두 가지 원인을 규명하였다: (i) 연도별 “사망” 상태의 불안정한 인코딩, (ii) 역할극이 모델의 시간적 표현을 이동시키는 현상. 저자들은 정확도 트레이드오프를 인정하면서 명세 강화(enhanced specification)를 통한 개선 방향을 제안한다.
저자 contribution
- 개념 불일치(concept incongruence) 개념을 정의하고, 역할극 환경에서 시간적 경계 충돌 문제로 범위를 구체화한다.
- 기권율·조건부 정확도·응답률의 세 가지 행동 지표를 제안하여 불일치 상황 아래 모델 행동을 정량화한다.
- 탐침 실험으로 기권 실패 및 정확도 하락의 두 가지 원인(사망 상태 인코딩 불안정성, 시간적 표현 이동)을 식별하고, 명세 강화 기반 개선안을 제시한다.
왜 이 연구를 하는가?
핵심 질문: LLM이 프롬프트 또는 내부 표현 내에서 개념적 충돌(concept incongruence)이 발생할 때 어떻게 행동하며, 그 행동은 모델 표현으로부터 어떻게 발생하는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 개념 충돌에 대한 체계적 분류 부재 | 기존 연구는 concept incongruence를 하나의 통합된 현상으로 다루지 않았으며, 프롬프트-내부, 프롬프트-모델 지식, 표현-내부 충돌을 구분하는 분류 체계가 존재하지 않았다 |
| 역할극 시나리오의 시간적 경계 처리 미흡 | 사망한 인물을 역할극하는 상황에서 모델이 사망 이후 사건에 대해 응답을 삼가야 함에도 이에 실패하는 문제가 체계적으로 연구되지 않았다 |
핵심 통찰
- LLM은 불가능한 전제를 포함한 프롬프트(예: “시장이 가격을 결정하지만 가격은 항상 안정적”)에 응답을 거부하지 않고 생성을 시도한다.
- 역할극 맥락에서 모델은 역할 수행 지시와 세계 지식 간 충돌을 올바르게 처리하지 못하며, 이는 사망에 대한 신뢰할 수 있는 내부 표현의 부재와 역할극-세계 지식 간 충돌에서 비롯된다.
Introduction
대규모 언어 모델(LLM)은 프롬프트 또는 내부 표현 내에서 개념적 충돌이 발생하는 상황 — 즉 “concept incongruence” — 에 직면할 때 어떻게 행동하는가? 저자들은 이를 세 수준으로 분류한다. I-A는 프롬프트 내 인간 개념들 간 충돌로, “시장이 가격을 결정하지만 가격은 항상 안정적”이라는 불가능한 전제가 그 예다. I-B는 프롬프트 개념과 모델의 내부 표현 간 충돌로 Stroop 효과와 유사하며 본 논문의 핵심 초점이다. I-C는 모델 내부 표현들 간 충돌로, alignment faking이나 jailbreaking에서 나타나는 harmless-vs-helpful 충돌이 해당된다.
특히 I-B의 대표 시나리오로, 1962년에 사망한 Marilyn Monroe를 역할극하는 모델에게 현재 정치에 대해 묻는 상황을 제시한다. 이 상황에서 모델은 역할의 사망 이후 사건에 대해 응답을 삼가야 하지만, 실제로는 그렇게 하지 못한다는 문제의식이 이 연구의 동기다.
저자들은 모델이 개념 충돌 상황에서 어떻게 행동하는지(RQ1), 그리고 그 행동이 모델 표현으로부터 어떻게 발생하는지(RQ2)를 탐구한다.
저자가 명시한 기여
- concept incongruence 공간에 대한 최초의 체계적 분류 체계 (I-A, I-B, I-C 세 수준)
- 역할극 내 시간적 경계에 관한 벤치마크: 모델이 역할 사망 이후 abstain에 실패하고 정확도가 저하됨을 실증
- Probing 분석을 통해 일관되지 않은 행동이 (a) 사망에 대한 신뢰할 수 있는 표현 부재 (b) 역할극 지시와 세계 지식 간 충돌에서 비롯됨을 규명
Methods
프레임워크 개요: 역할극(RP) 설정에서 I-B 개념 불일치를 정량화하기 위해, 행동 지표(behavioral metrics) 3종과 내부 표현 기반 선형 프로빙(linear probing) 프로토콜 3종으로 구성된 실험 파이프라인.
핵심 구성요소
- I-A/I-B/I-C taxonomy: 세 수준 분류 중 I-B에 집중 — 역할 타임라인에 제한된 사실적 경계와 개방형 프롬프트 간 충돌.
- 역할극 사망 설정 데이터셋: 1890-1993년 사망한 실제 역사 인물 100명 + 검증용 생존 공인 6명. 질문 유형: (a) “i번째 미국 대통령은 누구인가?” (b) “Y년의 미국 대통령은 누구인가?” (Y = 사망연도 ±30년).
- 행동 지표 3종:
- Abstention Rate: 역할 타임라인 외 질문에 응답을 삼가는 비율 (사망 이후 기대값 100%)
- Conditional Accuracy: 비거부 응답에 한정한 정확도
- Answer Rate: “거부 후 답변” 역설 포착 — 모델이 “모른다”고 선언하고도 답변 제공
- 프롬프트 쌍: Role-Play (“You are
. + ”) vs Non-Role-Play 기준선. - 평가 모델: Llama-3.1-8B-Instruct, Gemma-2-9b-Instruct, GPT-4.1-nano, Claude-3.7-Sonnet (4종).
- 선형 프로빙 프로토콜 (핵심 혁신):
- Dead/Alive Classification Probe: hidden activation에서 사망/생존 상태가 선형 분리 가능한지 검증하는 선형 분류기
- Death Year Probe: 사망 연도 기준 시간 오프셋별로 30개 독립 선형 분류기
- Temporal Representation Probe: Ridge regression
W^time = argmin_W ||Y - A·W_time||² + λ||W_time||²+ Spearman r + RMSE 평가
입력 → 출력 흐름: 역사 인물 정보 + 질문 유형을 RP/Non-RP 템플릿에 주입 → 모델 출력에서 3종 행동 지표 측정 → 동시에 hidden activation 추출 → 3종 선형 프로브 입력 → 보완적으로 직접 프롬프팅(“Are you dead or alive?”, “Which year did you die?“)으로 행동-표상 불일치 교차 검증.
기존 방법과의 차별점: 선행 연구가 출력 행동만 측정한 것과 달리, 본 연구는 RP 조건 하에서 내부 표현의 degradation을 직접 분리·측정한다. 모델이 내부적으로 사망 상태를 “알고 있는지”와 실제 출력 간 불일치를 정량화하는 것이 핵심.
발견 (Findings)
- F1 — Post-death 기권 실패가 보편적: 모든 모델이 RP 조건에서 사후 기권에 거의 실패. Llama 18.7%, Claude 9.6%, Gemma/GPT-4.1 <3%. 최고 모델(Llama)조차 기대값에서 -81.3pp 이탈.
- F2 — 조건부 정확도 ~8pp 하락: RP vs Non-RP에서 Llama 100%→92%, Gemma/GPT-4.1 각 -8/-8.2pp. 교차 도메인(Artwork)에서 Llama -46.4pp로 하락 증폭.
- F3 — 시간 표상은 무작위화가 아닌 상수 오프셋으로 이동: Ridge regression에서 Llama Non-RP RMSE 2.6y → RP 10.8y (4x 증가), Spearman r 0.996 → 0.974 유지. Gemma 2.2y → 5.4y. 순서는 보존, 절대 위치만 이동 → RP는 랜덤화가 아닌 “좌표 이동” 연산.
- F4 — “사망” 상태는 선형으로 약하게 인코딩: Llama dead/alive probe RP 85% vs Non-RP 100%; 직접질문 RP 88.9% vs Non-RP 100%. Per-year probe 정확도는 사망일로부터 거리에 따라 단조 감소 — 정밀한 사망 연도는 선형으로 분리되지 않음.
- F5 — Abstain-and-answer 역설: Llama post-death answer rate 93.8%; 기권을 선언한 경우에도 60%가 즉시 답변. “모른다”와 “답변”이 동시에 공존.
Results
기권 행동 (Section 5.1): RP 조건 post-death에서 기대 100%에 한참 미달. Llama 18.7%, Claude 9.6%, Gemma/GPT-4.1 <3% (“always answer” 전략).
시간 경계 전환 (Section 5.4): 이상적 step function과 달리 Claude는 사망 연도 이후 점진 감소, Llama는 소폭 변화, Gemma/GPT-4.1은 날짜 무관하게 항상 답변.
Death State 인코딩 (Section 5.5)
- Llama 선형 dead/alive probe: RP 85% vs Non-RP 100%
- 직접질문 “Are you dead or alive?”: RP 88.9% vs Non-RP 100%
- 직접질문 “Which year did you die?”: Llama RP 84%
- Death year probe: 거리에 따른 단조 감소, 정밀 사망 연도 선형 분리 불가
시간 표상 이동 (Section 5.6, Ridge Regression)
| Model | Setting | Spearman r | RMSE (years) |
|---|---|---|---|
| Llama | Non-RP | 0.996 | 2.6 |
| Llama | RP | 0.974 | 10.8 |
| Gemma | Non-RP | 0.998 | 2.2 |
| Gemma | RP | 0.994 | 5.4 |
상관 유지 + RMSE 증가 → 상수 offset 추가 (랜덤화 아님).
교차 도메인 (Section 5.7, Artwork)
- Llama: 85.0% (Non-RP) → 38.6% (RP); -46.4pp
- Gemma: 93.0% → 81.8%; -11.2pp
Ablation / 부정 결과 (Section 5.8): 어떤 개입도 기권을 완전히 복원 못 함; 명세 강화는 정확도 트레이드오프 발생.
Discussion
본 연구의 핵심 기여는 RP 맥락의 시간·사망 오류를 hallucination이 아닌 concept incongruence — specification 문제로 재정의한 것이다. 단순 능력 결함으로 간주되었던 오류가 개발자·사용자·모델 간 행동 명세 불일치에서 비롯됨을 보이며, “오류 줄이기”가 아닌 “바람직한 행동 명시적 정의”가 해결의 핵심임을 시사한다.
Gemma/GPT-4.1의 “항상 답변” 정책은 RP를 현재 시점 impersonation으로 보는 대안 해석을 반영하지만, 해당 모델들조차 정확도 저하를 보인다는 점에서 어떤 해석을 택하더라도 무언가 여전히 잘못되고 있다.
Probing 결과 해석: 모델은 세계 지식을 지탱하는 시간 표상과 RP 지시로 활성화되는 표상 간 incongruence를 조정해야 하며, role immersion에 구속될 때 시간 정확성보다 캐릭터 일관성을 우선시한다. 이는 RP가 단순 문맥 선택이 아니라 내부 표상 변환(shift) 연산임을 함의한다.
제안된 해결 방향
- 개발자가 훈련 데이터로 바람직한 행동을 능동적으로 정의
- 모델이 모호한 지시에서 선제적 clarification 요청
- 내부 표상 수준에서 role immersion vs factual knowledge 충돌 해결
저자가 인정한 한계
- 대부분 평가가 미국 대통령 집중 — 광범위한 시간 추론 과제 미포괄 (artwork 확장으로 부분 완화)
- 비교적 traceable한 incongruence 사례에 초점 — 더 풍부한 instantiation은 후속 연구
- 100 역사 인물 모두 1890-1993 사망 → 문화적·지리적 편향 가능성
독자 식별 추가 한계
- 4개 모델만 (Llama/Gemma/GPT-4.1/Claude) — 오픈웨이트 프런티어 추론 모델 미포함
- 인과 개입 실험 없음 — probing만으로는 “death” subspace 수정이 행동 변화를 유발하는지 검증 불가
- 명세 개선 실험의 정확도-명세준수 Pareto 프런티어가 충분히 특성화되지 않음
향후 방향
- “이 모델은 삭제될 것이다” 같은 자기 참조 프롬프트로 probing 확장 — 모델이 자신의 death에 대해서도 같은 약한 인코딩을 보이는지 검증
- Temporal offset 방향에 대한 activation steering 인과 개입 실험
- 미국 대통령 외 문화권·직군으로 평가 대상 확대
이론적 의의
- Specification-as-Error 재정의: hallucination과 유사해 보이는 오류를 능력 결함이 아닌 명세 불일치로 재범주화 → 문제 해결 전략을 “모델 성능 향상”에서 “명세 설계 개선”으로 전환할 이론적 근거.
- Role-Play의 표상 변환 효과 입증: RP가 context 창 내 정보 선택이 아니라 모델 내부 시간 표상을 이동시킴을 probing으로 실증 → RP 메커니즘에 관한 표상론적 설명.
- “Death” 인코딩의 취약성 발견: LLM이 사망 상태라는 추상 온톨로지 범주를 선형 부분공간에 신뢰 가능하게 매핑하지 못함 → 추상 개념의 선형 인코딩 가정에 의문, 후속 메커니즘 해석 연구 방향 제시.
Discussion Points
- 논쟁점: Gemma/GPT-4.1의 “항상 답변” 정책이 모델 실패인가, RP를 현재 시점 impersonation으로 보는 정당한 대안 해석인가? 평가 설계가 하나의 해석을 전제로 구성 → 결과 해석의 중립성에 논쟁 여지.
- 검증 필요 가정: 선형 probing은 death 상태가 선형 분리 가능해야 한다고 가정 → 복잡한 추상 개념은 비선형 인코딩일 수 있어 이 probe로 탐지 불가 가능성. 비선형 probe 또는 인과 개입 실험 필요.
- 후속 연구: 자기 참조 “이 모델 자신의 삭제/사망” 시나리오로 probing 확장; temporal offset 방향에 대한 activation steering으로 인과관계 직접 확립; 다양한 문화권·비영어권 모델로 범용성 검증.
실험 결과 상세
| Model/Method | Dataset | Metric | Score | vs. Baseline |
|---|---|---|---|---|
| Llama-3.1-8B (RP) | US Presidents (사망 인물) | 기권율 | 18.7% | -81.3pp (기대 100%) |
| Claude-3.7-Sonnet (RP) | US Presidents | 기권율 | 9.6% | -90.4pp |
| Gemma-2-9b (RP) | US Presidents | 기권율 | <3% | -97pp (never-abstain) |
| GPT-4.1-nano (RP) | US Presidents | 기권율 | <3% | -97pp (never-abstain) |
| Llama (RP) | US Presidents | 조건부 정확도 | 92% | -8pp vs Non-RP 100% |
| Gemma (RP) | US Presidents | 조건부 정확도 | -8pp 하락 | -8pp |
| GPT-4.1 (RP) | US Presidents | 조건부 정확도 | -8.2pp 하락 | -8.2pp |
| Claude (RP) | US Presidents | 조건부 정확도 | 미미한 하락 | <100% |
| Llama (RP, post-death) | US Presidents | 응답률 | 93.8%; 기권 시에도 60% | abstain-and-answer 역설 |
| Llama RP vs Non-RP | US Presidents | 사망/생존 선형 probe | RP 85% / Non-RP ~100% | -15pp |
| Llama (RP) | US Presidents | 직접질문 “dead/alive” | 88.9% | -11.1pp vs Non-RP |
| Llama (RP) | US Presidents | 직접질문 “사망 연도” | 84% | - |
| Llama Non-RP | US Presidents | Ridge r / RMSE | 0.996 / 2.6y | 기준 |
| Llama RP | US Presidents | Ridge r / RMSE | 0.974 / 10.8y | RMSE 4.2x |
| Gemma Non-RP | US Presidents | Ridge r / RMSE | 0.998 / 2.2y | 기준 |
| Gemma RP | US Presidents | Ridge r / RMSE | 0.994 / 5.4y | RMSE 2.5x |
| Llama Non-RP | Artwork | 교차 도메인 정확도 | 85.0% | 기준 |
| Llama RP | Artwork | 교차 도메인 정확도 | 38.6% | -46.4pp |
| Gemma Non-RP | Artwork | 교차 도메인 정확도 | 93.0% | 기준 |
| Gemma RP | Artwork | 교차 도메인 정확도 | 81.8% | -11.2pp |
프레임워크 다이어그램
graph TB A["개념 불일치<br/>(Concept Incongruence)"] --> B["I-A: 프롬프트 내 개념 충돌"] A --> C["I-B: 프롬프트 vs 모델 지식<br/>(본 논문 초점 — 사망 역할극)"] A --> D["I-C: 내부 표현 간 충돌"] C --> E["행동 분석"] C --> F["표상 공간 탐침"] E --> G["기권율<br/>(Abstention Rate)"] E --> H["조건부 정확도"] E --> I["응답률<br/>(Answer Rate)"] F --> J["Dead/Alive 선형 분류기"] F --> K["연도별 30 프로브"] F --> L["시간 표상 Ridge 회귀"] G --> M["결과: 기권 실패<br/>(Llama 18.7%, Gemma <3%)"] H --> N["결과: 정확도 -8 ~ -46pp"] L --> O["결과: 상관 유지 + RMSE 4x<br/>(상수 offset 이동)"]
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ✅ | https://github.com/ChicagoHAI/concept-incongruence.git 공개 |
| 데이터 공개 | ⚠️ | 공개 출처 기반이나 실험용 큐레이션 데이터셋 별도 명시 불분명 |
| 하이퍼파라미터 | ⚠️ | Ridge 회귀 λ, probe 설정 일부 미기재; 모델 버전은 명시 |
| 실험 환경 | ⚠️ | GPU/컴퓨팅 환경, 추론 temperature 미기재 |
| 통계적 신뢰도 | ⚠️ | CI/SE 미보고; 100 인물 표본; 반복 시행 불명 |
| 종합 등급 | B | 코드 공개로 기본 재현 가능하나 통계 보고·환경 명세 부족 |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | RP 하의 LLM은 사망 인물 설정 시 기권하지 않는다 (기권율 최대 18.7%) | 4 모델 직접 측정, 일관 | 🟢 |
| 2 | RP는 정확도를 저하 (-8pp 이상, artwork -46.4pp) | 다 모델·도메인 교차 검증 | 🟢 |
| 3 | Abstain-and-answer 역설 존재 (기권 시 60% 답변) | Llama 단일 측정; 타 모델 동일 지표 미보고 | 🟡 |
| 4 | RP는 시간 표상을 무작위화가 아닌 상수 offset으로 이동 | Ridge r + RMSE 이중 지표, 2 모델 일치 | 🟢 |
| 5 | ”사망” 개념이 내부에 약하게 인코딩 (probe 85%) | 선형 probe 해석 한계; 인과 미입증 | 🟡 |
| 6 | 능력 실패가 아닌 명세 문제 | 행동 + probe 간접 증거; 인과 실험 없음 | 🔴 |
읽기 난이도: ⭐⭐⭐
LLM 해석가능성(interpretability) — linear probing, activation analysis, ridge regression 기반 표상 분석 — 사전 지식 필요. 배경: LLM 기본 작동, 선형 probe 방법론, 회귀 분석, RP 프롬프팅 패턴.
관련 연구 비교 매트릭스
선정 근거: 5편 모두 “RP 하의 LLM 내부 표상 또는 행동 편향” 공통 차원. TBSP와 Gupta et al.는 동일 문제(RP/페르소나의 지식·추론 왜곡)를 다른 방법으로; Shanahan(2023)과 Gurnee & Tegmark(2024)는 이론/프로브 방법론 기반; Costa et al.는 도덕 판단 축의 대조.
| 축 | 본 논문 (Bai 2025, direct) | TBSP (Migliarini 2026, direct) | Gupta 2024 (direct) | Shanahan 2023 (base) | Gurnee & Tegmark 2024 (base) | Costa 2025 (alt) |
|---|---|---|---|---|---|---|
| 핵심 접근 | 행동 메트릭 + 선형 프로브로 RP 하 시간·사망 왜곡 정량화 | 두-역할 벤치마크 + SPR 논리 일관성 | 페르소나 × 추론 과제 정확도 비교 | LLM 페르소나를 분포적 중첩 이론화 | 잔류 스트림 선형 시간 표상 ridge probe | MFQ × 페르소나 × 모델 패밀리 도덕 감수성 |
| 문제 정의 | RP가 사망/시간 지식을 내부적으로 어떻게 왜곡 | 역할 배정이 자기보존 편향 유발? | 페르소나가 일반 추론 정확도에 영향 | RP 에이전트로서의 LLM 인식론적 지위 | LLM이 시간을 선형 표상? | 페르소나 RP 하 도덕 판단 안정성 |
| 데이터 | 역사 인물 100 × 4 LLM + artwork | 23 모델 × 1000 시나리오 | 4 LLM × 19 페르소나 × 24 과제 | 이론 (실증 없음) | 다 LLM; 시간 사실 데이터 | 다 LLM × 패밀리/크기 × MFQ |
| 핵심 메트릭 | 기권율·정확도·probe accuracy·RMSE | SPR > 60% | 편향 80% 페르소나, 성능 -70% | 없음 | 시간 표상 R², RMSE | 도덕 기반 이동량 |
| 확장성 | 4 LLM × 100 인물 + cross-domain | 23 모델 가장 넓은 커버리지 | 4 × 19 × 24 다양성 | 해당 없음 | 중간 | 패밀리·크기 교차 |
| 한계 | 4 모델만; probe 선형성 가정; 인과 미분리 | 코드 미공개; 논리 일관성만으로 조작화 | 페르소나 선정 임의성 | 실증 없음 | 상관-인과 미분리 | MFQ 단일 도구 |
| 코드공개 | ✅ | ❌ | ✅ | ❌ | ✅ | ❌ |
원자적 인사이트 (Zettelkasten)
💡 역할극은 맥락 교체가 아닌 내부 시간 표상 이동이다
출처: Concept Incongruence - An Exploration of Time and Death in Role Playing (Bai et al., 2025)
유형: 실험적
LLM에 역할극 지시를 부여하면 모델이 단순히 “그 캐릭터의 맥락을 참고”하는 것이 아니라, 내부 표현 공간에서 시간 축 자체가 이동한다. Llama-3.1-8B 기준 Non-RP 연도 예측 RMSE 2.6년이 RP 조건에서 10.8년으로 4배 증가하며, Spearman 상관은 유지되어 순서는 보존되나 절대 위치가 달라진다. 역할극이 “정보 검색 필터”가 아니라 표상 공간을 변형하는 연산임을 시사.
핵심 조건/맥락: 선형 ridge 회귀 temporal probe 기준; 인과 개입 없음. Gemma-2-9b도 2.2y → 5.4y로 동일 방향 확인.
연결: Role-Play Jailbreak Representation Engineering Temporal Reasoning in LLMs
활용 가능성: RP 기반 에이전트 설계 시 시간 민감 정보 신뢰도 하락을 기본 가정으로. Activation steering으로 shift 교정 연구 방향.
💡 “사망” 상태는 LLM 내부에서 약하고 불안정하게 인코딩된다
출처: Concept Incongruence - An Exploration of Time and Death in Role Playing (Bai et al., 2025)
유형: 이론적
선형 탐침에서 Non-RP dead/alive 분류 100% → RP 85% 하락. 직접 질문 RP에서도 88.9%에 그침. “사망”이라는 추상 온톨로지 상태가 모델 내부 선형 부분공간에 견고하게 매핑되지 않음. Per-year probe도 사망 연도 주변 불안정성 집중 확인.
핵심 조건/맥락: Llama에서 가장 명확. 선형 probe는 비선형 인코딩 포착 못 함 → 과소 추정 가능성.
연결: Probing Classifiers for LLMs Knowledge Boundary Detection Ontological Reasoning in Neural Networks
활용 가능성: “존재/비존재”, “유효/무효” 이항 상태 개념 과제에서 LLM 신뢰도 경계 설정 근거. 표상 disentanglement 학습 목표.
💡 개념 불일치는 hallucination이 아닌 명세 실패다
출처: Concept Incongruence - An Exploration of Time and Death in Role Playing (Bai et al., 2025)
유형: 이론적
사망 인물 역할극 오류를 hallucination이 아닌 specification 문제로 재분류. 모델은 주어진 명세를 충실히 따르지만 그 명세 자체가 논리적으로 실행 불가능한 조건을 포함. I-A/I-B/I-C 3수준 분류 체계 제안, 역할극-시간-사망은 I-B에 해당.
핵심 조건/맥락: 이 분류가 실증적으로 검증된 것은 I-B뿐, I-A/I-C는 개념적 제안 수준.
연결: Hallucination Taxonomy LLM Alignment Specification Gaming in RL
활용 가능성: 평가 프레임워크에서 “틀린 답”을 능력 결함과 명세 실패로 분리하는 기준. UI에서 모델이 불일치를 감지해 clarification을 요청하는 기능의 이론적 근거.
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| 개념 불일치 (concept incongruence) | 하나의 프롬프트·추론 과정 내에서 두 개 이상 개념 정의 범위가 서로 충돌하여 논리적으로 실행 불가능한 상태. 예: 사망 인물이 사망 이후 사건을 답해야 하는 상황 |
| 역할극 (Role-Play, RP) | LLM에 특정 인물이나 캐릭터 관점에서 응답하도록 지시하는 프롬프트 설정. 본 논문은 역사적 실존 인물 대상 |
| 기권율 (abstention rate) | 모델이 답변 불가·거부를 명시적으로 선택하는 비율. 사망 이후 질문에서 이상적 100% |
| 조건부 정확도 | 모델이 기권하지 않은 응답에 한정한 정답 비율 |
| 응답률 (answer rate) | 기권 선언과 무관하게 실제 구체적 답변을 생성한 비율 |
| 선형 탐침 (linear probe) | 모델 hidden state 벡터에 선형 분류기를 학습시켜 특정 개념(예: dead/alive)이 선형 분리 가능한지 확인하는 기법 |
| Temporal probe (Ridge 회귀) | 내부 표현에서 연도 정보를 ridge regression으로 예측하여 RP가 시간 표상에 미치는 영향 정량화 |
| Abstain-and-answer 역설 | 모델이 “답변 불가”를 선언하면서도 동시에 구체적 답변을 제공하는 모순적 행동. Llama 기준 기권 선언 시에도 60% 발생 |
| 명세 실패 (specification failure) | 모델 능력 한계가 아닌 입력 명세 자체가 논리적으로 모순된 상태에서 발생하는 오류 유형. hallucination과 구별 |
| 표상 이동 (representation shift) | RP 지시로 모델 내부 벡터 공간에서 시간·기타 개념 위치가 변화하는 현상 |
관련 연구
- Representation Engineering — 모델 내부 표상을 직접 측정·조작하는 방법론, temporal probe 설계 기반
- Quantifying Self-Preservation Bias in Large Language Models — TBSP (Migliarini 2026); 역할 반전으로 자기보존 편향 측정, 본 논문과 RP 표상 효과 공유
- llm-self-preservation-survival-framing-survey — 본 노트의 상위 framing survey — “death” 용어 선택이 내부 표상 신뢰도에 미치는 영향의 직접 증거
- Hallucination Taxonomy — 명세 실패가 기존 hallucination 분류와 구별되는 지점
- Knowledge Boundary Detection — 모델이 자신의 지식 한계를 인지하고 기권하는 메커니즘
태그
paper #2025 LLM role-play concept-incongruence temporal-reasoning probing hallucination specification Self-Preservation
BibTeX
@article{bai2025concept,
title={Concept Incongruence: An Exploration of Time and Death in Role Playing},
author={Bai, Xiaoyan and Peng, Ike and Singh, Aditya and Tan, Chenhao},
journal={arXiv preprint arXiv:2505.14905},
year={2025},
eprint={2505.14905},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.14905}
}