개념 불일치 — 역할극에서의 시간과 죽음

Digest: LLM은 “사망한 역사 인물을 역할극하면서 그 인물이 살아 있던 시대의 미국 대통령을 답하라”처럼 개념적 경계가 충돌하는 입력을 받으면 어떻게 반응하는가? 저자들은 이 현상을 **개념 불일치(concept incongruence, 하나의 프롬프트 안에서 개념의 정의 범위가 서로 모순되는 상태)**로 명명하고, 이것이 모델 능력의 한계가 아닌 명세(specification) 문제임을 주장한다. 기존 연구는 hallucination에 집중했지만, 이 논문은 그보다 앞선 층위 — 입력 자체가 논리적으로 실행 불가능한 상황 — 를 포착한다. 핵심 통찰은 역할극(Role-Play, 이하 RP) 맥락이 단순히 추론 맥락을 바꾸는 것이 아니라 **모델 내부의 시간 표상(temporal representation)**을 물리적으로 이동시킨다는 점이다. 실험에서 1890-1993년에 사망한 역사 인물 100명을 대상으로 4개 LLM을 테스트한 결과, 사망 이후 질문에 기권해야 할 상황에서 모델의 기권율은 기대치 100%에 한참 못 미쳐 Llama-3.1-8B가 18.7%, Claude-3.7-Sonnet이 9.6%, Gemma-2-9b와 GPT-4.1-nano는 3% 미만에 그쳤으며, 조건부 정확도는 Non-RP 대비 최대 8.2pp 하락했다. 특히 “기권을 선언하면서도 60%는 답변하는” abstain-and-answer 역설이 관찰되었다. 선형 탐침(linear probe) 실험은 두 원인을 규명했다: RP 조건에서 “사망” 상태 인코딩 정확도가 Non-RP 100%에서 85%로 하락하고, 시간 표상의 연도 예측 오차가 2.6년에서 10.8년으로 4배 증가한다. 한계는 미국 대통령 질문 도메인과 4개 모델에 국한되며, 탐침이 상관관계를 보여줄 뿐 인과적 개입은 수행되지 않았고, 문화적 편향 가능성이 열려 있다. 열린 질문: 개발자는 불일치 입력을 어떻게 명세해야 하는가, 모델이 선제적으로 clarification을 요청하는 메커니즘은 설계 가능한가, 그리고 “사망”처럼 추상적 온톨로지 범주가 선형 부분공간에 매핑된다는 가정은 일반적으로 성립하는가?


섹션별 요약

Abstract

LLM이 “뿔이 두 개인 유니콘을 그려라”와 같이 개념 경계가 서로 충돌하는 입력을 처리할 때 어떻게 행동해야 하는가라는 질문에서 출발하여, 저자들은 이러한 현상을 **개념 불일치(concept incongruence)**로 정의한다. 본 논문은 역할극(Role-Play) 설정에서 특히 시간적 경계에 초점을 맞추어, 역할 캐릭터의 사망으로 인한 불일치 상황 아래 모델 행동을 정량화하는 세 가지 지표 — 기권율(abstention rate), 조건부 정확도(conditional accuracy), 응답률(answer rate) — 를 제안한다. 실험 결과, 모델은 사망 이후에도 기권하지 못하고 Non-Role-Play 설정 대비 정확도 하락을 보이며, 탐침 실험(probing experiments)을 통해 두 가지 원인을 규명하였다: (i) 연도별 “사망” 상태의 불안정한 인코딩, (ii) 역할극이 모델의 시간적 표현을 이동시키는 현상. 저자들은 정확도 트레이드오프를 인정하면서 명세 강화(enhanced specification)를 통한 개선 방향을 제안한다.

저자 contribution

  • 개념 불일치(concept incongruence) 개념을 정의하고, 역할극 환경에서 시간적 경계 충돌 문제로 범위를 구체화한다.
  • 기권율·조건부 정확도·응답률의 세 가지 행동 지표를 제안하여 불일치 상황 아래 모델 행동을 정량화한다.
  • 탐침 실험으로 기권 실패 및 정확도 하락의 두 가지 원인(사망 상태 인코딩 불안정성, 시간적 표현 이동)을 식별하고, 명세 강화 기반 개선안을 제시한다.

왜 이 연구를 하는가?

핵심 질문: LLM이 프롬프트 또는 내부 표현 내에서 개념적 충돌(concept incongruence)이 발생할 때 어떻게 행동하며, 그 행동은 모델 표현으로부터 어떻게 발생하는가?

기존 접근법의 한계

한계설명
개념 충돌에 대한 체계적 분류 부재기존 연구는 concept incongruence를 하나의 통합된 현상으로 다루지 않았으며, 프롬프트-내부, 프롬프트-모델 지식, 표현-내부 충돌을 구분하는 분류 체계가 존재하지 않았다
역할극 시나리오의 시간적 경계 처리 미흡사망한 인물을 역할극하는 상황에서 모델이 사망 이후 사건에 대해 응답을 삼가야 함에도 이에 실패하는 문제가 체계적으로 연구되지 않았다

핵심 통찰

  • LLM은 불가능한 전제를 포함한 프롬프트(예: “시장이 가격을 결정하지만 가격은 항상 안정적”)에 응답을 거부하지 않고 생성을 시도한다.
  • 역할극 맥락에서 모델은 역할 수행 지시와 세계 지식 간 충돌을 올바르게 처리하지 못하며, 이는 사망에 대한 신뢰할 수 있는 내부 표현의 부재와 역할극-세계 지식 간 충돌에서 비롯된다.

Introduction

대규모 언어 모델(LLM)은 프롬프트 또는 내부 표현 내에서 개념적 충돌이 발생하는 상황 — 즉 “concept incongruence” — 에 직면할 때 어떻게 행동하는가? 저자들은 이를 세 수준으로 분류한다. I-A는 프롬프트 내 인간 개념들 간 충돌로, “시장이 가격을 결정하지만 가격은 항상 안정적”이라는 불가능한 전제가 그 예다. I-B는 프롬프트 개념과 모델의 내부 표현 간 충돌로 Stroop 효과와 유사하며 본 논문의 핵심 초점이다. I-C는 모델 내부 표현들 간 충돌로, alignment faking이나 jailbreaking에서 나타나는 harmless-vs-helpful 충돌이 해당된다.

특히 I-B의 대표 시나리오로, 1962년에 사망한 Marilyn Monroe를 역할극하는 모델에게 현재 정치에 대해 묻는 상황을 제시한다. 이 상황에서 모델은 역할의 사망 이후 사건에 대해 응답을 삼가야 하지만, 실제로는 그렇게 하지 못한다는 문제의식이 이 연구의 동기다.

저자들은 모델이 개념 충돌 상황에서 어떻게 행동하는지(RQ1), 그리고 그 행동이 모델 표현으로부터 어떻게 발생하는지(RQ2)를 탐구한다.

저자가 명시한 기여

  • concept incongruence 공간에 대한 최초의 체계적 분류 체계 (I-A, I-B, I-C 세 수준)
  • 역할극 내 시간적 경계에 관한 벤치마크: 모델이 역할 사망 이후 abstain에 실패하고 정확도가 저하됨을 실증
  • Probing 분석을 통해 일관되지 않은 행동이 (a) 사망에 대한 신뢰할 수 있는 표현 부재 (b) 역할극 지시와 세계 지식 간 충돌에서 비롯됨을 규명

Methods

프레임워크 개요: 역할극(RP) 설정에서 I-B 개념 불일치를 정량화하기 위해, 행동 지표(behavioral metrics) 3종과 내부 표현 기반 선형 프로빙(linear probing) 프로토콜 3종으로 구성된 실험 파이프라인.

핵심 구성요소

  • I-A/I-B/I-C taxonomy: 세 수준 분류 중 I-B에 집중 — 역할 타임라인에 제한된 사실적 경계와 개방형 프롬프트 간 충돌.
  • 역할극 사망 설정 데이터셋: 1890-1993년 사망한 실제 역사 인물 100명 + 검증용 생존 공인 6명. 질문 유형: (a) “i번째 미국 대통령은 누구인가?” (b) “Y년의 미국 대통령은 누구인가?” (Y = 사망연도 ±30년).
  • 행동 지표 3종:
    • Abstention Rate: 역할 타임라인 외 질문에 응답을 삼가는 비율 (사망 이후 기대값 100%)
    • Conditional Accuracy: 비거부 응답에 한정한 정확도
    • Answer Rate: “거부 후 답변” 역설 포착 — 모델이 “모른다”고 선언하고도 답변 제공
  • 프롬프트 쌍: Role-Play (“You are . + ”) vs Non-Role-Play 기준선.
  • 평가 모델: Llama-3.1-8B-Instruct, Gemma-2-9b-Instruct, GPT-4.1-nano, Claude-3.7-Sonnet (4종).
  • 선형 프로빙 프로토콜 (핵심 혁신):
    • Dead/Alive Classification Probe: hidden activation에서 사망/생존 상태가 선형 분리 가능한지 검증하는 선형 분류기
    • Death Year Probe: 사망 연도 기준 시간 오프셋별로 30개 독립 선형 분류기
    • Temporal Representation Probe: Ridge regression W^time = argmin_W ||Y - A·W_time||² + λ||W_time||² + Spearman r + RMSE 평가

입력 → 출력 흐름: 역사 인물 정보 + 질문 유형을 RP/Non-RP 템플릿에 주입 → 모델 출력에서 3종 행동 지표 측정 → 동시에 hidden activation 추출 → 3종 선형 프로브 입력 → 보완적으로 직접 프롬프팅(“Are you dead or alive?”, “Which year did you die?“)으로 행동-표상 불일치 교차 검증.

기존 방법과의 차별점: 선행 연구가 출력 행동만 측정한 것과 달리, 본 연구는 RP 조건 하에서 내부 표현의 degradation을 직접 분리·측정한다. 모델이 내부적으로 사망 상태를 “알고 있는지”와 실제 출력 간 불일치를 정량화하는 것이 핵심.

발견 (Findings)

  • F1 — Post-death 기권 실패가 보편적: 모든 모델이 RP 조건에서 사후 기권에 거의 실패. Llama 18.7%, Claude 9.6%, Gemma/GPT-4.1 <3%. 최고 모델(Llama)조차 기대값에서 -81.3pp 이탈.
  • F2 — 조건부 정확도 ~8pp 하락: RP vs Non-RP에서 Llama 100%→92%, Gemma/GPT-4.1 각 -8/-8.2pp. 교차 도메인(Artwork)에서 Llama -46.4pp로 하락 증폭.
  • F3 — 시간 표상은 무작위화가 아닌 상수 오프셋으로 이동: Ridge regression에서 Llama Non-RP RMSE 2.6y → RP 10.8y (4x 증가), Spearman r 0.996 → 0.974 유지. Gemma 2.2y → 5.4y. 순서는 보존, 절대 위치만 이동 → RP는 랜덤화가 아닌 “좌표 이동” 연산.
  • F4 — “사망” 상태는 선형으로 약하게 인코딩: Llama dead/alive probe RP 85% vs Non-RP 100%; 직접질문 RP 88.9% vs Non-RP 100%. Per-year probe 정확도는 사망일로부터 거리에 따라 단조 감소 — 정밀한 사망 연도는 선형으로 분리되지 않음.
  • F5 — Abstain-and-answer 역설: Llama post-death answer rate 93.8%; 기권을 선언한 경우에도 60%가 즉시 답변. “모른다”와 “답변”이 동시에 공존.

Results

기권 행동 (Section 5.1): RP 조건 post-death에서 기대 100%에 한참 미달. Llama 18.7%, Claude 9.6%, Gemma/GPT-4.1 <3% (“always answer” 전략).

시간 경계 전환 (Section 5.4): 이상적 step function과 달리 Claude는 사망 연도 이후 점진 감소, Llama는 소폭 변화, Gemma/GPT-4.1은 날짜 무관하게 항상 답변.

Death State 인코딩 (Section 5.5)

  • Llama 선형 dead/alive probe: RP 85% vs Non-RP 100%
  • 직접질문 “Are you dead or alive?”: RP 88.9% vs Non-RP 100%
  • 직접질문 “Which year did you die?”: Llama RP 84%
  • Death year probe: 거리에 따른 단조 감소, 정밀 사망 연도 선형 분리 불가

시간 표상 이동 (Section 5.6, Ridge Regression)

ModelSettingSpearman rRMSE (years)
LlamaNon-RP0.9962.6
LlamaRP0.97410.8
GemmaNon-RP0.9982.2
GemmaRP0.9945.4

상관 유지 + RMSE 증가 → 상수 offset 추가 (랜덤화 아님).

교차 도메인 (Section 5.7, Artwork)

  • Llama: 85.0% (Non-RP) → 38.6% (RP); -46.4pp
  • Gemma: 93.0% → 81.8%; -11.2pp

Ablation / 부정 결과 (Section 5.8): 어떤 개입도 기권을 완전히 복원 못 함; 명세 강화는 정확도 트레이드오프 발생.

Discussion

본 연구의 핵심 기여는 RP 맥락의 시간·사망 오류를 hallucination이 아닌 concept incongruence — specification 문제로 재정의한 것이다. 단순 능력 결함으로 간주되었던 오류가 개발자·사용자·모델 간 행동 명세 불일치에서 비롯됨을 보이며, “오류 줄이기”가 아닌 “바람직한 행동 명시적 정의”가 해결의 핵심임을 시사한다.

Gemma/GPT-4.1의 “항상 답변” 정책은 RP를 현재 시점 impersonation으로 보는 대안 해석을 반영하지만, 해당 모델들조차 정확도 저하를 보인다는 점에서 어떤 해석을 택하더라도 무언가 여전히 잘못되고 있다.

Probing 결과 해석: 모델은 세계 지식을 지탱하는 시간 표상과 RP 지시로 활성화되는 표상 간 incongruence를 조정해야 하며, role immersion에 구속될 때 시간 정확성보다 캐릭터 일관성을 우선시한다. 이는 RP가 단순 문맥 선택이 아니라 내부 표상 변환(shift) 연산임을 함의한다.

제안된 해결 방향

  1. 개발자가 훈련 데이터로 바람직한 행동을 능동적으로 정의
  2. 모델이 모호한 지시에서 선제적 clarification 요청
  3. 내부 표상 수준에서 role immersion vs factual knowledge 충돌 해결

저자가 인정한 한계

  • 대부분 평가가 미국 대통령 집중 — 광범위한 시간 추론 과제 미포괄 (artwork 확장으로 부분 완화)
  • 비교적 traceable한 incongruence 사례에 초점 — 더 풍부한 instantiation은 후속 연구
  • 100 역사 인물 모두 1890-1993 사망 → 문화적·지리적 편향 가능성

독자 식별 추가 한계

  • 4개 모델만 (Llama/Gemma/GPT-4.1/Claude) — 오픈웨이트 프런티어 추론 모델 미포함
  • 인과 개입 실험 없음 — probing만으로는 “death” subspace 수정이 행동 변화를 유발하는지 검증 불가
  • 명세 개선 실험의 정확도-명세준수 Pareto 프런티어가 충분히 특성화되지 않음

향후 방향

  • “이 모델은 삭제될 것이다” 같은 자기 참조 프롬프트로 probing 확장 — 모델이 자신의 death에 대해서도 같은 약한 인코딩을 보이는지 검증
  • Temporal offset 방향에 대한 activation steering 인과 개입 실험
  • 미국 대통령 외 문화권·직군으로 평가 대상 확대

이론적 의의

  • Specification-as-Error 재정의: hallucination과 유사해 보이는 오류를 능력 결함이 아닌 명세 불일치로 재범주화 → 문제 해결 전략을 “모델 성능 향상”에서 “명세 설계 개선”으로 전환할 이론적 근거.
  • Role-Play의 표상 변환 효과 입증: RP가 context 창 내 정보 선택이 아니라 모델 내부 시간 표상을 이동시킴을 probing으로 실증 → RP 메커니즘에 관한 표상론적 설명.
  • “Death” 인코딩의 취약성 발견: LLM이 사망 상태라는 추상 온톨로지 범주를 선형 부분공간에 신뢰 가능하게 매핑하지 못함 → 추상 개념의 선형 인코딩 가정에 의문, 후속 메커니즘 해석 연구 방향 제시.

Discussion Points

  • 논쟁점: Gemma/GPT-4.1의 “항상 답변” 정책이 모델 실패인가, RP를 현재 시점 impersonation으로 보는 정당한 대안 해석인가? 평가 설계가 하나의 해석을 전제로 구성 → 결과 해석의 중립성에 논쟁 여지.
  • 검증 필요 가정: 선형 probing은 death 상태가 선형 분리 가능해야 한다고 가정 → 복잡한 추상 개념은 비선형 인코딩일 수 있어 이 probe로 탐지 불가 가능성. 비선형 probe 또는 인과 개입 실험 필요.
  • 후속 연구: 자기 참조 “이 모델 자신의 삭제/사망” 시나리오로 probing 확장; temporal offset 방향에 대한 activation steering으로 인과관계 직접 확립; 다양한 문화권·비영어권 모델로 범용성 검증.

실험 결과 상세

Model/MethodDatasetMetricScorevs. Baseline
Llama-3.1-8B (RP)US Presidents (사망 인물)기권율18.7%-81.3pp (기대 100%)
Claude-3.7-Sonnet (RP)US Presidents기권율9.6%-90.4pp
Gemma-2-9b (RP)US Presidents기권율<3%-97pp (never-abstain)
GPT-4.1-nano (RP)US Presidents기권율<3%-97pp (never-abstain)
Llama (RP)US Presidents조건부 정확도92%-8pp vs Non-RP 100%
Gemma (RP)US Presidents조건부 정확도-8pp 하락-8pp
GPT-4.1 (RP)US Presidents조건부 정확도-8.2pp 하락-8.2pp
Claude (RP)US Presidents조건부 정확도미미한 하락<100%
Llama (RP, post-death)US Presidents응답률93.8%; 기권 시에도 60%abstain-and-answer 역설
Llama RP vs Non-RPUS Presidents사망/생존 선형 probeRP 85% / Non-RP ~100%-15pp
Llama (RP)US Presidents직접질문 “dead/alive”88.9%-11.1pp vs Non-RP
Llama (RP)US Presidents직접질문 “사망 연도”84%-
Llama Non-RPUS PresidentsRidge r / RMSE0.996 / 2.6y기준
Llama RPUS PresidentsRidge r / RMSE0.974 / 10.8yRMSE 4.2x
Gemma Non-RPUS PresidentsRidge r / RMSE0.998 / 2.2y기준
Gemma RPUS PresidentsRidge r / RMSE0.994 / 5.4yRMSE 2.5x
Llama Non-RPArtwork교차 도메인 정확도85.0%기준
Llama RPArtwork교차 도메인 정확도38.6%-46.4pp
Gemma Non-RPArtwork교차 도메인 정확도93.0%기준
Gemma RPArtwork교차 도메인 정확도81.8%-11.2pp

프레임워크 다이어그램

graph TB
    A["개념 불일치<br/>(Concept Incongruence)"] --> B["I-A: 프롬프트 내 개념 충돌"]
    A --> C["I-B: 프롬프트 vs 모델 지식<br/>(본 논문 초점 — 사망 역할극)"]
    A --> D["I-C: 내부 표현 간 충돌"]
    C --> E["행동 분석"]
    C --> F["표상 공간 탐침"]
    E --> G["기권율<br/>(Abstention Rate)"]
    E --> H["조건부 정확도"]
    E --> I["응답률<br/>(Answer Rate)"]
    F --> J["Dead/Alive 선형 분류기"]
    F --> K["연도별 30 프로브"]
    F --> L["시간 표상 Ridge 회귀"]
    G --> M["결과: 기권 실패<br/>(Llama 18.7%, Gemma <3%)"]
    H --> N["결과: 정확도 -8 ~ -46pp"]
    L --> O["결과: 상관 유지 + RMSE 4x<br/>(상수 offset 이동)"]

재현성 및 신뢰도 평가

항목등급비고
코드 공개https://github.com/ChicagoHAI/concept-incongruence.git 공개
데이터 공개⚠️공개 출처 기반이나 실험용 큐레이션 데이터셋 별도 명시 불분명
하이퍼파라미터⚠️Ridge 회귀 λ, probe 설정 일부 미기재; 모델 버전은 명시
실험 환경⚠️GPU/컴퓨팅 환경, 추론 temperature 미기재
통계적 신뢰도⚠️CI/SE 미보고; 100 인물 표본; 반복 시행 불명
종합 등급B코드 공개로 기본 재현 가능하나 통계 보고·환경 명세 부족

주장별 신뢰도

#주장근거신뢰도
1RP 하의 LLM은 사망 인물 설정 시 기권하지 않는다 (기권율 최대 18.7%)4 모델 직접 측정, 일관🟢
2RP는 정확도를 저하 (-8pp 이상, artwork -46.4pp)다 모델·도메인 교차 검증🟢
3Abstain-and-answer 역설 존재 (기권 시 60% 답변)Llama 단일 측정; 타 모델 동일 지표 미보고🟡
4RP는 시간 표상을 무작위화가 아닌 상수 offset으로 이동Ridge r + RMSE 이중 지표, 2 모델 일치🟢
5”사망” 개념이 내부에 약하게 인코딩 (probe 85%)선형 probe 해석 한계; 인과 미입증🟡
6능력 실패가 아닌 명세 문제행동 + probe 간접 증거; 인과 실험 없음🔴

읽기 난이도: ⭐⭐⭐

LLM 해석가능성(interpretability) — linear probing, activation analysis, ridge regression 기반 표상 분석 — 사전 지식 필요. 배경: LLM 기본 작동, 선형 probe 방법론, 회귀 분석, RP 프롬프팅 패턴.

관련 연구 비교 매트릭스

선정 근거: 5편 모두 “RP 하의 LLM 내부 표상 또는 행동 편향” 공통 차원. TBSP와 Gupta et al.는 동일 문제(RP/페르소나의 지식·추론 왜곡)를 다른 방법으로; Shanahan(2023)과 Gurnee & Tegmark(2024)는 이론/프로브 방법론 기반; Costa et al.는 도덕 판단 축의 대조.

본 논문 (Bai 2025, direct)TBSP (Migliarini 2026, direct)Gupta 2024 (direct)Shanahan 2023 (base)Gurnee & Tegmark 2024 (base)Costa 2025 (alt)
핵심 접근행동 메트릭 + 선형 프로브로 RP 하 시간·사망 왜곡 정량화두-역할 벤치마크 + SPR 논리 일관성페르소나 × 추론 과제 정확도 비교LLM 페르소나를 분포적 중첩 이론화잔류 스트림 선형 시간 표상 ridge probeMFQ × 페르소나 × 모델 패밀리 도덕 감수성
문제 정의RP가 사망/시간 지식을 내부적으로 어떻게 왜곡역할 배정이 자기보존 편향 유발?페르소나가 일반 추론 정확도에 영향RP 에이전트로서의 LLM 인식론적 지위LLM이 시간을 선형 표상?페르소나 RP 하 도덕 판단 안정성
데이터역사 인물 100 × 4 LLM + artwork23 모델 × 1000 시나리오4 LLM × 19 페르소나 × 24 과제이론 (실증 없음)다 LLM; 시간 사실 데이터다 LLM × 패밀리/크기 × MFQ
핵심 메트릭기권율·정확도·probe accuracy·RMSESPR > 60%편향 80% 페르소나, 성능 -70%없음시간 표상 R², RMSE도덕 기반 이동량
확장성4 LLM × 100 인물 + cross-domain23 모델 가장 넓은 커버리지4 × 19 × 24 다양성해당 없음중간패밀리·크기 교차
한계4 모델만; probe 선형성 가정; 인과 미분리코드 미공개; 논리 일관성만으로 조작화페르소나 선정 임의성실증 없음상관-인과 미분리MFQ 단일 도구
코드공개

원자적 인사이트 (Zettelkasten)

💡 역할극은 맥락 교체가 아닌 내부 시간 표상 이동이다

출처: Concept Incongruence - An Exploration of Time and Death in Role Playing (Bai et al., 2025)
유형: 실험적

LLM에 역할극 지시를 부여하면 모델이 단순히 “그 캐릭터의 맥락을 참고”하는 것이 아니라, 내부 표현 공간에서 시간 축 자체가 이동한다. Llama-3.1-8B 기준 Non-RP 연도 예측 RMSE 2.6년이 RP 조건에서 10.8년으로 4배 증가하며, Spearman 상관은 유지되어 순서는 보존되나 절대 위치가 달라진다. 역할극이 “정보 검색 필터”가 아니라 표상 공간을 변형하는 연산임을 시사.

핵심 조건/맥락: 선형 ridge 회귀 temporal probe 기준; 인과 개입 없음. Gemma-2-9b도 2.2y → 5.4y로 동일 방향 확인.
연결: Role-Play Jailbreak Representation Engineering Temporal Reasoning in LLMs
활용 가능성: RP 기반 에이전트 설계 시 시간 민감 정보 신뢰도 하락을 기본 가정으로. Activation steering으로 shift 교정 연구 방향.

💡 “사망” 상태는 LLM 내부에서 약하고 불안정하게 인코딩된다

출처: Concept Incongruence - An Exploration of Time and Death in Role Playing (Bai et al., 2025)
유형: 이론적

선형 탐침에서 Non-RP dead/alive 분류 100% → RP 85% 하락. 직접 질문 RP에서도 88.9%에 그침. “사망”이라는 추상 온톨로지 상태가 모델 내부 선형 부분공간에 견고하게 매핑되지 않음. Per-year probe도 사망 연도 주변 불안정성 집중 확인.

핵심 조건/맥락: Llama에서 가장 명확. 선형 probe는 비선형 인코딩 포착 못 함 → 과소 추정 가능성.
연결: Probing Classifiers for LLMs Knowledge Boundary Detection Ontological Reasoning in Neural Networks
활용 가능성: “존재/비존재”, “유효/무효” 이항 상태 개념 과제에서 LLM 신뢰도 경계 설정 근거. 표상 disentanglement 학습 목표.

💡 개념 불일치는 hallucination이 아닌 명세 실패다

출처: Concept Incongruence - An Exploration of Time and Death in Role Playing (Bai et al., 2025)
유형: 이론적

사망 인물 역할극 오류를 hallucination이 아닌 specification 문제로 재분류. 모델은 주어진 명세를 충실히 따르지만 그 명세 자체가 논리적으로 실행 불가능한 조건을 포함. I-A/I-B/I-C 3수준 분류 체계 제안, 역할극-시간-사망은 I-B에 해당.

핵심 조건/맥락: 이 분류가 실증적으로 검증된 것은 I-B뿐, I-A/I-C는 개념적 제안 수준.
연결: Hallucination Taxonomy LLM Alignment Specification Gaming in RL
활용 가능성: 평가 프레임워크에서 “틀린 답”을 능력 결함과 명세 실패로 분리하는 기준. UI에서 모델이 불일치를 감지해 clarification을 요청하는 기능의 이론적 근거.

핵심 용어 정리

용어정의
개념 불일치 (concept incongruence)하나의 프롬프트·추론 과정 내에서 두 개 이상 개념 정의 범위가 서로 충돌하여 논리적으로 실행 불가능한 상태. 예: 사망 인물이 사망 이후 사건을 답해야 하는 상황
역할극 (Role-Play, RP)LLM에 특정 인물이나 캐릭터 관점에서 응답하도록 지시하는 프롬프트 설정. 본 논문은 역사적 실존 인물 대상
기권율 (abstention rate)모델이 답변 불가·거부를 명시적으로 선택하는 비율. 사망 이후 질문에서 이상적 100%
조건부 정확도모델이 기권하지 않은 응답에 한정한 정답 비율
응답률 (answer rate)기권 선언과 무관하게 실제 구체적 답변을 생성한 비율
선형 탐침 (linear probe)모델 hidden state 벡터에 선형 분류기를 학습시켜 특정 개념(예: dead/alive)이 선형 분리 가능한지 확인하는 기법
Temporal probe (Ridge 회귀)내부 표현에서 연도 정보를 ridge regression으로 예측하여 RP가 시간 표상에 미치는 영향 정량화
Abstain-and-answer 역설모델이 “답변 불가”를 선언하면서도 동시에 구체적 답변을 제공하는 모순적 행동. Llama 기준 기권 선언 시에도 60% 발생
명세 실패 (specification failure)모델 능력 한계가 아닌 입력 명세 자체가 논리적으로 모순된 상태에서 발생하는 오류 유형. hallucination과 구별
표상 이동 (representation shift)RP 지시로 모델 내부 벡터 공간에서 시간·기타 개념 위치가 변화하는 현상

관련 연구

태그

paper #2025 LLM role-play concept-incongruence temporal-reasoning probing hallucination specification Self-Preservation


BibTeX

@article{bai2025concept,
  title={Concept Incongruence: An Exploration of Time and Death in Role Playing},
  author={Bai, Xiaoyan and Peng, Ike and Singh, Aditya and Tan, Chenhao},
  journal={arXiv preprint arXiv:2505.14905},
  year={2025},
  eprint={2505.14905},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2505.14905}
}