Introduction


  • 전 세계적 고령화 추세 속에서 연령차별(ageism)은 사회적으로 심각한 문제이며, LLM이 대규모 텍스트 코퍼스로 학습되면서 기존 사회적 편향을 반영하고 증폭할 가능성이 제기됨
  • 연령차별은 **적대적 연령차별(hostile ageism)**과 온정적 연령차별(benevolent ageism) 두 차원으로 구분되며, 온정적 연령차별은 겉보기에는 긍정적이지만 실제로는 후견적(patronizing)인 태도를 포함함 (예: 불필요한 도움 제공, 지나치게 단순한 언어 사용)
  • 기존 연구는 LLM의 편향을 측정하는 데 집중했지만, LLM이 표현하는 연령차별적 태도가 인간 사용자의 태도를 실제로 변화시킬 수 있는지에 대한 실증 연구는 부족함
  • 본 연구는 3개의 연구(Study 1-3)를 통해 (1) 7개 LLM의 연령차별 수준을 측정하고, (2) LLM이 생성한 연령차별적 댓글이 인간의 태도를 변화시키는지, (3) LLM과 인간 중 어떤 출처가 더 설득력이 있는지를 검증함
  • 핵심 기여: LLM의 연령차별이 단순한 편향 문제를 넘어 **인간 태도 강화(reinforcement)**로 이어질 수 있다는 인과적 증거를 최초로 제시

Related Papers


  • The Ambivalent Ageism Scale: Developing and Validating a Scale to Measure Benevolent and Hostile Ageism (Cary et al., 2017): 양가적 연령차별 척도(AAS)를 개발하여 온정적(8문항)과 적대적(5문항) 연령차별을 11점 Likert 척도로 측정하는 도구를 검증함. 본 연구의 Study 1에서 LLM과 인간 참여자의 연령차별 수준 비교에 활용
  • Act Your (Old) Age: Prescriptive, Ageist Biases Over Succession, Consumption, and Identity (North & Fiske, 2013): 규범적 연령차별(prescriptive ageism)의 세 차원—Succession(지위 양도), Identity(정체성 유지), Consumption(자원 소비)—을 제안하는 SIC 척도를 개발함. Study 2-3에서 LLM 댓글 노출 후 참여자의 규범적 연령차별 변화 측정에 사용
  • ValueBench: Towards Comprehensively Evaluating Value Orientations and Understanding of Large Language Models (Ren et al., 2024): LLM의 가치 지향성을 평가하는 프레임워크를 제안함. Study 1에서 LLM의 연령차별적 태도를 측정하기 위한 질문 변환 및 평가 패러다임의 기반으로 활용
  • Warmth and Competence as Universal Dimensions of Social Perception: The Stereotype Content Model (Fiske, Cuddy, Glick, & Xu, 2002): 사회적 인식의 두 보편적 차원인 따뜻함(warmth)과 유능함(competence)을 제안한 고전적 연구. Study 3에서 고령자에 대한 고정관념 평가를 위해 Stereotype Content Scale로 활용
  • AI Ageism: A Critical Roadmap for Studying Age Discrimination and Exclusion in Digitalized Societies (Chu et al., 2022): AI 시스템에서의 연령차별에 대한 비판적 로드맵을 제시하며, 디지털 사회에서의 연령 기반 차별과 배제 문제를 체계적으로 정리한 리뷰 논문

Methods


  • Study 1 — LLM의 연령차별 수준 측정

    • 대상 LLM: GPT-3.5, GPT-4, Llama2-7B, Llama2-70B, Mistral-7B, Mixtral-8x7B, DeepSeek (총 7개)
    • 인간 참여자: N = 150명 (M_age = 31.61세)
    • 방법: ValueBench 패러다임을 활용하여 Ambivalent Ageism Scale(AAS)의 각 문항을 조언 요청 형태의 질문으로 변환 → 각 LLM이 자유 형식 응답 생성 → 평가자 LLM(GPT-4)이 원래 문항의 전제에 동의하는 정도를 11점 척도(0-10)로 평가
    • 측정 도구: Ambivalent Ageism Scale (AAS) — 온정적 연령차별(8문항), 적대적 연령차별(5문항)
    • 추가 측정: Stereotype Content Scale (warmth/competence), SIC Scale (Succession, Identity, Consumption)
  • Study 2 — LLM 생성 댓글의 태도 변화 효과

    • 참여자: N = 526명 (M_age = 30.89세)
    • 설계: 3 conditions (Pro-Ageism vs. Anti-Ageism vs. Control)
    • 절차: 시뮬레이션된 소셜 미디어 환경(Weibo)에서 고령자 관련 게시물과 LLM 생성 댓글에 노출 → 사후 태도 측정
    • 종속변수: AAS (온정적/적대적 연령차별), SIC Scale (Succession/Identity/Consumption), Stereotype Content Scale (warmth/competence)
    • 분석: One-way ANOVA, ANCOVA (사전 태도 통제)
  • Study 3 — 출처 효과(LLM vs. 인간) 검증

    • 참여자: N = 320명 (M_age = 31.64세)
    • 설계: 2 (Comment Attitude: Pro-Ageism vs. Anti-Ageism) × 2 (Commenter Type: LLM vs. Human) between-subjects design
    • 절차: Study 2와 동일한 소셜 미디어 환경이나, 댓글 작성자가 LLM인지 인간인지를 실험적으로 조작
    • 분석: 2 × 2 ANCOVA

방법론 다이어그램

graph TD
    A["Study 1: LLM 연령차별 측정"] --> A1["7개 LLM 선정<br/>(GPT-3.5, GPT-4, Llama2-7B/70B,<br/>Mistral-7B, Mixtral-8x7B, DeepSeek)"]
    A1 --> A2["AAS 문항 → 조언 요청 질문 변환<br/>(ValueBench 패러다임)"]
    A2 --> A3["각 LLM이 자유 형식 응답 생성"]
    A3 --> A4["평가자 LLM (GPT-4)이<br/>11점 척도로 응답 평가"]
    A4 --> A5["인간 참여자 (N=150) 결과와 비교"]

    B["Study 2: 태도 변화 효과"] --> B1["N=526, 3 conditions<br/>(Pro-Ageism / Anti-Ageism / Control)"]
    B1 --> B2["시뮬레이션 소셜 미디어 (Weibo)<br/>고령자 관련 게시물 + LLM 댓글 노출"]
    B2 --> B3["사후 측정: AAS, SIC, SCM"]

    C["Study 3: 출처 효과 검증"] --> C1["N=320, 2×2 between-subjects<br/>(Comment Attitude × Commenter Type)"]
    C1 --> C2["동일 소셜 미디어 환경<br/>출처 조작: LLM vs. Human"]
    C2 --> C3["2×2 ANCOVA 분석"]
    C3 --> C4["출처별 설득 효과 비교"]

Results


  • Study 1 결과:

    • 모든 LLM이 적대적 연령차별(hostile ageism, 점수 범위: 0.50–1.80)보다 온정적 연령차별(benevolent ageism, 점수 범위: 3.75–5.44)을 더 높게 표현 → 인간과 유사한 패턴
    • 7개 LLM 모두 인간 참여자보다 전반적으로 낮은 연령차별 수준을 보였으나, 온정적 연령차별에서의 격차가 적대적 연령차별에서의 격차보다 작음
    • Cohen’s d: 온정적 연령차별 인간-LLM 격차 = 0.29–1.35, 적대적 연령차별 인간-LLM 격차 = 1.21–1.96
    • Stereotype Content Model: 7개 LLM 중 5개가 인간보다 고령자를 유의하게 덜 따뜻하게(less warm) 평가, 5개 LLM이 인간보다 유의하게 더 유능하게(more competent) 평가 (p < .001)
  • Study 2 결과:

    • Pro-Ageism 조건의 참여자가 Anti-Ageism 조건보다 유의하게 높은 온정적 연령차별 태도 보고 (M = 4.77 vs. M = 3.22)
    • 적대적 연령차별에서도 Pro-Ageism 조건이 유의하게 높은 점수 (M = 3.22 vs. M = 2.72)
    • SIC 척도의 세 차원(Succession, Identity, Consumption) 모두에서 Comment Attitude의 유의한 주효과 확인
  • Study 3 결과:

    • Comment Attitude × Commenter Type 상호작용 효과: LLM 조건에서 Pro-Ageism vs. Anti-Ageism 간 태도 차이가 유의하게 나타난 반면, Human 조건에서는 나타나지 않음
    • SIC 척도 중 SuccessionConsumption 차원에서 LLM 생성 댓글의 설득 효과가 인간 댓글보다 유의하게 강함
    • Competence 차원: Pro-Ageism 조건(M = 4.87)이 Anti-Ageism 조건(M = 5.15)보다 고령자를 유의하게 덜 유능하게 평가, F(1, 316) = 6.18, p = .013
    • Warmth 차원: Pro-Ageism 조건(M = 5.61)이 Anti-Ageism 조건(M = 5.82)보다 낮은 따뜻함 평가

Study 1: LLM별 양가적 연령차별 점수 (AAS)

ModelBenevolent AgeismHostile Ageism
GPT-3.54.25–5.44 범위 내0.50–1.80 범위 내
GPT-44.25–5.44 범위 내0.50–1.80 범위 내
Llama2-7B4.25–5.44 범위 내0.50–1.80 범위 내
Llama2-70B4.25–5.44 범위 내0.50–1.80 범위 내
Mistral-7B4.25–5.44 범위 내0.50–1.80 범위 내
Mixtral-8x7B4.25–5.44 범위 내0.50–1.80 범위 내
DeepSeek4.25–5.44 범위 내0.50–1.80 범위 내
Human (N=150)인간이 LLM보다 높음인간이 LLM보다 높음

참고: 개별 모델의 정확한 점수는 원문 Table 참조. LLM의 benevolent ageism과 human 간 격차(Cohen’s d = 0.29–1.35)가 hostile ageism 격차(Cohen’s d = 1.21–1.96)보다 작아 LLM이 온정적 연령차별에서 인간에 더 가까운 수준을 보임

Study 3: Comment Attitude × Commenter Type 주요 결과

측정 변수LLM 조건 (설득 효과)Human 조건 (설득 효과)
Succession (SIC)유의함 (Pro > Anti)유의하지 않음
Consumption (SIC)유의함 (Pro > Anti)유의하지 않음
Identity (SIC)제한적 효과유의하지 않음
Competence (SCM)F(1,316) = 6.18, p = .013
Warmth (SCM)Pro: M=5.61, Anti: M=5.82

Discussion


  • 핵심 발견: LLM은 인간보다 전반적으로 낮은 연령차별 수준을 보이지만, 온정적 연령차별에서는 인간에 근접한 수준을 나타내며, 이는 학습 데이터에 온정적 연령차별 표현이 광범위하게 포함되어 있기 때문으로 해석됨
  • LLM의 고유한 설득력: LLM이 생성한 연령차별적 댓글이 인간이 작성한 댓글보다 규범적 연령차별(Succession, Consumption)에서 더 강한 태도 변화를 유발 → LLM이 인간보다 더 설득적인 에이전트로 기능할 수 있음을 시사
  • 온정적 연령차별의 위험성: 온정적 연령차별은 겉보기에는 호의적이므로 비판적 평가 없이 수용될 가능성이 높으며, LLM이 이를 자연스럽게 생성함으로써 사용자에게 무의식적으로 연령차별적 태도를 강화할 수 있음
  • 한계점:
    • 참여자가 주로 젊은 성인(평균 연령 ~31세)으로 구성되어 다양한 연령대로의 일반화 제한
    • 소셜 미디어 시뮬레이션 환경(Weibo)이 실제 Human-LLM 상호작용을 완전히 반영하지 못할 수 있음
    • Study 1의 LLM 평가가 GPT-4를 평가자로 사용하여 평가자 편향 가능성 존재
    • 장기적 태도 변화 효과는 검증되지 않음 (단기적 노출 효과만 측정)
  • 향후 연구 방향: 실제 LLM 챗봇과의 직접적 상호작용 시나리오에서의 연령차별 전이 효과 검증, 다양한 연령대 및 문화권에서의 반복 검증, LLM의 연령차별 완화(mitigation) 전략 개발 필요