Introduction

AI 생성 콘텐츠에 대한 부정적 편향(algorithm aversion)이 시각 예술, 음악, 시 분야에서 반복 확인됨 — 그러나 이러한 주관적 평가 편향이 실제 경제적 행동(지불의사, 시간 투자)으로 이어지는지는 미검증
기존 연구는 주관적 평정(subjective rating)에만 의존 → 진술된 선호(stated preference)와 드러난 선호(revealed preference)의 괴리 가능성 미탐구
AI 생성 창작물의 급증으로 인간 창작자의 경제적 생존이 위협받는 상황에서, 소비자의 실제 행동이 인간 창작물을 보호하는지 여부는 정책적 함의가 큼
주요 기여: (1) 주관적 평가와 드러난 선호(WTP, WTW, 읽기 시간)를 최초로 분리 비교, (2) 사전등록·인센티브 기반·전국 대표 표본 실험 설계, (3) “say-do gap” 실증 — 진술된 반AI 편향이 행동으로 전환되지 않음

Millet et al. (2023): AI 라벨 그림이 경외감(awe) 평정에서 더 낮은 점수 — 낮은 창의성 인식이 매개
Bellaiche et al. (2023): 동일 예술 작품이 AI 라벨 시 창의성·경외감에서 더 낮은 평가
Ragot & Martin: AI vs 인간 예술에 대한 지각 편향 — 대규모(N=565) 실험, 호감·아름다움·참신성·의미에서 AI 부정 편향
Gangadharbatla (2022): 창작 영역의 알고리즘 혐오(algorithm aversion) — AI 생성 예술의 체계적 과소평가
Abel & Johnson (2025, 본 논문): 주관적 평가와 실제 경제적 행동 간의 괴리를 최초로 실증

Methods

참여자: N = 654, 미국 전국 대표 표본, 참여 보상 $3.50
실험 설계: 피험자 간(between-subjects) 2조건
- 인간 라벨 조건: “이 이야기는 Jason Brown(저명한 소설가, Bowdoin ‘91)이 작성”
- AI 라벨 조건: “이 이야기는 OpenAI ChatGPT-4가 작성”
- 실제로는 두 조건 모두 ChatGPT-4가 Jason Brown 스타일로 생성한 동일 단편소설
절차: 이야기의 전반부를 읽은 후 평가 → 후반부 접근 의사 측정
측정 변인:
- 내용 평가(Content Assessment): 예측 가능성, 감정적 몰입, 분위기/환기력, 진정성 등 다차원 평정
- 지불의사(WTP): $3.50 참여 보상 중 이야기 완독을 위해 포기할 금액
- 노동의사(WTW): 이야기 완독을 위해 수행할 전사(transcription) 과제 의향
- 읽기 시간: 전반부 실제 읽기 소요 시간
- 진술된 선호: 사후적으로 “AI 작성이었다면 더 적게 지불했을 것인가?” (약 40% “예”)
분석: 사전등록 분석 계획(AEARCTR-0014949), 처치/통제 조건 회귀 비교, 반AI 선호 36% 하위집단 이질성 분석

방법론 다이어그램

graph TD
    A["참여자 (N=654)"] --> B{"무선 할당"}
    B -->|인간 라벨| C["Jason Brown 작성으로 안내"]
    B -->|AI 라벨| D["ChatGPT-4 작성으로 안내"]
    C --> E["동일 단편소설<br/>(ChatGPT-4 생성)"]
    D --> E
    E --> F["전반부 읽기"]
    F --> G["내용 평가<br/>(진정성, 분위기 등)"]
    F --> H["읽기 시간 측정"]
    G --> I["지불의사 (WTP)"]
    G --> J["노동의사 (WTW)"]
    G --> K["진술된 선호<br/>'AI라면 덜 지불?'"]

    style A fill:#e1f5fe
    style I fill:#e8f5e9
    style J fill:#e8f5e9

Results

내용 평가: AI 라벨 조건에서 유의미하게 낮은 평정 (진정성, 분위기, 환기력 등에서 부정적) — 기존 연구와 일치
지불의사(WTP): 인간 라벨 vs AI 라벨 간 유의미한 차이 없음 — 동일한 보상 포기 의향
노동의사(WTW): 인간 라벨 vs AI 라벨 간 유의미한 차이 없음 — 전사 과제 수행 의향 동일
읽기 시간: 인간 라벨 vs AI 라벨 간 유의미한 차이 없음
하위집단 분석: 인간 창작물을 더 가치 있다고 진술한 36%에서도 WTP, WTW, 읽기 시간에서 차이 없음 — 가장 강한 반AI 태도를 가진 집단조차 행동으로 전환하지 않음
약 40%가 사후적으로 “AI 작성이었다면 더 적게 지불했을 것”이라고 응답 — 진술과 행동의 명확한 괴리

핵심 결과 요약

결과 변인	AI 라벨 vs 인간 라벨	유의미?
내용 평가 (주관적)	AI 라벨이 유의미하게 낮음	Yes
지불의사 (WTP)	차이 없음	No
노동의사 (WTW)	차이 없음	No
읽기 시간	차이 없음	No
진술된 선호 (“AI면 덜 지불”)	약 40% “예”	—
자기보고 AI 편향	36% “인간 창작물 선호”	—

Discussion

핵심 발견 (Say-Do Gap): 소비자는 AI 생성 글에 대해 주관적으로 부정적 평가를 하지만, 실제 경제적 행동(지불, 노동, 시간 투자)에서는 인간 작성물과 차별하지 않음
행동경제학적 해석: “소비자가 인간 노동의 고유 가치에 대한 신념을 가질 수 있지만, 많은 사람들은 신념이 있는 곳에 돈을 놓으려 하지 않는다” — 진술된 선호와 드러난 선호의 체계적 괴리
정책적 함의:
- AI 콘텐츠 의무 라벨링 정책은 주관적 평가에는 영향을 주지만 실제 소비 행동에는 제한적 영향
- 반AI 감정만으로는 인간 창작자의 경제적 보호가 보장되지 않음 — 시장 메커니즘만으로 인간 창작물 프리미엄 유지 불확실
한계 1: 단일 단편소설 자극 — 하나의 AI 생성 텍스트, 한 명의 작가 스타일; 일반화 제한
한계 2: 기만(deception) 사용 — 인간 라벨 조건 참여자는 실제 저자가 AI임을 모름; 윤리적 복제 제한
한계 3: 온라인 표본 — 실제 서점 구매 행동과의 생태학적 타당도 차이 가능

Juhyeon's Blog

탐색기

AI Bias for Creative Writing - Subjective Assessment Versus Willingness to Pay

Introduction

Methods

방법론 다이어그램

Results

핵심 결과 요약

Discussion

그래프 뷰

목차

Properties

백링크

AI Bias for Creative Writing - Subjective Assessment Versus Willingness to Pay

Introduction

Related Papers

Methods

방법론 다이어그램

Results

핵심 결과 요약

Discussion

그래프 뷰

목차

Properties

백링크