Introduction


  • AI 시스템은 인간이 생성한 데이터로 학습되며, 이 데이터에 내재된 편향(bias)을 흡수하고 증폭(amplify)하는 경향이 있음 — 그러나 이렇게 편향된 AI 출력이 다시 인간의 판단에 미치는 영향에 대한 실증 연구는 부족
  • 인간과 AI 간의 반복적 상호작용은 **피드백 루프(feedback loop)**를 형성할 수 있음: 인간 편향 → AI 학습 → 편향 증폭 → 인간에게 재전달 → 인간 편향 강화라는 자기 강화적(self-reinforcing) 순환 구조
  • 기존 연구들은 automation bias(자동화 편향)와 algorithm aversion(알고리즘 혐오)을 개별적으로 다루었으나, 인간-AI 피드백 루프의 동적(dynamic) 과정에서 편향이 어떻게 축적되는지는 체계적으로 검증되지 않음
  • 본 연구는 1,401명의 참가자를 대상으로 3가지 실험 패러다임(감정 분류, 운동 지각, 생성 AI 이미지)을 통해 인간-AI 피드백 루프가 지각적(perceptual), 정서적(emotional), 사회적(social) 판단에 미치는 영향을 종합적으로 검증
  • 핵심 가설: 편향된 AI와의 상호작용은 인간-인간 상호작용보다 더 큰 편향 증폭을 유발하며, 참가자들은 AI의 영향력을 과소평가(underestimate)함

Related Papers


  • Dissecting Racial Bias in an Algorithm Used to Manage the Health of Populations (Obermeyer et al., 2019): 미국 의료 시스템에서 널리 사용되는 알고리즘이 비용 기반 예측으로 인해 인종적 편향을 내포 — 알고리즘 편향이 실제 자원 배분에 미치는 영향을 실증
  • Algorithm Aversion: People Erroneously Avoid Algorithms after Seeing Them Err (Dietvorst et al., 2015): 인간이 알고리즘의 오류를 목격하면 알고리즘 사용을 회피하는 경향 발견 — 본 연구와 대조적으로 참가자들은 오히려 AI 판단을 수용하는 경향을 보임
  • How Social Influence Can Undermine the Wisdom of Crowd Effect (Lorenz et al., 2011): 사회적 영향(social influence)이 군중의 지혜를 약화시킬 수 있음을 실증 — 본 연구에서 AI가 사회적 영향원(source of influence)으로 작용하여 인간 편향을 증폭시키는 메커니즘과 연결
  • Noise: A Flaw in Human Judgment (Kahneman et al., 2021): 인간 판단에서 노이즈(noise)와 편향(bias)의 구분 — 본 연구에서 노이즈가 있는 AI와 편향된 AI의 차별적 효과를 비교하는 이론적 기반 제공
  • Automation Bias in Intelligent Time Critical Decision Support Systems (Cummings, 2004): 시간 압박 하 의사결정에서 자동화 편향이 증가함을 보고 — 인간이 AI의 판단을 무비판적으로 수용하는 경향의 초기 실증 연구

Methods


  • 참가자: 총 1,401명, Prolific 플랫폼에서 모집, 다양한 실험 조건에 배정
  • 실험 1 — 감정 분류 과제 (Emotional Aggregation Task):
    • 참가자들은 12개의 morphed faces 배열을 보고 전체적으로 “더 행복한(happy)” 또는 “더 슬픈(sad)” 표정인지 판단
    • 3-level 계단식 설계: Level 1 (인간 기준선) → Level 2 (AI 학습 및 증폭) → Level 3 (편향된 AI와 상호작용)
    • Level 1에서 인간은 자연적으로 “슬픔” 방향의 편향을 보임 → CNN이 이 편향된 데이터로 학습하여 편향을 증폭
    • Level 3에서 새로운 참가자들이 편향된 AI의 판단을 참조하며 과제 수행 → 편향이 더욱 강화됨
    • 대조 조건: 인간-인간 상호작용 조건(동일한 인간의 편향된 판단을 참조)과 비교
  • 실험 2 — 무작위 점 운동 과제 (Random Dot Kinematogram, RDK):
    • 참가자들은 화면에서 점들이 이동하는 방향과 비율을 추정하고 confidence를 보고
    • 3가지 알고리즘 조건: (1) 편향된 AI (biased), (2) 정확한 AI (accurate), (3) 노이즈 AI (noisy)
    • 참가자들은 각 시행(trial)에서 자신의 판단 후 AI의 판단을 확인하고 최종 답변을 수정할 수 있음
    • 추가 조건: 참가자에게 상호작용 상대가 AI라고 알려주는 조건 vs. 인간이라고 알려주는 조건 (실제로는 동일한 알고리즘)
    • Reinforcement learning 계산 모델로 학습 과정을 분석
  • 실험 3 — 생성 AI 이미지 과제 (Text-to-Image Generation):
    • Stable Diffusion에 “financial manager” 이미지를 생성하도록 요청 → 85%가 백인 남성 이미지
    • 참가자들에게 AI 생성 이미지를 노출시킨 후, “재무 관리자일 가능성이 가장 높은 사람”을 선택하도록 요청
    • 노출 전(pre)과 노출 후(post) 판단을 비교하여 편향 변화 측정

실험 설계 다이어그램

graph TD
    subgraph EXP1["실험 1: 감정 분류"]
        A1["Level 1<br/>인간 기준선<br/>(sad 편향 발견)"] --> A2["Level 2<br/>CNN 학습<br/>(편향 증폭)"]
        A2 --> A3["Level 3<br/>편향된 AI와 상호작용<br/>(편향 내재화)"]
        A1 --> A4["대조: 인간-인간<br/>상호작용"]
    end

    subgraph EXP2["실험 2: 점 운동 지각 (RDK)"]
        B1["참가자 초기 판단"] --> B2["AI 판단 제시<br/>(편향 / 정확 / 노이즈)"]
        B2 --> B3["최종 판단 수정"]
        B3 --> B4["RL 모델 분석"]
    end

    subgraph EXP3["실험 3: 생성 AI 이미지"]
        C1["Stable Diffusion<br/>이미지 생성<br/>(85% 백인 남성)"] --> C2["참가자 노출<br/>(pre/post 측정)"]
        C2 --> C3["편향 변화 측정"]
    end

    EXP1 --> D["결론: Human-AI<br/>피드백 루프가<br/>편향을 증폭"]
    EXP2 --> D
    EXP3 --> D

    style EXP1 fill:#e1f5fe
    style EXP2 fill:#fff9c4
    style EXP3 fill:#fce4ec
    style D fill:#e8f5e9

Results


  • 실험 1 (감정 분류): AI와 상호작용한 참가자들은 “슬픔” 방향 편향이 유의미하게 증가 — 인간-인간 상호작용 조건에서는 이러한 편향 증폭이 관찰되지 않음
  • 실험 2 (RDK): 편향된 AI와의 상호작용은 참가자의 편향을 10% 이상 증가시킴; 반대로 정확한 AI와의 상호작용은 정확도를 유사한 수준으로 향상시킴
  • 의견 변경 비율: 참가자가 AI와 의견이 불일치할 때 자신의 판단을 변경한 비율은 32.72% — 인간과의 불일치 시에는 **11.27%**에 불과 (약 3배 차이)
  • AI 영향력 과소평가: 참가자들은 AI가 자신의 판단에 미친 영향을 체계적으로 과소평가(underestimate)하여, AI의 영향에 더 취약하게 됨
  • 실험 3 (생성 AI): AI가 생성한 편향된 이미지(85% 백인 남성)에 노출된 참가자들은 “재무 관리자 = 백인 남성” 선택 경향이 유의미하게 증가
  • Reinforcement learning 모델: 편향된 AI 조건에서의 학습 과정이 baseline 모델보다 더 잘 적합(fit)되어, 참가자들이 AI의 편향된 피드백을 점진적으로 내재화하는 과정을 설명

핵심 결과 요약

실험과제주요 발견효과 크기
실험 1감정 분류 (Emotion)AI 상호작용 후 “슬픔” 편향 증폭Human-AI > Human-Human
실험 2점 운동 지각 (RDK)편향 AI → 편향 증가 10%+; 정확 AI → 정확도 향상의견 변경: 32.72% vs 11.27%
실험 3생성 AI 이미지백인 남성 선호 편향 증가Pre vs Post 유의미 차이

AI 유형별 영향 비교 (실험 2)

알고리즘 유형인간 편향 변화정확도 변화
편향된 AI (Biased)편향 증가 (+10%+)감소
정확한 AI (Accurate)편향 감소증가
노이즈 AI (Noisy)미미한 변화미미한 변화

Discussion


  • 한계 1 — 실험실 환경의 한정성: 통제된 실험 환경에서의 결과이므로, 실제 고위험 의사결정 환경(의료, 법률, 채용)에서의 피드백 루프 효과는 더 크거나 다른 양상일 수 있음
  • 한계 2 — 단기적 상호작용: 참가자들은 비교적 짧은 시간 동안 AI와 상호작용 — 장기적(longitudinal) 노출에서 편향 축적 효과가 어떻게 변화하는지 추가 연구 필요
  • 한계 3 — AI 모델의 다양성 부족: CNN과 Stable Diffusion만 사용 — LLM 등 다른 AI 시스템에서도 동일한 피드백 루프가 발생하는지 검증 필요
  • 한계 4 — 개인차 미반영: AI에 대한 신뢰도(trust), 기술 친숙도(familiarity), 인지 스타일(cognitive style) 등 개인차 변수가 편향 증폭 정도에 미치는 영향을 충분히 탐색하지 못함
  • 핵심 시사점: 편향된 AI는 인간 편향을 증폭시키지만, 정확한 AI는 인간 판단의 정확도를 향상시킬 수 있음 → AI 편향 감소(debiasing)가 인간 판단 품질 향상으로 이어질 가능성
  • 향후 방향 1: 실제 의사결정 환경(의료 진단, 법적 판결, 채용 심사)에서의 Human-AI 피드백 루프 효과 검증
  • 향후 방향 2: 피드백 루프의 다단계 전파(multi-level propagation) 연구 — 편향이 여러 세대의 AI 학습과 인간 상호작용을 거치며 어떻게 누적되는지 추적
  • 향후 방향 3: AI 영향력에 대한 인간의 자각(awareness) 제고를 위한 개입(intervention) 전략 개발 — 참가자들이 AI의 영향을 과소평가한다는 발견이 핵심 근거
  • 정책적 함의: AI 시스템 설계 시 편향 완화 메커니즘을 의무화하고, 인간-AI 상호작용에서의 투명성(transparency)을 강화할 필요성 제기