How human–AI feedback loops alter human perceptual, emotional and social judgements
13분 분량
Introduction
AI 시스템은 인간이 생성한 데이터로 학습되며, 이 데이터에 내재된 편향(bias)을 흡수하고 증폭(amplify)하는 경향이 있음 — 그러나 이렇게 편향된 AI 출력이 다시 인간의 판단에 미치는 영향에 대한 실증 연구는 부족
인간과 AI 간의 반복적 상호작용은 **피드백 루프(feedback loop)**를 형성할 수 있음: 인간 편향 → AI 학습 → 편향 증폭 → 인간에게 재전달 → 인간 편향 강화라는 자기 강화적(self-reinforcing) 순환 구조
기존 연구들은 automation bias(자동화 편향)와 algorithm aversion(알고리즘 혐오)을 개별적으로 다루었으나, 인간-AI 피드백 루프의 동적(dynamic) 과정에서 편향이 어떻게 축적되는지는 체계적으로 검증되지 않음
본 연구는 1,401명의 참가자를 대상으로 3가지 실험 패러다임(감정 분류, 운동 지각, 생성 AI 이미지)을 통해 인간-AI 피드백 루프가 지각적(perceptual), 정서적(emotional), 사회적(social) 판단에 미치는 영향을 종합적으로 검증
핵심 가설: 편향된 AI와의 상호작용은 인간-인간 상호작용보다 더 큰 편향 증폭을 유발하며, 참가자들은 AI의 영향력을 과소평가(underestimate)함
Related Papers
Dissecting Racial Bias in an Algorithm Used to Manage the Health of Populations (Obermeyer et al., 2019): 미국 의료 시스템에서 널리 사용되는 알고리즘이 비용 기반 예측으로 인해 인종적 편향을 내포 — 알고리즘 편향이 실제 자원 배분에 미치는 영향을 실증
Algorithm Aversion: People Erroneously Avoid Algorithms after Seeing Them Err (Dietvorst et al., 2015): 인간이 알고리즘의 오류를 목격하면 알고리즘 사용을 회피하는 경향 발견 — 본 연구와 대조적으로 참가자들은 오히려 AI 판단을 수용하는 경향을 보임
How Social Influence Can Undermine the Wisdom of Crowd Effect (Lorenz et al., 2011): 사회적 영향(social influence)이 군중의 지혜를 약화시킬 수 있음을 실증 — 본 연구에서 AI가 사회적 영향원(source of influence)으로 작용하여 인간 편향을 증폭시키는 메커니즘과 연결
Noise: A Flaw in Human Judgment (Kahneman et al., 2021): 인간 판단에서 노이즈(noise)와 편향(bias)의 구분 — 본 연구에서 노이즈가 있는 AI와 편향된 AI의 차별적 효과를 비교하는 이론적 기반 제공
Automation Bias in Intelligent Time Critical Decision Support Systems (Cummings, 2004): 시간 압박 하 의사결정에서 자동화 편향이 증가함을 보고 — 인간이 AI의 판단을 무비판적으로 수용하는 경향의 초기 실증 연구
Methods
참가자: 총 1,401명, Prolific 플랫폼에서 모집, 다양한 실험 조건에 배정
실험 1 — 감정 분류 과제 (Emotional Aggregation Task):
참가자들은 12개의 morphed faces 배열을 보고 전체적으로 “더 행복한(happy)” 또는 “더 슬픈(sad)” 표정인지 판단
3-level 계단식 설계: Level 1 (인간 기준선) → Level 2 (AI 학습 및 증폭) → Level 3 (편향된 AI와 상호작용)
Level 1에서 인간은 자연적으로 “슬픔” 방향의 편향을 보임 → CNN이 이 편향된 데이터로 학습하여 편향을 증폭
Level 3에서 새로운 참가자들이 편향된 AI의 판단을 참조하며 과제 수행 → 편향이 더욱 강화됨
대조 조건: 인간-인간 상호작용 조건(동일한 인간의 편향된 판단을 참조)과 비교
실험 2 — 무작위 점 운동 과제 (Random Dot Kinematogram, RDK):
참가자들은 화면에서 점들이 이동하는 방향과 비율을 추정하고 confidence를 보고
3가지 알고리즘 조건: (1) 편향된 AI (biased), (2) 정확한 AI (accurate), (3) 노이즈 AI (noisy)
참가자들은 각 시행(trial)에서 자신의 판단 후 AI의 판단을 확인하고 최종 답변을 수정할 수 있음
추가 조건: 참가자에게 상호작용 상대가 AI라고 알려주는 조건 vs. 인간이라고 알려주는 조건 (실제로는 동일한 알고리즘)
Reinforcement learning 계산 모델로 학습 과정을 분석
실험 3 — 생성 AI 이미지 과제 (Text-to-Image Generation):
Stable Diffusion에 “financial manager” 이미지를 생성하도록 요청 → 85%가 백인 남성 이미지
참가자들에게 AI 생성 이미지를 노출시킨 후, “재무 관리자일 가능성이 가장 높은 사람”을 선택하도록 요청
노출 전(pre)과 노출 후(post) 판단을 비교하여 편향 변화 측정
실험 설계 다이어그램
graph TD
subgraph EXP1["실험 1: 감정 분류"]
A1["Level 1<br/>인간 기준선<br/>(sad 편향 발견)"] --> A2["Level 2<br/>CNN 학습<br/>(편향 증폭)"]
A2 --> A3["Level 3<br/>편향된 AI와 상호작용<br/>(편향 내재화)"]
A1 --> A4["대조: 인간-인간<br/>상호작용"]
end
subgraph EXP2["실험 2: 점 운동 지각 (RDK)"]
B1["참가자 초기 판단"] --> B2["AI 판단 제시<br/>(편향 / 정확 / 노이즈)"]
B2 --> B3["최종 판단 수정"]
B3 --> B4["RL 모델 분석"]
end
subgraph EXP3["실험 3: 생성 AI 이미지"]
C1["Stable Diffusion<br/>이미지 생성<br/>(85% 백인 남성)"] --> C2["참가자 노출<br/>(pre/post 측정)"]
C2 --> C3["편향 변화 측정"]
end
EXP1 --> D["결론: Human-AI<br/>피드백 루프가<br/>편향을 증폭"]
EXP2 --> D
EXP3 --> D
style EXP1 fill:#e1f5fe
style EXP2 fill:#fff9c4
style EXP3 fill:#fce4ec
style D fill:#e8f5e9
Results
실험 1 (감정 분류): AI와 상호작용한 참가자들은 “슬픔” 방향 편향이 유의미하게 증가 — 인간-인간 상호작용 조건에서는 이러한 편향 증폭이 관찰되지 않음
실험 2 (RDK): 편향된 AI와의 상호작용은 참가자의 편향을 10% 이상 증가시킴; 반대로 정확한 AI와의 상호작용은 정확도를 유사한 수준으로 향상시킴
의견 변경 비율: 참가자가 AI와 의견이 불일치할 때 자신의 판단을 변경한 비율은 32.72% — 인간과의 불일치 시에는 **11.27%**에 불과 (약 3배 차이)
AI 영향력 과소평가: 참가자들은 AI가 자신의 판단에 미친 영향을 체계적으로 과소평가(underestimate)하여, AI의 영향에 더 취약하게 됨
실험 3 (생성 AI): AI가 생성한 편향된 이미지(85% 백인 남성)에 노출된 참가자들은 “재무 관리자 = 백인 남성” 선택 경향이 유의미하게 증가
Reinforcement learning 모델: 편향된 AI 조건에서의 학습 과정이 baseline 모델보다 더 잘 적합(fit)되어, 참가자들이 AI의 편향된 피드백을 점진적으로 내재화하는 과정을 설명
핵심 결과 요약
실험
과제
주요 발견
효과 크기
실험 1
감정 분류 (Emotion)
AI 상호작용 후 “슬픔” 편향 증폭
Human-AI > Human-Human
실험 2
점 운동 지각 (RDK)
편향 AI → 편향 증가 10%+; 정확 AI → 정확도 향상
의견 변경: 32.72% vs 11.27%
실험 3
생성 AI 이미지
백인 남성 선호 편향 증가
Pre vs Post 유의미 차이
AI 유형별 영향 비교 (실험 2)
알고리즘 유형
인간 편향 변화
정확도 변화
편향된 AI (Biased)
편향 증가 (+10%+)
감소
정확한 AI (Accurate)
편향 감소
증가
노이즈 AI (Noisy)
미미한 변화
미미한 변화
Discussion
한계 1 — 실험실 환경의 한정성: 통제된 실험 환경에서의 결과이므로, 실제 고위험 의사결정 환경(의료, 법률, 채용)에서의 피드백 루프 효과는 더 크거나 다른 양상일 수 있음
한계 2 — 단기적 상호작용: 참가자들은 비교적 짧은 시간 동안 AI와 상호작용 — 장기적(longitudinal) 노출에서 편향 축적 효과가 어떻게 변화하는지 추가 연구 필요
한계 3 — AI 모델의 다양성 부족: CNN과 Stable Diffusion만 사용 — LLM 등 다른 AI 시스템에서도 동일한 피드백 루프가 발생하는지 검증 필요
한계 4 — 개인차 미반영: AI에 대한 신뢰도(trust), 기술 친숙도(familiarity), 인지 스타일(cognitive style) 등 개인차 변수가 편향 증폭 정도에 미치는 영향을 충분히 탐색하지 못함
핵심 시사점: 편향된 AI는 인간 편향을 증폭시키지만, 정확한 AI는 인간 판단의 정확도를 향상시킬 수 있음 → AI 편향 감소(debiasing)가 인간 판단 품질 향상으로 이어질 가능성
향후 방향 1: 실제 의사결정 환경(의료 진단, 법적 판결, 채용 심사)에서의 Human-AI 피드백 루프 효과 검증
향후 방향 2: 피드백 루프의 다단계 전파(multi-level propagation) 연구 — 편향이 여러 세대의 AI 학습과 인간 상호작용을 거치며 어떻게 누적되는지 추적
향후 방향 3: AI 영향력에 대한 인간의 자각(awareness) 제고를 위한 개입(intervention) 전략 개발 — 참가자들이 AI의 영향을 과소평가한다는 발견이 핵심 근거
정책적 함의: AI 시스템 설계 시 편향 완화 메커니즘을 의무화하고, 인간-AI 상호작용에서의 투명성(transparency)을 강화할 필요성 제기