Introduction

Speech alignment (음성 정렬) 은 화자가 무의식적으로 대화 상대의 음성 및 언어 패턴을 채택하는 현상으로, 음성적 수렴(phonetic convergence) 또는 entrainment이라고도 불린다. 이 현상은 인간 간 대화에서 광범위하게 연구되었으나, 인간과 음성 AI 간 상호작용에서의 연구는 제한적이다.
Computers Are Social Actors (CASA) 프레임워크(Nass et al., 1994)에 따르면, 인간은 컴퓨터와의 상호작용에서도 인간 간 사회적 행동 규칙을 자동적으로 적용한다. 이 이론은 음성 AI에 대한 음성 정렬에서도 사회적 요인(성별, 연령)이 작용할 수 있음을 시사한다.
Communication Accommodation Theory (CAT) (Giles et al., 1991)는 화자가 사회적 친밀감을 전달하기 위해 대화 상대의 언어 패턴에 수렴(convergence)하거나, 사회적 거리를 유지하기 위해 발산(divergence)한다고 제안한다. 본 연구는 이 이론을 인간-AI 상호작용에 확장한다.
선행 연구에서 화자들은 음성 AI(예: Siri)보다 인간 대화 상대에게 더 높은 수준의 음성 모방(vocal imitation)을 보였으나, 연령에 따른 차이를 체계적으로 조사한 연구는 부족하였다. 고령 성인과 청년 성인이 음성 AI에 대해 다른 사회적 반응을 보일 가능성이 있다.
본 연구는 연령(고령 53-81세 vs. 청년 18-39세) 과 성별(여성 vs. 남성) 이 인간 및 음성 AI(Apple Siri) 음성에 대한 speech alignment 정도에 어떤 영향을 미치는지를 shadowing 과제와 AXB 지각 평가를 통해 조사한다.

Computers Are Social Actors (Nass, Steuer, & Tauber, 1994): 인간이 컴퓨터와 상호작용할 때 근본적으로 사회적 반응을 보인다는 CASA 패러다임을 제시한 기초 연구. 5개 실험을 통해 컴퓨터에 대한 사회적 반응이 의식적 믿음이 아닌 자동적 과정임을 입증하였다.
On Phonetic Convergence During Conversational Interaction (Pardo, 2006): 자연스러운 대화 상호작용에서 화자 간 음성적 수렴을 AXB 지각 유사성 과제로 측정한 연구. 성별 조합에 따른 수렴 차이(남성 쌍이 여성 쌍보다 더 유사)를 발견하여 사회적 요인의 역할을 확인하였다.
Social and Functional Pressures in Vocal Alignment: Differences for Human and Voice-AI Interlocutors (Cohn, Zellou, & Segedin, 2021): 인간과 음성 AI 대화 상대에 대한 음성 정렬에서 사회적 압력과 기능적 압력이 각각 다르게 작용함을 보인 연구. 인간에게는 사회적 요인이, AI에게는 기능적 명확성이 정렬을 주도하였다.
Evidence for Phonetic and Social Selectivity in Talker-Specific Phonetic Imitation (Babel, 2012): 화자별 음성 모방에서 음성적 선택성과 사회적 선택성의 증거를 제시한 연구. 사회적 태도(호감도)가 모방 정도에 영향을 미침을 발견하여, 정렬이 순수 자동적 과정이 아닌 사회적으로 조절된 과정임을 시사하였다.
Echoes of Echoes? An Episodic Theory of Lexical Access (Goldinger, 1998): episodic 기억 이론에 기반하여 단어 shadowing 시 화자가 모델 화자의 음성 세부 특성을 자동으로 모방하는 현상을 설명한 이론적 연구. 본 연구의 shadowing 패러다임의 이론적 기초를 제공하였다.

Methods

참가자: 실험 1(Shadowing)에 청년 성인(YA) 24명(평균 20세, 범위 18-28세)과 고령 성인(OA) 24명(평균 67세, 범위 53-81세)이 참가하였으며, 각 연령 집단 내 성별이 균형 있게 분포되었다. 실험 2(AXB 평가)에는 별도의 청취자 48명(YA 24명, OA 24명)이 참가하였다. 모든 참가자는 영어 원어민이었다.
자극(Stimuli): 4명의 모델 화자 음성을 사용하였다: 인간 남성 1명, 인간 여성 1명, Apple Siri 남성 음성 1개, Apple Siri 여성 음성 1개. 자극 단어는 일반적인 단음절 영어 단어들로 구성되었다.
실험 1 절차 (Word Shadowing Task): 참가자는 헤드폰을 통해 모델 화자의 발화를 듣고 즉시 따라 말하는(shadow) 과제를 수행하였다. 모델 화자별로 블록화되어 4개 블록(블록당 약 40단어)으로 진행되었으며, 음성이 녹음되었다.
실험 2 절차 (AXB Similarity Task): 별도의 청취자들이 동일 단어의 세 가지 발화를 들었다 — X(모델 화자), A(shadowing 후 참가자 발화), B(shadowing 전 참가자 발화). 청취자는 A와 B 중 X에 더 유사한 것을 판단하였으며, 이 선택 비율이 음성 정렬 정도의 지표로 사용되었다.
분석: Mixed effects logistic regression을 사용하여 AXB 선택을 모델링하였다. 고정 효과(fixed effects)로 모델 화자 성별, 화자 범주(인간 vs. AI), shadower 연령, shadower 성별 및 모든 상호작용을 포함하였고, 무선 효과(random effects)로 청취자 절편 및 기울기를 포함하였다.

flowchart TD
    subgraph EXP1["실험 1: Word Shadowing Task"]
        A["참가자 48명<br/>(YA 24 + OA 24)"] --> B["사전 녹음<br/>(Baseline 발화)"]
        B --> C["Shadowing 과제"]
        C --> D["블록 1: 인간 여성 음성"]
        C --> E["블록 2: 인간 남성 음성"]
        C --> F["블록 3: Siri 여성 음성"]
        C --> G["블록 4: Siri 남성 음성"]
        D & E & F & G --> H["사후 녹음<br/>(Shadowed 발화)"]
    end

    subgraph EXP2["실험 2: AXB Perceptual Similarity Task"]
        I["별도 청취자 48명<br/>(YA 24 + OA 24)"] --> J["AXB 판단 과제"]
        J --> K["X: 모델 화자 발화"]
        J --> L["A: Shadowed 발화"]
        J --> M["B: Baseline 발화"]
        K & L & M --> N["A vs B 중<br/>X에 더 유사한 것 선택"]
    end

    subgraph ANALYSIS["분석"]
        N --> O["Mixed Effects<br/>Logistic Regression"]
        O --> P["고정효과: 모델 화자 성별 ×<br/>화자 범주 × Shadower 연령 ×<br/>Shadower 성별"]
        O --> Q["무선효과: 청취자<br/>절편 및 기울기"]
    end

    H --> J

Results

연령 × 음성 성별 상호작용: 고령 성인과 청년 성인은 모델 화자의 성별에 따라 뚜렷하게 다른 정렬 패턴을 보였다. 고령 성인은 여성 음성(인간 및 AI 모두)에 대해 더 큰 정렬을 보인 반면, 청년 성인은 남성 인간 음성에 대해 더 큰 정렬을 보였다.
인간 vs. 음성 AI 차이: 전반적으로 음성 AI보다 인간 화자에 대한 정렬이 더 컸으며, 이는 선행 연구 결과와 일치한다. 그러나 이 효과는 연령 및 성별에 의해 조절되었다.
성별 매개 효과: 여성 shadower는 인간과 음성 AI 모델 화자에 대해 유사한 정도의 정렬을 보인 반면, 남성 shadower는 화자 범주(인간 vs. AI)에 따라 차별적 정렬을 보였다. 이는 성별에 따른 사회적 반응의 차이를 시사한다.
3원 상호작용: 모델 화자 성별 × shadower 연령 × shadower 성별 간의 유의한 3원 상호작용이 관찰되었다 (p < .05). 이는 정렬 패턴이 단일 요인이 아닌 복합적 사회적 역동에 의해 결정됨을 보여준다.

조건	고령 성인 (OA)	청년 성인 (YA)
여성 인간 음성	높은 정렬	낮은 정렬
남성 인간 음성	낮은 정렬	높은 정렬
여성 Siri 음성	높은 정렬	중간 정렬
남성 Siri 음성	중간 정렬	중간 정렬

Fixed Effect	결과
Model talker gender	유의 (p < .05)
Talker category (Human vs. AI)	유의 (p < .05)
Shadower age × Model talker gender	유의한 상호작용 (p < .05)
Shadower gender × Talker category	유의한 상호작용 (p < .05)
3-way interaction (Gender × Age × Talker gender)	유의 (p < .05)

Discussion

CASA 이론의 부분적 지지: 연령과 성별 같은 사회적 요인이 인간-기기 상호작용에서도 인간-인간 상호작용과 유사하게 음성 정렬을 매개한다는 결과는 CASA 프레임워크를 부분적으로 지지한다. 그러나 인간과 AI에 대한 정렬 정도의 차이는 완전한 사회적 동등성이 아닌 조건부 적용을 시사한다.
연령의 핵심 조절 변수 역할: 고령 성인과 청년 성인이 성별에 따른 사회적 역동을 다르게 적용하는 것은 세대 간 기술 경험의 차이를 반영할 수 있다. 고령 성인은 덜 자연스러운 TTS에 대한 경험이 많아 현대 음성 AI를 더 “인간적”으로 인식할 가능성이 있으며, 청년 성인은 점점 자연스러워지는 음성 AI와 함께 성장하면서 AI와 인간 간의 구별을 더 명확히 유지할 수 있다.
한계점:
- 각 연령/성별 셀당 24명으로 표본 크기가 비교적 작다.
- 각 범주(인간 및 AI)별 여성 1명, 남성 1명의 단일 화자만 사용하여 일반화 가능성이 제한된다.
- 지각적 AXB 평가가 음향적 정렬의 대리 측정치로 사용되었으며, 직접적 음향 분석(formant 등)과 다른 패턴을 보일 수 있다.
- 대학생 연령대와 고령 성인 집단이 전체 발달 스펙트럼을 대표하지 못한다.
향후 연구 방향:
- 더 넓은 연령 범위와 다양한 화자 음성을 사용한 연구가 필요하다.
- 지각적 측정과 함께 직접적 음향-음성학적 특성(formant frequencies, F0 등)을 분석해야 한다.
- 다른 음성 AI 시스템(Alexa, Google Assistant 등)으로의 일반화 가능성을 검증해야 한다.
- 실험실 단어 shadowing이 아닌 실제 대화 환경에서의 확장된 상호작용을 조사할 필요가 있다.
- 기술 불안감(technology anxiety), 음성 AI 노출 빈도, 노화에 대한 태도 등 개인차 변수의 역할을 탐색해야 한다.

Juhyeon's Blog

탐색기

Age and Gender Related Differences in Speech Alignment = Toward Humans and Voice-AI

Introduction

Methods

Results

Discussion

그래프 뷰

목차

Properties

백링크

Age and Gender Related Differences in Speech Alignment = Toward Humans and Voice-AI

Introduction

Related Papers

Methods

Results

Discussion

그래프 뷰

목차

Properties

백링크