Introduction
Related Papers
Methods
Results
Discussion
-visual-que.png)
또한, 발음 역시 Siri, Alexa 등을 사용.
12개의 저빈도 단어를 사용: 개수가 많이 줄음.
[target] : 단음절 단어
bomb, sewn, vine, pun, shun, chime, yawn, shone, wane, tame, wren, hem
1. 서론 (Introduction)
• 연구 배경 및 목적:
• 사람들이 일상 대화뿐 아니라 음성 기반 AI(예: Apple Siri)와 상호작용할 때에도 무의식적으로 자신의 발음이나 억양 등 음향적 특징을 모델 쪽으로 수렴(phonetic alignment)하는 현상이 나타난다는 점에 주목했습니다.
• 본 연구는 연령(노인 vs. 젊은 성인)과 성별이 이러한 음성 수렴에 어떤 영향을 미치는지, 그리고 인간 화자와 음성 AI(디바이스 음성) 사이의 차이가 어떻게 나타나는지를 조사하는 데 목적이 있습니다.
2. 실험 1: 단어 섀도잉 과제 (Word Shadowing Task)
• 자극 제작:
• 자극 단어:
• 대상 자극은 Brysbaert와 New (2009) 기준에 따라 선정된 12개의 모노음절 저빈도 영어 단어(예: bomb, shone, yawn 등)입니다.
• 모델 음성:
• 네 개의 모델 화자 음성이 사용되었습니다.
• 자연 음성: 두 명의 20대 원어민 (남성과 여성)이 전문 스튜디오에서 녹음한 음성.
• 합성 음성: Apple의 Siri 설정을 활용하여 생성된 TTS 음성 – 미국식 Siri 음성 중 여성 “Samantha”와 남성 “Alex”가 사용됨.
• 제작 이유:
• 이전 연구에서 사용된 자극과 유사하게, 저빈도 단어를 사용함으로써 참가자들의 Baseline 발화와의 차이를 명확히 드러내고, 모델 음성(자연 또는 합성)에 얼마나 수렴하는지를 측정할 수 있도록 했습니다.
• 실험 절차:
• Baseline 단계:
• 각 참가자는 12개 단어를 화면에 표시된 순서대로 두 번씩 읽어 자신의 기준 발화를 기록합니다.
• 섀도잉(Shadowing) 단계:
• 참가자들은 헤드폰을 통해 모델 음성(네 가지 음성 중 하나)이 제시되는 것을 듣고 즉시 따라 말합니다.
• 각 모델 음성에 대해 단어가 무작위로 제시되며, 각 참가자는 총 4 × 12 × 2 = 96회 반복해서 섀도잉하게 됩니다.
• 배경 설문:
• 이후 참가자들은 자신이 음성 AI에 대해 어떤 경험을 갖고 있는지, 그리고 “Siri가 실제 사람처럼 들리는지”에 대한 질문에 응답합니다.
3. 실험 2: AXB 유사성 평가 과제 (AXB Similarity Rating Task)
• 자극 선택:
• 실험 1에서 수집한 참가자들의 발화 중, 두 번째 반복(사전 녹음)과 섀도잉 발화를 사용합니다.
• 각 음성 자극은 전처리(예: 불필요한 지연 제거, 60 dB로 정규화) 후 하나의 소리 파일로 결합되어 제시됩니다.
• 절차:
• 온라인 설문 플랫폼(Qualtrics)을 이용하여, 독립된 평가자들이 세 개의 음성 샘플(AXB)을 듣고, 어느 쪽(사전 녹음 vs. 섀도잉 발화)이 모델 음성에 더 가까운지를 평가합니다.
• 각 평가자는 여러 목록을 통해 총 96회의 AXB 평가를 수행하며, 각 참가자의 섀도잉 발화가 모델 음성과 얼마나 유사한지에 대한 지각적 수렴 정도를 측정합니다.
4. 분석 방법 및 주요 측정 지표
• 음향 분석:
• 유클리드 거리(Difference in Distance):
• 각 참가자의 모음(F1, F2 등) 값과 모델 음성의 해당 모음 값 간의 유클리드 거리를 계산하여, Baseline 대비 섀도잉 발화가 모델 쪽으로 얼마나 가까워졌는지 정량화합니다.
• 통계 분석:
• 혼합 효과 로지스틱 회귀 모델을 사용하여, 음성 수렴 여부(AXB 평가 결과)를 shadower의 연령 그룹, 성별, 모델 화자의 인격화(인간 vs. 디바이스), 모델 화자의 성별 등 다양한 요인과 상호작용하는 방식으로 분석했습니다.
• 지각 평가:
• AXB 과제를 통해 얻은 평가 결과는, 음향적 변화가 실제 청각적 인식에서도 반영되는지를 보여줍니다.
5. 주요 결과 및 시사점
• 전체 결과:
• 전반적으로, 참가자들은 모델 음성에 대한 섀도잉 발화가 사전 녹음(기준) 발화보다 모델에 더 유사하게 나타났으며, 전체 AXB 평가 점수는 53%로, 우연(50%)보다 높은 수준에서 수렴이 일어남을 확인했습니다.
• 성별 및 연령 효과:
• 남성 섀도워들은 인간 음성에 대해 더 강하게 수렴하는 반면, 여성 섀도워는 디바이스 음성과 인간 음성 모두에 대해 유사한 수렴 정도를 보였습니다.
• 젊은 성인(YA)과 노인(OA) 그룹 간에도 차이가 나타났는데, YA는 인간 남성 모델 음성에 대해 가장 높은 수렴 정도를 보였고, OA는 반대로 여성 모델 음성 쪽으로 더 수렴하는 경향이 관찰되었습니다.
• 시사점:
• 이 연구는 인간-인간 상호작용에서 관찰된 사회적 음성 수렴 패턴(예: 성별, 나이 등)이 음성 AI와의 상호작용에서도 나타날 수 있음을 시사합니다.
• 특히, 음성 AI 시스템을 설계할 때 사용자들의 사회적 배경(연령, 성별)과 관련된 인지적·사회적 태도를 고려하는 것이 중요하다는 점을 보여줍니다.
• 또한, 인간과 디바이스 간의 음성 수렴 정도 차이가 음성 AI의 “인간다움”에 대한 인식과도 관련되어 있으며, 이는 향후 음성 인터페이스의 개선에 시사점을 제공합니다.