Introduction
Methods
Results
Discussion
DID = |baseline duration - model duration| - |shadowed duration - model duration|
모든 duration은 vowel의 길이.
pos: converge, neg: diverge
Authentic: 실제와 일치 조건, Inauthentic: 불일치 조건 | 모델화자의 humanness 와 제시한 Label 간
💡
TTS 음성 (빨간색 원):
Authentic 조건: TTS 음성을 디바이스로 인식했을 때(즉, 실제 TTS 음성임을 알았을 때), 참가자들은 가장 높은 수준의 음성 수렴.
Inauthentic 조건: TTS 음성을 사람으로 인식하게 했을 때(즉, 실제는 TTS인데 사람인 것처럼 제시했을 때), 참가자들은 이 동일한 TTS 음성에 대해 발산. Uncanny Valley 현상과 같이, 실제와 다른 ‘단서 불일치(cue incongruence)‘에 대한 부정적인 반응으로 해석될 수도.
사람 음성 (파란색 삼각형):
Authentic 조건: 사람 음성을 사람으로 인식했을 때(즉, 실제 사람 음성임을 알았을 때), 참가자들은 가장 낮은 수준의 음성 수렴. 이는 예상과 다른 결과 로, 다른 연구들[Imitating Siri(Computer, Psychology), Individual Variation in Cognitive Processing Style Predicts Differences in Phonetic Imitation of Device and Human Voices(Interspeech)]과 상반 . 논문에서는 사용된 특정 사람 음성의 특이성이나 실험 환경(컴퓨터 기반 실험) 때문일 수 있다고 설명.
Inauthentic 조건: 사람 음성을 디바이스로 인식하게 했을 때(즉, 실제는 사람인데 디바이스인 것처럼 제시했을 때), 참가자들은 이 동일한 사람 음성에 대한 수렴. 이는 사람들이 기술 에이전트와 소통할 때 더 큰 정렬을 보이는 경향(Linguistic alignment between people and computers, Voice anthropomorphism, interlocutor modelling and alignment effects on syntactic choices in human- computer dialogue)과 일치.
그래도 가장 중요한 부분은 AI-Voice가 TTS이니, 이걸 사람으로 속이기는 쉽지 않았을거다. 그러니 현 시점에서 좀 더 사람다운 Voice-AI를 사용한다면 더 유의미한 분석이 되지 않으려나??