Introduction

Related Papers

Methods

Results

Discussion


DID = |baseline duration - model duration| - |shadowed duration - model duration|

모든 duration은 vowel의 길이.

pos: converge, neg: diverge

Authentic: 실제와 일치 조건, Inauthentic: 불일치 조건 | 모델화자의 humanness 와 제시한 Label 간

  • 그래도 가장 중요한 부분은 AI-Voice가 TTS이니, 이걸 사람으로 속이기는 쉽지 않았을거다. 그러니 현 시점에서 좀 더 사람다운 Voice-AI를 사용한다면 더 유의미한 분석이 되지 않으려나??