Introduction
Related Papers
Methods
Results
Discussion
실험 구조
.png)
사용한 자극: 총 3가지로, 다이폰 자극, HMM 합성, 사람.
visual task → 처음 baseline task에 대한 기억을 약화시킴.
자극
짧은 독일어 문장.
40문장 중 15개의 타겟 문장 + 25개의 filler 문장(15개에대한 기억 약화)
.png)
제시하는 각 문장의 3가지 특징
- 첫 번째 특징: 강세가 있는 음절 내에서 중간 모음 -ä-의 발음이 e: 또는 E:로 나타나는 차이
- 두 번째 특징: 문장 끝의 -ig 발화가 Iç 또는 Ik로 나타나는 차이
- 세 번째 특징: 문장 끝 -en에서 @의 생략 또는 보강(삽입) 여부
→ 음성, 언어학적 특징에서 차이를 준 듯.
자극 생성 방식
사람
두 명의 독일어 원어민(25세 여성, 23세 남성)이 음향 차단실에서 고해상도(48 kHz)로 녹음한 문장을 사용.
Diphone(다이폰?, 디포네?)
- 디포네(diphone)는 음성 합성에서 사용되는 단위로, 하나의 음소에서 다음 음소로 전이되는 음성 구간을 말한다. 즉, 두 개의 연속된 음소 사이의 전이 부분 전체를 캡처한 것으로, 이 전이 구간에는 조음 변화와 연속적인 음향 정보가 포함되어 있어, 자연스러운 발음을 생성하는 데 중요한 역할을 한다.
MBROLA를 이용한 디포네(diphone) 합성을 통해 생성.
MBROLA
HMM(Hidden Markov Model??)
HMM 기반 음성 합성 시스템(HTS, 버전 2.3)을 사용하여 제작되었으며, 자연 자극의 f0 궤적과 세그먼트 지속 시간이 합성 자극에 적용되었습니다. HMM 조건에서는 추가적으로 다층 퍼셉트론(MLP)을 통해 voicing 특성을 예측하고, 이를 기반으로 f0 값을 보정하여 합성 음성의 자연스러움을 높임. 모든 자극은 남성 및 여성 화자 각각에 대해 생성되었으며, 총 270개의 자극(45개 문장 × 3 자극 유형 × 2 성별) 만듦.
-
HMM?
HMM 기반 음성 합성은 통계적 파라메트릭 음성 합성 방법 중 하나로, 음성을 시간에 따른 상태 전이(마르코프 체인)와 각 상태에서 관측되는 음향적 특성을 확률 분포(주로 가우시안 혼합 모델)로 모델링하는 방식입니다. 구체적으로 설명하면:
-
모델 구조:
-
음성을 여러 개의 숨겨진 상태(hidden state)로 분할하여, 각 상태가 특정 음소나 음성 구간(예: 음절의 시작, 중간, 끝 등)을 대표하도록 합니다.
-
각 상태에서는 스펙트럼, 기본 주파수(F0), 지속 시간 등과 같은 음향적 특성이 확률적으로 표현됩니다.
-
학습 단계:
-
녹음된 음성과 해당 텍스트(또는 발음 표기)를 정렬(어라인먼트)하여, 각 음성 구간에 대해 HMM 파라미터(전이 확률, 상태별 관측 확률 분포 등)를 추정합니다.
-
이렇게 학습된 모델은 각 음소나 단위 발화에 대해 음향 파라미터의 분포를 나타내게 됩니다.
-
합성 단계:
-
입력 텍스트를 기반으로, 미리 학습된 HMM을 사용하여 해당 텍스트의 음향 파라미터(예: 멜-케프스트럼 계수, F0, 발화 길이 등)를 생성합니다.
-
생성된 파라미터는 Vocoder(예: STRAIGHT, WORLD 등)를 통해 최종 음성 파형으로 변환됩니다.
-
이 과정에서 자연스러운 억양과 리듬을 얻기 위해, 실제 녹음된 자연 음성의 f0 궤적이나 세그먼트 지속 시간 등을 모델에 반영하는 방법도 사용됩니다.
-
장점과 단점:
-
장점: 적은 양의 데이터로도 학습이 가능하며, 음성의 다양한 변동성을 통계적으로 모델링할 수 있습니다. 또한, 음성의 길이 조절이나 특정 발음 특성을 조절하는 데 유연합니다.
-
단점: 종종 결과물에서 “oversmoothing” 현상이 나타나 자연스러움이 떨어질 수 있습니다. 이는 모델이 실제 음성의 미세한 다양성을 충분히 포착하지 못하기 때문입니다.
-
개선 방안:
- 최근 HMM 기반 합성 시스템(예: HTS)에서는 자연 자극의 f0 궤적과 세그먼트 지속 시간 같은 정보를 합성에 직접 적용하여, 합성 음성의 자연스러움을 높이는 방법을 사용합니다.
- 또한, 다층 퍼셉트론(MLP)과 같은 신경망 구조를 도입해, 스펙트럼으로부터 voicing 정보를 예측하고, 이를 보정하는 기법도 활용됩니다.
이와 같이 HMM 기반 음성 합성은 음성의 시간적, 음향적 특성을 통계적으로 모델링하여 합성하는 방식으로, 음성 합성 기술의 발전에 크게 기여해 왔습니다.
-
수렴 결과
주요 결과:
- 첫 번째 특징 ([:] vs. [e:]):
- 세 가지 자극 유형 모두에서 약 1/3 정도의 사례에서 참가자들이 모델의 발화 방향(즉, [e:] 혹은 [E:])으로 수렴.
- 두 번째 특징 ([Iç] vs. [Ik]):
- 전체적으로 작은 정도의 수렴 효과가 관찰되었으며, 사람 자극 조건에서 가장 강하게, HMM 합성 조건에서 다소, 그리고 디포네 합성 조건에서 가장 약하게 나타남.
- 세 번째 특징 (schwa, [ə]의 생략/삽입):
- 사람 자극에서는 schwa 발생 패턴의 변화(즉, Baseline 대비 섀도잉 단계에서 schwa가 증가하는 현상)가 명확히 나타났으나, 합성 자극에서는 이 효과가 덜 두드러짐.
결론:
- 참가자들은 사람 음성 자극을 들었을 때 가장 뚜렷한 음성 수렴 효과를 보였으며, 합성 자극(특히 디포네 합성과 HMM 기반 합성)에서도 수렴 효과가 관찰되었으나 자연 자극에 비해 그 정도가 상대적으로 약했다. → 논문 낸 시기를 보면, 기술적 한계일 수도 있다.
- 이 결과는 합성 음성의 경우, 음향적 세부 조정(예: f0, MGC, BAP 계수 등)을 통한 정밀한 제어가 필요함을 시사합니다.
- 또한, 각 세그먼트 특징의 인지적·음향적 특성이 음성 수렴의 발생에 중요한 역할을 한다는 것을 보여준다.