전체 개관
실험은 총 4단계로 구성.
- 한 줄 요약
Babel(2012)의 shadowing 과제를 따라가되, ai가 중간에 들어가고, 설문을 추가하여 상관 분석을 실시
- 제시되는 단어를 참가자가 발음하고 녹음.
- 발음이 제시되면, 따라하기
- 제시되는 단어를 따라하고 녹음해서 초기와 비교.
- AI에 대한 수용성 및 성격(바람직성이 높으면 잘 받아들인다. from ) 설문.
2x2x2x2 design
- AI 혹은 인간의 발음(우리 실험의 키 포인트)
- 발화자의 성별(Babel(2012) 논문에서는 남녀 성별에 따른 차이가 보고됨)
- 발화자의 실제 정체성(ai or 사람)
- 정체성 공개 유무(발화자의 정체를 유추할 수 있는 시각적 단서 제시 여부)
1단계: 주어인 시각 자극(단어)를 보고 읽기
화면에 제시된 단어를 읽고 음성을 녹음하는 단계.
참가자의 기존 습관대로 읽었으므로, 향후 3단계의 녹음 결과와 비교할 기준.
저빈도 단어일수록(잘 사용되지 않는 단어) 효과 관찰이 쉽다고 하므로(기존의 발음을 많이 안 하니, 습관이라고 할만한 것이 없음. from Babel(2012)) 저빈도 단어를 우선적으로 채택.
저빈도 단어 src: 국립 국어원 어휘 빈도 조사 결과
→ 자모 통계 및 어절 통계가 있어 참고하여 자극 어휘 선정 계획 중.
2단계: 제시되는 발음을 듣고 따라하기
발화자(ai or 사람)의 발음이 제시되며 이때, 발화자의 정체성은 50%의 확률로 공개.
- 사람에 의해 녹음된 음성입니다.
-
AI에 의해 녹음된 음성입니다.
-
만약 위의 자극들이 채택된다면,,
위의 자극들은 openai에서 제공하는 sora 모델로 생성함.
현재의 문제: 입모양을 통제하기 좀 어려운데, 채맥이 된다면 다른 모델을 사용하거나 이 문제 해결방안을 찾아보는 걸로,,
발음 단서가 제시됨과 동시에 화면에 사람이 발음을 하는 모습이나, 인공지능이 발음을 하는 모습(영상, 이미지)을 시각적으로 제시함. 추가적으로, 이미지 하단에는 “이 발음은 ()에 의해 녹음되었습니다.”로 명확한 단서 제시.
2단계에서 발음되는 단어는 단어당 두 번씩 따라하게 함.
3단계: 제시되는 단어를 보고 읽기
1단계와 동일.
4단계: 후속 설문
AI에 대한 설문 혹은 성격에 대한 설문.
이후 상관 분석(타인에게서의 인정, 승인 욕구가 강한 사람들에게서 음성 수렴이 더 빨리 나타나기도,,)
분석
언어학적 특성들(f1,f2)이 얼마나 닮게되었는지 유클리드 거리에서 이동정도 계산
위 닮아진 비율을 실험 요인들(성별, ai 등)과 상관
닮아진 비율을 성격 및 ai 관련 설문과 상관분석.
한글 모음들
| 전설 | 중설 | 후설 | |
|---|---|---|---|
| 고(혀의 높이) | ㅣ | ㅡ | ㅜ |
| 중 | ㅔ | ㅓ | ㅗ |
| 저 | ㅐ | ㅏ |
→ 혀의 높이가 중요할라나? 아님 단모음만?
-
질문들
-
한국어 자극 vs 영어 자극(발음)
-
소요되는 시간을 얼마나 잡아야 하는지 → 이걸 기준으로 총 단어의 수나, 요인적 설계 시 경우를 얼마나 세분화할지 정하기 위해
-
성격이나, ai에 대한 수용도 관련 설문(후속 설문)과 같이 엮어도 되는지.
-
성별 여부를 논문에 의하면 넣는게 좋을 것 같은데, 참가자를 모집하는 과정에서 괜찮을라나?
-
발음 데이터를 만들 때, 우리가 직접 녹음하는 방식으로 진행해도 되는지..?
-
총 참가자를 어느 정도로 설정하고 해야하는지. → 설계를 먼저하고 참여자를 맞추는 방식으로 하는 건지, 아니면 현실적으로 대략 정하고 맞춰서 설계하는지 궁금합니다.
-
ai의 의인화도 고려해보는건..?
-
음성학적 어떠한 특징들을 비교하면 좋은가? (f1, f2) 그 외의 다른..? → 이건 조사 중입니다…..
-
어떠한 단어들을 선별해야 하는가? 저빈도 단어를 사용하는 것이 좋다는 보고? ae 발음이 특이적이라고 하는데,, → 요것도 찾아보는 중입니다…..