台湾华语语料库之音韵型态:数据运算之计量语言学分析及应用

Chinese - 2024-11-09
11 Sep 2024 12.00 PM - 01.30 PM Hive LHS-TR+25 (Hive B2-02) Alumni, Current Students, Industry/Academic Partners, Prospective Students, Public
Organised by:
Lin Jingxia

本次演讲旨在探讨语音数据库之建构及其在语音学和语言处理等关键技术领域中之创新应用,增强人类语音的声学和语音学理解。透过多层标记之语音符号及声纹数据,可以对口语变异及音位模式提供基础理解。本次研究之资料撷取来自多项台湾华语语音数据库,涵盖多人对话、左脑失语症患者、正常幼童母语习得、语音障碍幼童对话及泰国幼童学习华语等,所有语音数据撷取自半自动建构及标记附有时间轴、音片对齐及多层标记之Praat系统(Boersma & Weenink, 2018-2024)。所有语音数据撷取均以30秒自动侦测分割框架,且采样率为16位元44.1kHz。多层语言单位涵盖繁体字、词性标记、国际音标IPA之辅音、元音、音节及声调标记。透过声学研究能取得频率、振幅及时长等基础语音信号作为分析,对于语音如何产生、传输及感知提供些许数据,而透过建构之语音数据库能大规模以计量语言学进行分析运算,如Zipf’s law, Yule及Entropy。此次报告也将介绍语音数据库及声学研究在技术领域中,如语音合成、语音识别、以及医疗保险中对于语言障碍之评估及医疗科学等初步应用。 


The lecture will be conducted in Chinese. 本讲座将以中文进行。

 


万依萍老师是台湾政治大学语言学研究所特聘教授,兼心智、大脑与学习研究中心以及华语教学研究所的合聘人员。她于1999年获得美国纽约州立大学水牛城分校语言学博士学位,并在认知科学中心取得证书,师从Dr. Jeri Jaeger。

 

万教授在语音实验室建构多种语料库,并将其扩展为语音暨心理语言综合实验室、并设计多种半自动处理自然语言交流环境下的口语语料库,涵盖自然口语对话、失语症患者与治疗师对话、正常发展幼童(7个月大至6岁)、语言障碍幼童(3岁至6岁)习得语言模式及印度尼西亚、泰国及越南学生学习华语之音韵识别。万教授当前在新加坡国立大学心理学系进行短期访学,与多位心理学家合作从事计量分析大数据语料库研究。