基于深度学习的蒙古语语音合成研究

发布时间:2024-02-14 03:27
  语音合成解决的主要问题就是如何将文字信息转化为可听的声音信息,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,可广泛应用于智能家居、虚拟主播、语音导航、信息播报、阅读教育、泛娱乐等领域,是人机交互的重要组成部分。近年来,越来越多的研究人员使用深度学习技术对蒙古语智能信息处理相关问题展开深入研究。得益于深度学习模型强大的建模能力,蒙古语语音合成的整体质量得到了显著提升。但是,与汉语、英语等主流语种的语音合成技术相比,蒙古语语音合成研究还有很大的探索空间,要想满足合成语音质量的实用需求,还需要更进一步的深入研究。当前蒙古语语音合成系统与真实语音相比,自然度和表现力还是明显不足,主要表现在:韵律节奏缺乏表现力,合成语音音质不够高。其中,韵律建模和声学建模能力的不足是导致这些问题的主要原因。为了提高蒙古语语音合成系统的整体合成表现,本文从基于深度学习的蒙古文韵律建模和声学建模两个方面开展研究工作。在蒙古文韵律建模方面,采用深度学习技术并充分利用蒙古语语言特点和韵律建模相关任务的知识,提出了融合蒙古文形态学与音系学知识和基于多任务学习的蒙古文韵律建模方法;在声学建模方面,对端到端声学...

【文章页数】:141 页

【学位级别】:博士

【部分图文】:

图1.1基于统计参数模型的语音合成方法的基本框架

图1.1基于统计参数模型的语音合成方法的基本框架

高波形拼接语音合成的质量,使用基于时域同步叠加波形修改算法(PitchSynchronousOverlapAdd,PSOLA)[6]对波形拼接语音合成进行改进。波形拼接语音合成的声学单元拼接处不平滑问题得到了很大的缓解。更进一步,早期的波形拼接语音合成又在大数据的支撑下,逐渐发展....


图1.2基于HMM统计参数的语音合成模型训练流程

图1.2基于HMM统计参数的语音合成模型训练流程

内蒙古大学博士学位论文5图1.2基于HMM统计参数的语音合成模型训练流程Fig.1.2TrainingprocessofHMM-basedTTSmodel.基于HMM的统计参数语音合成模型能够同时对语音的基频、频谱和时长参数进行建模[35],生成连续、流畅且可懂度高的语音。整个H....


图1.3基于神经网络声学模型的语音合成模型基本框架

图1.3基于神经网络声学模型的语音合成模型基本框架

内蒙古大学博士学位论文9Network,BiLSTM)等模型的韵律预测方法。这些模型可以对上下文语义进行充分的建模从而显著提升了韵律建模的精度。1.2.3.2声学建模改进为了消除HMM声学模型在统计参数语音合成模型中的局限性,神经网络声学模型被用来作为HMM声学模型的替代,从而对....


图2.2蒙古文(拉丁表示)不同层次单元的表示形式比较

图2.2蒙古文(拉丁表示)不同层次单元的表示形式比较

一个。蒙古文词根是派生新词的基础,又是保存单词意义的基本单元。词根连接词缀不仅可以改变词的词性、词义,对于蒙古文句子中的上下文语境也会产生决定性的影响。值得注意的是,位于末尾的结尾后缀相较于其他形式后缀出现最为频繁,它仅表示语法含义,对单词的词汇意义不产生任何影响。鉴于以上复杂的....



本文编号:3897667

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3897667.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户9aede***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]