当前位置:主页 > 科技论文 > 信息工程论文 >

面向语音合成的缅甸语文本分析与实现

发布时间:2024-04-18 03:57
  缅甸语是缅甸的官方语言,属汉藏语系藏缅甸语族缅甸语支,与同语系的汉语和藏语语音合成研究相比,缅甸语语音合成相关研究亟待重视。本文以开发缅甸语语音合成系统为目的,构建发音语料库,研究并实现文本归一化、分词和文本注音。本文的主要工作包括:(1)构建发音语料库。从缅甸语网站上抓取大约600M原始文本语料,去除语料中的非法字符和重复句子,并统一文本语料的字符编码方式。统计文本语料库中的高频词、句子长度、句子类型、声韵母的分布,将其作为发音语料选取的依据;为了使发音语料库包含的发音现象、语言现象更加完整,通过句子之间的相似度比较作为另一个选取依据;最终挑选出的发音语料库规模为5000句。(2)文本归一化。研究了数字、缩写词以及特殊字符的归一化问题,对不同类型的字符分别提出了具体的归一化方案并进行了实现。(3)实现三种分词方法。设计并实现了基于正向最大匹配(Forward Maximum Matching,简称FMM)的分词、基于条件随机场模型(Conditional Random Fields,简称CRF)分词以及基于双向长短期记忆神经网络+条件随机场模型(Bidirectional Long ...

【文章页数】:68 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 缅甸语简介
    1.2 缅甸语语音合成系统概述
    1.3 研究思路及论文的主要工作
    1.4 论文组织结构
第二章 缅甸语发音语料库的构建
    2.1 缅甸语字符和音节介绍
    2.2 发音语料库的构建
        2.2.1 选取流程
        2.2.2 选取算法
        2.2.3 实验结果及分析
    2.3 语音语料库的录制
    2.4 本章小结
第三章 缅甸语文本归一化
    3.1 归一化简介
    3.2 数字和缩写词归一化
    3.3 特殊字符归一化
    3.4 本章小结
第四章 缅甸语分词方法及实现
    4.1 基于FMM的分词
    4.2 基于CRF的分词
        4.2.1 标注方式
        4.2.2 特征模板
        4.2.3 CRF分词过程
    4.3 基于BiLSTM+CRF的分词
        4.3.1 LSTM介绍
        4.3.2 BiLSTM+CRF网络
    4.4 实验结果与分析
        4.4.1 分词语料库的构建
        4.4.2 分词结果的评估
        4.4.3 实验结果及分析
    4.5 本章小结
第五章 缅甸语文本自动注音
    5.1 自动注音简介
        5.1.1 声母的注音
        5.1.2 韵母的注音
    5.2 自动注音方法
        5.2.1 基于声韵母拼接的注音方法
        5.2.2 基于变音变调规则的注音方法
        5.2.3 基于CRF模型的注音方法
    5.3 实验结果及分析
    5.4 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士学位期间完成的科研成果
致谢



本文编号:3957383

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3957383.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户ee826***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]