面向神经机器翻译的数据增强方法及应用

发布时间：2023-05-26 20:27

　　近年来,神经机器翻译取得了飞速发展,并取代传统的统计机器翻译,成为目前机器翻译应用和研究中的主流范式。然而,神经机器翻译系统严重依赖于大规模高质量的平行语料,导致其在低资源和特定领域的翻译任务上表现不佳。为了解决神经网络训练中的数据稀疏问题,数据增强是一个非常具有前景且有效的方法。这类方法已经在计算机视觉和自然语言处理领域上广泛应用并取得很好的效果,但目前仍然没有很好地应用到神经机器翻译领域。本文旨在探索数据增强方法在神经机器翻译领域的应用,为此分别研究了针对半监督、有监督以及无监督等三种不同翻译场景下的数据增强方法,以提升神经机器翻译模型的性能:·提出一种在半监督场景下能高效地开发大规模单语数据的数据增强方法。通过扩展反向翻译方法,本文设计了一种新型联合训练框架,并利用联合期望最大化算法来同时训练源语言到目标语言和目标语言到源语言这两个翻译方向的神经机器翻译模型。整个训练过程一开始使用平行语料来预训练神经机器翻译模型,然后再利用单语数据来迭代地更新这两个模型。在每次迭代中,两个神经机器翻译模型首先将单语数据从一种语言翻译成另一种语言,形成伪训练数据,随后平行语料和伪训练数据用来继续优...

【文章页数】：122 页

【学位级别】：博士

【文章目录】：
摘要
ABSTRACT
第1章绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 研究内容和主要贡献
    1.4 本文的组织结构
第2章机器翻译与数据增强
    2.1 机器翻译
        2.1.1 统计机器翻译
        2.1.2 神经机器翻译
        2.1.3 机器翻译评测标准
    2.2 数据增强
        2.2.1 计算机视觉领域上的应用
        2.2.2 自然语言处理领域上的应用
    2.3 本章小结
第3章针对半监督神经机器翻译的联合训练方法
    3.1 引言
    3.2 开发单语语料
        3.2.1 外部语言模型融合
        3.2.2 自编码器方法
        3.2.3 反向翻译方法
    3.3 针对半监督神经机器翻译的联合训练方法
        3.3.1 联合训练算法
        3.3.2 半监督目标函数定义
    3.4 实验与分析
        3.4.1 实验设置
        3.4.2 NIST数据集上的实验结果
        3.4.3 WMT数据集上的实验结果
        3.4.4 联合训练过程分析
        3.4.5 翻译实例分析
    3.5 相关工作
    3.6 本章小结
第4章基于双向解码一致性的模型正则化方法
    4.1 引言
    4.2 暴露偏差问题
    4.3 基于双向解码一致性的模型正则化方法
        4.3.1 引入KL散度正则项
        4.3.2 双向解码模型联合训练
    4.4 半监督场景上的应用
    4.5 实验与分析
        4.5.1 实验设置
        4.5.2 NIST数据集上的实验结果
        4.5.3 WMT数据集上的实验结果
        4.5.4 半监督场景上的实验结果
        4.5.5 模型训练过程分析
        4.5.6 翻译实例分析
    4.6 相关工作
    4.7 本章小结
第5章统计机器翻译作为后验正则的无监督训练方法
    5.1 引言
    5.2 无监督神经机器翻译
        5.2.1 跨语言词向量
        5.2.2 无监督训练框架
    5.3 后验正则训练框架
    5.4 统计机器翻译作为后验正则的无监督训练方法
        5.4.1 模型初始化
        5.4.2 利用统计机器翻译作为后验正则
        5.4.3 整体训练算法
    5.5 实验与分析
        5.5.1 实验设置
        5.5.2 WMT数据集上的实验结果
        5.5.3 模型训练过程分析
        5.5.4 初始化阶段分析
        5.5.5 翻译实例分析
    5.6 在语言风格迁移任务上的应用
        5.6.1 语言风格迁移
        5.6.2 无监督训练
        5.6.3 实验结果
    5.7 相关工作
    5.8 本章小结
第6章总结与展望
参考文献
致谢
在读期间发表的学术论文与取得的研究成果

本文编号：3823233

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3823233.html

上一篇：基于主题模型的科研异构网络排序方法研究
下一篇：轨迹大数据压缩技术研究