当前位置:主页 > 外语论文 > 俄语论文 >

基于俄语军事新闻语料的神经网络语言模型研究

发布时间:2022-12-06 04:38
  语言模型是语言知识的主要表现形式,语言模型的研究成果必将有助于提升自动文摘、语音识别、机器翻译等多种自然语言处理系统结果的可读性、准确性。为了对军事俄语情报进行智能化处理,研究军事俄语的语言模型具有重要的学术探索意义。近年来,随着深度神经网络技术的成熟,神经网络语言模型在解决数据稀疏和长时依赖能力上,表现出优越于传统语言模型的性能。因此本文采用基于神经网络的训练方法构建军事俄语语言模型,以研究神经网络语言模型在军事俄语信息处理中的应用效果。本研究尝试通过对俄语军事领域新闻文本数据进行挖掘分析,采用基于神经网络的训练方法构建军事俄语语言模型,并从困惑度和参数数量两个方面,对比基于神经网络和基于传统统计方法的两种军事语言模型的性能,对比基于一般领域语料和基于俄语军事新闻语料两种俄语神经网络语言模型在军事俄语文本上的困惑度,以及计算预训练语言模型BERT在军事俄语文本上的困惑度。在实验研究中,以俄语军事新闻文本语料作为军事俄语数据集,将其划分为训练集、验证集和测试集,首先在训练集上分别使用传统的n-gram模型和长短时记忆结构(LSTM)的神经网络模型进行俄语语言模型的训练,并观察验证集困惑... 

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 统计语言模型技术的发展
    1.4 针对俄语的神经网络语言模型研究
    1.5 军事领域的俄语语言模型
    1.6 研究的问题与难点
        1.6.1 数据规模与数据稀疏问题
        1.6.2 领域依赖问题
        1.6.3 参数规模问题
        1.6.4 运算速度问题
    1.7 研究方法
    1.8 论文创新及结构
第二章 传统的统计语言模型算法
    2.1 n-gram语言模型
    2.2 决策树语言模型
    2.3 最大熵模型
    2.4 本章小结
第三章 基于循环神经网络的语言模型
    3.1 循环神经网络结构
    3.2 长短时记忆网络结构
    3.3 词向量
    3.4 Softmax
    3.5 本章小结
第四章 语言模型的迁移学习技术
    4.1 预训练语言模型
        4.1.1 词嵌入
        4.1.2 ELMo
        4.1.3 微调语言模型
    4.2 Transformer网络结构
        4.2.1 自注意力机制
        4.2.2 位置编码
        4.2.3 解码过程
    4.3 本章小结
第五章 针对俄语军事新闻的语言模型对比实验
    5.1 语言模型的评价标准
        5.1.1 参数数量
        5.1.2 困惑度
    5.2 实验语料
        5.2.1 俄语军事新闻语料
        5.2.2 一般领域俄语语料
    5.3 实验工具
        5.3.1 SRILM
        5.3.2 Tensorflow
        5.3.3 RuBERT
    5.4 运行环境
    5.5 俄语军事新闻的n-gram语言模型
    5.6 俄语军事新闻的LSTM语言模型
    5.7 RuBERT在俄语军事新闻上进行困惑度计算
    5.8 实验结果与分析
        5.8.1 n-gram模型的实验结果
        5.8.2 LSTM模型的实验结果
        5.8.3 RuBERT模型的实验结果
    5.9 本章小结
第六章 总结与展望
致谢
参考文献
作者简历


【参考文献】:
期刊论文
[1]基于字符级循环网络的查询意图识别模型[J]. 孟奎,刘梦赤,胡婕.  计算机工程. 2017(03)
[2]俄语术语的语言特征及其翻译[J]. 朱玉富.  中国俄语教学. 2013(01)
[3]统计语言模型综述[J]. 邢永康,马少平.  计算机科学. 2003(09)
[4]俄语报章语言的特征[J]. 马浩.  南外学报. 1985(02)

硕士论文
[1]统计和规则相结合的语言模型在中文输入法中的应用研究[D]. 黄珺.西安电子科技大学 2008



本文编号:3711077

资料下载
论文发表

本文链接:https://www.wllwen.com/waiyulunwen/eyulunwen/3711077.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户deb4a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]