基于ALBERT的藏文预训练模型及其应用

发布时间:2024-03-15 18:46
  在自然语言处理领域,预训练和微调的模型训练方法是一种可以在未标记数据集上训练预训练模型,然后在标记数据集上对预训练模型进行微调的方法。该方法极大的减少了对于标记数据集的需求,同时为下游任务节省了大量的时间和计算资源。借助预训练模型,人类在多项自然语言处理任务中均取得了重大突破。藏文预训练模型的研究不仅可以有效地应对藏文标记数据集缺少的问题,还可以促进藏文自然语言处理研究的进一步发展。目前,针对藏语言的预训练模型研究尚处于探索阶段,但其对藏文自然语言处理研究有着重要的理论意义和广泛的应用价值。为此,本文开展了藏文预训练模型的相关研究,主要包括以下内容:1、针对目前藏文没有公开数据集的问题,本文在西北民族大学多拉教授提供的语料库基础上通过爬虫工具搜集了西藏人民网、青海藏语网络广播电台官网、青海省人民政府网等网站的藏文语料文本作为预训练模型的训练数据集,同时搜集了中国藏族网通网的数据制作了藏文文本分类数据集以及藏文摘要提取数据集。2、针对藏文标记数据集不足的问题,本文训练了藏文ALBERT预训练模型以减少下游任务对标记数据集的需求,该预训练模型在掩词预测任务中精度达到74%,在句子顺序预测任...

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

图2-1音节结构示意图

图2-1音节结构示意图

兰州大学硕士学位论文基于ALBERT的藏文预训练模型及其应用8第二章相关理论和技术概述2.1藏文的文本信息处理特点藏文语法主要由“文法根本三十颂”和“字性组织法”组成,前者主要描述了藏文音节拼写结构、格助词和各类虚词的用法,后者描述了以动词为中心的形态变化、时态变化、施受关系、能....


图2-2Transformer模型结构

图2-2Transformer模型结构

兰州大学硕士学位论文基于ALBERT的藏文预训练模型及其应用13的抽象。在自然语言处理领域RNN可以提取句子中单词的位置信息,从而使得在序列生成时序列中的子串符合规则。Transformer是一次性输入文本数据不存在前后关系,因此丢失了单词的位置信息。为了在Transformer....


图2-3Encoder的第一层网络模型结构

图2-3Encoder的第一层网络模型结构

兰州大学硕士学位论文基于ALBERT的藏文预训练模型及其应用14Encoder中包含多个相同的网络层,每个网络层中间包含两个子网络层(Sublayer),图2-3所示的是Encoder中第一层网络的结构。第一个子网络层使用多头自注意力机制,其输入是语料文本经过Embedding层....


图2-4Decoder第一层网络模型结构

图2-4Decoder第一层网络模型结构

兰州大学硕士学位论文基于ALBERT的藏文预训练模型及其应用15图2-4Decoder第一层网络模型结构2.4相关优化器介绍深度学习中有多种优化器用来寻找模型的最优解,在BERT中所使用的是AdamW优化器,但由于AdamW在大批次下会导致性能下降,因此GoogleBrain提出....



本文编号:3928709

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3928709.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户ac061***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]