中文词向量表示学习研究

发布时间：2023-11-18 07:53

　　文本表示是自然语言处理中的基础工作。传统的独热表示存在稀疏问题且不能抓住词之间的语义关系。分布式语义表示利用连续空间内的低维稠密向量来表示词,解决了传统独热表示的问题,已经成为了自然语言处理中最常用的词表示方法。中文作为一种表意文字,它有着独特的语言特点。本文对中文词向量表示学习的方法进行了系统的总结分析,并提出了改进的词向量表示技术,具体工作如下:一、中文词向量表示技术对比分析。本文对现有的流行的中文词向量表示方法进行了系统的理论分析与实验对比:已有的中文词表示模型忽略了不同词对上下文语义有不同程度的语义贡献且次词语素去歧的方法存在较大的局限性;综合了多种评估方法对词向量进行了全面的定量实验评估,并对提出的改进模型作了详细的定性分析。二、基于多种Attention的联合训练词向量表示模型。本文联合了词、字、字的组件等多种粒度的语素信息,提出了基于多种Attention的多粒度语素联合训练的词表示模型:利用Self-Attention机制来学习词对上下文语义的贡献;提出了 Bias-Attention方法来端到端自动化地学习次词语素的语义偏移并达到语素去歧的目的。三、基于共享语义漂移的...

【文章页数】：66 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第一章绪论
    1.1 研究背景
    1.2 国内外研究现状
    1.3 研究内容及主要工作
    1.4 论文组织结构
第二章中文词向量表示方法
    2.1 分布式语义表示
    2.2 基于矩阵分解的方法
        2.2.1 Global Vectors模型(GloVe)
    2.3 基于神经网络的方法
        2.3.1 CBOW
        2.3.2 Skip-Gram
    2.4 引入次词语素的词向量表示方法
        2.4.1 CWE
        2.4.2 SCWE
        2.4.3 JWE
        2.4.4 cw2vec
    2.5 语素歧义问题
        2.5.1 基于位置的方法
        2.5.2 基于聚类的方法
        2.5.3 非参数化聚类的方法
        2.5.4 外来先验知识的方法
    2.6 词向量评估方法
        2.6.1 内部评价
        2.6.2 外部评价
        2.6.3 其他因素
    2.7 本章小结
第三章基于多种Attention的联合中文词表示模型
    3.1 模型总架构
    3.2 Self-Attention加权的词粒度上下文表示
    3.3 Bias-Attention修正的次词粒度的上下文表示
    3.4 实验分析
        3.4.1 实验设定
        3.4.2 内部评价
        3.4.3 外部评价
        3.4.4 Case学习
        3.4.5 其他训练参数
        3.4.6 外部上下文Attention分析
    3.5 本章小结
第四章基于共享漂移的中文词表示模型
    4.1 模型总架构
    4.2 语义漂移
    4.3 共享漂移
    4.4 实验分析
        4.4.1 实验设定
        4.4.2 内部评价
        4.4.3 外部评价
        4.4.4 共享漂移向量方法分析
    4.5 本章小结
第五章 AJWE在数字阅读推荐系统中的应用
    5.1 数字阅读推荐系统
    5.2 基于AJWE的数字阅读推荐模型
        5.2.1 模型总架构
        5.2.2 用户表示网络
        5.2.3 图书表示网络
    5.3 实验分析
        5.3.1 实验设定
        5.3.2 实验结果
    5.4 本章小结
第六章结论与展望
参考文献
致谢
攻读学位期间取得的研究成果

本文编号：3864867

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3864867.html

上一篇：基于分布式计算的关联规则挖掘算法研究与应用
下一篇：密度峰值聚类算法研究及其在大坝监测数据中的应用