基于深度学习的短文本相似度分析与实现

发布时间:2024-01-20 12:19
  随着互联网和人工智能技术的发展,产生了越来越多的短文本数据,人们对文本处理技术有着迫切需求,如在智能问答、信息检索等领域。而短文本相似度作为文本处理的基础技术,在整个自然语言处理领域有着十分广阔的应用前景和研究价值。由于短文本自身有着句子较短、语义丰富等特点,目前还没有一种能够适用所有应用场景的短文本相似度算法。传统的文本相似度计算方式存在语义缺失、数据稀疏等缺点,已经不能很好地满足目前人们的实际需要。深度学习技术目前已在图像领域、语音领域取得了很好的效果,给自然语言处理同样带来了新的进步,其中在翻译、自动摘要、阅读理解等任务上,更是接近于人类的处理结果。因此,越来越多的科研机构将深度学习用在处理更复杂、更抽象的自然语言理解任务中。本文针对目前基于深度学习的短文本相似度计算中存在的文本对输入交互问题、文本交互匹配特征提取不充分问题、多特征融合问题,在基于Siamese模型基础之上,提出了基于CNN的对称字粒度交互序列改进算法,尝试解决上述问题。(1)针对相似度计算中的短文本对(句子对)交互输入问题,本论文提出一种以单字为最小粒度的对称交互序列来优化解决神经网络输入层的文本对输入问题;(...

【文章页数】:70 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及研究意义
    1.2 国内外研究现状及发展趋势
    1.3 论文研究内容及结构安排
第二章 相关理论介绍
    2.1 短文本相似度计算概念
        2.1.1 短文本概述
        2.1.2 文本向量化模型
    2.2 中文分词
    2.3 深度学习
        2.3.1 深度学习概述
        2.3.2 深度学习模型
        2.3.3 激活函数
        2.3.4 优化算法
        2.3.5 Dropout
        2.3.6 深度学习框架
    2.4 依存句法分析以及向量化
    2.5 本章小结
第三章 基于CNN的对称字粒度交互序列算法
    3.1 基于单字粒度对称交互序列的建立
    3.2 基于CNN的双通道交互匹配特征提取
        3.2.1 Siamese网络模型和交互匹配模型
        3.2.2 基于CNN的双通道交互匹配特征提取
    3.3 基于CNN的双通道特征融合
    3.4 本章小结
第四章 基于CNN的对称字粒度交互序列算法的模型设计
    4.1 输入层设计
    4.2 卷积层设计
    4.3 双通道特征提取层设计
    4.4 输出层设计
    4.5 本章小结
第五章 实验设计与结果分析
    5.1 实验相关模型设计
    5.2 数据集
    5.3 实验设计及实验结果分析
        5.3.1 基于斯坦福推理数据集(2分类)的实验设计及结果分析
        5.3.2 基于Quora数据集的实验设计及结果分析
        5.3.3 BWIS-CNNs模型在不同学习率下的实验结果分析
    5.4 基于依存关系的模型设计与实验结果分析
        5.4.1 基于斯坦福推理数据集(2分类)的实验结果分析
        5.4.2 基于Quora数据集的实验结果分析
    5.5 综合实验结果及分析
    5.6 实验结论
    5.7 本章小结
第六章 结论与展望
    6.1 主要结论
    6.2 研究展望
参考文献
在学期间的研究成果
致谢



本文编号:3880830

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3880830.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户57c58***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]