基于深度多标签学习的文本语义索引技术研究

发布时间:2024-03-31 02:48
  海量信息时代,信息内容理解变得愈发重要,一种重要的方法是给内容打上合适的语义标签,例如:根据内容和用户的标签进行推荐;预测网络评论的语义标签来过滤有害评论;使用一套关键词对科学文献进行标注索引等。人工标签标注低效又不经济,因此研究高性能的多标签语义索引算法具有重要意义。传统多标签文本语义索引算法大多基于统计机器学习方法,随着近年来深度学习的飞速发展,其逐渐变成了自然语言处理领域的最优实践方法,本文针对基于深度学习的多标签文本语义索引问题,按以下逻辑层层递进地展开研究:(1)对于标签空间较小(可选标签范围小)的多标签文本语义索引问题,本文使用经典的二元相关方法,将多标签问题转换为多个单标签问题,使用在自然语言处理领域展现了强大性能的BERT迁移学习的方法作为基学习器来处理每个标签的分类,将各个基学习器的结果综合实现多标签类别预测。(2)对于标签空间较大(可选标签范围大)的多标签文本语义索引问题,二元相关方法的资源消耗过大(个可选标签需要训练个分类器,推断阶段同样需要个分类器同时工作),同时不易利用标签间关系。本文设计了基于共享权重的神经网络结构,同时预测所有标签,降低计算资源消耗,此外,...

【文章页数】:82 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景
    1.2 本文的主要工作
    1.3 本文的主要组织结构
第2章 相关技术研究现状
    2.1 问题定义
    2.2 评价指标介绍
    2.3 常见方法分析
    2.4 现状总结与分析
第3章 基于BERT的迁移学习二元相关方法实现多标签文本语义索引
    3.1 背景概述
    3.2 基于Transformer Encoder的文本语义表示
        3.2.1 Transformer Encoder模型整体架构
        3.2.2 Transformer Encoder中的self-attention
        3.2.3 Multi-head attention
        3.2.4 Residual结构
        3.2.5 LayerNorm
        3.2.6 Positional encoding
    3.3 基于BERT的二元相关方法
        3.3.1 预训练的通用语言表示
        3.3.2 BERT模型结构
        3.3.3 输入表示
        3.3.4 预训练
        3.3.5 迁移学习微调过程和二元相关方法
    3.4 实验和分析
        3.4.1 实验数据介绍
        3.4.2 探索性数据分析及预处理
        3.4.3 实验设置与结果分析
    3.5 本章小结
第4章 基于多任务学习的共享权重的深度多标签文本语义索引算法
    4.1 背景概述
    4.2 基于多任务学习的共享权重的深度多标签文本语义索引算法
        4.2.1 Word2vec词向量表示
        4.2.2 GRU循环神经网络单元
        4.2.3 同时间步表示相接的双向循环神经网络结构
        4.2.4 类BottleNeck结构设计
        4.2.5 串行多任务学习高效利用标签间关系
        4.2.6 整体结构
    4.3 实验和分析
        4.3.1 实验数据介绍
        4.3.2 实验设置与结果分析
    4.4 本章小结
第5章 多标签文本语义索引中缓解数据不均衡影响的方法
    5.1 背景概述
    5.2 Focal loss介绍
    5.3 经验主义阈值校准方法
    5.4 方法设计
    5.5 实验与分析
        5.5.1 实验数据介绍
        5.5.2 实验设置与结果分析
    5.6 本章小结
第6章 可扩展的多标签文本语义索引算法实现
    6.1 数据提取、转换、加载过程的可扩展性
    6.2 训练过程的可扩展性
    6.3 本章小结
结论
参考文献
攻读硕士期间的主要研究成果
致谢



本文编号:3943332

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3943332.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户5b2d7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]