当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于垂直搜索的意图识别算法的设计与实现

发布时间:2024-01-29 21:34
  垂直搜索是一种专业领域内的搜索,与通用搜索不同,垂直搜索需要深度理解用户意图并返回特定领域内的信息。由于垂直搜索引擎中需要针对不同领域训练多个意图识别模型,同时训练模型需要大量的标注,所以在垂直搜索场景下训练意图识别模型的代价是较高的。本文主要解决在垂直搜索场景下训练意图识别模型成本大的问题。作者的主要工作包括基于SimNet的语义向量预训练和基于迁移学习的意图识别模型训练。(1)基于SimNet的语义向量预训练,主要利用搜索引擎积累的海量数据,预训练基于语义的句向量。作者利用本文首创的QUQ(Query to Url to Query)游走算法获取大量的弱标注样本,通过海量样本训练SimNet模型,最终根据SimNet模型生成语义向量。经过实验验证,语义向量可以很好的表达句子语义,并具有一定的泛化性。(2)基于迁移学习训练意图识别模型,主要利用预训练的语义向量迁移到意图识别模型中,并且利用主动学习与迁移学习减少标注成本。首先将样本转化为语义向量并利用种子样本初始化意图识别模型,然后利用改进后的最优标号与次优标号(Best vs Second-best,BvSB)算法,降低了样本冗余并...

【文章页数】:58 页

【学位级别】:硕士

【文章目录】:
致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景与意义
    1.2 国内外研究发展现状
        1.2.1 垂直搜索发展现状
        1.2.2 主动学习发展现状
        1.2.3 迁移学习发展现状
    1.3 论文的主要工作以创新点
    1.4 论文的组织结构
2 相关理论与关键技术
    2.1 SimNet框架
    2.2 长短期记忆网络
    2.3 迁移学习
    2.4 主动学习
    2.5 开发平台
    2.6 本章小节
3 基于SimNet语义向量预训练
    3.1 数据预处理
        3.1.1 数据清洗
        3.1.2 利用QUQ产出弱标注样本
        3.1.3 QUQ算法流程
    3.2 利用SimNet模型训练语义向量
        3.2.1 样本向量化
        3.2.2 利用LSTM构建表示层
        3.2.3 利用余弦相似度构建匹配层
        3.2.4 语义向量训练流程
    3.3 实验与验证
        3.3.1 数据集介绍
        3.3.2 实验结果分析
    3.4 本章小结
4 基于迁移学习的意图识别模型
    4.1 利用预训练模型向量化样本
    4.2 意图识别模型训练
        4.2.1 多层感知机器模型结构
        4.2.2 多层感知机器模型训练
    4.3 利用主动学习减少标注成本
        4.3.1 利用主动学习挑选训练样本
        4.3.2 利用迁移学习降低训练样本冗余
        4.3.3 完整的训练样本筛选流程
    4.4 实验与验证
        4.4.1 数据集介绍
        4.4.2 实验结果分析
        4.4.3 意图识别模型应用
    4.5 本章小结
5 结论
    5.1 工作总结
    5.2 展望
参考文献
作者简历及攻读硕士/博士学位期间取得的研究成果
学位论文数据集



本文编号:3888879

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3888879.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户2eb71***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]