基于多头注意力的视频标注方法研究

发布时间:2024-01-27 06:54
  视频标注涉及到计算机视觉和自然语言处理两个领域,是一个非常有挑战性的任务。同时,视频标注也有非常广泛的实际应用前景。现阶段,完全用人工的方式进行视频标注无疑可以获得非常精确的结果,但是随着人力成本的迅速增长,社会对自动视频标注方法的需求正变得越来越紧迫。在近年来出现的视频标注模型中,许多都采用了自然语言处理领域广泛使用的编解码框架,编码端使用视频特征序列生成视频中间向量表示,然后在解码端解码中间向量生成文字序列描述,以序列到序列的方式处理输入输出。编解码框架的使用在很大程度上促进了视频标注研究的发展,但是现行的视频标注模型仍然有一些不足的地方:首先,许多标注模型缺乏聚焦关键信息的能力;其次,标注模型训练阶段和测试阶段输入数据不同,导致模型存在解码误差传递问题;最后,标注模型在训练过程中优化指标是单词级别的交叉熵损失,和元组级别的测试指标不一致。为了解决上述问题,本文提出了一个基于多头注意力的视频标注模型。标注模型在传统的编解码网络上引入多头注意力机制,并改进模型训练方法与模型优化指标,主要研究工作如下:1.引入多头注意力机制使视频标注模型获得焦距关键信息的能力。多头注意力机制可以使得模...

【文章页数】:65 页

【学位级别】:硕士

图2-3视频标注模型总体结构

图2-3视频标注模型总体结构


图3-1视频标注总体框架

图3-1视频标注总体框架


图3-2算法标注效果

图3-2算法标注效果


图4-1增强学习框架

图4-1增强学习框架



本文编号:3886514

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3886514.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户5f194***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]