基于多头注意力的视频标注方法研究

发布时间：2024-01-27 06:54

　　视频标注涉及到计算机视觉和自然语言处理两个领域,是一个非常有挑战性的任务。同时,视频标注也有非常广泛的实际应用前景。现阶段,完全用人工的方式进行视频标注无疑可以获得非常精确的结果,但是随着人力成本的迅速增长,社会对自动视频标注方法的需求正变得越来越紧迫。在近年来出现的视频标注模型中,许多都采用了自然语言处理领域广泛使用的编解码框架,编码端使用视频特征序列生成视频中间向量表示,然后在解码端解码中间向量生成文字序列描述,以序列到序列的方式处理输入输出。编解码框架的使用在很大程度上促进了视频标注研究的发展,但是现行的视频标注模型仍然有一些不足的地方:首先,许多标注模型缺乏聚焦关键信息的能力;其次,标注模型训练阶段和测试阶段输入数据不同,导致模型存在解码误差传递问题;最后,标注模型在训练过程中优化指标是单词级别的交叉熵损失,和元组级别的测试指标不一致。为了解决上述问题,本文提出了一个基于多头注意力的视频标注模型。标注模型在传统的编解码网络上引入多头注意力机制,并改进模型训练方法与模型优化指标,主要研究工作如下:1.引入多头注意力机制使视频标注模型获得焦距关键信息的能力。多头注意力机制可以使得模...

【文章页数】：65 页

【学位级别】：硕士

图2-3视频标注模型总体结构