基于视觉语义增强的视频描述生成

发布时间：2024-01-30 01:13

　　随着人工智能的不断发展,视频描述生成作为自然语言处理和计算机视觉两个领域相结合的研究课题,在近几年来受到了广泛的关注。视频描述生成,即给定一个视频片段,让计算机自动地生成能够描述与视频片段内容相关的自然语句。其在实际生活中也有着广泛的应用,如提高人们在互联网上检索所需视频的效率,辅助残障人士理解视频内容等。目前,由于深度学习在视觉和自然语言处理等多个领域的突破性进展,越来越多的研究方向开始使用深度学习技术来解决相关问题。同样地,本文在基于深度学习的“编码器-解码器”结构的基础上,对视频描述生成进行研究。传统的描述生成模型结构中,通常使用卷积神经网络作为编码器,循环神经网络作为解码器,为视频片段生成相关句子。由于视觉信息和语义信息之间存在着差异,只通过解码器是无法很好的学习到两者之间的关系。为了缓解这个问题,本文通过视觉语义增强以提高视频描述生成的效果。具体来说,本文通过三个方面来缩小视觉和语义之间的差距。一、针对“编码器-解码器”结构只是对生成句子和标注句子进行比对,并不能很好地学习到视觉信息和语义信息之间的关系。我们在此基础上,添加视觉和语义的相关性计算,通过训练使模型学习到视觉和语...

【文章页数】：59 页

【学位级别】：硕士

图2-1简单的AlexNet网络结构图