当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于深度学习的视频内容识别和搜索算法研究

发布时间:2024-02-02 23:56
  随着信息技术和网络技术的不断发展,视频信息的应用越来越广泛,每天网络上要产生大量的视频数据,由于视频数据具有非结构化、数据量大、内容丰富等特点,使得对视频的有效管理和检索是一个长期以来的难题。目前对视频数据进行管理和检索的难点在于对视频内容的理解和识别需要人工介入,提高了人力成本和时间成本。因此对视频内容的智能识别和高效的检索算法是解决该问题的关键技术。针对以上背景,本文通过对深度神经网络和视频内容特点的研究,提出一种基于深度学习的视频内容识别算法,引入神经网络来提取视频中的语义概念,实现视频内容的自动识别。论文的主要研究内容及成果如下:(1)提出Fusion-SSD网络用来提取视频单帧图像中的语义概念。在该网络中设计了多分支的卷积核结构,通过引入并行结构的卷积核分支提高了网络对细节信息的保留能力,提高了网络对小物体的检测能力。为提高网络的特征提取能力,本文还提出了多尺度特征图的融合算法,多尺度特征图融合算法通过深层和浅层的特征图融合有效地解决了单一特征图在物体识别和位置回归时的相互影响问题。(2)提出Triplet-Stream网络用于提取视频时域动作语义。在该网络中提出了多支路特征...

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

图2一1人脑神经元结构

图2一1人脑神经元结构

第二章深度学习相关技术基础第二章深度学习相关技术基础??网络结构??元模型??兀模型是1943年由Warren?McCulloch和Walter?Pitts提出的,人类大脑神经进行设计的一种处理单元,图2-1展示了人脑的看到,生物的神经元主要包括3个部分:细胞体、树突、轴突。收来....


图2-2神经网络单个神经元结构??神经元被设计为一个多输入单输出的结构,图2-2中展示了神经元模型的三??

图2-2神经网络单个神经元结构??神经元被设计为一个多输入单输出的结构,图2-2中展示了神经元模型的三??

2.1.1神经元模型??神经兀模型是1943年由Warren?McCulloch和Walter?Pitts提出的,神经元模??型是类比人类大脑神经进行设计的一种处理单元,图2-1展示了人脑的神经元结??构,可以看到,生物的神经元主要包括3个部分:细胞体、树突、轴突。神经元??的树....


图2-3?0-丨函数曲线??

图2-3?0-丨函数曲线??

2.1.1神经元模型??神经兀模型是1943年由Warren?McCulloch和Walter?Pitts提出的,神经元模??型是类比人类大脑神经进行设计的一种处理单元,图2-1展示了人脑的神经元结??构,可以看到,生物的神经元主要包括3个部分:细胞体、树突、轴突。神经元??的树....


图2-4?sigmoid函数曲线??2.?Tanh激活函数

图2-4?sigmoid函数曲线??2.?Tanh激活函数

图2-4?sigmoid函数曲线??2.?Tanh激活函数。Tanh激活函数的数学表达式为式2-4,取值范围为[-UJ,??其曲线如图2-5?(a)所示。该激活函数曲线和Sigmoid类似,而且Tanh??激活函数也可以通过Sigmoid函数来表示。该激活函数具有0均值的特??性....



本文编号:3893358

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3893358.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户2c2d9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]