基于对象注意力模型的图像描述研究

发布时间:2024-02-01 09:23
  图像描述即向计算机输入图片,计算机生成对应描述图片内容的文本句子的过程。图像描述在现实中有着广泛的应用,例如航天、教育、自动驾驶、商品自动标注和搜索引擎等。因此图像描述的研究有着广泛而深远的意义。基于注意力机制的方法是图像描述领域广泛应用。基于注意力的图像描述方法,具有容易训练、参数量少、自动化运行、准确率高且特征丰富等优点。然而图像描述注意力机制方法存在着图像关联性特征较弱、提取特征浅显和文本与图像关联较弱等缺点。这些因素影响着模型的输出精度。论文从这几个方面进行改进,提升图像描述的预测精度。(1)针对注意力模型中特征关联性较弱,无法有效结合图像文本特征的缺点,本论文提出特征选择网络模型。特征选择网络模型在较低层次的特征图上添加掩膜进行筛选,有效地克服了特征之间关联性较弱的缺点。实验结果表明,使用特征选择网络模型,经过约30h的训练,模型预测速度大约75帧/s,模型精度在原来基础上提升0.1。(2)针对注意力模型提取特征浅显的问题,论文提出对象注意力模型。论文将激活函数与分类特征的乘积作为掩膜,并将掩膜与分类特征相乘,从而构成对象注意力模型。它有效地克服了注意力模型提取特征浅显的问题...

【文章页数】:48 页

【学位级别】:硕士

【部分图文】:

图2-1图像描述基础结构

图2-1图像描述基础结构

在训练时候,(S,I)是一组输入对,模型的目标是使用随机梯度下降的方法使得所有训练集的输入概率的log取值之和达到最大。经典描述[37]模型如图2-1所示。LSTM模型、CNN预训练模型和词嵌入模型构成了图像描述。彩色框是预训练的神经网络,它不参与训练。图中未展开的循环神经网络部....


图3-1门控神经网络流程

图3-1门控神经网络流程

其中X∈RN*M*C表示输入的特征图。X,N,M表示维度,C表示通道数目。W,V表示权重,其维度W,V∈R(N*M*C)。b和c是偏执项,且b,c∈Rn。σ是sigmoid激活函数,控制着输出特征。门控神经网络如图3-1所示:图3-1输入矩阵E分别与权重向量W、V相乘,得到处理后....


图3-2特征选择网络模型

图3-2特征选择网络模型

模型将掩膜与特征图的乘积,送入解码模块。这种办法优点是保留了特征的空间位置信息。特征选择网络如图3-2所示:图中绿色部分代表输入原图像。其经过处理,送到已经在大数据集如ImageNet上已经训练过的模型,如图中白色固定层所示。固定层的输出即为编码结果。实验中保持模型原有权重不变。....


图4-1注意力模型

图4-1注意力模型

传统图像描述注意力模型[22]能够自动学习图像显著区域的特征,这类似于对象检测当中选择前景部分区域的位置,而忽略背景区域。注意力模型如图4-1所示:图中红黄蓝彩色部分表示图像不同特征层,其上的每一点在每一个时间步都会输入注意力模型。这种方法的优点是,模型保留了特征之间的相对关系,....



本文编号:3891886

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3891886.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户04fcd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]