基于深度学习的多模态智能问答技术研究

发布时间:2024-02-03 02:51
  近年来,深度学习带动了自然语言处理(NLP)和计算机视觉(CV)的快速发展。在NLP领域中,一个非常流行的主题是智能问答,它要求机器自动回答自然语言形式的问题。除了传统的文本智能问答外,有一种提供了多模态数据(例如文字和图像)的变体,即多模态智能问答任务。这项任务对如何组合多模态数据和进行相应的推理策略提出了新的挑战。本文就研究多模态智能问答的一个分支,被称为多模态机器阅读理解(MMMC)。MMMC是机器阅读理解(MRC)的多模态扩展,MRC要求阅读和理解一篇文章并根据文章的内容回答问题,而在MMMC中,阅读背景变成了多模态形式,比如文本中带有对应的图片,问题也不仅限于文本,还可以由图像组成。MMMC存在各种类型的问题,例如完形填空,多项选择或排序。最近的一个MMMC数据集是RecipeQA,并且该数据集已经发布了四个不同的MMMC任务。在本文中,我们对MMMC任务进行了深入研究,并提出了可以解决多种任务样式的新颖的深度学习模型。我们针对RecipeQA的所有四个不同问题形式的子任务进行了实验,并获得了最先进的结果。由于之前的MRC工作并未引入时序信息,我们提出一种面向时序的深度模型,...

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

图2-1激活函数sigmoid和tanh的图像对比

图2-1激活函数sigmoid和tanh的图像对比

第二章多模态智能问答基础还有一种类似的函数是双曲正切(tanh)函数,其定义如下:tanh(x)=exexex+ex.(2-4)事实上,tanh函数与sigmoid函数之间有着紧密的关系。如果我们把sigmoid函数放大并平移,就能得到tanh函数:tanh(x)=2σ(2x)1....


图2-2ReLU函数的图像

图2-2ReLU函数的图像

电子科技大学硕士学位论文图2-2ReLU函数的图像。2.1.2前馈神经网络前馈神经网络,亦称多层感知器(MultilayerPerceptron,MLP),诞生时间最早,结构也比较简单,它的神经元之间不构成环,与循环神经网络相区分。前馈神经网络中,信息单向传播,从输入结点出发,经....


图2-3ILSVRC竞赛历代冠军模型的错误率和层数比较

图2-3ILSVRC竞赛历代冠军模型的错误率和层数比较

电子科技大学硕士学位论文图2-3ILSVRC竞赛历代冠军模型的错误率和层数比较。假设对堆叠的层使用一个残差映射比直接映射要更容易,即图2-4所示的残差块(residualblock)。ResNet的完整架构和VGG19等网络的对比如图2-5所示。实验图2-4一个残差块的图示[49....


图2-4一个残差块的图示[49]

图2-4一个残差块的图示[49]

电子科技大学硕士学位论文图2-3ILSVRC竞赛历代冠军模型的错误率和层数比较。假设对堆叠的层使用一个残差映射比直接映射要更容易,即图2-4所示的残差块(residualblock)。ResNet的完整架构和VGG19等网络的对比如图2-5所示。实验图2-4一个残差块的图示[49....



本文编号:3893587

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3893587.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户7b725***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]