基于协同注意力机制的视觉问答系统研究与实现

发布时间:2024-05-10 03:07
  视觉问答(VQA)系统是将图片和问题作为输入,计算机结合输入的图像和文字信息,产生一条人类语言作为输出的任务,它运用了计算机视觉和自然语言处理两个领域方面的知识。在视觉问答中,计算机视觉(CV)技术用来理解输入图像,自然语言处理(NLP)技术用来理解输入的问题以及生成答案。VQA的关键解决方案主要在于如何融合从输入图像和问题中提取的视觉和语言特征。近年来,许多基于CNN+LSTM的网络能够表现出很好的效果,最近许多网络将attention应用到VQA中。尽管如此,VQA回答问题的准确率仍然并不理想,特别是在关系推理以及计数方面。为了解决这个问题,本研究中选择采用协同注意机制的训练方法来训练网络,其中协同注意力机制的作用是生成图像-问题对的双相关特征,并使用推理模块来推理图片中对象的关系以及图片中对象与问题的关系,帮助模型预测答案。本文重点研究了基于协同注意力机制的视觉问答系统,其主要研究内容包括:1)深入研究了协同注意力机制,构建一个有效的协同注意力机制,通过co-attention协同注意力生成图像-问题对的双相关特征,让网络可以自主学习双相关特征,通过实验验证,使得视觉问答的准确率...

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文研究内容
    1.4 本文组织及结构
第二章 相关算法及分析
    2.1 LSTM网络
    2.2 残差网络Res Net
        2.2.1 残差模块
        2.2.2 残差网络
    2.3 视觉问答系统
        2.3.1 传统分类方法
        2.3.2 联合嵌入
        2.3.3 单注意机制
        2.3.4 联合注意力机制
        2.3.5 视觉问答系统训练流程
    2.4 推理网络RN
        2.4.1 RN网络
        2.4.2 RN网络算法
        2.4.3 RN网络训练
    2.5 本章小结
第三章 基于协同注意力机制的视觉问答系统
    3.1 基于协同注意力机制的视觉问答系统框架
    3.2 特征提取
        3.2.1 问题和答案表示
        3.2.2 图像表示
    3.3 改进的推理网络RN
    3.4 协同注意力层
        3.4.1 架构概述
        3.4.2 注意力创造的基本方法
        3.4.3 融合图像和问题表示
        3.4.4 答案预测
    3.5 本章小结
第四章 实验与结果分析
    4.1 实验工具及数据集概述
        4.1.1 使用工具
        4.1.2 实验数据集
    4.2 实验设置及实验方法
    4.3 基于协同注意力机制的视觉问答系统结果分析
        4.3.1 协同注意力机制结果分析
        4.3.2 数据对比分析
        4.3.3 改进的RN网络结果分析
    4.4 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
发表论文和参加科研情况说明
致谢



本文编号:3968650

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3968650.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户9a539***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]