面向特定场景的视觉问题生成算法研究

发布时间:2023-08-13 18:19
  近年来随着深度学习的快速发展,视觉问题生成(VQG)逐渐开始成为一项重要的研究内容,它的任务形式是对于输入的图像给出关于图像内容的一些问题,VQG在多模态对话、幼儿教育以及医疗问诊场景都有着十分重要的研究意义。通过对VQG研究现状的调研,本文发现目前大多数关于VQG的研究距离某些特定场景(如幼儿教育、医疗问诊等)的实际需求还有很大的差距,主要有两点不足之处,其一是大多数VQG模型并不能为生成的问题明确的“指出”图像中所对应的区域,即缺乏生成的问题的区域解释性;其二是大多数VQG模型只能生成通用性的问题,即生成的问题的类别(比如关于颜色、形状等)是随机的,这种通用性的问题通常在一些特定场景中是没有太大意义的,因此如何能够让模型生成特定类别的问题是一个比较重要的研究方向。针对上述的第一个缺点,本文首先利用FCLN模型作为辅助模型对输入图像预处理,对于每一张图像都得到不同的目标检测区域以及每一个区域对应的内容描述语句,然后提出抽取-生成-强化学习(EGR)模型,EGR模型包含Extractor(抽取)、Generator(生成)以及联合强化学习三个子模块,Extractor模块首先利用注意力...

【文章页数】:61 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状综述
        1.2.1 多模态间映射学习
        1.2.2 视觉文本生成
    1.3 问题的总结与分析
    1.4 本文的主要工作
    1.5 本文组织结构
第2章 视觉问题生成相关基础知识介绍
    2.1 视觉特征提取方法
    2.2 词向量
    2.3 循环神经网络
    2.4 FCLN模型介绍
    2.5 变分自编码器
    2.6 本章小结
第3章 问题区域解释性研究
    3.1 引言
    3.2 VGG-RNN模型
    3.3 抽取-生成-强化学习模型
        3.3.1 抽取模型
        3.3.2 生成模型
        3.3.3 基于强化学习的联合训练
    3.4 实验过程与结果分析
        3.4.1 实验数据集介绍
        3.4.2 评价标准介绍
        3.4.3 实验环境
        3.4.4 实验过程
        3.4.5 实验结果可视化
        3.4.6 实验对比与分析
    3.5 本章小结
第4章 特定类别问题生成研究
    4.1 引言
    4.2 算法总体框架
    4.3 基于注意力机制的编码器网络
    4.4 融合隐空间信息的解码器网络
    4.5 实验结果与分析
        4.5.1 实验数据集介绍
        4.5.2 评价标准介绍
        4.5.3 实验环境
        4.5.4 实验过程
        4.5.5 实验结果可视化
        4.5.6 实验对比和分析
    4.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢



本文编号:3841701

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3841701.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户f4814***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]