结合语音和表情的多模态情感识别方法研究

发布时间:2024-01-19 18:15
  情感识别是计算机视觉、模式识别等领域的研究热点,并随着人工智能和深度学习技术的发展,受到了广泛研究者的关注。表述情感的方式各种各样,其中语音和表情是两种最直接、最可靠的情感载体,结合语音和表情的多模态情感识别方法研究具有重要的现实意义。针对说话人、说话风格、环境等其他与情感无关因素影响导致语音情感识别准确率低的问题,给出了基于注意力模型和卷积神经网络的语音情感识别算法。利用卷积神经网络对图像的处理能力以及对时间序列数据时频特征有效的提取能力,将静态、一阶差分、二阶差分的Mel频谱作为神经网络的输入数据,再利用注意力模型识别和删掉静音帧和情感无关帧,保留有效的情感信息,最后通过Softmax分类器进行语音情感分类。通过在IEMOCAP和Emo-DB数据库上进行实验得到89.25%和88.57%的识别准确率,与在IEMOCAP数据库上识别率最高的基于多核学习算法融合音频特征得到84.52%的识别率相比,本文算法提高了4.73%;与在Emo-DB数据库上识别率最高的基于BP神经网络进行特征选择方法得到86.11%的识别率相比,本文算法提高了2.46%,为下文提高多模态情感识别准确率做准备。针...

【文章页数】:54 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题研究的目的与意义
    1.2 情感识别国内外研究现状及分析
        1.2.1 单模态情感识别研究现状及分析
        1.2.2 多模态情感识别研究现状及分析
    1.3 本文主要研究内容
第2章 多模态情感识别关键技术
    2.1 多模态情感特征提取方法
    2.2 多模态情感信息融合方法
    2.3 多模态情感识别分类方法
    2.4 本章小结
第3章 基于注意力模型和卷积神经网络的语音情感识别算法
    3.1 算法的框架
    3.2 算法的设计及理论分析
        3.2.1 3-D Log-Mels生成
        3.2.2 ACNN-LSTM的结构
    3.3 语音情感数据库和实验环境
    3.4 仿真实验及结果分析
    3.5 本章小结
第4章 融合语音和表情的多模态情感识别方法
    4.1 基于VGG-Face模型微调的表情识别
        4.1.1 算法的框架
        4.1.2 算法的设计及理论分析
        4.1.3 面部表情数据库及实验环境
        4.1.4 仿真实验及结果分析
    4.2 多模态情感识别融合算法的改进
        4.2.1 改进融合算法的框架
        4.2.2 改进融合算法的设计及理论分析
        4.2.3 多模态情感数据库及实验环境
        4.2.4 仿真实验及结果分析
    4.3 本章小结
结论
参考文献
攻读学位期间的学术成果
致谢



本文编号:3880253

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3880253.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户208a6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]