基于残差网络的说话人识别算法

发布时间:2023-04-02 00:57
  随着语音识别技术地快速发展,说话人识别作为语音识别的一个重要组成部分,已经被广泛地应用到商务、安防、金融、刑侦及个性化应用等诸多领域,在生物识别技术中也占据了越来越重要的地位。基于残差网络的说话人识别算法就是将说话人语音的频谱图作为输入,利用残差网络来提取频谱图的特征描述子,然后通过网络的聚合层来将特征描述子聚合成特征矩阵,接着用全连接层来生成具有判别性的说话人特征,从而达到判别说话人身份的效果。然而,说话人识别模型在不平衡且带有噪声的数据集上训练时,模型识别的表现会发生严重的退化。为了改善说话人识别模型在这方面的表现,并且对于短语音也有很好的识别效果,本文主要从以下三个方面进行改进:(1)说话人识别模型在实际应用中所面临的问题之一就是在噪声环境下模型的表现会发生退化。基于GhostVALD算法的残差网络模型能够从带有噪声的说话人语音中提取高质量、具有判别性的说话人特征。在以上研究内容的基础上,本文通过将MultiReader技术与基于GhostVLAD算法的残差网络模型相结合,实现了对语音数据进行数据级别和特征级别的筛选,有效地改善了说话人识别模型在带有噪声的不平衡数据集上的识别效果...

【文章页数】:47 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 说话人识别理论的背景意义
    1.2 说话人识别算法发展历程及研究现状
    1.3 本文主要研究内容及结构安排
2 说话人识别算法的基本理论
    2.1 说话人识别算法分类
    2.2 说话人识别算法的评价标准
    2.3 矩阵微分的基本公式
3 基于MultiReder技术及ResNet-GhostVLAD网络说话人识别算法
    3.1 基于深度学习的说话人识别算法简介
    3.2 MultiReader技术及ResNet-GhostVLAD网络的理论及算法改进
        3.2.1 MultiReader技术及ResNet-GhostVLAD网络的模型理论
        3.2.2 MultiReader技术及ResNet-GhostVLAD网络的算法改进
    3.3 实验部分
        3.3.1 数据集介绍及训练细节
        3.3.2 实验结果及分析
    3.4 小结
4 短语音场景下的说话人识别算法
    4.1 短语音说话人识别算法简介及改进
    4.2 实验结果及分析
    4.3 小结
5 基于贝叶斯优化算法的说话人识别模型
    5.1 贝叶斯优化算法简介
    5.2 用于说话人识别模型超参数搜索的贝叶斯优化算法
    5.3 实验结果及分析
    5.4 小结
结论
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果



本文编号:3778204

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3778204.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户dece1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]