复杂场景下的音频序列切分方法的研究

发布时间：2024-03-19 03:11

　　复杂场景下的音频序列切分是对音频做深度处理的基础和前提,对音频后续处理工作具有重要的影响。在许多实际应用的场景中,如语音识别系统、说话人识别系统和语音自动标注系统等,首要任务是对输入语音信号进行精确检测,找出语音段的起始和终止点。目前很多音频分割的研究工作面向纯净的语音信号展开,但是对于含有背景噪音的音频无法做出准确的分割。针对研究工作的需要,构建了复杂场景下的音频序列数据集。通过对采集到的复杂场景下的中小学教学音频数据进行数据预处理和规范化标注等工作,完成构建了共计时长62.32小时的语音语料,为复杂场景的音频序列切分任务的研究奠定了数据基础。针对复杂场景下的音频序列切分问题,完成了两种音频切分模型的构建,分别是基于深度学习的单一模型以及基于深度学习和贝叶斯信息选择的混合模型。单一模型以深度残差网络(Res Net)为模型结构,由于声学特征以语谱图的形式呈现,考虑到深度残差网络在图像处理中的优异性能,我们将深度残差网络引入语音的切分任务中,并在已有的复杂场景数据集和纯净的公开数据集上分别开展实验,通过三种深度学习模型和两种机器学习模型的对比实验结果验证了深度残差网络在该任务上的优越性...

【文章页数】：62 页

【学位级别】：硕士

【部分图文】：

图1-1MFCC特征提取流程

10()()()()NjjmjmnnmmXexmwnmexme（1-语音的线性预测分析就是将语音的采样值通过过去若干采样值的线性组合，因此决定唯一的预测系数，该预测系数LPC可以当做语音信号的特征....

图2-1二分类问题

分方法中基于机器学习的模型主要介绍M），它们是机器学习方法中在语音识别领绍ortvectormachine,SVM）[16]是一种监督学等问题。支持向量机把每个实例映射成空间隔尽量大。支持向量机的基本模型是线实它实质上是一种非线性模型，下面我会持向量机（linearsuppor....

图2-2非线性分类数据

哈尔滨工业大学工学硕士学位论文分离超平面为：**wx+b0策函数为：**f(x)sign(wx+b)持分类器（linearsupportvectormachine），它运用下，可以用软间隔最大化进行训练。支持向量机（non-linearsup....

图2-3卷积层过滤器结构示意图

被添加在卷积层之间，通常他会改变feature池化层一般会导致矩阵的尺度缩小，完成一题的出现。经常使用的有“最大池化（maxng）”。在图像和语音领域中的效果显著优于其他深辨识、视讯分析、自然语言处理、药物发现

本文编号：3932236

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/wltx/3932236.html

上一篇：绿色制造理念在天然气管网自动化升级改造中的实践
下一篇：浅谈5G移动通信基站的电磁辐射环境影响