基于深度学习的移动端语音识别系统设计

发布时间：2024-03-04 04:23

　　随着深度学习技术研究的深入,语音识别同样已经完成了从传统模型到深度学习的过渡,本文主要实现移动端离线状态下的语音识别并提高语音识别的精度。文中采用深度学习的方式,将在电脑上训练好的模型移植到树莓派3b+上进行语音识别操作。项目整体结构可以分为声学模型及语言模型两个部分,同语音识别中其他主流模型进行对比测试后,得到的结论是声学模型DFCNN和语言模型Transformer的编码器部分都适合移植于嵌入式端,在成本远低于市场上既有语音识别产品的情况下,识别效果和速度都非常接近。

【文章页数】：5 页

【部分图文】：

图1语音识别系统框图

预测时利用优化后的DFCNN模型生成输入语音对应的拼音后，再通过Transformer编码器生成的语言模型进行拼音-汉字转换，最后得到预测出的汉字。语音识别系统框图如图1所示。1.1音频信号预处理

图2音频样本数据预处理流程图

1.1音频信号预处理音频信号的预处理过程主要分为三个步骤：预加重、分帧和加窗。音频预处理流程如图2所示。

图3帧长与帧移关系图

经过研究后发现15～30ms间的音频信号几乎没有波动，因此需要对音频信号进行分帧操作，最好的办法就是通过加窗将音频信号转换为大量的短时平稳信号，帧长与帧移的关系如图3所示。(3）加窗

图4语谱图的生成过程

由前文可知，音频信号经过预处理之后仍需要进行去噪取模取对数操作，具体的语谱图生成过程如图4所示。DFCNN中通过卷积神经网络对图像进行特征值提取，而本设计采用同样的方法将音频信号转换为语谱图。将预处理后得到的时域音频信号转换为语谱图，需对信号进行短时离散傅里叶变换，计算方法如下：

本文编号：3918892

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/wltx/3918892.html

上一篇：信道预测天线选择的空时分组码物理层安全增强
下一篇：基于改进的L 1 趋势滤波算法的光纤链路故障检测

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|