当前位置:主页 > 科技论文 > 网络通信论文 >

基于深度学习的移动端语音识别系统设计

发布时间:2024-03-04 04:23
  随着深度学习技术研究的深入,语音识别同样已经完成了从传统模型到深度学习的过渡,本文主要实现移动端离线状态下的语音识别并提高语音识别的精度。文中采用深度学习的方式,将在电脑上训练好的模型移植到树莓派3b+上进行语音识别操作。项目整体结构可以分为声学模型及语言模型两个部分,同语音识别中其他主流模型进行对比测试后,得到的结论是声学模型DFCNN和语言模型Transformer的编码器部分都适合移植于嵌入式端,在成本远低于市场上既有语音识别产品的情况下,识别效果和速度都非常接近。

【文章页数】:5 页

【部分图文】:

图1语音识别系统框图

图1语音识别系统框图

预测时利用优化后的DFCNN模型生成输入语音对应的拼音后,再通过Transformer编码器生成的语言模型进行拼音-汉字转换,最后得到预测出的汉字。语音识别系统框图如图1所示。1.1音频信号预处理


图2音频样本数据预处理流程图

图2音频样本数据预处理流程图

1.1音频信号预处理音频信号的预处理过程主要分为三个步骤:预加重、分帧和加窗。音频预处理流程如图2所示。


图3帧长与帧移关系图

图3帧长与帧移关系图

经过研究后发现15~30ms间的音频信号几乎没有波动,因此需要对音频信号进行分帧操作,最好的办法就是通过加窗将音频信号转换为大量的短时平稳信号,帧长与帧移的关系如图3所示。(3)加窗


图4语谱图的生成过程

图4语谱图的生成过程

由前文可知,音频信号经过预处理之后仍需要进行去噪取模取对数操作,具体的语谱图生成过程如图4所示。DFCNN中通过卷积神经网络对图像进行特征值提取,而本设计采用同样的方法将音频信号转换为语谱图。将预处理后得到的时域音频信号转换为语谱图,需对信号进行短时离散傅里叶变换,计算方法如下:



本文编号:3918892

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/3918892.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户b5b40***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]