自己动手实现语音识别

article2024/7/9 7:53:26/文章来源:https://blog.csdn.net/qq_30895747/article/details/140212187

声音的本质是震动，震动的本质是位移关于时间的函数，波形文件(.wav)中记录了不同采样时刻的位移。
通过傅里叶变换，可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加，通过频率谱线的特殊分布，建立音频内容和文本的对应关系，以此作为模型训练的基础。

语音mfcc特征获取代码如下

from scipy.io import wavfile as wf
import python_speech_features as sf
import matplotlib.pyplot as plt

sample_rate,signs=wf.read("D:/BaiduNetdiskDownload/test.wav")
mfcc=sf.mfcc(signs,sample_rate)
plt.plot(mfcc)

数据集准备：

如图，有7个单词的语音数据，每个单词有14个语音数据

读取语音文件：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/775718.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

比赛获奖的武林秘籍：02 国奖秘籍-大学生电子计算机类竞赛快速上手的流程，小白必看

自己动手实现语音识别

相关文章

比赛获奖的武林秘籍：02 国奖秘籍-大学生电子计算机类竞赛快速上手的流程，小白必看

【Portswigger 学院】文件上传

解决中型组织三个人力资源基础问题的方法

24_嵌入式系统输入输出设备

dtpay聚合支付系统在跨境支付场景中技术及业务方案

【ECCV 2024】首个跨模态步态识别框架：Camera-LiDAR Cross-modality Gait Recognition

【论文阅读】-- Strscope：不规则测量的时间序列数据的多尺度可视化

十大排序:插入/希尔/选择/堆/冒泡/快速/归并/计数/基数/桶排序汇总(C语言)

昇思25天学习打卡营第16天|文本解码原理——以MindNLP为例

自闭症儿童的治疗方法有哪些？

【Java11】变量的初始化和内存中的运行机制

动态线程池思想学习及实践

MQ:RabbitMQ

【后端面试题】【中间件】【NoSQL】MongoDB查询优化2（优化排序、mongos优化）

【RT-thread studio 下使用STM32F103-学习sem-信号量-初步使用-线程之间控制-基础样例】

DataWhale-吃瓜教程学习笔记 (七）

堆叠的作用

ServiceImpl中的参数封装为Map到Mapper.java中查询

【Python机器学习】处理文本数据——多个单词的词袋（n元分词）

LeetCode热题100刷题3：3. 无重复字符的最长子串、438. 找到字符串中所有字母异位词、560. 和为 K 的子数组