czyy2-优快云博客

转载语音处理/语音识别基础（六）- 语音的端点检测（EPD/VAD)

端点检测（End-point Detection，简称 EPD）的目标，是要找到音频信号（音讯）的开始和结束的位置，所以又可以称为 Speech Detection 或是VAD端点检测在语音处理与识别中，扮演重要的角色，可以基于，或者基于频域来做 EPD。本文尝试解答如下问题：1).为什么使用基于的方法来做音频的分析？2).什么是语谱图，语谱图有什么作用？3).语谱图中，如何区分出来清音、噪音和浊音？4).如何衡量数据的多样性？5).音频帧的熵值如何计算？

2024-12-30 16:40:01 697

转载语音处理/语音识别基础（五）- 声音的音量，过零率，音高的计算

如前面第3篇讲到，声音的几个主要特征有音量 Volume, 音高, 音色 Timbre。另外有一个重要的特征是过零率 zero crossing rate。当我们在分析声音时，通常以「短时距分析」（Short-term Analysis）为主，因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧（Frame），每一帧长度大约在 20 ms 左右，再根据帧内的信号来进行分析。

2024-12-30 16:37:45 319

转载语音处理/语音识别基础（四）- 语音文件读取与播放

本文分享如何在matlab里面读取文件，播放 wav 文件，以及如何录制语音文件，保存语音文件。代码中演示了如何改变音频文件的（影响到播放速度），音量（影响到听到的声音大小）。以及录制的数据如何保存到文件中。如果使用其他的编程语言，也能通过相关的函数。

2024-12-30 16:32:50 137

转载语音处理/语音识别基础（二）- 声音的存储

由耐奎斯特定理（采样定理），采样频率比信号频率的两倍还高时，信号是可以完全还原的，因此对于大多数音频，其采样频率为44.1kHz和48kHz，这样就一定能够还原大多数人可听范围内的震动信号。声音的主要物理特征是频率和振幅，频率你可以理解为说话语速的快慢，而振幅你可以理解为说话语调的高低（注意这里声音的大小可以通过音量键调节，不属于计算机需要存储的物理特征之一），。Stereo 指的是声道数，也即采样时用到的麦克风的数量，麦克风越多就越能还原真实的采样环境（当然麦克风的放置位置也是有规定的）

2024-12-30 16:26:44 134