- 博客(5)
- 资源 (1)
- 收藏
- 关注
转载 语音处理/语音识别基础(六)- 语音的端点检测(EPD/VAD)
端点检测(End-point Detection,简称 EPD)的目标,是要找到音频信号(音讯)的开始和结束的位置,所以又可以称为 Speech Detection 或是VAD端点检测在语音处理与识别中,扮演重要的角色,可以基于,或者基于频域来做 EPD。本文尝试解答如下问题:1).为什么使用基于的方法来做音频的分析?2).什么是语谱图,语谱图有什么作用?3).语谱图中,如何区分出来清音、噪音和浊音?4).如何衡量数据的多样性?5).音频帧的熵值如何计算?
2024-12-30 16:40:01
397
转载 语音处理/语音识别基础(五)- 声音的音量,过零率,音高的计算
如前面第3篇讲到,声音的几个主要特征有音量 Volume, 音高, 音色 Timbre。另外有一个重要的特征是过零率 zero crossing rate。当我们在分析声音时,通常以「短时距分析」(Short-term Analysis)为主,因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧(Frame),每一帧长度大约在 20 ms 左右,再根据帧内的信号来进行分析。
2024-12-30 16:37:45
160
转载 语音处理/语音识别基础(四)- 语音文件读取与播放
本文分享如何在matlab里面读取文件,播放 wav 文件,以及如何录制语音文件,保存语音文件。代码中演示了如何改变音频文件的(影响到播放速度),音量(影响到听到的声音大小)。以及录制的数据如何保存到文件中。如果使用其他的编程语言,也能通过相关的函数。
2024-12-30 16:32:50
79
转载 语音处理/语音识别基础(二)- 声音的存储
由耐奎斯特定理(采样定理),采样频率比信号频率的两倍还高时,信号是可以完全还原的,因此对于大多数音频,其采样频率为44.1kHz和48kHz,这样就一定能够还原大多数人可听范围内的震动信号。声音的主要物理特征是频率和振幅,频率你可以理解为说话语速的快慢,而振幅你可以理解为说话语调的高低(注意这里声音的大小可以通过音量键调节,不属于计算机需要存储的物理特征之一),。Stereo 指的是声道数,也即采样时用到的麦克风的数量,麦克风越多就越能还原真实的采样环境(当然麦克风的放置位置也是有规定的)
2024-12-30 16:26:44
64
转载 语音处理/语音识别基础(一)- 声音到底为何可以存储和播放?
这一篇先分享一下, 声音的基本原理,以及如何转换成数字信号的。声音是物体振动产生的声波。声音通过介质(空气、固体、液体)传入到人耳中,带动听小骨振动,经过一系列的神经信号传递后,被人所感知。声音是一种波。物体振动时会使介质(如空气)产生疏密变化,从而形成疏密相间的纵波。
2024-12-30 16:21:20
87
精简的MyDate97日期选择器
2009-10-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人