自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

转载 语音处理/语音识别基础(六)- 语音的端点检测(EPD/VAD)

端点检测(End-point Detection,简称 EPD)的目标,是要找到音频信号(音讯)的开始和结束的位置,所以又可以称为 Speech Detection 或是VAD端点检测在语音处理与识别中,扮演重要的角色,可以基于,或者基于频域来做 EPD。本文尝试解答如下问题:1).为什么使用基于的方法来做音频的分析?2).什么是语谱图,语谱图有什么作用?3).语谱图中,如何区分出来清音、噪音和浊音?4).如何衡量数据的多样性?5).音频帧的熵值如何计算?

2024-12-30 16:40:01 397

转载 语音处理/语音识别基础(五)- 声音的音量,过零率,音高的计算

如前面第3篇讲到,声音的几个主要特征有音量 Volume, 音高, 音色 Timbre。另外有一个重要的特征是过零率 zero crossing rate。当我们在分析声音时,通常以「短时距分析」(Short-term Analysis)为主,因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧(Frame),每一帧长度大约在 20 ms 左右,再根据帧内的信号来进行分析。

2024-12-30 16:37:45 160

转载 语音处理/语音识别基础(四)- 语音文件读取与播放

本文分享如何在matlab里面读取文件,播放 wav 文件,以及如何录制语音文件,保存语音文件。代码中演示了如何改变音频文件的(影响到播放速度),音量(影响到听到的声音大小)。以及录制的数据如何保存到文件中。如果使用其他的编程语言,也能通过相关的函数。

2024-12-30 16:32:50 79

转载 语音处理/语音识别基础(二)- 声音的存储

由耐奎斯特定理(采样定理),采样频率比信号频率的两倍还高时,信号是可以完全还原的,因此对于大多数音频,其采样频率为44.1kHz和48kHz,这样就一定能够还原大多数人可听范围内的震动信号。声音的主要物理特征是频率和振幅,频率你可以理解为说话语速的快慢,而振幅你可以理解为说话语调的高低(注意这里声音的大小可以通过音量键调节,不属于计算机需要存储的物理特征之一),。Stereo 指的是声道数,也即采样时用到的麦克风的数量,麦克风越多就越能还原真实的采样环境(当然麦克风的放置位置也是有规定的)

2024-12-30 16:26:44 64

转载 语音处理/语音识别基础(一)- 声音到底为何可以存储和播放?

这一篇先分享一下, 声音的基本原理,以及如何转换成数字信号的。声音是物体振动产生的声波。声音通过介质(空气、固体、液体)传入到人耳中,带动听小骨振动,经过一系列的神经信号传递后,被人所感知。声音是一种波。物体振动时会使介质(如空气)产生疏密变化,从而形成疏密相间的纵波。

2024-12-30 16:21:20 87

精简的MyDate97日期选择器

只有一个js文件,支持IE6,7,8,火狐3.5,很好用的,虽然功能不是很强大,只能满足基本的时间选择,对于需要精简的不需要太多功能的人来说已经足够了。

2009-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除