语音信号处理初学者必须要掌握的16个基本概念
01 频谱频谱就是频率的分布曲线,复杂振荡分解为振幅不同和频率不同的谐振荡,这些谐振荡的幅值按频率排列的图形叫做频谱。广泛应用在声学、光学和无线电技术等方面。频谱是频率谱密度的简称。它将对信号的研究从时域引到频域,从而带来更直观的认识。
02 码本
把残差信号可能出现的、已经量化了的、按一定规则排列的各种样值事先存储在存储器中,好像一本字典一样。每一个样值组合都有一地址码,所以这个存储器就称为码本。
03 奈奎斯特频率
奈奎斯特频率(Nyquist frequency)是离散信号系统采样频率的一半,因哈里·奈奎斯特(Harry Nyquist)或奈奎斯特-香农采样定理得名。采样定理指出,只要离散系统的奈奎斯特频率高于采样信号的最高频率或带宽,就可以避免混叠现象。
从理论上说,即使奈奎斯特频率恰好大于信号带宽,也足以通过信号的采样重建原信号。但是,重建信号的过程需要以一个低通滤波器或者带通滤波器将在奈奎斯特频率之上的高频分量全部滤除,同时还要保证原信号中频率在奈奎斯特频率以下的分量不发生畸变,而这是不可能实现的。
在实际应用中,为了保证抗混叠滤波器的性能,接近奈奎斯特频率的分量在采样和信号重建的过程中可能会发生畸变。因此信号带宽通常会略小于奈奎斯特频率,具体的情况要看所使用的滤波器的性能。
需要注意的是,奈奎斯特频率必须严格大于信号包含的最高频率。如果信号中包含的最高频率恰好为奈奎斯特频率,那么在这个频率分量上的采样会因为相位模糊而有无穷多种该频率的正弦波对应于离散采样,因此不足以重建为原来的连续时间信号。
04 采样频率
采样频率(sampling frequency),也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数是采样周期或者叫作采样时间,它是采样之间的时间间隔。通俗的讲采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。
采样频率只能用于周期性采样的采样器,对于非周期性采样的采样器没有规则限制。采样频率的常用的表示符号是fs。通俗的讲采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。
采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。采样频率与声音频率之间有一定的关系,根据奈奎斯特理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。这就是说采样频率是衡量声卡采集、记录和还原声音文件的质量标准。
采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。如果信号的带宽是 100Hz,那么为了避免混叠现象采样频率必须大于 200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。
在模拟视频中,采样率定义为帧频和场频,而不是概念上的像素时钟。图像采样频率是传感器积分周期的循环速度。由于积分周期远远小于重复所需时间,采样频率可能与采样时间的倒数不同。当模拟视频转换为数字视频的时候,出现另外一种不同的采样过程,这次是使用像素频率。
05 工频信号
工频信号就是频率为50赫兹的信号,可以是电流信号,也可以是电压信号。
06 基音和泛音
一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音(fundamental tone),其余为泛音。
发音体整体振动产生的音,叫做基音,决定音高;发音体部分振动产生的音,叫做泛音,决定音色;基音和泛音结合一起而形成的音,叫做复合音,日常我们所听到的声音多为复合音。
07 固有频率
固有频率(natural frequency)
定义1:系统出现自由振荡的频率。
定义2:由系统本身的质量和刚度所决定的频率。
n自由度系统一般有n个固有频率,按频率的高低排列,最低的为第一阶固有频率。有阻尼的线性系统的自由振动频率称为“阻尼固有频率”。物体作自由振动时,其位移随时间按正弦规律变化,又称为简谐振动。简谐振动的振幅及初相位与振动的初始条件有关,振动的周期或频率与初始条件无关,而与系统的固有特性有关,称为固有频率或者固有周期。
物体频率与它的刚度、质量、外形尺寸有关,当其发生形变时,弹力使其恢复。弹力主要与尺寸和刚度有关,质量影响其加速度。同样外形时,刚度高的频率高,质量大的频率低。 一个力统的质量分布,内部的弹性以及其他的力学性质决定。如弹簧振子的。
正常人体的固有频率应为7.5Hz左右,其中各部分又有自己的固有频率。如内脏为4~6Hz,头部为8~12Hz等。正是由于这个原因,次声波对人体有很大的破坏作用,因为人体各部分的固有频率都在次声波的频率范围之内。次声武器就是利用频率低于20Hz的次声波与人体发生共振,使共振的器官或部位发生位移和变形而造成人体损伤以至死亡的一种武器。
08 共鸣
发声器件的频率如果与外来声音的频率相同时(即音调相同),则它将由于共振的作用而发声,这种声学中的共振现象叫作“共鸣”。
09 谐振
谐振(resonance)也称为共振,,它的定义是:强迫振荡频率非常接近于自由振荡频率的系统中出现的振荡现象。
在物理学里,有一个概念叫共振:当策动力的频率和系统的固有频率相等时,系统受迫振动的振幅最大,这种现象叫共振。电路里的谐振其实也是这个意思:当电路中激励的频率等于电路的固有频率时,电路的电磁振荡的振幅也将达到峰值。实际上,共振和谐振表达的是同样一种现象。这种具有相同实质的现象在不同的领域里有不同的叫法而已。
收音机利用的就是谐振现象。转动收音机的旋钮时,就是在变动里边的电路的固有频率。忽然,在某一点,电路的频率和空气中原来不可见的电磁波的频率相等起来,于是,它们发生了谐振。远方的声音从收音机中传出来。这声音是谐振的产物。
10 带通滤波器
带通滤波器(band-pass filter)是一个允许特定频段的波通过同时屏蔽其他频段的设备。比如RLC振荡回路就是一个模拟带通滤波器。
11 频域
频域(frequency domain)是描述信号在频率方面特性时用到的一种坐标系。对任何一个事物的描述都需要从多个方面进行,每一方面的描述仅为我们认识这个事物提供部分的信息。
例如,眼前有一辆汽车,我可以这样描述它方面①:颜色,长度,高度。方面②:排量,品牌,价格。而对于一个信号来说,它也有很多方面的特性。如信号强度随时间的变化规律(时域特性),信号是由哪些单一频率的信号合成的(频域特性)。
12 时域
时域是描述数学函数或物理信号对时间的关系。例如一个信号的时域波形可以表达信号随着时间的变化。若考虑离散时间,时域中的函数或信号,在各个离散时间点的数值均为已知。若考虑连续时间,则函数或信号在任意时间的数值均为已知。
在研究时域的信号时,常会用示波器将信号转换为其时域的波形。时域是真实世界,是惟一实际存在的域。因为我们的经历都是在时域中发展和验证的,已经习惯于事件按时间的先后顺序地发生。而评估数字产品的性能时,通常在时域中进行分析,因为产品的性能最终就是在时域中测量的。
13 预回声
音频编码技术中的预回声失真一直是一个相当棘手的问题,特别当比特率较低时,亦即压缩比较高时,预回声将变得更加明显和严重。预回声失真产生的关键原因是:时间分辨率的不足造成量化噪声的时域扩散。特别当一个瞬态信号被分块变换(或滤波)到改回频域进行量化编码时,由于量化噪声被扩散到整个变换块(或滤波器组)范围上,而且如果不能被信号掩蔽,就会出现预回声。预回声造成信号波形失真在突发信号前出现了明显的量化噪声,且人耳对此类失真很敏感。
14 倍频程
人耳听音的频率范围为20Hz到20KHz,在声音信号频谱分析一般不需要对每个频率成分进行具体分析。为了方便起见,人们把20Hz到20KHz的声频范围分为几个段落,每个频带成为一个频程。频程的划分采用恒定带宽比,即保持频带的上、下限之比为一常数。实验证明,当声音的声压级不变而频率提高一倍时,听起来音调也提高一倍。
所谓倍频程是指使用频率f与基准频率f0之比等于2的n次方,即f/f0=2n次方,则f称f0的n次倍频程。若使每一频带的上限频率比下限频率高一倍,即频率之比为2,这样划分的每一个频程称1倍频程,简称倍频程。如果在一个倍频程的上、下限频率之间再插入两个频率,使 4个频率之间的比值相同(相邻两频率比值=1.26倍)。这样将一个倍频程划分为3个频程,称这种频程为1/3倍频程。所以我们通常使用的31段均衡器也称为1/3倍频程均衡器。
两个频率相比为2的声音间的频程,一倍频程之间为八度的音高关系,即频率每增加一倍,音高增加一个倍频程,图示均衡器的的各频点之间就是倍频程关系。倍速录音用双卡录音机录音时,为了节省录音时间而设置的功能,倍速录音的磁带速度是正常录音的两倍,所花时间缩短了一倍,监听录音效果时,声音为快速播放效果,音调升高一个八度。这就是不为人们所熟知的倍频程! 总结一句话定义倍频程就是,频率为2:1的频率间隔的频带.
15 基音周期
人在发浊音时,气流通过声门使声带产生张驰振荡式振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。这种声带振动的频率称为基频,相应的周期就称为基音周期(Pitch),它由声带逐渐开启到面积最大(约占基音周期的50%)、逐渐关闭到完全闭合(约占基音周期的35%)、完全闭合(约占基音周期的15%)三部分组成 。
基音周期的估计称为基音检测 (Pitch Detection),基音检测的最终目标是画出和声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则尽量找出相吻合的轨迹曲线。
在语音信号处理中,语音信号参数提取的准确性非常重要。只有获得准确的参数,才能利用这些参数进行高效的处理,而在许多参数提取中,基音周期的提取尤为重要,广泛地应用于语音压缩编码、语音分析合成以及语音识别等方面,所以,准确可靠地估计并提取基音周期对语音信号处理至关重要 。它直接影响到合成语音是否真实再现原始语音信号,影响到语音识别的识别率,影响到语音压缩编码的正确率。
16 音量、音高和音色
音量(Volume):声音的大小称为音量,又称为力度、強度或是能量。音量越大,代表音讯波形的震幅越大。
音高(Pitch):声音的基本频率越高,代表音高越高(例如女高音的歌声);反之,声音的基本频率越低,代表音高越低(例如男低音的歌声)。
音色(Timber):音讯波形在每个周期內的变化,就形成了此音讯的音色。不同的音色即代表不同的音讯內容,例如不同的字有不同的发音,或是不同的歌手有不同的特色,这些都是由于音色不同而产生。
本文来源于makerofu的博客
页:
[1]