不远的将来 发表于 2021-1-13 15:31

噪声入门,从看懂一张频谱开始

何为声音?

苏轼的《赤壁赋》中有曰,“耳得之而为声,目遇之而成色”。因此,可以笼统的认为耳朵听到就是声音。那么我们不禁要问,声音为什么会传到耳朵里呢?

声音(sound)是由物体振动产生声波,通过介质(空气或固体、液体)传播,并能被人或动物的听觉器官所感知的波动现象。

最初发出振动的物体叫声源。声音以波的形式振动传播,所以声音是一种波。更准确的说,在流体中传播的声波是一种小扰动波,其引起压力的微弱扰动以纵波的形式传播,而声波的传播过程表现为流体一系列的局部微弱压缩和膨胀行为。

信号处理的意义

声音的本质是压力脉动,所以无论是仿真还是实验,直接测量得到的都只是每个时刻的压力值。尽管我们也可以通过时域上的压力信号的大小定性的判断压力脉动的强弱,但是压力的时间信号太过杂乱无章,我们很难把它和流场以及几何结构相对应起来。就好比,老师准备组织班级的秋游活动,来到班里征询同学们的意见,而同学一听说要秋游就兴奋的大喊大叫,有的人喊去迪士尼,有的人说去森林公园烧烤,还有的人说去徒步旅行。大家你一言我一语,教室里乱哄哄的,就好比杂乱无章的压力时间信号,老师也搞不清楚大家在说什么。
不过熟悉信号处理的老师也有办法过滤大家的想法:老师先大喊了一声,大家都别说话了,都跟我来操场上。到了操场以后,老师在地上放了五个牌子:依次写着迪士尼、森林公园、徒步、爬山、真人CS。然后老师告诉大家根据自己的兴趣站到各个牌子的后面。一会的功夫,原本杂乱无章的信号就变得清晰起来。

老师通过分类的信号处理,把七嘴八舌的同学区分开来,并了解每个人的意图。而对于实际的信号处理,我们通常需要把时域的信号转换为频域,以便更清晰的辨识信号的特征。

时域与频域

时域很好理解,就是描述信号随时间变化的坐标系,比如我们使用压力传感器记录的一段压力信号,就是用时域表征。而频域是描述信号在频率特性时用到的一种坐标系,其横坐标就是频率——即物体在一秒钟之内振动的次数,单位是赫兹(Hz)。

对于特定几何尺度的物体,气流在一秒钟扫过它的次数就是频率,所以速度越快,意味着产生的信号频率越高;而频率与几何尺度则往往成反比的关系,即尺寸越小,产生的频率越高。
所以,相对于时域,频域的信号更容易和几何结构以及流场建立相互对应的关系。理解了频域对于噪声分析的意义,我们不禁要问,信号处理又是如何把杂乱无章的时域信号转换成有迹可循的频域信号呢?答案就是大家耳熟能详的傅里叶变换。

傅里叶变换从入门到放弃

啥是傅里叶变换呢?额,《复变函数与积分变换》这门工科的基础课,是不是和笔者一样偷偷的坐在最后一排睡大觉了?

我们知道,任何连续测量的时域信号,都可以表示为不同频率的正弦波信号的无限叠加,即傅里叶原理。而傅里叶变换,则是把这些正弦波信号复原并换算到频域空间的积分变换方法。
1822年,傅里叶最早在他的《热的解析理论》中提出了傅里叶变换的一系列思想,而后被越来越多的人应用在了不同的领域。

细心的同学会发现,傅里叶变换公式中的x(t)是一个函数,而对于一段我们采集的声音信号,是难以描述成一个函数的,那么这段离散的数字信号该如何变换到频域?此时就轮到“离散傅里叶变换”(Discrete Fourier Transform,DFT)登场了。
离散傅里叶变换也是从时域到频域的转换,只不过它是把一组复数xn,转换成了另一组复数Xk,就可以愉快的实现对离散数据的变换啦。

离散傅里叶变换好是好,只不过如果采样的数据量大了,计算量也会急剧增加。1965年,Cooley和Tukey提出了离散傅里叶变换(DFT)的快速算法,即快速傅里叶变换(Fast Fourier Transform,FFT),极大提升了DFT的计算速度,它甚至被后世誉为“20世纪最伟大的工程算法”。此外,快速傅里叶变换也使得数字信号处理这门新兴学科得到了迅速的发展。

频谱的纵坐标

我们知道频谱的横坐标是频率,纵坐标表示该频率下的振幅,对于声音信号来说也就是压力脉动的强弱。为了方便描述,我们一般使用声压级(Sound Pressure Level)来表示,某一声音的声压级Lp定义为:该声音的声压p与某一参考声压级pref的比值取以10为底的对数再乘20。声压级的单位为分贝,记为dB;pref为参考压力,其值一般为2*10-5Pa,这也是人耳能听到的最弱声音的声压值。
听阈的声压2*10-5Pa,对应的声压级为0dB;普通人正常说话时的声压是2*10-2Pa,对应的声压级为60dB;而使人耳感到疼痛的声压约是20Pa,对应的声压级为120dB,常称为人耳的“痛阈”。由此可见,对于声压之比相差100万倍的听阈和痛阈,当采用声压级的概念后,其数值得到了大大的简化,变成了0~120dB。所以声压级能够更好的衡量声音的相对强弱。

此处需要特别强调的是,声压和声压级都是表示压力脉动的强弱。比如用手按压墙面,无论多大的力,都没有声音,是因为没有产生压力脉动,但是用手轻轻敲门就可以发出声音。

声音的度量

声压级作为标准的无量纲声压的度量单位,广泛应用于声音的评估。但是以dB为单位的声压级也有不适合的地方,比如声压级计算仅仅考虑声压的大小,而忽略了频率的效应。由于人耳对于不同频率范围的声音敏感度不同,比如人耳最敏感的频率范围大致在1600-2000Hz之间,随着声压向高频或者低频移动,人耳的敏感程度逐渐降低。事实上,人们把低于20Hz和高于20000Hz这些人耳感知不到的声音分别称为次声波和超声波。

为了更好的评估人耳感知的声音,人类又一次发扬了“以自我为中心”的原则,依据人耳对于不同频率的敏感程度将dB进行了A计权,即dBA。dB到dBA的计权可谓简单而又粗暴,只需要在不同频段上加上或者减去固定的值就可以了,如下图所示。好在dBA与人耳的主观反映确实有很好的相关性,所以实际工程使用的较广泛。
有了A计权,当然就有B、C、D。如下图所示,B、C、D计权的方式和A计权相近,也是在不同的频率上加减一定的数值。A计权曲线近似于响度级为40方等响曲线的倒置,而B、C计权则分别近似于70方和100方的等响曲线的倒置。不过B、C计权的实际物理意义不大,在工程中使用不多,而D计权则主要用于航空噪声的评价。
当然在实际工程应用领域,为了更好地表述噪声的水平,响度、语言清晰度等度量单位也得到广泛的使用。其中,响度又称音量,表示人耳感受到的声音强弱,它是人对声音大小的一个主观感觉量,单位是“宋(sone)”,1000Hz纯音声压级为40dB时的响度为1宋;语言清晰度则定义为发音人所发的、经过通信系统能被听音人所确定的意义不连贯的语言单位百分数,简单的描述则是,对方说了100个语义无关的字,能被听清的百分数。

可以看到,上述两种常用的声音度量单位也是基于人耳对于声音的敏感程度,对声压级做的转换,具体的计算方式,此处也不再赘述,感兴趣的朋友可以给我们留言,获取语言清晰度计算的公式。

频带的选取与划分

对于一条频谱曲线而言,横坐标和纵坐标的意义我们都理解了,可是实际工程中看到的频谱似乎仍有很大的不同,主要就是频带的选取不同。比如大家经常听到的倍频程、1/3倍频程、1/12倍频程,固定带宽等等。下图所示的频谱其实是一样的,只是频带的选择不同,所以呈现的样子便会出现很大的差异。
由于噪声的频率范围较广,比如人耳可以分辨20Hz到20000Hz之间的声音,因此在实际应用中,还会把宽广的频率范围划分为一些较小的段落,即频带。实际分析的时候,只需要得到各频带的噪声强度就可以画出噪声频谱。而某一频带的上下限则分别称为上下截止频率,而上下限的差值则称为频带宽度,简称带宽。

使用固定带宽进行频谱分析最直观,不过相应的频谱上往往会出现上图最右侧所示的复杂毛刺。对于实际工程中涉及到共振、啸叫或者谐频噪声等问题,常常使用这种固定带宽的频谱进行分析。
然而还有一些频谱不存在明显的峰值,整体表现为没有“个性”的毛刺,称为“宽频噪声”,如上图所示的两个单音噪声之间的部分。对于这种频谱,人们关心的往往是整体的宽频表现,如果再使用较窄的固定带宽进行频谱分析,则不利于反映频谱的宽频特性,此时可以使用n倍频的方式进行频谱分析。

一般n倍频带定义为上下限频率之比为2的n次方,比如最常用的三分之一倍频定义为各频带的上下限频率之比为2的1/3次方,下表分别给出了倍频和三分之一倍频的带宽列表。有趣的是,越到高频,带宽范围越大,这也避免了在固定带宽频谱上看到的高频衰减的非常快的问题。


页: [1]
查看完整版本: 噪声入门,从看懂一张频谱开始