人是怎么感知声音频率高低的?

我喜欢“人脑会把声音的频率数出来”这种说法。话糙理不糙。


解剖学的角度,人耳主要分为三部分:外耳——鼓膜腔体(Tympanic cavity)——内耳(下图1,2,3);

信号转换的角度,声音被大脑感知走过:机械——神经电信号——中枢信息处理这一过程;

机械声传播的角度,声音先后经历了:空气传播——机械传播——液体传播

听个声音,也挺不容易的。

一、外耳

外耳分为:耳廓,耳道和耳骨

  • 耳廓 (Pinna):对声音的空间感知(Spatial hearing)有重要作用。比如,闭上眼睛,一个高频声音分别在前后方播放,由于耳廓的特殊形状,声音在耳廓上发生的反射不同,导致传导到内耳的声音不一样,因此人能判定声音的前后位置。这个叫做spectral cue。当然这只是对于高频声音,在低频由于波长很大,闭上眼睛人很难分清前后。

YouTube上面有人做了个非常有趣的实验:把他儿子的眼睛蒙上,他在周围拍手,孩子总能指向正确的方向;之后,他用橡皮泥贴到孩子的耳廓上,然后孩子就迷失了。

用Spectral cue猎杀无人机

  • 耳道 (Ear canal):外侧连接耳廓,内部止于鼓膜。成年人的耳道平均长2.7厘米,直径在6-8毫米之间。类似于1/4共振器,共振频率在3kHz左右,这也是人耳最敏感的频率部分。对f>3kHz的声音,耳道扮演着功放的角色
  • 鼓膜(耳膜, eardrum):类似于音响的振动膜(membrane),只不过小很多,只有85平方毫米,有效面积不过55平方毫米,厚度大约0.1毫米。外耳接收到的声音,被鼓膜接收并产生振动,传入下一环节——鼓膜腔。

二、鼓膜腔 (Tympanic cavity)

鼓膜腔中充满空气,为了平衡外界大气压,与耳咽管相连。从鼓膜到鼓膜腔中,依次连接三块骨头(听小骨,Ossicles):锤骨,砧骨和镫骨,这三块骨头将声音传递给卵圆窗(oval window),进而传导到内耳的耳蜗处。

其中,镫骨连接镫骨肌,起到“保险丝”作用。当传入声音超过85dBHL (HL为“听力级”,声压级通过个体听力敏锐度补偿之后的值),这块肌肉通过延迟来保护内耳。

从下图可以看到,从鼓膜到三块骨头再到卵圆窗,他们从尺寸上是逐渐变小的。为什么呢?因为耳蜗中不再是空气,而是淋巴液。如果鼓膜腔和耳蜗直接相连,那么人类的世界将会是安静的——由于阻抗变大,加上鼓膜振动产生的压力不够大,声音几乎会被完全反射!而经过鼓膜-锤骨-砧骨-镫骨-卵圆窗这一系列传导,压力被放大,以确保声音能够进入最后一道工序。这一过程也称阻抗匹配 (Impedance matching)

除了通过鼓膜腔传导声音至内耳,还有另一种传导方式——骨传导。最直观的例子,把耳朵捂住(假设我们有万能的大手),还能听见自己的说话声音。是不是含糊不清?那是因为骨传导的听觉敏感度远比常规的耳道传导低得多。

三、内耳

如果把人比作听力系统(Auditory system),那么内耳的重要程度相当于大脑。声音将在这里转化成电化学信号,并被中枢听觉系统处理,分析并感知。

内耳,尤其是耳蜗的构造让我不得不感叹,人的确是这个星球上最精密的机器。

镫骨连接骨迷路 (bony labyrinth), 里面充满淋巴液,最→_→那头蜗牛就是耳蜗 (cochlea)。把这头蜗牛抻平,大约有30-35毫米,直径0.3-0.9毫米。声音在耳蜗中发生质变,终于从机械信号变成了电信号。简单说,在耳蜗里面,声音走过了如下路径:

—— 声音从基底膜(Basilar membrane)上面的腔体进,下面的腔体出 ,引起基底膜振动

—— 毛细胞 (hair cell)上面的纤毛检测到振动,转化成电信号

—— 电信号通过轴突,传递给大脑处理

—— 咦,我好像听见了什么?

在柯蒂氏器(Organ of Corti)上面,分布着近2w个毛细胞,每个毛细胞上面又有50-150个纤毛(有密集恐惧症的就别细想了,耳朵里居然住着这么个妖怪)。

耳蜗的另一个牛逼功能,是“傅里叶变换”,不同部位采集不同频率。

耳蜗外部的基底膜刚度较高,因此只有高频能激起这部分的振动,进而被毛细胞感知;而耳蜗内部相反,刚度较低,因此这部分毛细胞主要检测低频。这和音响同理,低音炮往往很大,刚度低; 而高音Tweeter则小很多,刚度高。因此,人类才得以区分各种不同频率的声音,比如贝斯比吉他更低沉,女人比男人语调更高等等。

另外,在同样大小的空间,卷曲状的耳蜗要比直版的耳蜗接收到更低的频率,才让人能听到20Hz的低频。

题外话,不得不吐槽中文的直观性:
耳蜗=在朵内,形似牛的器官
cochlea=??
查过才知道,是从希腊语κοχλίας (kōhlias)引进过来的,直译:螺旋的蜗牛形状。英语在很多词上都直接引进外来语,一点首创精神都没有……
词语的直观性这一点,德语和中文一样优秀:Hörschnecke。Hör:Hören(Hear)的词根,Schnecke=snail=蜗牛。


扯了这么多,回到题主的问题:

听到一个音,人能感受到一个音调。这个过程在脑中具体是怎么发生的呢?

已解答。

网上有说法是人脑会把声音的频率数出来,我感觉这个说法欠妥:首先,高频声音每秒几千次甚至上万次的振动怎么数的清?

数的清,只不过不适用大脑来数,它还有更重要的事情去做,这种糙活儿交给基底膜和毛细胞就可以了。

其次,今天我测试了在无干扰下,能在440赫兹附近分辨出0.4赫兹偏差的两个音,这么小的差别人脑不会数错吗?

Psychoacoustics(心理声学)这本书告诉我们 [4]:

500Hz一下,人耳能区分差别1Hz的纯音;500Hz以上,这个区分值(有专业称呼,Just-Noticeable Frequency Differences,简称JNFD)为0.002*频率值。比如,在1000Hz能听出2Hz的区别。不过这些都是基于平均值。题主很可能基底膜刚度的gradient比较细分,外加多长了一些毛细胞;)

刚好赶在2018年的尾巴写完这个回答。祝大家2019新年快乐!


参考:

[1] Janina Fels. RWTH Course: Medical Acoustics

[2] Brandon Pletsch: https://www.youtube.com/watch?v=PeTriGTENoc (和交响乐结合的动画演示非常生动)

[3] Jennifer Kincaid: https://www.youtube.com/watch?v=epjV4bD_8rU (分解图做的很细致)

[4] Zwicker, E., & Fastl, H. (2013).Psychoacoustics: Facts and models(Vol. 22).

来源:知乎 www.zhihu.com

作者:子鱼

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 5 个回答,查看全部。