连无损音乐和320k MP3的区别都听不出来,有必要买音质好的耳机吗?

先说结论:

1.不针对这个问题,但作为一个主研数字语音信号处理的信号狗,强烈推荐学习声学基础及心理声学模型部分,初烧有助于以后理性花钱,老烧极大有助于缓解脑放效应并完成退烧!

2.我同意花大价钱买好耳机,不过比起什么细节清晰声场冷暖,低音下潜,层次感,换线换前端胆机脑放一起上这种和阴阳八卦差不多的理论学说——让我有种那么多顶尖声学实验室的前辈大佬花费了那么长时间做出来的声学数据和实验积累全成了瞎折腾,书全是白读,让我有种智商被摁在地上摩擦的感觉之外,你说这个价格的耳机戴起来更舒服、调音风格更符合自己的口味或者说我就是不习惯戴几百几十块钱的便宜货之类的理由我会更信服一点.

3.回到主题结合个人专业严肃科普一下320kbps的MP3格式和”无损”音乐到底有什么区别,或者说,无损音乐是怎么进行压缩的,毕竟拿出理论和数据出来,比起扯什么声场,层次靠谱的多.

最后科普不全是科学,为了让更多人大致搞明白这是个什么东东,以下比喻不一定科学.同时笔者并非专家也非全才,有所错误,望大佬们不吝指出.

我们为什么需要压缩音频格式?

这个问题问出来有点蠢,当然是为了节省音频的存储空间,如果你算一算,哪怕是320kbps的3-5分钟歌曲大概也只占了几兆的空间,但如果是没有压缩的格式,以最流行的44100HZ采样率,双声道,16bit采样精度量化的PCM流,3分钟需要3x60x44100x2x2字节,约30M的存储空间,因此,本来只能存储一首歌的空间使用MP3能存储5-10首,这么一看还是非常划得来的,当然,现在的大部分的无损格式(WAV格式除外)并不是指直接存储原始PCM流,仍然会使用一系列无损压缩算法来减少存储空间,但不管无损怎么压缩,总体肯定不会比”有损”压缩来的给力.

这里.我们就来到了一个第一个脑放高潮点,显然的,除了我们使用一系列压缩算法来减少音频信息的存储空间,我们可以靠更直接粗暴的办法,比如双声道改成单声道,这样存储空间基本能直接省下一半,但显然这么干有点划不来.毕竟双声道听起来还算有立体感,单声道就完全没有这种感觉了,那么我们可以从采样的精度入手,例如16bit的采样精度直接降低到15bit,就能直接节省6%的空间。

但不管怎么说采样深度减少肯定意味着音频信号有损了(实际上声音按目前的科技水平不管你怎么存储都肯定无法复原原始音频信号)

那么,这种”有损”听起来有什么不一样呢?

盲听测试实验

当然,实践是检验真理的唯一标准,行不行脑放说的不算,我们不能一听到有损瞬间就觉得现在听的歌都不香了,我们要更有说服力的鉴定它们的听感上的差别,这就得靠盲听测试(ABX Blind test)了

为此,笔者贴心的编写了一个盲听测试程序用来”更具有说服力”的证明这一点,当然,为了证明我不是瞎搞没有作弊,笔者自然更加贴心的把程序开源.你可以在文末的附件下载到这个程序和它的源代码。

简单说明一下:

首先打开测试程序,选择一个wav音频文件(44100HZ 2Channel 16bit)

A用于播放原始音源,B用于播放处理过的音源,X使用PMMCLCG随机数生成算法随机播放A或B的音源,

在你播放了X音乐后,会出现”我觉得这是 A”和”我觉得这是 B”按钮,这个时候你就可以根据你听的感觉来选择X音源到底是A还是B了

然后,会提示你听的到底对不对,不管选择是否正确,系统会重新生成X音源,你可以测试下一次

当然,因为你瞎选也有50%的概率正确的,因此,如果需要具有统计学意义按照不低于95%的置信水平来说,听100次其中应该有89次以上是正确的(*勘误? 咨询了几个BOSS后均表示这个测试不应该使用置信水平来描述其可靠性,这里的描述可能是错误的,应该描述为在一个足够多的测试次数的条件下,测试的可靠性应该用条件概率进行描述,我不知道是否能够套用统计学意义中的可靠性描述,希望有相关研究的大佬在评论中指出,是否有一个概率指标来描述这个测试是否可靠),不然说什么“听上去感觉有差别”就是瞎扯基波淡。

在我们这个位深测试中,笔者的B音源是直接将A音源16bit中的最低位抹零了,也就是说,你听到的B音源实际上是删掉了一个bit的15bit的音乐

如果说,你区分不了16bit/15bit的音频文件带给你的听觉差异,而作为一个脑烧,你仍然坚持16bit和24bit,32bit的采样深度听起来有差异.这种说法就像你明明都区别不了1和10的差异但能区别10.1和10.2的差距一样,

我只能说

附带笔者的ABX测试

笔者ABX 盲听测试

320kbps是什么?

好了,从上面的内容我们明白了一个道理,要减少音频的存储空间,一个非常有效的办法,就是减少采样深度(编码精度),而作为一个地球人,我相信大部分的人是听不出15bit 16bit 24bit甚至是32bit的区别的,那么mp3的320kbps代表什么呢

显而易见的,320kbps就代表每秒钟的音频信息,使用320000的bits来存储,显然的,如果我们用更多的bits来存储音频数据,我们就能存储更多的细节,但这个细节你能不能听出来就是另外一回事了

现在,一个事实摆在我们的眼前,如果一秒钟使用320kb存储数据,那么,如何有效的利用这些存储比特呢?

现在,让我们深入讨论这一个话题.

听阈

听阈(hearing threshold),即最小可听强度(minimal audible level),人耳刚好能听到的最小声音强度,或是一个人分辨出一个声音存在所需要的最小声音强度。

一般来说判断听阈的范围是反复听一个时有时无的声音,如果有一半以上的时候你听得到,那么,这就算是听阈之上的可感知区域

通俗的来说,大晚上的一只蚊子在你脑门边嗡嗡作响,你可以清楚的听到,如果这个蚊子飞到5米之外,即使嗡嗡的声波仍然存在,但你不太可能听得到,我们可以说,这时候的声压级,在听阈之下是不能被感知的,

需要重点注意的一点是,不同频率的声音,人类的感知能力是不一样的,人类普遍对中低频更加敏感,如果是打鼓和钢琴的高音键,即使它们处于同一的声压级别,你可能会觉得鼓声更响,这点并不难理解,因为我们人类的发音,能量就集中在中低频率,只要周围环境不嘈杂的过分,大部分时候我们互相之间说话都不会特别的困难,因为我们本身就对人声有更强的感知能力,这是自然进化的结果.

因此,对于一段音色,实际上是有轻重之分的,对于某些人类更加容易感知的频率,就显得更加的重要,而一些不容易感知的区域,就能够更加”应付”一点点,这个时候,不得不介绍一下大名鼎鼎的梅尔频率系数.

梅尔频率系数是基于一个三角带通滤波器组分析的结果,这个滤波器组是基于人类听觉感知的基础上建立的,可以清楚的看到,滤波器组在低频更加的密集,这正是因为人类对中低频的感知更加的敏感.

预告一下,实际上MP3的压缩也利用了这一点,对于那些在听阈之下或者是不敏感频率的音频信号,我们分配更少的bit来记录它的信息,对于那些更加敏感的音频信号,则分配更多的bit来记录信息,可以说,mp3的压缩理论,是基于一个心理声学的结果,就像你有10个医生,一个病人只是摔了一跤有点屁股疼,一个病人车祸都快挂了,你还会55开各分5各医生去抢救么?

我们完全没有必要一听到有损压缩就直摇头,毕竟很多信息经过了大量的实验,本身我们就难以感知,你还留着它做什么.一句声场冷暖层次感,直接把这些明明可以有一个量化标准的东西全否定了.

掩蔽效应

当然,上面给出的等响曲线,是一个纯音测试的结果,但在自然界中,它显得过于的理想化了,因为在我们的日常生活中,存在各种各样的不同频率的音波混杂在一起

如果只有一只蚊子在你周围嗡嗡的响你听得到,但如果你身处一个嘈杂的工厂环境中你说你还听得到,那么比起说你牛逼我倾向于说你吹牛逼.

简单来说掩蔽效应说白点就是生活中说的这个声音太大,你说话我听不清楚,也就是说你的声音被这个声音掩蔽了.于是为了听清楚,你不得不提高音量,可以这么说,因为其他声音的干扰,听阈被提高了

观察上图的示例,黑实线表示的是纯音的理想听力阈值,其中红线和蓝线对应频率的声压级别都已经超过了对应的可听阈值,但因为红色的声压的影响,本应该可以被听到的蓝色音频信号却被掩蔽不可听见,那么我们就说,红色为掩蔽声,蓝色为被掩蔽声.

这是一个典型的频域掩蔽现象,一般来说,弱音容易被强音掩蔽,离强音越近,越容易被掩蔽.低频音更容易掩蔽高频音,同时注意一点声音频率和掩蔽曲线并不是一个线性的关系.

出了频域掩蔽外,还有时域掩蔽,,指的是被掩蔽声与掩蔽声不同时出现时的听觉掩蔽现象。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20 ms,而滞后掩蔽可以持续50~200 ms。简单来说,你突然听到一声很响的声音,那么,后面如果有一个很微弱的声音,即使它已经超过了听阈,你仍然可能听不到.

再做个试验

有理有据,方能李菊福,因此比起脑放文,笔者再一次很贴心的编写了一个小程序

依托2个滑动条,你可以条调整并生成1000HZ 1100HZ的声波,依靠这个工具,你可以测试自己的听阈,然后你可以分别调整1000HZ和1100HZ的音量,然后观察掩蔽效应造成的听阈变化.

录制_2021_02_16_17_48_58_845

心理声学模型与Mp3压缩

现在让我们来总结一下:

基于上面几个论述,要压缩音频数据:

1.最直接的我们可以选择一个无损压缩算法.

2.降低采样率或采样深度,显然的,44100hz再降已经不太适合,毕竟采样定理摆在那,而降低采样深度是一个不错的办法,准确来说,是尽可能用最少的存储空间存储尽可能多的音频信息

3.显然的,音频信号有轻重之分,有些频率的音频信号更加的重要,因为在心理声学模型中它更容易被人感知,而一些信号就显得不那么重要,比如那些因为掩蔽效应或者本身就在听阈之下的信号.因此,在重要的音频信号中我们分配更多的比特去记录,这样一来,就可以用尽可能少的存储空间获得更高的音频质量.可以说,mp3的压缩是建立在心理声学模型之上的,而不仅仅只是”平均的”丢弃一系列信息.

最后总结一下:

这就是为什么mp3能够有如此出众的压缩率但仍然拥有者出众的音频质量,我们完全没有必要夸大有损压缩带来的音频质量损失,因为本身对于人耳而言,采样的没有处理过的无损音频本身就带有大量的,经过研究证实的,绝大部分人类无法感知的冗余信息.所以说比起追究音源的质量,好耳机和坏耳机的区别相信更多的应该体现在耳机质量,佩戴舒适度和调音风格上.基于这点,并不能说一定是智商税.毕竟不论鞋子多贵多漂亮,能适合自己脚的才是好鞋。

附件:

ABX测试程序

matrixcascade/zhihu_ABX_tester

掩蔽效应实验程序

https://github.com/matrixcascade/zhihu_soundmasking

来源:知乎 www.zhihu.com

作者:DBinary

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 153 个回答,查看全部。
延伸阅读:
什么价位的(或具体型号)耳机真的能明显听出无损音乐和MP3之间的区别?

mp3和耳机求建议。?