影音科普:客观与主观谈谈心理声学

2021-01-22 23:05发布

时至2020年,已经有了很多非常尖端的声学和音频测试设备,例如Klippel NFS、Audio Precision、SoundCheck、G.R.A.S、B&K等。并且这些测试设备和软件的测试精度越来越高,种类也越来越多。如今,已经可以很轻易的测量出远超人类听觉极限的微小区别。

但是,问题的关键不在于被测参数如何详细,而在于这些参数到底哪些与我们的主观感受相关。


客观与主观,两个世界的桥梁——心理声学模型

心理声学是一个研究人类听觉的交叉学科。心理声学模型是对人听感的统计性质的数学表述模型,它解释人各种听感的生理原理。揭示和解释了客观声音与主观听感之间的关系。连接了客观测量与主观感知。

1.jpg

如何探究客观数据与主观听感之间的关系?

科学研究的过程通常是这样的:

1:进行受控的听音测试,这代表了人们对于一款电声产品的主观评价结果(或者说主观测试结果)

2:使用测试设备对电声产品进行测量已获得各种关于这款电声产品的测试数据,这代表了这款产品的客观测试结果

3:使用ANOVA、皮尔逊相关系数、聚类等统计学和数学方法,分析主观评价结果和客观测试数据的对应关系,找出哪些测试指标与人的主观听感关系较强并具体呈何种关系


心理声学实验中,听音测试的基本原则

1:听音测试必须是受控的双盲听测试

如果你所做的是一个非盲听测试,你已经知道了你正要听的是什么,你的目光无法忽视你正在听的产品。你会产生一个先入为主的观点,即便还没有播放音乐。我做了40年心理声学的相关实验,我还是不禁感慨,人类的听觉真的很敏锐,人类本身就是非常好的“声学测试设备”。但前提是,盲听测试,如果你已经知道你在听的是什么,你的主观评价结果并不重要,你的想法我不在乎。——Floyd Toole博士

由于是严格的科学研究,听音者不应该受到试听产品的品牌、外观、价格等因素干扰。盲听测试可以避免非盲听测试中可能存在的不诚实因素。

2(1).jpg


3(1).jpg

活力?别逗了。音频作为一种爱好正在消亡,这很大程度上是因为音频本身。就现实世界而言,Hi-End音箱已经失去了上个世纪80年代的声誉,因为它断然拒绝使用基本的公正的控制措施(例如双盲听测试)。而这种拒绝成为了理性的人无休无止的讥讽和嘲笑的源头,这也是我感到无限尴尬的源头,因为是拥趸者造成了这样混乱的局面,而我本人难辞其咎。郑重声明:我从来没有说过测量结果不重要。我说的是(而且经常是这样说),他们并不总是讲述整个故事。不完全一样。——Stereophile杂志创始人兼CEO J.Gordon Holt

这里唯独有几个例外,是没有办法或很难进行盲听测试的。例如电影院系统(不是影院音箱单体)、汽车音响系统等。因为例如,如果你想对比IMAX和杜比影院的差异,你已经知道你坐在IMAX电影院里了,这种先验在现实中是很难排除的。汽车音响系统亦是如此,你已经知道你坐在奥迪里或者凯迪拉克里了,所以对于汽车调音和评价而言,必须有能力克服这种先验。


2. 必须是多人测试而非一人测试

任何人都存在特定的偏好,即便有足够的统计学数据支撑这种偏好之间的差异没有少数发烧友声称的那么巨大,但这种偏好依旧存在,并且,喜欢自然均衡的声音本身就是一种偏好。而人类本身的感官又存在着一定的不稳定因素,即便是受过专业训练的人,也无法完全消除。个体的主观评价只能代表个体自身的观点。不能代表产品本身的表现或者其他人的观点。如果想只通过主观评价判定一款产品的表现,需要多人进行盲听评价,并取盲听打分的平均值。


一个人的主观评价本身,既无法反映一个产品的真实效果,也无法代表他人的意见,只能代表这个人自己的意见。这也就是为什么我过去的测评中,没有数据纯粹主观评价的产品基本上都有橙色特殊标注的原因。并且严谨起见,即便我采用的并非是纯粹的主观评价而是主客观评价,我也在开头就强调仅代表我个人观点。


3. 在对比不同产品时,必须保持相同的音量

保持相同的是为了控制变量,排除不同产品因不同音量而带来的影响。不过,一些测试允许听音者把所有产品的音量都调至自己觉得合适的音量,有的测试则指有给定的音量,不允许听音者调节。


4. 需要多个产品组成一组进行对比听音,听音者可以自由切换正在试听的产品

这主要是为了防止情境效应对主观评分造成的误差。


5. 没有时间限制,想听多久就可以听多久,直到你给出你的主观评分


6. 切换不同的产品时,一定要做到快速实时切换,防止因为听觉记忆丧失而导致的不确定因素

4(1).jpg

70款不同品牌、不同尺寸、不同价格的音箱,在一个普通的房间内进行音质主观评分!

5(1).jpg


对人的主观评分分析属于主观评价结果的范畴;而不是客观测试数据,即很多人口中的数据。并且值得注意的是,如果是MUSHRA测试或者类似的多个扬声器测试,主观评分不能在没有相同或相似的参考锚因子的其他听音实验中随意转换。心理声学实验中,客观测试的基本原则

1:必须使用能够反映产品性能的测试设备。

2:必须全面综合的对产品进行测试。

3:对于没有经过心理声学验证的测试指标或没有相应的心理声学模型研究,则不能使用测试数据或数学模型直接反应人的主观评价。


心理声学实验中,常用的数据分析方法

常见方法一:ANOVA

影响一件事物的因素往往有很多,例如,对于音箱而言

方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。ANOVA的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

在试验中,我们将要考察的指标成为试验指标,影响试验指标的条件成为因素。因素可以分为两类,一类是可控因素,一类是不可控因素。通常所说的因素都是可控因素,因素所处的状态称为该因素的水平。如果在一项试验的过程中只改变一个因素,则称为单因素试验。如果多于一个因素在改变则称为多因素试验。

测试结果(通过零假设进行计算)如果不仅仅是因为运气,则在统计学上称为显著。统计显著的结果(当可能性的p值小于临界的“显著值”)则可以推翻零假设。

6.jpg

对主观偏好评分的变异数分析


不过这里我很想问大家一个问题,你们觉得对人的主观评价结果进行统计学分析,到底算是主观评价的范畴,还是一些人口中的“数据”的范畴?


7.png

8(1).jpg

常见方法二:皮尔逊相关系数

在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。——百度百科

常见的相关系数为简单相关系数,简单相关系数又称皮尔逊相关系数或者线性相关系数,其定义式为:

9(1).jpg

r值的绝对值介于0~1之间。通常来说,r越接近1,表示x与y两个量之间的相关程度就越强,反之,r越接近于0,x与y两个量之间的相关程度就越弱。一般认为:

10(1).jpg

当然,这个分类方法也有不同的阈值。

11(1).jpg

13.jpg

常用方法三:主成分分析

主成分分析又称PCA(Principal Component Analysis)分析,是由Pearson提出的并由Hotelling发展提出的一种统计学方法,其最主要的用途在于“降维”。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

通常,在研究多变量的课题时,变量个数太多就会增加课题的复杂性。在很多情形,变量之间是有一定相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

而在研究人们对于声音的主观感受时,比如说对音箱声音的主观评价描述,由于人们对于声音的描述有很多“形容词”和“意见”,可以使用主成分分析对主观评价的形容词进行降维处理。

13.jpg

关于主成分分析,知乎上就有一篇非常不错的回答,如果想更详细的了解,不妨去看一下。


常用方法四:聚类

聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

从统计学的观点看,聚类分析是通过数据模型简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。

例如可以通过共享特征的相似性将多个扬声器聚类在一起。

14.png

也可以对不同的听音者进行聚类分析,将听音者们以统计学的特征划分为不同类别。

15(1).jpg

常用方法五:多元回归分析

多元回归分析(Multiple Regression Analysis)是指在相关变量中将一个变量视为因变量,其他一个或多个变量视为自变量,建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析方法。另外也有讨论多个自变量与多个因变量的线性依赖关系的多元回归分析,称为多元多重回归分析模型(或简称多对多回归)。


常用方法六:对数几率回归

对数几率回归,简称对率回归,又称逻辑回归,是使用Sigmoid函数作为联系函数时的广义线性模型,是广义线性模型的一个特例。


常见方法七:机器学习与深度学习

这个就不需要解释了。机器学习应该算是近几年最流行的技术,也是人工智能技术的核心之一。有太多人研究是使用,也有太多相关的资料和教程。


回到多因素或者说多重变量的问题,这其实已经不是一个声学问题,也不是一个数学问题,而是一个逻辑问题和哲学问题,并且是马克思主义哲学问题。

在复杂事物自身包含的多种矛盾中,每种矛盾所处的地位、对事物发展所起的作用是不同的,总有主次、重要非重要之分,其中必有一种矛盾与其它诸种矛盾相比较而言,处于支配地位,对事物发展起决定作用,这种矛盾就叫做主要矛盾。正是由于,矛盾有主次之分,我们在想问题办事情的方法论上也应当相应地有重点与非重点之分,要善于抓重点、集中力量解决主要矛盾。

主要矛盾与次要矛盾


次要矛盾就是指其他处于从属地位、对事物发展不起决定作用的矛盾。主要矛盾和次要矛盾相互依存。首先,主要矛盾和次要矛盾互为存在条件,主要矛盾之所以是主要矛盾,是相对于次要矛盾而言它才是主要矛盾,没有次要矛盾,也就无所谓主要矛盾。同样,次要矛盾之所以是次要矛盾,它也是相对于主要矛盾而言,没有主要矛盾,也就无所谓次要矛盾。其次,主要矛盾和次要矛盾相互影响。主要矛盾的解决规定着次要矛盾的解决,主要矛盾解决的好,次要矛盾就容易解决。反之,次要矛盾的解决又影响着主要矛盾的解决,次要矛盾解决得好,又有利于主要矛盾的解决。


一定条件下相互转化

主要矛盾和次要矛盾的地位不是一成不变的,在一定条件下它们可以相互转化,即主要矛盾在一定条件下转化为次要矛盾,次要矛盾在一定条件下上升为主要矛盾。


方法论意义

主要矛盾和次要矛盾辩证关系的原理要求我们在实践中,要学会区分主要矛盾和次要矛盾,学会区分矛盾的主要方面和次要方面。在分析和解决、处理问题时,既要看到主要矛盾、矛盾的主要方面,坚持重点论,善于抓住重点。又要看到次要矛盾和矛盾的次要方面,坚持两点论,学会全面地看问题,做到两点论和重点论的统一。只看到主要矛盾和矛盾的主要方面,看不到次要矛盾和矛盾的次要方面,就会犯一点论错误。相反,只看到次要矛盾和矛盾的次要方面,看不到主要矛盾和矛盾的主要方面,就会犯均衡论的错误。


例如,虽然我在一年多以前的文章中就反复多次强调,对于耳机和音箱单体如今的评价体系已经不需要太多的主观评价体系。而我始终坚持使用客观评价和主观评价。然而无数人看到文章中有频响曲线就指责唯数据论,这是在指责别人时犯了一点论错误。这里回答一下长久以来最常见的两种诡辩逻辑,也是很多人经常挂在嘴边的逻辑。“如果将两个耳机的频响调成一样,声音还是有差别, 所以频响曲线没意义“这个神逻辑是我最常见到的驳斥频响曲线的所谓论据,很多大V和kol经常引以为据。不知道有没有人发现这句话的问题所在?从控制变量的角度,把两个耳机的频响曲线调成一样,就意味着排除了频响曲线这一因素的影响。既然你都把这个因素的影响排除了,你又是如何证明这个因素是否起作用以及是否重要?而对于实际的耳机产品,不同产品间的频响曲线差异通常远大于非线性失真的差异,多个相关的主观听音测试中也验证了这一点。


过分强调非线性失真而无视不同耳机之间的频响曲线的差异,从马克思主义哲学的角度而言,只看到次要矛盾和矛盾的次要方面,看不到主要矛盾和矛盾的主要方面,犯了均衡论的错误。当然,正如方法论所述,主要矛盾和次要矛盾在一定条件下可以转化,例如当两款耳机之间的频响曲线差别较小但非线性失真差异很大且高于人耳听觉极限,则此时非线性失真可能是主要矛盾。只不过这种情况在现有的耳机市场中很少发生。另外一个典型的谬论,即经常有人声称正弦扫频信号不足以反映实际结果。且不谈声学欧姆定律与傅里叶变换。仅从统计学的角度就足以说明问题。因为主观测试时人听得是音乐,而主观评价结果已经与仅使用正弦测试信号的客观测试数据统计学相关。所以,仅使用简单的正弦测试信号足以通过统计学的对应关系反应人在听音乐时的主观感受。


对于音箱与耳机的心理声学实验的重要结论

Distortion is not important(失真并不重要)注意,这里所指的失真是非线性失真,而不是线性失真(频响曲线)。失真并不重要,不代表失真对声音没有影响,只不过不重要。造成这种现象有很多原因,照例分开解释音箱和耳机。鉴于以前已经详细讲解过耳机的非线性失真可听性与音质主观评分关系的实验,这次着重讲一下音箱。不过在此之前,我要给一些声称非线性失真很重要的人一个灵魂拷问。你们知道非线性失真听起来是什么样子吗?或者说,给你们几个产品,你们能听出来哪些是IMD,哪些是THD以及哪些的失真值更高?


MUSHRA和ITU BS.1116测试[2]都需要训练有素的专业听众,他们知道典型的异常声音听起来像什么,以及它们可能发生在哪里。与未经训练的听众相比,专业听众对评分量表有更好的内部化,从而产生更多可重复的结果。因此,有了训练有素的倾听者,需要更少的倾听者就能获得统计上有意义的结果。

人类对于THD的听觉域限是有限的,即便是一些受过专业训练的人也只能识别到大约0.25%,并且还与失真的发生类型有关。


The effects of nonlinear distortion on preference are not factored into our model. Listeners did not report nonlinear distortion as factoring into their preference ratings, except in the one or two cases reported in Part One. In other large loudspeaker studies conducted by Toole [12]-[13] and Klippel [14] both authors concluded that nearly all of the variance in listener sound quality ratings can be explained by frequency response. Still, nonlinear distortion can be a factor and should not be ignored. 我们的模型没有考虑非线性失真对偏好的影响。除了第一部分中提到的一两个个例外,听音者们并没有将非线性失真因素纳入他们的偏好评分。在Toole[12]-[13]和Klippel[14]进行的其他大规模音箱研究中,两位作者都得出结论,听音者音质评分的几乎所有差异都可以用频率响应来解释。然而,非线性失真仍然是一个不应该被忽视的因素。专业训练的听音者对失真的描述并不多,尤其是能够克服光环效应的听音者。如何从声学的角度解释?简而言之,当失真高于人类的听觉极限或掩蔽域时,才有可能被人所察觉。如果低于人类的听觉极限则不能被察觉。并且,对于电声器件而言,很多时候非线性失真并不是孤立的。例如,扬声器第一单元的f0/频响低频截止频率越低,通常低频的失真也越小。当然,这指的是一些无源音箱或耳机。对于一些有源系统或复杂的带有算法的系统,这个结论可能并不适用。


频响曲线是音质的主导因素(Dominate factor)

前文在解释非线性失真中已经提到:我们的模型没有考虑非线性失真对偏好的影响。除了第一部分中提到的一两个个例外,听音者们并没有将非线性失真因素纳入他们的偏好评分。在Toole[12]-[13]和Klippel[14]进行的其他大规模音箱研究中,两位作者都得出结论,听音者音质评分的几乎所有差异都可以用频率响应来解释。然而,非线性失真仍然是一个不应该被忽视的因素。当然,这里所指的音箱频响曲线并不只是很多人常见到的轴向频响曲线。而是很多条频响曲线。这是因为音箱在发生时,实际上对空间中各个方向都有辐射,而各个方向的频响曲线不尽相同,仅靠轴向频响曲线不足以说明问题。实际上仅仅把轴向频响曲线做好并不困难,但是将离轴方向的频响曲线同时也做好却并不简单。

16.jpg

Listening Window. The listening window curve is a spatial average of the nine magnitude responses in the ±10º vertical and ±30º horizontal angular range. Early Reflections. The early reflections curve is an estimate of all single-bounce, first-reflections, in a typical listening room. Sound Power. The sound power is the weighted rms average of all 70 measurements, with individual measurements weighted according to the portion of the spherical surface that they represent. Calculation of the sound power curve begins with a conversion from SPL to pressure, a scalar magnitude. The individual measures of sound pressure are then weighted according to the values shown in Appendix C and an energy average (rms) is calculated using the weighted values. The final average is converted to SPL. Sound Power Directivity Index (SPDI). For the purposes of this standard the Sound Power Directivity Index is defined as the difference between the listening window curve and the sound power curve. An SPDI of 0 dB indicates omnidirectional radiation. The larger the SPDI, the more directional the loudspeaker is in the direction of the reference axis. 扬声器的指向性或者说指向性因数本身也是可以通过频响曲线计算的。Early Reflections Directivity Index (ERDI). The Early Reflections Directivity Index is defined as the difference between the listening window curve and the early reflections curve.

又例如音箱的动态范围和最大声压级表现等。有源音箱的limiter也可以用SPL曲线测试,只不过还要对attack time和release time等其他因素的评价。在复杂事物自身包含的多种矛盾中,每种矛盾所处的地位、对事物发展所起的作用是不同的,总有主次、重要非重要之分,其中必有一种矛盾与其它诸种矛盾相比较而言,处于支配地位,对事物发展起决定作用,这种矛盾就叫做主要矛盾。正是由于,矛盾有主次之分,我们在想问题办事情的方法论上也应当相应地有重点与非重点之分,要善于抓重点、集中力量解决主要矛盾。频响曲线不论对于音箱还是耳机都是最重要的参数,也是目前为止唯一一个和人耳主观音质感知强相关的参数。不过,即便如此,频响曲线并不是影响音质的全部因素,这从频响曲线与音质主观评分的相关系数不是1中可以看出。


耳机的相关实验:对于音箱而言,低音表现大约占听音者音质主观评价权重的30%

19.jpg

造成这种现象有很多原因,例如如果低频能量不对,那么同样也会影响中频和高频的感知。

人们有能力感受到更好的细节

20.jpg

1/20 OCT的数据比1/3 OCT的数据更能反映人的主观感知。结论是,好的细节表现是可以听到的。


音质与声场(空间印象)的关系

前文提到,对于音箱而言,频响曲线是音质的主导因素。而对于音箱的声场(空间印象)的表现,目前则有几种不同的解释:

It is our experience that timbre is the dominant factor related to loudspeaker preference, and speakers that accurately reproduce timbre generally have favorable spatial properties. Toole reported high correlation between fidelity ratings (conducted in mono) and spatial ratings (in stereo) and found that most of the spatial effects are strongly related to the recording techniques used in the recording [12]-[13]. Klippel reported that the perceived spaciousness of the loudspeaker is an important dimension that is related to its directivity [14]. 根据我们的经验,音色是与扬声器偏好相关的主导因素,准确再现音色的扬声器通常具有良好的空间特性。Toole报告了高保真度评分(mono)和空间评分(立体声)之间的高度相关性。并发现大多数空间印象与[12]-[13]录音技术密切相关。Klippel报告说,扬声器的空间感知是一个重要的维度,这与它的指向性[14]有关。

一种是Floyd Toole和Sean Olive的论点,认为好的音质音色表现通常具有或者好的声场(空间印象)表现。

另一种则是 Wolfgang Klippel的论点,认为声场表现与指向性相关。

我以我个人的经验更倾向于后者。事实上Wolfgang Klippel的实验证明:

1:音质是基础,如果音质表现不好,那么声场表现对综合评价而言并不重要

2:HiFi系统的声音听起来是否自然——也就是“自然感”有一般的权重都与空间印象有关。而声音听起来是否舒服——也就是“愉悦感”一多半都与空间印象有关。

3:扬声器的空间感知与它的指向性有关

21(1).jpg

22.jpg

我之所以更偏向于Klipple的研究是因为,在感知声源宽度的相关研究中,早期侧向声能比甚至是双耳互相关传递函数均与扬声器的指向性存在一定的关系,当然,与摆位和房间声学装修也存在联系。Sean Olive博士的实验中对音箱指向性的要求仅限于连续,尽量不要发生突变,但对指向性的数值本身并没有过多要求,不过这一结论本身是针对音质。不过Floyd Toole所指出的声场表现与录音技术本身密切相关,说明音乐/音源本身对声场表现非常重要。

扬声器效应与耳机效应(施工中)/个体间的差异(施工中)/地域、文化等因素差异


常见的人类听觉心理声学特性

掩蔽效应:听觉中的掩蔽效应指人的耳朵只对最明显的声音反应敏感,而对于不明显的声音,反应则较不为敏感。一个声音的闻阈值由于另一个声音的出现而提高的效应。前者称为掩蔽音(masking tone),后者称为被掩蔽声(masked tone)。对于两个纯音来说,最明显的掩蔽效应出现在掩蔽声频率附近,低频纯音能有效地掩蔽高频纯音,而高频纯音对低频纯音的掩蔽效应小。

23.jpg

其实从掩蔽效应即可解释为什么人们通常对较小的谐波失真并不是特别敏感,尤其是低次谐波失真,因为当谐波失真没有达到一定的值时,会被基频掩蔽。


哈斯效应:哈斯效应是指反射声相对于直达声的延迟时间对语言可懂度的效应。短的延迟时间,反射声会增加直达声的响度,长的延迟时间导致可懂度降低,其间有个“临界延迟差”,它与反射声的强度、声源的频谱以及所在空间的混响时间有关。

注意,哈斯效应指的是反射声与直达声的延迟。而不是任意两个声音之间的延迟,实际上即便没有任何延迟,同时在两个方向的人声和枪声,也能够分清楚不是同一方位的声源。


生物谐波:如果一个25kHz的声音与一个26kHz的声音同时播放,则有可能听到一个1kHz的声音,即便这两个声音均超出了人耳听觉极限。这属于听觉非线性的范畴。


角度优先、距离优先与频谱补偿:人类有能力把不断变化的声音(音箱发出的声音)与固定不变的声音(房间的反射等)在一定程度上区分开来,对于频率高于房间传输频率的声音的音色,人类可以专注于音箱本身的直达声,而“过滤”掉大部分反射声。

24(1).jpg

Sean Olive博士的大量实验同样也表明,人类对于中高频音色的主观评价受到房间的干扰很小,大部分取决于音箱本身。

25.jpg

26.jpg

27.jpg

人类的听觉极限

关于人类的听觉极限有太多相关的研究。我们不难发现,以上引用的数值都很高。因此,你可能想要知道,为什么这么多年过去了,对于HiFi产品的低失真的追求没有被停止。一方面是,以上这些数字如此之高,对于很多人来说是难以置信的。另一方面则是,会有商业利益推动这些技术指标继续进步,不论这些技术指标是否可以被人感知。:所以我只针对几个重点问题进行解释:

1:如何证明你能够听出两款产品之间存在差异?

ABX测试是一种比较两种感官刺激的方法,以确定它们之间是否有可检测到的差异。先分别播放两段样品A和B,紧随其后的是一个未知的样本X,X是从A或者B之间随机选的,参与测试者需要对X是A还是B给出明确判断,如果X不能可靠地通过低假设值(p-value)判断,则不能证明A和B之间存在可以察觉的区别。

零假设验证。前文在ANOVA中已经提到关于零假设的相关内容,更通俗的讲,即假设你无法分辨两个器材之间的差别,你需要通过在盲听测试中获得足够高的正确率来突破零假设。

如果只进行一次ABX试验,随机猜测有50%的机会选择正确答案,与抛硬币一样。为了使陈述具有一定程度的可信度,必须进行多次试验。通过增加试验次数,在给定的置信水平下,从统计学上确定一个人区分A和B的能力的可能性会增加。95%的置信水平通常被认为具有统计学意义。QSC公司建议,每一轮测试中至少进行10次听力测试。

28(1).jpg

95%置信水平所需的结果,即如果进行10次测试,那么应该至少答对9次,以此类推。

通常认为进行16次测试的结果更有说服力。不过,也有人认为可以进行更多次,通过分组进行再对测试结果进行分析,并允许参与测试的人在期间进行充分的休息。

除了ABX测试以外,还有另一种另辟蹊径的零差别测试。


2. 如何证明你能够听出瀑布图所描绘的“时域缺陷”?

29.jpg

通常是采用Pink Noise和音乐激励进行测试。

30.jpg

最终的结论则是,至少在200Hz以上的频率,谐振的察觉过程依靠的是频谱信息而不是瞬态特征。

而200~300Hz以上的频响曲线与CSD的关系也可以通过最小相位系统去解释:


人的听音能力

早在一年多以前,我最开始的几篇文章中我就曾多次强调,对于耳机和音箱单体而言,并不需要过多的主观评价。如果想要判断一款产品好坏,最主要途径为客观数据和亲自试听(非云试听),亦或是两者相结合。即客观评价、主观评价或主客观评价。


但是有时当一个人无法获得测试数据或不知道如何解读测试数据,又没有机会亲自试听或即便试听也无法做出抉择,例如我之前就做过一份调查,有大约8成的人会选择网购耳机音箱类产品。即无法客观评价也无法主观评价时,我们该相信谁?

31.jpg

FL统计量是基于扬声器效果(音箱主观评分的平方和)除以误差方差(残差平方和)的比率。这个指标可以反映听音者对于不同音箱之间的区分能力,以及他们重复评价的能力。作者使用这一指标选择在各种听音训练任务和日常对音频产品评价表现最好的听音者。

FL is the ratio of the loudspeaker effect (mean sum of squares for loudspeaker ratings) divided by the error variance (mean sum of squares of the residual). This metric accounts for the listeners' ability to discriminate between loudspeakers as well as their ability to repeat their ratings, expressed in the denominator. In the current study, listener performance is based on the magnitude of the loudspeaker F statistic FL. The author uses this metric for selecting the best listeners based on their performance  in various training tasks [5] and day-to-day performance in preference testing of audio products.  Only 16 of the 268 listeners (6%) achieved a 0 error variance, all occurring in the three-way loudspeaker test.

在本文中的268个听音者中,只有16人能够达到零误差方差。当误差方差为0时,FL取固定常数。基于每个独立的听音者对不同音箱主观评分的ANOVA变异数分析。并按照群体划分总结。不难发现,绝大多数人主观评价的可信度都很低。普通人表现出较大的不确定性,并且不像训练有素的试听者那样能够明确地对不同声音打出不同的分数。这是可以通过F统计量测算的,高数值代表听音者可以在重复的同样的声音打出相同的分数,而对于不同水平的产品能够非常清楚地分辨,果断打出不同的分数。Bech等人的研究也证实了这一点。


几个技术问题

EQ对音箱其作用吗?

EQ不能改变指向性,所以一款音箱如果指向性设计存在问题,通过EQ是无法修复的。除此之外,EQ也很难同时改善不同方向的频响曲线。所以EQ对于音箱的作用十分有限,最主要的作用还是体现在音箱与房间的低频管理方面。

单元材质与频响曲线(施工中)

几个哲学问题

32.jpg

什么是区别?

1:如果你根据不同的特征听到不同的东西,你就会记住这些差别,这并不是幻觉。

2:如果你有理由假设也许存在区别,你很可能听出区别,因此你会记住这些差别。:

关于第一点,例如不同的耳机,不同的音箱等,它们之间的声音差异是客观存在且能够被人感知的,所以这些差别并不是幻觉。

33.jpg

这意味着,事实上,对于任何只通过听觉激励去区分的可听性激励必须:

可以证伪

必须对除了声音以外的其他因素进行隔离

时间上必须是相近的

必须是受控的

必须有训练有素的、值得信赖的听音者

科学是可以证伪的,但需要的是反面的证据,而不是反面的意见。

在科学中,反面证据使人质疑一种理论;在宗教中,人们会质疑这个反面证据。——Floyd Toole

而日常的非盲听测试则很难证伪,或者更直接的说,很难严重听音者到底有没有撒谎。因为视觉会给人先验。

当进行非盲听时,则可能有以下情形:

1:听音者完全如实描述声音,且没有收到任何品牌、外观、价格等非听觉因素干扰,这是很难实现的。

2:听音者受到了品牌、外观、价格等非听觉因素的干扰,或受到了他人的心理暗示等影响。

3:听音者在说谎。

Floyd Toole博士的实验发现,一组试听者的打分有时会趋同。这是由于听音测试过程中,试听者之间可能通过肢体语言、微妙的表情等方式相互交流,大家的意见可能会因此与人群中被认为是最“懂行”的人靠拢。这个人群中被认为最“懂行”的人就是现在的意见领袖,而即便在加拿大国家研究委员会这样非常专业的试听场合依然有可能会出现这类情况,就更别说更加复杂的现实世界和互联网高度发达的今天。一个人对于HiFi器材主观评价结果很可能受到各种言论和意见领袖的影响,从而向那个最“懂行”的人靠拢。

至于为什么需要训练有素和值得信赖的听音者。例如前文提到的,非线性失真听起来是什么样子,因为训练有素的听音者知道典型的异常声音听起来像什么。而值得信赖的听音者可以产生更多可重复的结果。


MUSHRA和ITU BS.1116测试[2]都需要训练有素的专业听众,他们知道典型的异常声音听起来像什么,以及它们可能发生在哪里。与未经训练的听众相比,专业听众对评分量表有更好的内部化,从而产生更多可重复的结果。因此,有了训练有素的倾听者,需要更少的倾听者就能获得统计上有意义的结果。


什么是幻觉?

幻觉是指没有相应的客观刺激时所出现的知觉体验。换言之,幻觉是一种主观体验,主体的感受与知觉相似。这是一种比较严重的知觉障碍。幻觉与错觉不同之处在于前者没有客观刺激存在。由于其感受常常逼真生动,可引起愤怒、忧伤、惊恐、逃避乃至产生攻击别人的情绪或行为反应。企图说服出现幻觉体验的人不相信幻觉有时是徒劳的。幻觉偶然也能见于正常人。例如在似睡非睡的时候,出现幻听或幻视,称为入睡前幻觉;将醒而又倦睡时出现的幻觉,称为睡醒前幻觉。幻觉也能通过暗示方式产生。如过去文献中所的有些沉溺于宗教狂热的人,声称见到了“ 观音菩萨”或“耶稣基督”等,并不一定有病理意义。但是,应当说,幻觉大多是病理性。如果一个人多次出现幻觉,应当及时进行检查,以便对其心理障碍进行诊治,防止幻觉影响下发生伤人、出走或自杀等意外。

幻觉具有两个主要特点:

第一、幻觉是一种感受,由于缺乏相应的现实刺激,所以客观检验结果证明这种感受是虚幻的,但就患者自身体验而言,却并不感到虚幻。

第二,虽然幻觉源于主观体验,没有客观现实根源,但某些患者坚信其感受来自客观现实。

由幻觉的描述,我们可以发现以下几点:

1:幻觉指的是没有相应的客观刺激所出现的知觉体验。例如,某些器材实际上并没有改变低频的声学性能,但听音者认为低频改变了。

2:幻觉不一定是病理性的,幻觉也能通过暗示的方式产生。如过去文献中有些沉溺于宗教狂热的人。

3:企图说服出现幻觉体验的人不相信幻觉有时是徒劳的。

而在音频领域中,有许多类似的例子,听音者在声音中听到了和声音特性不相符的声音,或者完全不存在的声音。如果一个人相信声音有差异,那么就有可能听出声音的差异。即便冲击耳膜的声波没有差异,但大脑的感知过程判断存在差异。双盲听测试表明没有差异,但一些人会认为是测试数据错误了,而不是声音真的没有变化,这就是信仰的力量。一些音频测评人提出了这些想法,以及拥有这些神秘力量的产品,从而进化出了一群人所描述的“基于信仰的声音”。——《声音的重现》第三版


客观与主观

声音中的客观与主观是相辅相成的,并不是割裂的,更不是对立的。无数的心理声学相关实验已经证明客观数据与主观听感之间是存在联系的。就我自己而言,当两个设计的客观数据均达到了一定的水平,那么我会优先偏向使用主观音质评价更好的设计。但很多专业主观调音的专家均向我表示,一款真正完美的产品,必须是客观和主观都打到完美。


科学实验与个人崇拜

科学是正确反映世界本质与规律的理论,包括正确的概念、命题、原理与理论体系;其对象是客观本质与客观规律,内容是科学本质与科学规律,形式是语言,包括自然语言与数学等人工语言。

我先举一个简单的例子,在科学中,不会因为牛顿晚年相信神学而去否定万有引力,也不会因为相对论去全盘否定经典力学,更不会因为微积分去肯定神学论。

但是我们从另一中经常能看到的“逻辑”就会得到,牛顿相信神学→所以牛顿是错的→所以万有引力是错误的,这样的结论。

回到今天的话题,不论是心理声学的原理也好,亦或是更具体的哪些因素影响耳机的音质表现。这样的问题,到底该相信与之对应的能够证明这些结论的科学实验还是某个人或者某个品牌的言论?

经常看到有人说不能只谈理论,也要实践。且不说本文提到的理论绝大多数都是由实验得来的。

如果想证明对与错,其实很简单,只要将上述提及的心理声学实验重复进行一次,再使用相关的统计学方法分析即可。


而证明某些具有神秘力量的产品是否起作用亦或是能否带来可闻差别则更加简单,只需要做ABX测试和客观测试即可。


终章:频响曲线的原罪

在主观主义出现后的大约二十年间,还没有出现任何一个没有被质疑过的音频参数。——Douglas Self

频响曲线太容易测量了。几万块买个IEC标准的人工耳就能测耳机的频响曲线,Klippel NFS和SoundCheck转台也可以轻易地测出音箱的CEA2034A频响曲线,即便没有这些设备,也可以轻易地测出音箱的轴线频响曲线,虽然轴线频响曲线对于音箱只能部分描绘,但至少也能反映音箱性能的一部分。而这些曲线很容易获得与共享,即便网络上存在很多非专业设备和不准确的测试结果。这极大的削弱了HiFi产品的神秘性和“不确定性”。


频响曲线可以证伪。频响曲线造假的难度比文学难,因为频响曲线这种客观测试指标可以很容易的在相同的测试仪器和环境下重复测试。可以很容易的判断到底有没有造假嫌疑。例如测试结果有没有造假嫌疑,例如云试听所使用的人工耳有没有把3dio之类的玩具麦克风冒充IEC人工耳,例如线材对耳机的影响和煲机相关测试到底有没有造假等等。


频响曲线极大的压缩了音频评论家的话语权。音频产品的话语权长久以来把持在一些知名的音频评论家手里。音频评论家亦或是更普通的发烧友,在评价一款产品时,可以随意的自由发挥。但如果一款音箱或耳机的频响曲线存在比较明显的问题,如果此时还要把这款产品描绘为一个非常完美或者表现很好的产品,就会与测试结果和相关的心理声学结论产生冲突。


有悖常理的是:音频评论家的意见受到格外的尊重。为什么这些人被放在如此被信任的位置上?他们所进行的听音测试违反了最基本的消除偏见的原则。他们没有资格认证,没有业绩证明,甚至不能提供一张听力图表来告诉大家他们的听力是否受损。他们拥有强大的文字能力,能够把他们认为自己所听到的,绘声绘色地描述出来。而更加糟糕的是,正如我们后面将要讨论的,大多数音频评论家不能提供有效的测量方法,因此读者可能会形成错误的印象。——Floyd Toole博士

频响曲线确实暴露了很多产品的问题,而这些问题不但是一些厂家不想看到的,也是一些消费者不愿意看到的。例如被很多人追捧的静电音箱,售价3800美元的Martin Logan Vista。

34.jpg


35.jpg


36.jpg

Sean Olive在AES的演讲提及,序号的顺序就是第一张图的顺序。

再比如说曾经非常昂贵的B&W 802N

37(1).jpg

亦或是森海塞尔HD820

38(1).jpg

以及售价一万多元的静电入耳式耳机。

39(1).jpg


40(1).jpg

这些产品的实际表现往往与厂商的宣传大相径庭,而这一点很容易从频响曲线中反映出来,大规模的盲听实验也从主观评价的角度证实了这些曲线所反映出来的问题(Martin Logan Vista)。这会影响厂商的销量和声誉,所以这是厂商不愿意看到的。


而对于一部分花了很多钱的消费者,看着自己花了大价钱并在某种程度上引以为傲的产品的实际表现,一时是难以接受的。也许是真的认为数据反映的事实与自身的主观感受不符合。但很多时候就像2017年的诺贝尔经济学奖所指出的。完全理性的经济人不可能存在,人们在现实生活中的各种经济行为必然会受到各种“非理性”的影响。塞勒提出禀赋效应(Endowment Effect,也称原赋效应):指的是当一个人一旦拥有某项物品,那么他对该物品价值的评价要比未拥有之前大大增加。

41(1).jpg

频响曲线不论对于一部分消费者、厂家、经销商和音频评论家都可谓是弊大于利。只不过它对于声音是有利的。所以在这样一个很多人“声称”自己是在追求更好的声音的市场被抨击也就不足为奇了。可以说频响曲线是对人的听觉有利但对人性不利的,所以注定遭到唾弃。因为从某种角度来说,频响曲线是反人类的。


最后我想引用Head-Fi里的一句评论:这与“热爱声音”和“相信自己的耳朵”无关,而是与拥有最昂贵的音响系统、对它了解最少、对自己长期以来的爱好以及知道什么声音最好听的无耻宣称有关。


我想每个人都需要感觉自己很重要。


原文出处: 理性派HiFi

赞赏支持