Loading [MathJax]/jax/output/SVG/jax.js

EI / SCOPUS / CSCD 收录

中文核心期刊

中垂面内视觉刺激对听觉声源定位的影响

朱力为, 余光正, 王业维, 何璞

朱力为, 余光正, 王业维, 何璞. 中垂面内视觉刺激对听觉声源定位的影响[J]. 声学学报, 2024, 49(6): 1197-1205. DOI: 10.12395/0371-0025.2023268
引用本文: 朱力为, 余光正, 王业维, 何璞. 中垂面内视觉刺激对听觉声源定位的影响[J]. 声学学报, 2024, 49(6): 1197-1205. DOI: 10.12395/0371-0025.2023268
ZHU Liwei, YU Guangzheng, WANG Yewei, HE Pu. Effect of visual stimulus on auditory sound source localization in the median plane[J]. ACTA ACUSTICA, 2024, 49(6): 1197-1205. DOI: 10.12395/0371-0025.2023268
Citation: ZHU Liwei, YU Guangzheng, WANG Yewei, HE Pu. Effect of visual stimulus on auditory sound source localization in the median plane[J]. ACTA ACUSTICA, 2024, 49(6): 1197-1205. DOI: 10.12395/0371-0025.2023268
朱力为, 余光正, 王业维, 何璞. 中垂面内视觉刺激对听觉声源定位的影响[J]. 声学学报, 2024, 49(6): 1197-1205. CSTR: 32049.14.11-2065.2023268
引用本文: 朱力为, 余光正, 王业维, 何璞. 中垂面内视觉刺激对听觉声源定位的影响[J]. 声学学报, 2024, 49(6): 1197-1205. CSTR: 32049.14.11-2065.2023268
ZHU Liwei, YU Guangzheng, WANG Yewei, HE Pu. Effect of visual stimulus on auditory sound source localization in the median plane[J]. ACTA ACUSTICA, 2024, 49(6): 1197-1205. CSTR: 32049.14.11-2065.2023268
Citation: ZHU Liwei, YU Guangzheng, WANG Yewei, HE Pu. Effect of visual stimulus on auditory sound source localization in the median plane[J]. ACTA ACUSTICA, 2024, 49(6): 1197-1205. CSTR: 32049.14.11-2065.2023268

中垂面内视觉刺激对听觉声源定位的影响

基金项目: 国家自然科学基金项目(12074129)和广东省自然科学基金项目(2024A1515011446)资助
详细信息
    通讯作者:

    余光正, scgzyu@scut.edu.cn

  • 中图分类号: 43.66, 43.71

  • PACS: 
    • 43.66  (心理声学)
    • 43.71  (言语感知)

Effect of visual stimulus on auditory sound source localization in the median plane

  • 摘要:

    针对中垂面内视觉刺激影响听觉声源定位的现象开展了心理声学实验。结合感知融合比例(判断视觉刺激与听觉刺激整合的比例)和跨模态定位偏差(听觉声源定位受视觉刺激影响的程度)对实验结果进行了分析。结果表明, 视觉刺激和听觉刺激的相对位置改变导致感知融合的比例发生了显著变化。感知融合对听觉声源定位的影响显著, 感知融合发生时, 受试者对声源的定位分布在视觉刺激附近; 感知融合未发生时, 受试者对声源的定位不受视觉刺激影响, 甚至会远离视觉刺激。

    Abstract:

    A psychoacoustic experiment is conducted to address the effect of visual stimulus on auditory sound source localization in the median plane. The experimental results are analyzed based on perceptual fusion rate (the proportion of perceptual unification of visual and auditory stimuli) and cross-modal localization bias (the degree to which auditory sound source localization is affected by visual stimulus). The results indicate that altering the relative locations of visual and auditory stimuli leads to significant variation in perceptual fusion rate. The effect of perceptual fusion on auditory sound source localization is significant. In the fusion cases, sound source localization is distributed near visual stimulus. In the non-fusion cases, sound source localization is unaffected by visual stimulus and even away from it.

  • 人类感官包括视觉、听觉、味觉、嗅觉和触觉五种模态, 大脑整合并处理不同模态的各种信息, 从而形成对外界的感知[1-2]。各模态之间会有相互影响, 其中视觉与听觉之间的交互作用备受关注。能很好体现视觉与听觉交互作用的腹语表演, 其实是一种特殊的发声技巧[3]。在腹语表演中, 表演者嘴型保持不变, 但却可以讲出完整清晰的语句; 表演者同时手持一个人偶并同步控制其嘴形变化, 使得观众产生错觉, 误以为声音是从人偶(而非表演者)口中发出[4]。而空间腹语术效应(spatial ventriloquism effect)则泛指一种现象: 视觉刺激可以“吸引”位于不同空间位置但时间上同时发生的听觉刺激, 造成听觉声源感知位置偏移[5]。空间腹语术效应一定程度上反映了人类大脑的多模态处理机制, 即大脑会将相互独立的单模态信息整合为多模态信息。国内也有对于这种多模态整合现象的研究[6-7], 但未见有涉及到空间腹语术效应的相关研究。

    空间腹语术效应是一种视听整合处理的现象, 自20世纪70年代开始, 就受到了不同领域学者的关注。有学者指出, 空间腹语术效应发生的条件并不严苛, 一般在空间中某个位置产生一个声响(a single beep), 且在与之相近的位置同时产生一个闪烁的光源(a synchronized flash)就已足够[8]。因此, 进行相关的心理学实验时可以简化布置, 现有研究大都采取类似的实验布置。学者们通常将空间腹语术效应描述为两个基本现象: 跨模态定位偏差(cross-modal localization bias)和感知融合(perceptual fusion)。跨模态定位偏差指的是某一模态“吸引”了另一个模态的感知位置, 导致被吸引模态的定位发生偏移的现象。通常情况下, 视觉系统的定位分辨率高于听觉系统的定位分辨率, 因此跨模态定位偏差主要表现为视觉刺激影响了听觉声源定位[8]。例如, 即使受试者被要求忽略视觉刺激, 其听觉声源定位仍然会朝着视觉刺激所在位置偏移[9]。对此, Bertelson和Radeau[10]的实验给出了定量的结论, 即当视觉刺激与听觉刺激的方位角度差分别为7.0°、15.0°和25.0°时, 受试者的听觉声源定位朝视觉刺激方向相应偏移了4.0°、6.2°和8.2°。而感知融合现象主要指的是大脑感知到的两个模态的空间位置相同。有研究发现, 当视觉刺激和听觉刺激同时发生时, 尽管二者在空间中的位置有偏差, 受试者仍会认为二者处在同一位置[11]。感知融合发生的空间阈值(即所容许的最大角度差)称为空间腹语术效应的感知融合空间窗(spatial window)[8], 当视觉听觉刺激之间的角度差大于空间窗时, 感知融合现象难以发生。实际测量中, 可逐步调整视觉听觉刺激之间的角度差, 当受试者感知融合的比例为50%时, 将此时的角度差称为50%阈值[12], 50%阈值即可视为空间窗。Chen与Vroomen[8]基于现有研究结果进行了总结, 认为方位角方向的空间窗不大于15.0°。跨模态定位偏差与感知融合是两种不同的现象, 有学者对二者之间的关系进行了研究。Bertelson等[10]的研究工作表明, 即使感知融合没有发生, 听觉声源定位也会朝视觉刺激方向偏移; 而Wallace等[13]却发现当感知融合没有发生时, 受试者的听觉声源定位反而会远离视觉刺激。

    早期的研究认为, 当模态间空间信息不一致引发冲突时, 定位误差较小的模态会完全主导另一模态的位置感知[14], 在视听双模态场景中, 视觉单模态的定位误差相对更小, 因此空间腹语术效应是视觉主导听觉的一种现象。但是后来更多的研究表明, 理论上空间腹语术效应是一种模态间相互吸引(mutual attraction)的效应[8], 而非完全的视觉主导。例如, Charbonneau等[15]认为当视觉单模态定位误差与听觉单模态定位误差的比值变大时, 感知融合现象发生的比例也会随之降低; 有研究还发现当视觉刺激难以定位时, 听觉刺激反而微弱地影响了视觉定位[16]。这些研究基本都表明: 视听双模态场景中, 定位误差更大的模态更容易被另一模态所“吸引”, 且误差越大被影响的程度越大。由于通常情况下听觉声源定位误差相对较大, 因此一般是视觉刺激使得听觉声源定位发生偏移。基于以上研究结果, 一些学者提出了大脑对多模态信息处理机制的预测模型。例如Alais和Burr[16]基于极大似然估计提出了视听双模态的定位处理机制预测模型。为了适应未发生感知融合的情况, 又有学者进一步提出了基于贝叶斯推断的预测模型[17-18]

    现有关于空间腹语术效应的研究主要集中在方位角方向(或水平面内), 前文所述的结论也基本是基于方位角的实验结果得出。然而, 少有学者在仰角方向或中垂面内进行类似研究。有两项关于仰角方向感知融合(不涉及听觉声源定位)的工作[12,19]皆表明: 仰角方向的感知融合空间窗大于方位角方向的感知融合空间窗。根据前述结论, 这可能是仰角方向的听觉单模态声源定位误差大于方位角方向[20-21]所导致的。除此以外, 未见关于仰角或中垂面内视觉刺激影响听觉声源定位的研究, 同时中垂面内跨模态定位偏差与感知融合之间的关系也有待探明。

    综上所述, 由于方位角和仰角方向的听觉定位因素存在差异[22-23], 且仰角方向的听觉声源定位准确度较低[24], 因此基于方位角方向的现有研究结论未必适用于仰角方向。本研究排除方位角因素的影响, 主要关注中垂面内空间腹语术效应的跨模态定位偏差与感知融合之间的关系, 并对视觉刺激影响听觉声源仰角定位的现象进行分析。将本文所得结论与现有基于方位角的结论结合分析, 有助于进一步理解前半空间上任意角度方向, 尤其是偏离水平面与中垂面时的空间腹语术效应。

    共有10名受试者参加了本次实验, 他们的年龄分布在22~30岁之间, 且全部经听力筛查判断为正常听力者。各受试者在实验前被告知这是一个听觉声源定位实验, 但并不了解实验具体布置与实验目的等信息。本实验已通过华南理工大学附属第二医院伦理委员会的伦理审查。

    为了分析中垂面内的空间腹语术效应, 在经声学处理且符合ITU标准[25]的听音室内开展相关实验, 听音室本底噪声22 dB(A), 250 Hz~8 kHz频段的平均混响时间为0.13 s。本文采用的坐标系及实验装置示意图如图1所示, 其中仰角ϕ3与受试者耳道口处于同一水平面; ϕi为正数时仰角高于水平面, ϕi为负数时仰角低于水平面。

    图  1  实验装置示意图

    声源设置方面, 在受试者正前方布置一个半径约1.2 m的不锈钢圆环(位于以受试者头中心为原点的坐标系的中垂面内); 不锈钢圆环上, 在ϕ[20°,20°]的仰角范围内, 取间隔10° (参考文献[13])均匀布置5个小球形箱体(外形直径约7 cm, 以模拟点声源)的扬声器声源(采用全频扬声器单元, 单元直径为31 mm, 振膜直径约28 mm, 工作频率范围约为300 Hz~20 kHz, 额定阻抗3.3 Ω)。按照上述设计, 扬声器布置于不锈钢圆环上后, 其振膜到受试者头中心处的距离(即声源距离)为1.0 m, 且在以受试者头中心为原点的球坐标系内的投影角度为1.6°, 可以近似视为点声源。

    对于视觉刺激, 通常使用闪烁光源。参考已有研究[10,26]及引言中的简化实验布置[8], 在紧靠中垂面扬声器的支架上布置一条仰角范围为−40.0°~40.0°的圆弧形LED灯带。LED灯具有空间分辨率高、能快速切换从而与声信号时间上同步的特点。通过所在圆弧半径推算, LED单元之间的角度间隔为0.4°。LED单元同时也被用于听觉声源定位。

    为了防止受试者的学习效应, 正式实验环节在黑暗环境中进行, 同时使用透声布遮挡扬声器与LED阵列, 实验证明透声布对扬声器的频率响应无影响。此外, 还为受试者设计了带有头箍的升降座椅, 采用辅助校准设备使受试者正面朝向中垂面布置的扬声器与LED阵列。头部使用头箍固定, 用以限制面部朝向的转动或移动, 以确保整个实验过程中是围绕中垂面上的声源仰角进行定位。使用激光水平校准仪使得受试者的耳道口与0°仰角扬声器振膜中心处于同一水平面上, 以确保声源仰角的精度。

    实验所使用的声信号是由4段50 ms时长的白噪声片段组成的信号序列, 片段间隔300 ms。声信号播放时在头中心位置(受试者不在时)的声压级约为67 dB(A), 信噪比可达约45 dB(A)。视觉刺激和听觉刺激的仰角差, 简称视听仰角差, 记为Δϕ。参考现有文献[11,27], 结合预实验的结果, 本实验中Δϕj分别设置为−18.0°, −12.8°, −6.4°, 0°, 6.4°, 12.8°, 18.0°。其中正(负)角度表示作为视觉刺激的LED单元位于目标扬声器上(下)方, Δϕj=4=0°即表示目标LED单元与目标扬声器的振膜中心处于同一仰角。对于每一位受试者, 需要做的不同实验情况总数为5×7=35种, 即I=5个不同的声源仰角ϕiJ=7个不同的视听仰角差Δϕj。对于每一种实验情况, 即第i个仰角ϕi的第j个视听仰角差Δϕj, 每名受试者都进行K=15次重复实验。受试者的人数N=10, 因此每一种实验情况将获得N×K=150个实验统计样本。从实验工作量来讲, 每位受试者需要进行I×J×K=525次实验, 总实验样本数为5250个。每位受试者的实验在一天内分时段完成, 每个时段实验不超过30分钟。

    将每一次实验称为最小单位实验, 一次最小单位实验的流程如图2所示。在每一次最小的实验单位的实验流程中, 听觉刺激与视觉刺激同时呈现给受试者, 即当目标扬声器播放白噪声信号时对应的LED点亮, 间歇时LED也随着熄灭。播放听觉刺激时, 在5个扬声器中随机选取1个目标扬声器, 且视觉刺激与目标扬声器的7个相对仰角差Δϕ也随机选取。在每组听觉刺激和视觉刺激呈现完毕后, 受试者需要用蓝牙手柄给出两个反馈: (i) 声源所在仰角, (ii) 是否存在感知融合。反馈的信息实时记录在控制计算机端。

    图  2  一次最小单位实验的实验流程

    实验数据的分析主要基于三个评价标准, 即前文所述的感知融合、跨模态定位偏差和定位表现。首先, 以声源仰角ϕ、视听仰角差的绝对值|Δϕ|以及该仰角差Δϕ的正负性(正负性描述的是一种相对位置, 当视觉刺激仰角低于听觉刺激, 则为负仰角差, 反之为正仰角差)作为因子, 分别对感知融合比例与跨模态定位偏差进行Friedman秩和检验与重复测量的多因素方差分析; 随后, 以感知融合发生与否和视听仰角差的绝对值|Δϕ|为因子, 对跨模态定位偏差数据进行重复测量的双因素方差分析, 以研究感知融合和跨模态定位偏差的相关性; 最后, 讨论视觉影响下听觉声源定位的综合表现, 包括无符号定位误差与定位上下混乱率(up-down confusion rate)。

    感知融合比例, 即为某一种实验情况下受试者感知到视觉刺激与听觉刺激融合所占的比例(记为P):

    P=kuK, (1)

    其中, K为某一种实验情况的重复实验次数(参考1.3节); ku为该实验情况中判断融合发生的次数。

    对实验结果进行单因素分析。首先以视听仰角差的绝对值|Δϕ|为因子(取3个水平, 即除去无正负性的|Δϕ|=0°), 对感知融合比例数据进行非参数Friedman检验, 结果表明当|Δϕ|增大, 感知融合比例显著降低[Z = 42.408, p < 0.0001]; 接着, 以Δϕ的正负性为因子进行检验, 发现其未对感知融合比例有显著影响[Z = 1.600, p = 0.206]; 最后, 以声源仰角ϕ (取5个水平)为因子进行检验, 发现声源仰角ϕ也并未显著影响感知融合比例[Z = 1.959, p = 0.743]。

    进一步地, 进行交互效应分析, 发现仅声源仰角ϕΔϕ的正负性之间的交互效应显著。对Δϕ的正负性进行简单效应分析发现, 当声源仰角ϕ固定为−20°和−10°时, Δϕ正负两侧的感知融合比例有显著性差异[Z = 8.000, p < 0.005; Z = 10.000, p<0.005]。当声源仰角ϕ固定为20°时, 感知融合比例在Δϕ正负两侧有不显著的较大差异[Z = 3.600, p = 0.058], 因其显著性接近0.05, 且两侧感知融合比例的均值(分别为42%与72%)相差较大。而当声源仰角ϕ固定为0°和10°时, Δϕ正负两侧的感知融合比例无显著性差异。

    图3为不同条件下的感知融合比例实验结果, 可以发现, 声源仰角ϕ0°时所对应的感知融合比例趋势呈现出一种不平衡的现象: 当ϕ<0°时, Δϕ<0°侧的感知融合比例比Δϕ>0°侧更高; ϕ>0°时, Δϕ>0°侧的感知融合比例比Δϕ<0°侧更高。上述交互效应的分析结果也表明ϕ=20°ϕ=10°时这种不平衡现象是显著的, 而ϕ=20°ϕ=10°时没有观测到显著性, 但从图3中也能看到类似的趋势。不平衡现象表明, 一方面, 即使Δϕ不变, Δϕ<0°(或Δϕ>0°)侧的感知融合比例也会随着声源仰角ϕ升高而下降(或上升)。另一方面, 即使|Δϕ|不变, 当声源仰角ϕ偏离水平面时, 感知融合比例也会因视觉刺激与听觉刺激之间相对位置的改变(即Δϕ的正负性改变)而有明显变化。根据引言中现有的模态间相互吸引理论, 一个可能的解释是, 相对位置的改变导致视觉定位误差与听觉声源定位误差的比值改变, 进而使得感知融合的比例发生变化。但现有研究缺乏相关讨论, 因此造成不平衡现象的原因还有待探究。

    图  3  不同视听仰角差情况下感知融合发生的比例(水平点虚线为50%感知融合比例参考线, 两侧垂直双点划线的横坐标为ϕ=0°时感知融合空间窗估计值)

    如引言所述, 感知融合发生时所允许的最大空间角度差被称作空间腹语术效应的空间窗, 记为w。通常感知融合比例为50%时的视听仰角差绝对值|Δϕ|即可认为是空间窗。可基于图3中不同仰角ϕ的感知融合折线与50%感知融合比例参考线(用水平点虚线表示)的交点, 估出不同仰角ϕ在正(或负)视听仰角差Δϕ条件下的wi+(或wi), 如图中的小圆圈所示。声源仰角ϕ=0°时正负两侧的感知融合空间窗估计值约为15.5°和12.0°。这与以往采用类似实验布置的方位角方向的实验结果相近[13], 且相较于其他学者关于水平面方位角的研究结果[10,26,28]是偏大的(6°~8°)。从图3中还可以发现, 由于存在上述不平衡现象, 声源仰角ϕ0°ϕΔϕ的正负符号相同时, 感知融合比例始终大于50%, 可判断空间窗已大于18.0° (即本实验中设定的最大|Δϕ|)。因此, 空间窗随声源仰角ϕ改变而发生变化。

    跨模态定位偏差在已有的空间腹语术效应研究中常被采用[13], 其被用于衡量视觉刺激在不同位置对听觉声源定位的影响程度。假定受试者对声源的定位为ˆSA, 声源的真实位置为SA, 视觉刺激的真实位置为SV, 据此可将跨模态定位偏差记为

    BCM=ˆSASASVSA×100%. (2)

    由式(2)可见, 跨模态定位偏差越接近于100%, 表示此时听觉声源定位越接近视觉刺激, 即视觉刺激对听觉声源定位的影响越大; 反之, 跨模态定位偏差接近于0%或为负数时, 听觉声源定位接近于声源真实位置或远离视觉刺激, 视觉刺激对听觉声源定位的影响较小或无影响。

    经夏皮罗–威尔克正态性检验(Shapiro-Wilk test), 跨模态定位偏差数据具有较好的正态性, 因此采用重复测量的多因素方差分析对其进行检验, 检验因子和2.1节相同, 为声源仰角ϕ、视听仰角差的绝对值|Δϕ|以及该仰角差Δϕ的正负性。根据式(2), 跨模态定位偏差在Δϕ=0°时分母为0无意义, 因此|Δϕ|仍取3个水平。与2.1节感知融合比例的检验结果相似, |Δϕ|逐渐增大也会导致跨模态定位偏差逐渐变小[F(2, 18) = 11.620, p < 0.001]。声源仰角ϕΔϕ的正负性对于跨模态定位偏差数据均无显著的主效应, 但两者之间的交互效应显著[F(1.790, 16.108) = 7.267, p < 0.05] (由于未通过Mauchly球形度检验, 进行Greenhouse-Geisser校正)。进一步做简单效应分析, 发现在声源仰角固定为−20°和−10°时, 正负性的成对比较主效应显著[p < 0.05; p < 0.005], 说明此时两侧的跨模态定位偏差有明显差异。以上检验表明感知融合与跨模态定位偏差之间有良好的相关性, 具体将在2.3节讨论。

    与Wallace等[13]的分析方法类似, 给出感知融合比例与跨模态定位偏差的关系及其sigmoidal logistic拟合曲线, 如图4所示。对感知融合比例和跨模态定位偏差进行相关分析, 感知融合与跨模态定位偏差之间的相关性为0.8687, 二元logistic回归的结果表明, 利用跨模态定位偏差预测受试者是否报告感知融合的正确比例为94.9% [R² = 0.810, p < 0.05]。因此, 跨模态定位偏差可以作为是否感知融合的一个预测变量。

    图  4  感知融合比例与跨模态定位偏差的关系及其sigmoidal logistic拟合曲线

    图5给出不同视听仰角差Δϕ (0°除外)条件下, 感知融合发生与否的跨模态定位偏差数据。为了进一步分析跨模态定位偏差与感知融合的关系, 以感知融合发生与否和视听仰角差的绝对值|Δϕ|作为因子对跨模态定位偏差进行重复测量的双因素方差分析。结果表明感知融合对跨模态定位偏差的影响显著[F(1, 9) = 176.101, p < 0.0001], 并且感知融合与|Δϕ|的交互效应显著[F(2, 18) = 13.415, p < 0.0005]。从图5中还可以看出, 感知融合发生与未发生时的跨模态定位偏差有明显区别。当感知融合发生时, 跨模态定位偏差随着Δϕ变化的趋势平缓, 且均大于86%, 甚至接近100%; 当感知融合未发生时, 跨模态定位偏差小于15%, 且最小可以达到−78%。进一步分析发现, 在感知融合未发生的情况下, |Δϕ|对跨模态定位偏差的影响显著[F(2, 18) = 17.372, p < 0.0001]。

    图  5  感知融合发生与未发生时的跨模态定位偏差(误差棒代表跨模态定位偏差均值的估计标准误差(SEM))

    图5还可发现, 跨模态定位偏差在Δϕ=±6.4°时达到了极小值, 甚至出现小于0的负偏差[13,28]。负偏差的出现表明, 当感知融合未发生时, 听觉声源定位不仅没有被视觉刺激吸引, 反而是远离了视觉刺激所在方向。图6给出了不同视听仰角差Δϕ (0°除外)的听觉声源定位分布, 该分布的横坐标为视听仰角差Δϕ, 且以声源所在位置为原点。结合图6和已有的预测模型[17,18,29]可以对负偏差进行一定解释: 由于存在听觉单模态的定位误差, 受试者感知到的声源位置具有不确定性。在视觉听觉双模态场景中, 当受试者感知到的声源位置接近视觉刺激时, 感知融合大概率发生[5]。在图6(c)(d)中, 由于|Δϕ|较小, 只要受试者感知到的声源位置稍微偏向视觉刺激, 就进入到空间窗的范围内, 因此感知融合比例较高, 此时感知融合未发生时的听觉声源定位集中分布在远离视觉刺激的一侧, 所以Δϕ=±6.4°时负偏差达到极小值; 随着|Δϕ|变大, 如图6(a)(f)所示, 即使感知到的声源位置接近视觉刺激, 也并未进入空间窗范围内, 此时感知融合的比例较低, 感知融合未发生时的听觉声源定位分布往接近视觉刺激的一侧拓展, 导致跨模态定位偏差变大。因此, 可以认为负偏差主要是由听觉单模态定位的误差引起的。

    图  6  以声源为原点, 不同视听仰角差Δϕ条件下(Δϕ=0°除外)的听觉声源定位分布 (a) Δϕ=18.0°; (b) Δϕ=12.8°; (c) Δϕ=6.4°; (d) Δϕ=6.4°; (e) Δϕ=12.8°; (f) Δϕ=18.0° (定位分布由两个部分组成: 感知融合发生和未发生时的定位分布; 垂直点划线所在横坐标即为此时的视听仰角差Δϕ)

    本节分析表明感知融合与跨模态定位偏差之间具有较好的相关性。2.2节中的数据分析结果表明, 视听仰角差Δϕ的主效应、声源仰角ϕΔϕ正负性的交互效应对跨模态定位偏差有显著性影响, 这与2.1节对感知融合比例的分析是类似的。因此, 各因子改变后感知融合比例发生改变, 从而影响了跨模态定位偏差。

    在听觉单模态声源仰角定位的相关研究中, 主要以无符号极坐标仰角误差(unsigned polar elevation error)和定位上下混乱率(up-down confusion rate)分析受试者的定位表现[20,30]。对于本文中垂面的情况, 无符号极坐标仰角误差就等于无符号仰角定位误差(后续简称无符号误差), 记为D, 对第i个仰角ϕi的第j个视听仰角差Δϕj, 均对应一个无符号误差Di,j, 定义为

    Di,j=1KKk=1|ϕi(k)ϕi|Δϕj, (3)

    其中, ϕi是第k次实验的目标声源仰角, ϕi(k)是第k次实验受试者定位的仰角, K是此实验情况下的重复实验次数。

    结果如图7所示, 当视听仰角差绝对值|Δϕ|变大, 各声源仰角的无符号误差也随之变大(ϕ为−20°与−10°时在Δϕ=18.0°的结果除外)。这表明视觉刺激对于听觉声源定位确实存在影响。

    图  7  不同声源仰角下无符号仰角定位误差与视听仰角差的关系

    对无符号误差进行重复测量的单因素方差分析, 因子同样为声源仰角ϕ、视听仰角差的绝对值|Δϕ|及视听仰角差Δϕ的正负性。结果表明, ϕΔϕ的正负性对无符号误差没有显著性影响; 而|Δϕ|对无符号误差有显著性影响[F(1.070, 9.628) = 14.053, p < 0.005], 且|Δϕ|越大, 无符号误差越大。进一步进行双因素方差分析发现, ϕΔϕ的正负性的交互效应显著[F(4, 36) = 6.892, p < 0.0001]。无符号误差的方差分析结果与2.1节感知融合和2.2节跨模态定位偏差的结果类似。2.3节中的分析已经证明了跨模态定位偏差和感知融合的相关性, 因此分析感知融合对无符号误差的影响是必要的。

    为深入分析图7中的无符号误差, 将其进一步分解为感知融合发生时的无符号误差与感知融合未发生时的无符号误差, 如图8所示。以感知融合发生与否和视听仰角差的绝对值|Δϕ|作为因子, 对无符号误差进行重复测量的双因素方差分析。与此前不同, 此时|Δϕ|取4个水平(包括|Δϕ|=0°)。结果表明感知融合和|Δϕ|对无符号误差的影响显著[F(1, 9) = 14.107, p < 0.005; F(3, 27) = 95.251, p < 0.0001]。进一步发现, 当感知融合发生时, |Δϕ|对无符号误差有显著性影响[F(3, 27) = 416.855, p < 0.0001]。当感知融合未发生时, |Δϕ|为6.4°, 12.8°, 18.0°时的无符号误差之间无显著性差异[F(2, 18) = 0.65, p = 0.533], 而通过简单效应分析(两两比较)发现, |Δϕ|=0°的无符号误差显著大于其余3个角度[p < 0.05; p < 0.005; p < 0.05]。对方差分析的结果分3点进行讨论:

    图  8  所有受试者的无符号仰角定位误差结果 (a) 感知融合发生时的无符号仰角定位误差; (b) 感知融合未发生时的无符号仰角定位误差

    (1) 感知融合发生时的无符号误差

    当感知融合发生时, 如图8(a)所示, 无符号误差随着视听仰角差绝对值|Δϕ|变大而变大, 且基本接近等于|Δϕ|。这表明此时的听觉声源定位基本集中于视觉刺激附近, 因此感知融合发生时, 无符号误差由视觉刺激所在位置主导, 且Δϕ不变时, 不同声源仰角间的无符号误差差异很小, 最大差异为1.3°。

    (2) 感知融合未发生时的无符号误差

    当感知融合未发生时, 如图8(b)所示, Δϕ=0°时无符号误差最大, 约为9.0°。这表明即使视觉刺激仰角与声源仰角相同, 感知融合也有较小概率不发生, 此时受试者的听觉声源定位主要分布在离声源仰角较远的位置。同时方差分析结果表明, Δϕ0°时, 无符号误差基本小于8.0°, 且不随|Δϕ|改变而有显著变化。

    (3) 无符号误差与Δϕ的关系

    将无符号误差以感知融合发生与否为因子分解后, 其随Δϕ变化的规律便可一定程度上被解释。无符号误差可认为是两种情况(感知融合发生与未发生)的无符号误差的加权和, 权重系数为感知融合比例。当Δϕ=0°时, 感知融合比例最高, 因此总体的无符号误差主要来源于感知融合发生时的无符号误差, 基本在3.0°以内。随着|Δϕ|变大, 感知融合比例降低, 感知融合时的无符号误差也变大。此时, 虽然在总体的无符号误差中, 感知融合未发生时的无符号误差占比提升, 但感知融合发生时的无符号误差仍占多数, 因此, 总体无符号误差随|Δϕ|变大而变大。随着|Δϕ|进一步变大, 感知融合比例持续降低, 总体无符号误差中, 感知融合发生时的无符号误差占比持续下降。由于感知融合未发生时的无符号误差不随|Δϕ|显著变化, 且基本小于8.0°, 因此总体无符号误差会达到极大值, 此后变小, 且逐渐趋近感知融合未发生时的无符号误差。例如从图7中可以发现, ϕ为10°和ϕ为20°的无符号误差在Δϕ=18.0°时变小, 此时各自的感知融合比例为26%和20%, 符合上述的分析。

    最后, 对于定位上下混乱率进行分析。定位上下混乱率指的是受试者的定位仰角ϕi与声源真实仰角ϕi在水平面上下方不同侧的比例, 在本文中发生定位上下混乱时ϕiϕi异号。造成定位上下混乱的原因是定位因素的不足或冲突[22,30], 对于真实声源, Wenzel等[31]的研究表明自由场听觉单声源定位的混乱率为6%。表1为本文的定位上下混乱次数统计(ϕ=0°除外)。ϕ=±20°时上下混乱次数较少。ϕ=±10°时, 定位上下混乱次数增加。对于ϕ=10°, Δϕ=12.8°时, 定位上下混乱的比例最高, 为34.67%; 对于ϕ=10°, Δϕ=12.8°时, 定位上下混乱的比例最高, 为44.67 %。因此, 视觉刺激确实导致了听觉声源定位的上下混乱。

    表  1  定位上下混乱次数及占比(每个单元格中总体的样本数为N×K=150)
    视听仰角
    Δϕ (°)
    声源仰角ϕ (°)
    −20°−10°10°20°
    −18.0°0042 (28.00%)2 (1.33%)
    −12.8°0067 (44.67%)0
    −6.4°005 (3.33%)0
    1 (0.67%)04 (2.67%)0
    6.4°01 (0.67%)4 (2.67%)0
    12.8°052 (34.67%)7 (4.67%)0
    18.0°030 (20.00%)6 (4.00%)0
    下载: 导出CSV 
    | 显示表格

    多模态感知, 特别是视觉听觉双模态的感知被各学科学者广泛研究。对于视觉影响听觉声源定位现象的研究一直主要集中在方位角方向或水平面内, 而仰角方向或中垂面内相关研究比较少见。本文采用较为通用且经典的实验布置方式, 利用真实扬声器和LED阵列研究了中垂面内感知融合与跨模态定位偏差两个现象, 同时分析了受视觉刺激影响的听觉声源定位表现。对于感知融合现象, 本文结果表明, 当声源偏离水平面后, 感知融合的趋势发生明显变化, 且总有一侧的感知融合空间窗大于18.0°。本文还发现感知融合与跨模态定位偏差之间相关性良好, 跨模态定位偏差可以作为一个预测是否感知融合的因子, 这与以往研究结果相符, 且在感知融合未发生时, 跨模态定位偏差中出现了负偏差的现象。最后, 对定位表现的分析发现, 在一定的视听仰角差范围内, 视觉刺激导致听觉声源定位的误差变大; 在受到视觉刺激影响后, 定位上下混乱发生的次数也增加。总结而言, 感知融合作为一种内在表征, 与受试者的听觉声源定位表现密切相关。因此, 结合不同的领域的研究手段, 特别是从听觉与心理声学的角度找出导致感知融合比例变化的主要因素, 这是后续研究工作的主要方向。

  • 图  1   实验装置示意图

    图  2   一次最小单位实验的实验流程

    图  3   不同视听仰角差情况下感知融合发生的比例(水平点虚线为50%感知融合比例参考线, 两侧垂直双点划线的横坐标为ϕ=0°时感知融合空间窗估计值)

    图  4   感知融合比例与跨模态定位偏差的关系及其sigmoidal logistic拟合曲线

    图  5   感知融合发生与未发生时的跨模态定位偏差(误差棒代表跨模态定位偏差均值的估计标准误差(SEM))

    图  6   以声源为原点, 不同视听仰角差Δϕ条件下(Δϕ=0°除外)的听觉声源定位分布 (a) Δϕ=18.0°; (b) Δϕ=12.8°; (c) Δϕ=6.4°; (d) Δϕ=6.4°; (e) Δϕ=12.8°; (f) Δϕ=18.0° (定位分布由两个部分组成: 感知融合发生和未发生时的定位分布; 垂直点划线所在横坐标即为此时的视听仰角差Δϕ)

    图  7   不同声源仰角下无符号仰角定位误差与视听仰角差的关系

    图  8   所有受试者的无符号仰角定位误差结果 (a) 感知融合发生时的无符号仰角定位误差; (b) 感知融合未发生时的无符号仰角定位误差

    表  1   定位上下混乱次数及占比(每个单元格中总体的样本数为N×K=150)

    视听仰角
    Δϕ (°)
    声源仰角ϕ (°)
    −20°−10°10°20°
    −18.0°0042 (28.00%)2 (1.33%)
    −12.8°0067 (44.67%)0
    −6.4°005 (3.33%)0
    1 (0.67%)04 (2.67%)0
    6.4°01 (0.67%)4 (2.67%)0
    12.8°052 (34.67%)7 (4.67%)0
    18.0°030 (20.00%)6 (4.00%)0
    下载: 导出CSV
  • [1]

    Miller L M, D'esposito M. Perceptual fusion and stimulus coincidence in the cross-modal integration of speech. J. Neurosci., 2005; 25(25): 5884−5893 DOI: 10.1523/JNEUROSCI.0896-05.2005

    [2]

    Stein B E, Stanford T R, Rowland B A. The neural basis of multisensory integration in the midbrain: its organization and maturation. Hear. Res., 2009; 258(1-2): 4−15 DOI: 10.1016/j.heares.2009.03.012

    [3]

    Howard R. Punch and Judy in 19th century America: A history and biographical dictionary. Jefferson, NC: McFarland, 2013

    [4]

    Satz A, Wood J. Articulate objects: Voice, sculpture and performance. Lausanne, Switzerland: Peter Lang, 2009

    [5]

    Chen Y C, Spence C. Assessing the role of the ‘unity assumption’ on multisensory integration: A review. Front. Psychol., 2017; 8: 445 DOI: 10.3389/fpsyg.2017.00445

    [6] 刘强. 多感觉整合脑机制研究. 博士学位论文, 重庆: 西南大学, 2010
    [7] 杨伟平, 李胜楠, 李子默, 等. 老年人视听觉整合的影响因素及其神经机制. 心理科学进展, 2020; 28(5): 790−799
    [8]

    Chen L, Vroomen J. Intersensory binding across space and time: A tutorial review. Atten. Percept. Psychophys., 2013; 75: 790−811 DOI: 10.3758/s13414-013-0475-4

    [9]

    Hairston W D, Wallace M T, Vaughan J W, et al. Visual localization ability influences cross-modal bias. J. Cogn. Neurosci., 2003; 15(1): 20−29 DOI: 10.1162/089892903321107792

    [10]

    Bertelson P, Radeau M. Cross-modal bias and perceptual fusion with auditory-visual spatial discordance. Percept. Psychophys., 1981; 29(6): 578−584 DOI: 10.3758/BF03207374

    [11]

    André C R, Corteel É, Embrechts J J, et al. Subjective evaluation of the audiovisual spatial congruence in the case of stereoscopic-3D video and wave field synthesis. Int. J. Hum. Comput. Stud., 2014; 72(1): 23−32 DOI: 10.1016/j.ijhcs.2013.09.004

    [12]

    Hendrickx E, Paquier M, Koehl V, et al. Ventriloquism effect with sound stimuli varying in both azimuth and elevation. J. Acoust. Soc. Am., 2015; 138(6): 3686−3697 DOI: 10.1121/1.4937758

    [13]

    Wallace M T, Roberson G, Hairston W D, et al. Unifying multisensory signals across time and space. Exp. Brain Res., 2004; 158(2): 252−258 DOI: 10.1007/s00221-004-1899-9

    [14]

    Welch R B, Warren D H. Immediate perceptual response to intersensory discrepancy. Psychol. Bull., 1980; 88(3): 638−667 DOI: 10.1037/0033-2909.88.3.638

    [15]

    Charbonneau G, Véronneau M, Boudrias-Fournier C, et al. The ventriloquist in periphery: Impact of eccentricity-related reliability on audio-visual localization. J. Vis., 2013; 13(12): 20 DOI: 10.1167/13.12.20

    [16]

    Alais D, Burr D. The ventriloquist effect results from near-optimal bimodal integration. Curr. Biol., 2004; 14(3): 257−262 DOI: 10.1016/j.cub.2004.01.029

    [17]

    Körding K P, Beierholm U, Ma W J, et al. Causal inference in multisensory perception. PLoS One, 2007; 2(9): e943 DOI: 10.1371/journal.pone.0000943

    [18]

    Sato Y, Toyoizumi T, Aihara K. Bayesian inference explains perception of unity and ventriloquism aftereffect: Identification of common sources of audiovisual stimuli. Neural Comput., 2007; 19(12): 3335−3355 DOI: 10.1162/neco.2007.19.12.3335

    [19]

    Thurlow W R, Jack C E. Certain determinants of the “ventriloquism effect”. Percept. Mot. Skills, 1973; 36(3S): 1171−1184 DOI: 10.2466/pms.1973.36.3c.1171

    [20]

    Makous J C, Middlebrooks J C. Two-dimensional sound localization by human listeners. J. Acoust. Soc. Am., 1990; 87(5): 2188−2200 DOI: 10.1121/1.399186

    [21]

    Carlile S, Leong P, Hyams S. The nature and distribution of errors in sound localization by human listeners. Hear. Res., 1997; 114(1-2): 179−196 DOI: 10.1016/S0378-5955(97)00161-5

    [22]

    Xie B. Head-related transfer function and virtual auditory display. 2nd edition. USA: J. Ross Publishing, 2013

    [23]

    Blauert J. Spatial hearing: The psychophysics of human sound localization. Revised edition. Cambridge, MA: MIT Press, 1997

    [24] 姚鼎鼎, 汤婕, 王瑀楠, 等. 耳机重放中三维听觉显示定位精度及反应时间的影响因素分析. 声学学报, 2024; 49(6): 1152−1161 DOI: 10.12395/0371-0025.2023096
    [25]

    International Telecommunication Union. Methods for the subjective assessment of small impairments in audio systems: Recommendation ITU-R BS. 1116-3. Geneva, Switzerland: ITU, 2015

    [26]

    Slutsky D A, Recanzone G H. Temporal and spatial dependency of the ventriloquism effect. Neuroreport, 2001; 12(1): 7−10 DOI: 10.1097/00001756-200101220-00009

    [27]

    Wozny D R, Shams L. Computational characterization of visually induced auditory spatial adaptation. Front. Integr. Neurosci., 2011; 5: 75 DOI: 10.3389/fnint.2011.00075

    [28]

    Marly A, Yazdjian A, Soto-Faraco S. The role of conflict processing in multisensory perception: Behavioural and electroencephalography evidence. Philos. Trans. R. Soc. Lond. B Biol. Sci., 2023; 378(1886): 20220346 DOI: 10.1098/rstb.2022.0346

    [29]

    Rohe T, Noppeney U. Sensory reliability shapes perceptual inference via two mechanisms. J. Vis., 2015; 15(5): 22 DOI: 10.1167/15.5.22

    [30]

    Jiang J, Xie B, Mai H, et al. The role of dynamic cue in auditory vertical localisation. Appl. Acoust., 2019; 146: 398−408 DOI: 10.1016/j.apacoust.2018.12.002

    [31]

    Wenzel E M, Arruda M, Kistler D J, et al. Localization using nonindividualized head-related transfer functions. J. Acoust. Soc. Am., 1993; 94(1): 111−123 DOI: 10.1121/1.407089

图(8)  /  表(1)
计量
  • 文章访问数:  133
  • HTML全文浏览量:  25
  • PDF下载量:  32
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-11-21
  • 修回日期:  2024-02-23
  • 网络出版日期:  2024-05-15
  • 刊出日期:  2024-11-10

目录

/

返回文章
返回