微软AR/VR专利提出一种高效多发射器声场混响方法

小编广东客 | 分类：专利 | 2024年8月27日

【HoloLens QQ群：493967447】

高效多发射器声场混响

（映维网Nweon 2024年08月27日）逐源渲染混响的内存和计算成本非常昂贵，因为渲染混响通常涉及一个长时间的分割卷积，这需要一个FFT和一个IFFT以及多帧卷积。渲染每个源混响同时需要大量的内存来存储所有的卷积项，它同时要求每个源都有一个循环输入缓冲区。

对于少量的源，MR系统可以执行所需的渲染，但随着源数量的增加，渲染过程可能很快导致性能问题。通常情况下，大部分可用的处理都用于图像的可视化，只留下很少的计算来处理声音效果。

所以，需要一种技术来缓解这种混响计算瓶颈。在一项专利申请中，微软就提出了一种高效多发射器声场混响方法。其中，发明所述的解码器能够将不同声源的混响效果混合在一起，形成一个固定的系统，这样产生的混响就可以呈现为近似实际混响的线性集合。

图6说明了一个示例架构600。服务605通常负责为MR系统生成和管理世界模型610。世界模型610包括应用程序615。应用程序615通常是能够向用户提供数据并接收来自用户的输入的应用程序。

世界模型610同时包括控制层620，控制层620用于接收和管理来自用户的输入。通常情况下，全息图与声音相关。所以，世界模型610进一步包括声场模型625，使得服务605能够确定如何为全息图呈现和播放声音。

服务605包括或至少利用多通道解码器645。多通道解码器645的结构用于确定如何渲染和重放由头显和服务605产生的声音的混响效果。产生混响效果的结果是音频信号650，可以在头显扬声器播放。

多通道解码器645是能够为在MR场景中显示的全息图提供混响效果的组件，并且响效果可以穿过不同的空间以匹配全息图的运动。理想情况下，混响的产生方式就好像声音起源于全息图所在的空间。

如前所述，直接进行混响的成本非常昂贵。微软介绍的解码器能够将不同声源的混响效果混合在一起，形成一个固定的系统，这样产生的混响就可以呈现为近似实际混响的线性集合。

为了产生原声的混响效果，不需要对原声进行预处理。所以，可以为实时生成的声音提供混响效果，并且可以以更低成本的方式创建混响效果。

多通道解码器能够呈现一组声音，而相关声音可以通过放置在用户头部周围的“虚拟扬声器”播放。实际上，虚拟扬声器并不存在。相反，一组实际的扬声器播放呈现的声音，但声音能够以一种好像它是由位于声源对应位置的虚拟扬声器播放的方式播放。

实施例能够使用根据空间执行的近似操作和根据衰减时间执行的近似操作来混合全息图的各种不同混响效果。对于每个空间位置，都有一组过滤器用于提供空间近似值。

类似地，一组衰减滤波器可以用来近似给定的衰减。所以通过使用滤波器矩阵，其中滤波器用于空间和时间，并且滤波器能够通过所描述的混合过程近似每个源的任何空间结构和任何衰减时间。

图7示出了能够接收与源对应的输入705，并生成可由头显多个扬声器播放的音频信号输出的多通道解码器700。

输入705分布在多个不同的通道信号705A。实施例将一组空间增益权重应用于输入，然后将所得到的信号馈送到一组缓冲器中。然后，将信号加在一起，以重建在声球上具有给定形状的给定衰减时间。

值得注意的是，源的所有输入在由图7中的滤波器组表示的一组缓冲器中组合在一起，并且该组合以同时方式执行。然后，在图8所示的求和框之后执行的处理是固定的计算操作。在图8中的求和框之前执行的处理是针对每个源的计算操作。换句话说，在求和之前执行的过程是针对每个源执行。

图7显示了一组空间增益710，用字母“b”和下标表示。所述系数同时可以称为“通道输入增益”。术语“E”是指编码通道的总数，术语“D”是指解码输出的总数。然后，每个通道信号可以是音频输入的组合，音频输入可以视为来自与源位置相对应的方向。

空间增益710向解码器提供混响声的形状，例如到达方向和扩散。空间增益710的贡献近似于混响声的给定形状。每个输入或通道信号进入相应的一组累积缓冲器。另外，每个输入都与一组相应的权重相关联，其中权重（即“b”系数）近似于球体上的形状和衰减时间以及任何其他混响特性。

进一步来说，一组“b”系数可用于每个输入。“b”系数可以馈送到多通道解码器700，以方便确定混响效果的传播和方向。所以，多通道解码器700的逻辑可以保持不变，但多通道解码器700可以通过使用不同版本的“b”系数来产生任何类型的混响效果。

在对输入705施加空间增益710之后，所得到的信号被送入一组滤波器组，如滤波器组720、725和730所示。图8显示了代表滤波器组720、725和730中的任何一个的卷积滤波器组800。

所述滤波器组800接收输入805，其代表馈送到图7所述滤波器组720、725或730中的任何输入。

图8显示了一组衰减增益810，用字母“a”和下标表示。系数可以称为“滤波器输入增益”。下标项“F”指的是滤波器组中滤波器的总数。衰减增益810用于在给定方向近似混响效果的衰减时间。

因此，“a”系数对应于将馈送到衰减滤波器的累积缓冲区，其中衰减时间随着“a”系数上的下标的增加而增加。实际上，“a”系数为系统提供所需的T60，“b”系数为系统提供所需的方向和传播。另外，衰减增益810的应用产生将提供给模拟混响声音信号的混合效果810A。“a”和“b”系数可以从图7的输入705的元数据中获得。

关于衰减增益（“a”系数），对于每个传入源，实施例通过一组J指数衰减基滤波器的线性组合近似该源的给定衰减时间Ts。每个源具有已知的、不同的衰减时间和到达方向，并且实施例执行的操作尝试近似不同的衰减时间，其中使用“a”系数执行近似。

换句话说，每个输入，连同每个输入对应的一组系数，送入相应的一组累积缓冲器。系数近似声球上的形状以及衰减时间。结果，所述实施例将输入和权重馈送到缓冲区数组中。所述实施例将所得到的信号加在一起。然后，实施例以声球上的给定形状重构给定的衰减时间。

将衰减增益810应用于输入805后，将不同输入的信号加在一起。然后，求和的下游进程是固定计算进程，而求和的上游进程是逐源计算。

然后将FFT应用于每个求和操作的输出，如FFT 825、830和835所示。在求和操作之前，对每个源执行解码器操作。在求和操作之后，解码器使用对通道信号执行的固定卷积过程进行操作，如反馈分割卷积840、845和850所示。

图9显示了一个反馈分区卷积900，它代表了Fb中的任何一个。图8的划分卷积840、845或850。反馈分割卷积900是产生具有特定衰减路径或衰减响应超过一定速率的混响的组件。

返回到图8，在执行卷积之后，划分卷积840、845和850，如预线性组合信号840A、845A和850A所示。每个信号现在具有不同的衰减时间。作为示例，第一信号可能具有0.25秒的衰减时间；第二信号可能具有1.5秒的衰减时间；并且第三信号可以具有3.0秒的衰减时间。

在信号之间混合权重，以获得整个输出870所需的衰减时间。将信号加在一起以获得所需的衰减时间。然后对得到的组合信号进行IFFT，以产生输出870。

输出870是指图7中滤波器组720、725或730的任何输出。在图7中，滤波器组的输出对应于空间通道，然后可以根据方向和输出通道的位置使用头部位置矩阵735旋转空间通道。头部位置矩阵735的大小为E×D，乘法是E×D矩阵乘法运算。

然后，使用头部位置矩阵735将输出混合在一起，其中矩阵描述了用户头部在空间中的位置。应用头部位置矩阵735的结果是一组输出，如输出740、745和750所示。输出740将由第一扬声器播放；输出745将由第二扬声器播放；输出750由第三扬声器播放。

所以，佩戴头显的用户将听到由此产生的混响效果，并且混响效果听起来就像由位于全息图所在位置的虚拟扬声器播放一样。因此，在应用头部位置矩阵735之前，实施例考虑了用户在给定房间内的位置。

以这种方式，可以将多通道解码器700视为包括许多不同的滤波器/缓冲器。每个滤波器都提供与T60值和方向性的特定分布相关联的加权输入。所述实施例能够智能地卷积或混合来自各种不同滤波器的输出，以实现特定的T60方向和扩散。

所述实施例不只是简单地输入方向值以创建特定方向的混响效果。相反，实施例执行增强操作以利用不同的混合权重，其中混合权重不仅允许改善第一全息图的第一混响效果，而且允许改善其他全息图的其他混响效果。

回到图9，反馈分区卷积900这种滤波器设计用于以有效的方式对自身进行回环。这个滤波器实际上创建了一个衰减混响的“分区”或“截断”，然后自身循环，如图9中的反馈环路925A所示。这种反馈回路是有益的，因为不是必须计算长衰减滤波器的整个长度，实施例能够使用更短的段，然后重复该段。在计算方面，与确定长衰减信号的整个长度所需的计算量相比，计算短段所需时间的计算量要少得多。

换句话说，为了产生混响效果，系统的任务是执行卷积操作。卷积是产生混响效果的最基本。传统上，如果一个系统想要为一个有三秒长混响的拍击声产生混响效果，则这个系统就必须计算一个三秒长的卷积来产生一个衰减的噪音。传统的系统必须将三秒长的声音与原始声进行卷积。这样做将消耗大量的计算。

图9中提出的主要思想是，实际上可以以某种周期速率重复简化的噪声模式，同时依然获得相同的混响效果。

从本质上讲，图9利用了一种感知技巧，即听者通常无法辨别产生混响效果的重复噪声模式与实际的、延长的混响效果之间的区别。滤波器缓冲的信号时间越多，由于滤波器中的反馈回路，滤波器节省的计算量就越多。

因此，系统能够将声音信号分解成与增益相关联的更小的、可重复的片段，而不是具有正在进行卷积的长三秒片段。然后，较小的信号可以以递减增益重复，以产生原始声音的混响效果。

相关专利：Microsoft Patent | Efficient multi-emitter soundfield reverberation

名为“Efficient multi-emitter soundfield reverberation”的微软专利申请最初在2023年2月提交，并在日前由美国专利商标局公布。

微软AR/VR专利提出一种高效多发射器声场混响方法

您可能还喜欢...

精选头条

行业案例

微软XR专利

Microsoft Research

微软AR/VR专利提出一种高效多发射器声场混响方法

您可能还喜欢...

微软专利针对MR场景连续捕获图像数据提出改进时间滤波技术

微软AR/VR专利探索”眼动+手部追踪“输入交互方式

微软为AR头显提出二向色性涂层，提升显示一致性和光安全性

精选头条

行业案例

微软XR专利

Microsoft Research