回顾微软30年沉浸式3D音频、声学领域的研究历程
回顾微软团队在音频和声学研究方面的历史进程
(映维网 2020年08月17日)对于自然用户界面,游戏,虚拟现实和混合现实,以及普适计算(ubiquitous computing)而言,获取正确的声音是一个关键因素。音频在盲人或低视力人群的辅助技术中同样扮演着重要的角色。尽管过去数十年间的计算机已经能够播放和处理高保真音频,但语言或沉浸式声场的计算识别、分析和渲染方面依然存在一系列有待探索的前言。
自微软研究院于1991年成立以来,音频一直是团队重要的研究领域。在成立的第一年里,研究人员就利用音频数据和其他线索探索视听演示文稿的自动摘要。
多年来,微软研究院在语音识别、自然用户界面、捕捉和再现声音、空间音频、声学模拟和音频分析等方面都取得了稳定而显著的进展,而且大部分都有应用于诸如Windows10、Kinect、HoloLens和Teams的微软产品和服务,以及福特的同步车载信息娱乐系统,Polycom的视频会议设备,诸如《战争机器》和《盗贼之海》等游戏。
在下面的时间线里,微软将与我们回顾团队在音频和声学研究方面的历史进程:
1. 语言识别和自然用户界面
2002年:微软的研究人员建立了“Sound Capture and Speech Enhancement/声音捕捉和语音增强”项目,并开始始探索诸如减少回声、麦克风阵列处理和降噪等领域。
相关论文:Gain Self-Calibration Procedure for Microphone Arrays
相关论文:A New Beamformer Design Algorithm for Microphone Arrays
相关论文:Reverberation Reduction for Better Speech Recognition
相关论文:Microphone Array Post-Processor Using Instantaneous Direction of Arrival
2007年:福特发布了第一个版本的车内信息娱乐系统SYNC,其中语音增强音频管道最初是由微软的研究人员设计。
相关视频:Natural Language Moves In-Car Infotainment Forward
相关论文:Unified Framework for Single Channel Speech Enhancement
2007年:Windows增加对麦克风阵列的支持。微软发布了WindowsVista,包括对四种预选麦克风阵列几何结构的支持,以及对USB麦克风阵列的标准化支持。之后,Windows 10已经能够支持任意几何形状的麦克风阵列。
2010年:微软为Xbox360发布了Kinect,其中包括首个免手操作开放式麦克风命令和带有环绕声回音消除功能的控制产品。
相关论文:Beamformer Design Using Measured Microphone Directivity Patterns: Robustness to Modelling Error
相关论文:Optimal 3D Beamforming Using Measured Microphone Directivity Patterns
相关论文:Data Driven Suppression Rule for Speech Enhancement
相关论文:Kinect Development Kit: A Toolkit for Gesture- and Speech-Based Human-Machine Interaction
2016年:微软在这一年发布了HoloLens,它包含一个四元麦克风阵列和一个复杂的声音捕捉和语音增强系统,可用于捕捉用户的声音和周围的环境声音。
2017年:研究人员开始探索用于语音增强的神经网络。微软在这一年建立了“Neural Networks-Based Speech Enhancement/基于神经网络的语音增强”项目,并旨在实现更精确、更可靠的语音处理,尤其是在移动设备、可穿戴设备、智能家居和物联网设备。与以前的设备不同,所述设备带来了全新的挑战,如噪音更大的背景环境,更大的扬声器与麦克风距离,以及有限的边缘处理能力。
相关论文:A Causal Speech Enhancement Approach Combining Data-driven Learning and Suppression Rule Estimation
相关论文:Convolutional-Recurrent Neural Networks for Speech Enhancement
相关论文:Limiting Numerical Precision of Neural Networks to Achieve Real-time Voice Activity Detection
2019年:微软发布HoloLens 2。这款设备包含一个五元麦克风阵列和复杂的声音捕捉和语音增强系统。同时,研究人员在2020年初开始探索其语音增强技术的关键组件。
相关论文:Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement
相关论文:Acoustic Localization using Spatial Probability in Noisy and Reverberant Environments
2020年:Microfoft Teams的语音增强。微软首席执行官萨蒂亚·纳德拉(Satya Nadell)在这一年宣布,Microfoft Teams的优化将包括基于神经网络的语音增强算法。
2. 支持协作和生产力的音频
1991年:微软的研究人员发表了第一篇与音频相关的论文,其主要是关于多媒体演示文稿的自动摘要。
1996年:微软的研究人员探索了在交互式环境中使用视觉数据捕捉和渲染声音的方法。
1999年:在这一年里,微软团队在音频检测和分类方面取得了长足的进步。
2001年:微软在这一年建立了RingCam项目,并旨在探索360度视频会议。
相关论文:Distributed Meetings: A Meeting Capture and Broadcasting System
2007年:微软RoundTable在这一年提供了扬声器检测技术,由微软研究人员开发的言语检测技术成为了微软RoundTable系统的一部分。这项技术后来卖给了Polycom,并作为Polycom CX5000的一部分发布。
3. 捕捉和再现声音
1998年:微软研究人员开始试验麦克风阵列,他们建造了第一个麦克风阵列。
2005年:微软的研究人员建立了“Audio Devices /音频设备”项目,并构建和评估了两个USB麦克风阵列原型:一个四元线性阵列和一个八元圆形阵列。
2007年:微软雷德蒙德研究中心搬进了Building 99的新家。这个建筑包括公司的第一个消声室。
相关论文:Robust Design of Wideband Loudspeaker Arrays
相关论文:Sound Capture System and Spatial Filter for Small Devices
2009年:团队对Building 99的消声室进行了改造,使其可以自动测量3D方向性和辐射模式,包括人类的空间听觉。它使用亚毫米精度的三维扫描仪测量头部和躯干。除此之外,这使得能够实现更逼真空间音频的头相关传递函数(HRTFs)的开发成为可能。
2012年:为了使用球形和圆柱形函数来研究声场,微软研究人员建立了一个16通道球形麦克风阵列和一个16通道圆柱形麦克风阵列。值得一提的是,团队在2016年构建了一个64通道球形麦克风阵列。
2017年:微软研究人员提出了一种使用超声波来进行手势识别的新方法。这种方法的功耗显著低于光学系统。
相关论文:Ultrasound-based Gesture Recognition
2018年:微软研究人员开始探索实况360度音频和视频流式传输。
2019年:微软的研究人员建立了Denmark项目,其旨在利用由诸如智能手机和笔记本电脑等普通消费者设备成的虚拟麦克风阵列来实现会议对话的高质量捕捉。
4. 空间音频
2012年:微软的研究人员开始探索空间音频的新方向,开始研究与头相关传递函数(HRTFs)的新方法。这项工作的一个潜在成果是实现更为真实的空间音频。
相关论文:HRTF Magnitude Synthesis via Sparse Representation of Anthropometric Features
相关论文:HRTF Phase Synthesis via Sparse Representation of Anthropometric Features
相关博文:Microsoft 3D audio tech makes virtual sounds sound real
相关视频:3-D Audio Demo
2015年:微软发布了支持虚拟环绕声的Windows 10:Windows Sonic。这个空间音频渲染系统后来集成到HoloLens之中。
相关论文:Estimation of Multipath Propagation Delays and Interaural Time Differences from 3-D Head Scans
相关论文:Applications of 3D Spherical Transforms To Personalization Of Head-Related Transfer Functions
2016年:微软发布了HoloLens。这个设备配备了一个音频渲染系统,可对用户的空间听觉进行动态个性化设置。
2016年:微软发布Windows Mixed Reality平台。Windows10支持其他公司生产的虚拟现实头显和混合现实头显。这个平台包含空间音频引擎的扩展和改进版本。
2017年:微软发布了Soundscape(与Guide Dogs U合作),这是一个针对视力受损人群的辅助应用程序,其包括一个空间音频渲染系统。
相关论文:Blind reverberation time estimation using a convolutional neural network
相关项目:Project Soundscape
2018年:Ivan Tashev博士通过播客概述了对更好的声音处理和语音增强技术的追求,并描述了3D音频的最新创新。他同时解释了为什么由于人类感知能力的变化,音频处理技术背后的研究是科学、艺术和工艺的平衡整合。
2018年:微软研究团队在这一年发布了一系列的重要论文。
相关论文:A Sparsity Measure for Echo Density Growth in General Environments
相关论文:Blind Room Volume Estimation from Single-channel Noisy Speech
相关论文:Capture, representation, and rendering of 3D audio for virtual and augmented reality
5. 声学模拟
2010年:在2010年之前,交互式音频的一个关键挑战是在复杂的游戏场景中快速建模波浪效果。在2010年,微软的研究人员提出了预先计算物理精确的波形模拟的概念,并证明这是交互式音频和游戏的可行途径。
Triton项目探索了一种基于物理的虚拟环境建模方法,其旨在实现更为真实的游戏内音频。
相关论文:Precomputed Wave Simulation for Real-Time Sound Propagation of Dynamic Sources in Complex Scenes
相关项目:Project Triton
2012年:微软研究人员开始与游戏工作室合作。如与The Coalition Studio 合作,并将上述的声学模拟研究纳入《战争机器》。通过这样的方式,团队开始从探索性研究过渡到注重性能和灵活性的重新设计。
2013年:Project Triton的首个工作原型在内部演示。
2014年:团队发布了一份描述了Triton项目的核心设计的论文,以及如何将感知编码、空间压缩和参数化绘制相结合。所述设计解决了系统资源的使用问题,并能方便地集成到现有的音频工具中。后来的研究正是建立在这个核心设计之上,并进行了各种改进。
相关论文:Parametric Wave Field Coding for Precomputed Sound Propagation
2015年:微软研究院的暑期实习生研究了一种新的自适应采样方法,并旨在解决Triton项目中的一个关键鲁棒性问题。
2016年:Project Triton成为《战争机器4》的一部分。这是由精确基物模拟提供的首个游戏声学实例。
2017年:Project Triton开始支持混合现实体验,并作为Windows10 Fall Creator更新的一部分。它在“悬崖屋”空间中提供了一种自然的声学体验,包含新的定向声学特性。这一体验同时结合了前面所述的HRTFs进步。
2018年,Project Triton成为《盗贼之海》的一部分,这是第二款采用这项技术的游戏。
相关论文:Parametric Directional Coding for Precomputed Sound Propagation
2019年:Nikunj Raghuvanshi博士通过播客介绍了声音是如何传播,以及Project Triton的相关事项。
相关播客:Podcast: Project Triton and the Physics of Sound with Dr. Nikunj Raghuvanshi
2019年:Project Triton作为Project Acoustics向所有开发者开放,其包括Unity和Unreal插件,以便开发者轻松将其集成到游戏和研究原型中。
2019年:《无主之地 3》发行。这是微软之外第一家使用Project Triton的游戏工作室。
2020年:Project Triton集成到HoloLens。这一里程碑标志着物理声学在增强现实中的首次演示。
相关视频:Using Project Acoustics with HoloLens 2
相关论文:Cloud-Enabled Interactive Sound Propagation for Untethered Mixed Reality
2020年:微软首席研究员Nikunj Raghuvanshi博士在网络研讨会中介绍了创建实用、高质量声音模拟的来龙去脉。它包括声音模拟的三个组成部分:合成、传播和空间化。对于每一个问题,他将回顾基础物理,研究技术,实际考虑,和开放的研究问题。
相关视频:Interactive Sound Simulation:Rendering immersive soundscapes in games and virtual reality
6. 音频分析
2010年:微软研究人员建立了“Audio Analytics/音频分析”项目,并旨在探索从人类语音中提取非语言线索,检测特定的音频事件和背景噪声,以及音频搜索和检索等主题。这项技术的潜在应用包括客服电话的客户满意度分析、媒体内容分析和检索、医疗诊断辅助设备和患者监控、听力障碍患者辅助技术以及公共安全音频分析等等。
相关论文:A New Speaker Identification Algorithm for Gaming Scenarios
相关论文:Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine
相关论文:High-level Feature Representation using Recurrent Neural Network for Speech Emotion Recognition
2015年:“Hey, Cortana”支持人话识别。微软发布了包含扬声器识别功能的Windows10,并将其作为“Hey, Cortana”唤醒功能的一部分。
相关论文:A Cross-modal Audio Search Engine based on Joint Audio-Text Embeddings
相关论文:Supervised Deep Hashing for Efficient Audio Event Retrieval