微软AR/VR专利分享仅从参考关节姿势生成身体运动估计

HoloLens QQ群493967447

查看引用/信息源请点击:映维网Nweon

时间信息在估计运动时非常重要。这是因为给定关节在不同时间的姿势之间存在时间关系

映维网Nweon 2024年08月21日)从稀疏的观察中预测身体运动十分困难,尤其是对于头显设备。由于视野受限和遮挡,头显一个或多个自为中心摄像头只能捕获人体的一部分图像,而人手在摄像头视场多次进出。在这种情况下,预测或计算人的身体运动极其困难。

在日前由美国专利商标局公布的一份专利申请中,微软就提出了一种仅从参考关节姿势生成身体运动估计的解决方案。

在一个实施例中,仅给定一个铰接实体的稀疏观测,需要计算铰接实体的身体运动。这意味着计算身体的整体轨迹和构成身体的铰接实体的所有指定关节的姿态(3D位置和方向)。

微软指出,计算全身运动对于绘制整个身体的化Avatar非常有用,可用于支持混合现实应用中的3D Avarta,3D身体姿势识别和虚拟现实等。

图1是由计算机实现并包括处理器104和存储器106的身体运动预测器100。身体运动预测器100包括具有时间适应性掩码令牌的运动模型102。

身体运动预测器100通过通信网络124与其他实体进行通信。身体运动预测器通过通信网络124接收输入。在一个示例中,输入118包括头显信号、自中心图像、运动控制器信号等。

在一个实施例中,输入至少包括将计算身体运动的铰接实体的参考关节的位姿,以及在当前时间步长中是否观察到或未观察到所述铰接实体的第二关节的指示。身体运动预测器使用输入来计算所述铰接实体的预测身体运动116。所预测的身体运动包括身体的全局轨迹和所铰接实体的多个关节的位姿(3D位置和方向)。

在各种实施例中,所预测的身体运动116实时计算,即以与使用所预测的身体运动116的下游操作相似的帧速率计算。

在一个实施例中,所预测的身体运动116用于动画化所铰接实体的Avatar。在另一个示例中,所预测的身体运动116用于动画化对头显佩戴者可见的铰接实体的全身Avatar112。

在图1的示例中,身体运动预测器100作为云服务部署。然而,身体运动预测器100可以部署在头显114或任何其他终端用户设备中。身体运动预测器的功能可以在终端用户设备和服务器之间共享,以适合特定应用。

具有时间适应性掩码令牌的运动模型以非常规方式操作,以实现从稀疏观测中预测身体运动。

微软指出,具有时间适应性掩码令牌的运动模型改进了底层计算设备的功能,即便仅有稀疏观测都能实现身体运动预测。

图2显示了由身体运动预测器100计算的身体运动预测示例,在本例中,铰接实体是一个人,运动是人从站立位置200走到位置208时区物体时的运动。当人从200位移动到208时,人的关节姿势会发生变化。

在图2中,头部作为参考关节,关节的姿态在所有时间步都已知。每只手都是各自的第一活动关节和第二活动关节。当人每只手拿着一个运动控制器时,用户各自的手在每个时间步的姿势已知。

然而,在观察稀疏的情况下,例如对以自中心摄像头拍摄的图像进行手部追踪,则只有当它们处于自中心摄像头的视场中时,才能知道各手的姿态。

利用发明描述的技术,即便存在稀疏的观察,例如参考关节的姿态和有时未观察到的一个或多个其他关节的姿态,系统都可以预测身体运动。

在图2中,通过用户佩戴的头显进行手部追踪,可以看到,在用户从200到208的每个位置,手都处于不同的位置。例如在位置208,用户的双手在头显视场内;在位置200,用户的右手在头显视场内,而用户的左手不在头显视场内。当用户佩戴头显时,用户的头部姿势可以确定,因为头部姿势不依赖于其他设备的可见性。

图3显示了如何生成身体运动估计。

在图3中,将姿态300输入到包含时间适应性掩码令牌的运动生成模型102中,生成身体运动估计。图3中的三个姿态300是头部姿态302、左手姿态304和右手姿态306。姿态表示为从一个点出发的三个轴,其中点是关节的三维位置,轴表示关节的方向。

然而,由发明描述的系统能够仅从参考关节姿势生成身体运动估计。参考关节是关节实体的任何指定关节,它通常在每个时间步都能观察到。

从图3可以看出,身体运动的生成是对用户全身运动的预测。这样就确定了用户所有关节的姿态。全身运动包括用户整个身体的运动。尽管对全身运动的预测如图3所示,但可以预测部分身体运动。例如,提供一个或多个输入300可用于仅为用户的上半身生成身体运动。

关于运动模型102的更多细节现在参照图4。

图4所示,运动模型102包括编码器400、分离成一个或多个独立的解码器404、406、仅在训练期间使用的可选解码器408、注意机制402和可适应的掩码令牌机制410。

如参考图3所述,运动模型102的输入数据118包括实体的参考关节的位姿以及在当前观测中实体的一个或多个其他关节的存在或不存在的指示。在当前观察中观察到一个或多个其他关节的情况下,输入数据118包括一个或多个其他关节的位姿。在一个实施例中,输入数据118可以包括时间步长之间关节位置的每个关节变化,时间步长之间关节旋转的每个关节变化。

运动模型102的编码器400和解码器404、406、408作用于自编码器,其中输入数据编码成在相对高维的多维空间中的嵌入向量,其中相似的输入数据项在高维空间中更靠近。所述嵌入向量在由解码器404、406解码之前通过注意机制处理,以将所述嵌入向量转换回所述铰接体运动的姿态和轨迹。

由于输入数据118中的部分观测值可能会丢失,所以使用了时间可适应的掩码令牌机制410。所述时间适应性掩码令牌机制在所述运动模型102的嵌入空间中操作以生成掩码412。掩码412是在当前时间步长观察到的关节的位姿的嵌入,或者是未观察到的关节的预测嵌入,通过考虑参考关节的嵌入和从前一时间步长嵌入未观察到的关节来进行预测。

通过使用时间自适应掩码令牌机制410,可以实现高质量的身体运动预测。通过在运动模型102的嵌入空间中具有时间适应性的掩码令牌机制410,由于嵌入向量是输入数据的压缩表示,并且由于在嵌入空间内进行计算,可以降低编码和解码步骤的数量。

时间信息在估计运动时非常重要。这是因为给定关节在不同时间的姿势之间存在时间关系。所以,掩码令牌的时间适应性属性使得掩码令牌能够更新。这与生成神经网络中通常使用的掩码令牌的固定性质形成鲜明对比。

运动模型102包括注意机制402。注意机制402配置为在多个时间步长上编码关于关节实体的参考关节姿态和一个或多个其他关节姿态的信息,并编码关于关节姿态之间的空间相关性的信息。

注意机制由一个变压器神经网络构成。在一个实施例中,注意机制仅包括一个变形神经网络,所述网络配置为实现时间注意和空间注意。在其他示例中,注意机制包括循环神经网络和transformer,其中循环神经网络允许对输入进行时间处理,而transformer通过实现自注意来实现空间注意。

在注意机制402中同时使用循环神经网络和transformer比只使用transformer神经网络更有效。然而,可以仅使用transformer神经网络并获得可行的结果。

在一个实施例中,注意机制402包括用于编码关于参考关节姿势的信息的门控循环单元和用于编码关于第二关节的信息的第二门控循环单元。来自门控循环单元的编码输入到具有自注意机制的transformer。

在运动模型102用于预测身体运动的操作期间,将注意机制402的输出送入两个解码器。第一解码器是轨迹解码器404,其作为注意机制402的嵌入向量输出的一部分,并对其进行解码以预测铰接实体的运动的全局轨迹。全局轨迹是关节实体的参考关节在世界坐标下的位姿从前一个时间步长到当前时间步长的矩阵变换。

第二解码器是姿态解码器406,其用于解码注意机制402的嵌入向量输出的另一部分以预测所述铰接实体的全局姿态。铰接实体的全局位姿是铰接实体的每个关节在世界坐标中的位姿。

运动模型102具有可选的解码器408,解码器可在运动模型102的训练期间任选地使用,并且在运动模型102的使用期间不使用。可选解码器408将由注意机制计算的嵌入向量的一部分解码为在所述铰接实体的每个关节在身体坐标中的姿态。

在训练过程中使用关节在身体坐标中的姿势可以提高所得到的运动模型的性能102。然而,在测试时间反复预测关节在身体坐标中的姿势,往往会在姿势和轨迹上随着时间的推移而积累误差。因此,在测试时不使用可选解码器408。

图5是使用输入数据的生成运动模型示意图。

所述铰接实体是人,所述参考关节是人的头部,所述人佩戴搭载自中心摄像头的头显,并且头显对自中心图像进行处理以实现手部追踪。

一项任务是在稀疏的头显信号下在线生成全身3D人体运动。换句话说,给定每个时间步长t的输入信号xt,系统应该几乎立即预测3D人体姿势和轨迹。运动模型102使用一个由φ参数化的神经网络来实现这一点。

图9是预测身体运动的方法流程图。头部姿势可以通过传感器获知,例如头显中的加速计或全局定位系统。参考关节的姿态可以由另一个实体计算并发送给身体运动预测器。

所述身体运动预测器接收表明所述铰接实体的第二关节未被观察或观察到的指示。

身体运动预测器提示运动模型。提示符包括具有时间适应性的掩码令牌,以及参考关节位姿和其他关节的位姿、参考关节或其他关节在另一坐标系中的位姿、一个或多个关节的3D位置变化、一个或多个关节的方向变化等可选的其他信息。

掩码令牌表示第二个关节。为了响应接收到第二关节未被观察到的指示,使用关于参考关节位姿和来自前一个时间步长的第二关节位姿的信息。

为了响应接收到所述第二关节被观察到的指示,使用来自当前时间步长的关于参考关节位姿和所述第二关节位姿的信息。

在同一时间步长中,可以对第三个关节重复所述方法。作为对是否观察到第三关节的确定的响应,第二掩码令牌适应于对第三关节执行操作。

提示运动模型致使运动模型输出预测,其中预测是运动参数,包括所述铰接实体的轨迹和所述铰接实体的关节的姿态。

图9所述过程重复另一个时间步长,并且能够继续,以便随时间追踪铰接实体的身体运动。

相关专利Microsoft Patent | Predicting body motion

名为“Predicting body motion”的微软专利申请最初在2023年2月提交,并在日前由美国专利商标局公布。

HoloLens QQ交流群493967447

您可能还喜欢...

专栏