微软专利提出MR帧对齐工具，实现更好的图像捕获和智能检测

小编 ovaliu | 分类：专利 | 2022年3月18日

【HoloLens QQ群：493967447】

混合现实图像捕获和智能检测技术

（映维网Nweon 2022年03月18日）对于企业，有时候记录项目阶段或产品的照片非常重要。例如，装配线操作员的一个任务可以是在装配的各个阶段拍摄产品的照片。当拍摄同一产品的多个实例时，人类操作员可以从稍微不同的有利位置拍摄每个产品的照片。诸如缺陷这样的特定产品细节可能会一个位置可见或不可见。由于人类拍摄的照片对于透视图而言可能缺乏一致性，所以很难使用所述照片作为后续比较或评估成像产品的基础。另外，人工操作员在检查产品时经常出错和/或采用不一致的标准。

在名为“Mixed reality image capture and smart inspection”的专利申请中，微软介绍了一种混合现实图像捕获和智能检测技术。团队表示，相关可以检查在依赖于照片记录或维护的系统中特别使用的特征，例如用于质量保证的产品检查系统。

简单来说，发明主要描述了一种混合现实帧对齐工具，它可以将用户引导到预定义的有利位置，然后定位摄像头以捕捉对象的照片。这种智能引导工具可以用于确保拍摄对象的特定特征可见，和/或从基本相似或相同的有利位置拍摄相同对象的图像集合，从而产生一致的图像集。

同时，专利指出可以根据人类操作员从一致的有利位置收集的一组对象图像训练机器学习模型。例如，操作员可以提供与每张照片相关联的输入，指示每张照片中的主题是否与特定标准一致。一旦训练完成，机器学习模型可以动态评估对象的新图像，并客观地确定新图像中的对象是否与标准一致。在一个实施例中，机器学习模型的输出可以经过进一步的处理和分析，并且系统适于提供实时反馈，例如在产品有缺陷时通知操作员，或者总结对成像的特定产品的分析。例如，生产装配线上的操作员拍摄产品组件的照片，并会立即收到系统实时反馈，从而判断产品是否符合规定的质量标准。

图1是一个示例处理设备102，它提供了用于收集和检查真实世界图像的混合现实用户体验。处理设备102可以是能够在三维真实世界参考框架内投射数字对象，并令数字对象和真实对象在用户视场中共存的头戴式设备。在另一个实施例中，专利描述的技术可以在任何混合现实设备中实现，包括提供2D混合现实体验的设备。

处理设备102包括投影光学元件104，后者配置为在佩戴处理设备102或与处理设备102交互的用户120的视场118内投影细节对象。处理设备102同时包括摄像头106，其可用于捕捉混合现实体验的静止图像或视频帧。处理设备102同时包括存储操作系统（未示出）和可由处理器112执行的一个或多个应用程序的存储器110。在其他应用中，处理设备102存储并本地执行混合现实帧对齐工具114和图像检查工具116。在一个实施例中，混合现实帧对齐工具114和/或图像检查工具116可以由通过局域网或广域网与处理设备102通信的设备远程执行。

混合现实帧对齐工具114用于引导用户将处理设备102定位在相对于目标对象的特定预定义有利位置。一旦混合现实帧对齐工具114确定摄像头106的镜头位于预定义的有利位置，混合现实帧对齐工具114就可以将指令发送到图像捕获工具136，例如，使用摄像头106自动捕获照片的指令或提示用户提供输入以触发照片捕获的指令。然后，可以任选地将捕获的照片提供给图像检查工具116。

专利描述的技术存在一系列的示例，例如产品检查。当制造厂的操作完成了目标拍摄对象122（例如自行的部件）的特定工作阶段时，操作员可能需要拍摄目标拍摄对象122的照片，以确保其总体状况/质量，而相关内容可供另一方（如人工或机器检查员）进行后续评估。

在一个实现中，混合现实帧对齐工具114帮助用户120从相对于目标拍摄对象122的一致有利位置收集场景100的多张照片。多张照片可以是同一产品的不同副本。

当混合现实帧对齐工具114正在执行时，用户通过将摄像头106指向预定义的真实世界锚定对象来启动图像捕获模式，例如通过将头显与锚定对象124一起定位在头显视场118中或附近。在一个实施例中，图1的锚定对象124是条形码贴纸，其放置在相对于场景100内的目标对象（例如自行车部件）具有已知预定义空间间隔的位置，例如桌子。例如，锚定对象124可以由系统管理员在混合现实帧对齐工具114的设置阶段期间定义，例如通过上传锚定对象的照片或提供系统可用的其他指令来容易地在场景100中识别锚定对象124。

当混合现实帧对齐工具114识别视场118中的锚定对象124时，混合现实帧对齐工具114定义一个3D坐标系（其原点对应于锚定对象124的位置），并将第一数字目标126（例如全息目标）投影到一个预定位置（所述位置由相对于锚定对象124的偏移向量d定义）。在图像捕获处理的整个持续期间，第一数字目标126保持固定在所述位置。因此，即使用户移动处理设备102以改变摄像头106的视图118，例如通过从左向右移动他/她的头部，第一数字目标126依然相对于场景中的真实世界对象固定。

在一个实施例中，在应用的设置阶段，相对于锚定对象124的已知位置和产品122或将拍摄对象的已知位置来定义偏移向量d。例如，系统管理员可以在初始化图像检查工具112的系统参数时定义偏移向量d。

偏移向量d表示相对于锚定对象124的位置。在所述位置，第一数字目标126将在每次执行混合现实帧对齐工具114时进行投影。理想情况下，偏移向量d定义为将第一数字目标126投影到感兴趣对象的预期位置。例如，可以假设，当将感兴趣的摄影对象122放置在相对于锚定对象124的已知距离的台上时，将对其进行拍摄。在所示的示例中，用户120正在记录自行车上后变速器的外观，例如，用户120可以定位自行车，使前后轮胎与预定义的位置、标记对齐，等，以确保后拨链器按照偏移向量d定义的距离和方向从锚定对象124偏移。在另一个实现中，混合现实帧对齐工具114自行定义偏移向量d，例如，基于描绘预定义的锚定对象124和预定义的感兴趣的摄影对象122两者的一个或多个输入图像。

在另一种实施例中，锚定对象124是QR标签或位于目标对象（例如自行车的后变速器）的其他对象。在上述任一情况下，系统管理员可将偏移向量d定义为零，指示呈现第一数字目标126以与包括锚定对象124的场景100的区域重合。

除了投影第一数字目标126之外，混合现实帧对齐工具114同时控制投影光学元件104，从而在用户120的视场内投影第二数字目标128。第二数字目标128投影在相对于摄像头106固定，且在整个照片拍摄过程期间相对于场景100动态移动的位置。例如，即使摄像头106在空间中物理地移动，第二数字目标128都会投影在相对于摄像头106在由锚定对象124定义的坐标系中的位置的固定偏移[x，y，x]的空间点。

当用户移动摄像头106时，混合现实帧对齐工具114可以基于摄像头106视场的变化来改变第二数字目标128的位置、大小和方向。在一个实现中，第二数字目标128的大小随着距离第一数字目标126的投影位置的距离的变化而变化。例如，如果用户靠近第一数字目标126的固定位置，这可能会致使第二数字目标128缩小。

在一个实施例中，混合现实帧对齐工具114响应于检测到的摄像头106的镜头和第一数字目标126的固定位置之间的角度间隔变化，改变第一数字目标126和第二数字目标128之间的角度间隔。例如，第二数字目标128最初可能出现在垂直于用户视线的第一平面内定向，而第一数字目标126最初出现在与第一平面不同且不平行的第二平面内延伸。当用户120绕过目标摄影对象122并接近预定义的有利位置时，第一数字目标126的投影平面可以移动，使得第一数字目标126变得更平行于第二数字目标128，同时减少用户120和预定义有利位置之间的间隔。

当第二数字目标128满足相对于第一数字目标126的预定义空间关系时，拍摄对象的照片。例如，用户120可以在空间中移动摄像头106，直到第二数字目标128与第一数字目标126对齐。在相同或另一实施例中，用户120移动摄像头106以移动第二数字目标128的外观大小和/或方向，直到第二数字目标128的大小和/或方向与第一数字目标126的大小和/或方向足够相似以满足预定义的相似性阈值。

在一个实施例中，当满足预定义的空间关系时，混合现实帧对齐工具114自动捕获对象的照片，而不需要用户120的输入。换句话说，用户不提供定义何时捕获照片或直接触发照片捕获的输入。相反，当摄像头被定位在相对于锚定对象124和图像对象的预定义有利位置时，图像捕获工具136自动捕获照片。

在一个实施例中，当满足虚拟目标之间的预定义空间关系时，混合现实帧对齐工具114向用户120提供实时反馈，例如通过提供视觉或音频提示。这可用于向用户120传达照片已完成自动捕获，或可替换地，提示用户提供触发照片捕获的输入。

为了说明通过混合现实帧对齐工具114捕获的图像的一个示例使用，显示处理设备102进一步包括图像检测器132。例如，图像检查器132是经过训练的机器学习模型。在一个实施例中，使用训练数据130训练图像检查器132，训练数据130包括由系统管理员提供的图像集和监督学习输入。例如，系统管理员可以利用混合现实帧对齐工具114来收集位于相同装配位置的相同产品类型的一组图像。系统管理员可以通过提供图像以及进一步的有监督学习输入来训练模型识别“缺陷产品”。由于图像集在每个图像中的产品位置高度一致，所以与使用从不太一致的有利位置拍摄的对象图像进行训练的类似模型相比，经过训练的模型将显示出更高的可靠性。

在一个实施例中，图像检查工具116可以包括向用户120提供实时反馈的反馈工具134。例如，如果用户120使用混合现实帧对齐工具114捕捉对象的图像，则图像可以提供给图像检查器132，图像检查器132进而确定图像中的对象是否具有特定特征，例如，产品是否有缺陷。反馈工具134实时地将图像检测器132的输出传回给用户120，例如通过处理设备102的用户接口。在这种情况下，可以立即（例如在拍摄照片的几秒钟内）通知用户120照片是否满足已由图像检查器132评估的标准。

图2示出了当引导用户将摄像头定位在相对于目标对象或位置的预定义有利位置时，混合现实帧对齐工具如何动态更新数字目标的位置的示例。

当进入图像捕获模式时，混合现实帧对齐工具投影第一数字目标（a）和第二数字目标（B）。第二数字目标（B）被投影到相对于现实世界场景中的识别“锚定对象”固定的位置，。假设第二数字目标的投影位置对应于用户想要拍摄的对象的真实世界位置。

在整个图像捕获过程中，第二数字目标（B）保持固定（例如锚定）在真实场景中的固定位置，而第一数字目标（a）由头显的投影系统移动，以反映系统摄像头的移动。因此，用户看到第一数字目标（A）相对于场景以及相对于第二数字目标（B）的运动。

当用户如视图202所示向上看时，摄像头的视线向上倾斜（在虚线箭头指示的位置），使得摄像头的视线与第二数字目标（B）正上方的位置相交。这意味着用户相对于图像对象的方向不同于预定义有利位置的方向。当用户降低视线以向下移动头显时，第一数字目标（A）的位置（从用户角度）发生变化，以与第二数字目标（B）对齐，如视图204所示。在本例中，用户已重新定向摄像头，使其相对于目标具有与预定义有利位置一致的方向对齐。

如另一视图206所示，第一数字目标（A）最初可能出现在与第二数字目标（B）的平面不平行的平面中。这意味着用户相对于图像对象的角度方向不同于预定义有利位置的角度方向。当用户围绕图像对象在圆圈中行走时，第二数字目标（B）的角方向似乎发生移动，而第一数字目标（a）的角方向与用户的视线平行。当摄像头的角度与预定义的有利位置相关联的角度一致时，这两个平面看起来彼此平行，如视图208所示。在这个示例中，用户已重新定向摄像头，使其相对于目标具有与预定义有利位置一致的角度定向。

如另一视图210所示，第一数字目标（A）和第二数字目标（B）可能具有不同的尺寸，即使它们在用户视线内的方向和平面方向上对齐。这意味着用户与图像对象的分离不同于预定义的有利位置。在该示例中，当用户朝第二数字目标（B）的固定现实世界位置行走时，第一数字目标（A）的尺寸增大，当用户朝相反方向行走时，第一数字目标（A）的尺寸减小，如视图212所示。值得注意的是，可以使用其他视觉效果来传达相同的概念。

如上文所述，混合现实帧对齐工具可响应于确定第一数字目标（a）和第二数字目标（B）满足预定义的空间关系而捕捉目标的照片。在不同的实现中，可以基于不同的标准来满足预定义的空间关系，例如基于关于方向对齐、角度定向和/或深度定义的一个或多个条件。

在图2的示例中，预定义空间关系的满足取决于摄像头相对于图像目标的方向、摄像头相对于图像目标的角度分离以及摄像头相对于图像目标的深度。混合现实帧对齐工具114确定目标之间满足预定义的空间关系，并自动捕获图像或将输出传送给用户，以表示摄像头位于预定义的有利位置，以便用户可以手动拍照，例如通过提供触摸、语音、或系统的视觉输入。

图3A-3D示出了混合现实帧对齐工具的示例投影，所述工具可用于引导用户将摄像头定位在相对于感兴趣的对象312的预定义有利位置。

图3A示出了由在头显304执行的混合现实帧对齐工具生成的示例数字目标初始位置。例如，混合现实帧对齐工具可以定义一个坐标系，所述坐标系的原点固定在场景中已识别的锚定对象上。第一数字目标306以相对于所识别的锚定对象的预定义偏移投影在对应于目标摄影对象的位置。混合相对帧对齐工具同时控制投影光学器件在相对于头显304固定的位置投影第二数字目标308。因此，当用户302移动头部以改变头显304的位置时，第二数字目标308移动以镜像所述位置。预定义空间关系的满足可致使头显304自动捕获感兴趣对象的照片，或者可选地，提示用户输入触发图像捕获的输入。

图3B示出了当用户将摄像头从图3A所示的位置移向预定的有利位置时，数字目标306、308的位置发生的相对移动。图3C示出了当用户将头显304移动到与预定义有利位置一致的位置时，数字目标306、308的位置发生的另一相对移动。这里，用户302已经将头部从图3B所示的位置移动，以使视线进一步向下朝向第一数字目标306，使得第二数字目标308移动到与第一数字目标306相对对齐的位置。在一个实现中，混合现实帧对齐工具向用户302提供视觉或音频提示，以指示头显304现在处于与预定义有利位置一致的位置。例如，第一数字目标306和第二数字目标308可以合并成单个目标和/或目标的颜色可以改变。在一个实施例中，播放音频效果以传达头显304正确定位在对应于预定义有利位置的位置。

当HMD 304的位置与预定义有利位置的位置一致时，第一数字目标306和第二数字目标308满足预定义的空间关系。这个时候，系统可以自动捕获对象312的图像，或者等待用户302提供触发图像捕获的输入。

图3D示出了图像检查工具的示例性菜单选项314，如上文关于图3A-3C所述，图像检查工具可在拍摄照片后呈现。这里，示范性菜单选项314作为混合现实图形用户界面的一部分呈现。菜单选项314包括“比较”、“重试”和“完成”。如果用户选择“比较”选项，则图像检查工具可以例如从数据库中提取参考图像，并将参考图像并排投影到新捕获的图像，以允许用户302主观地评估两个图像之间的相似性和差异性。例如，可以呈现非缺陷产品的参考图像，以允许用户302评估新捕获的图像中呈现的产品是否有缺陷。

图4示出了用于引导用户将相机定位在相对于图像对象的预定义有利位置的示例操作。第一接收操作402接收指定坐标系锚定点的真实世界对象的输入图像。第二接收操作404接收定义真实世界锚定点和预期图像对象位置之间的空间偏移（例如，2D或3D向量）的输入。例如，系统管理员可以在初始化或设置过程中向应用程序提供接收操作402和404的输入。

在应用的图像捕获模式期间，识别操作406识别场景中先前被指定为坐标系定位点的真实世界对象。坐标系定义操作408定义具有与所识别的真实世界对象的位置相对应的原点的三维坐标系，并且第一投影操作410使用所定义的空间偏移将第一虚拟目标投影到预期的图像对象位置。第二投影操作412将第二虚拟目标投影到相对于系统摄像头在空间中保持固定的位置。当用户移动摄像头时，更新操作414动态地更新第二虚拟目标在三维坐标系内的位置，以确保第二虚拟目标投影到相对于摄像头的固定偏移处连续出现，使第一个数字目标移动到位，以反映摄像头的运动。在一个实现中，更新操作414基于摄像头和真实世界锚定点之间的相对距离改变第一数字目标的大小。

确定操作416确定第一虚拟目标和第二虚拟目标是否满足预定义的空间关系。在不同的实现中，预定义的空间关系可能取决于两个目标的一个或多个相对位置、方向和/或大小。如果确定操作416确定不满足预定义的空间关系，则继续更新操作414，直到确定满足预定义的空间关系，此时图像捕获操作418捕获图像对象的图像。

相关专利：Microsoft Patent | Mixed reality image capture and smart inspection

名为“Mixed reality image capture and smart inspection”的微软专利最初在2020年11月提交，并在日前由美国专利商标局公布。

微软专利提出MR帧对齐工具，实现更好的图像捕获和智能检测

您可能还喜欢...

精选头条

行业案例

微软XR专利

Microsoft Research

微软专利提出MR帧对齐工具，实现更好的图像捕获和智能检测

您可能还喜欢...

微软AR/VR专利提出单反射镜在非双云台结构下的多方向扫描

微软AR/VR专利分享为MR透视视图提供更多外围视觉

微软专利提出为AR眼镜用户识别属于自己的AR眼镜收纳盒

精选头条

行业案例

微软XR专利

Microsoft Research