微软专利提出用AR/VR模拟环境开发计算机视觉算法，降低开发成本和复杂性

编辑：刘余欣 | 分类：微软 / 快讯 | 2022年8月30日

加入映维网会员

利用基于虚拟现实和增强现实的模拟环境来开发计算机视觉和语音算法

（映维网Nweon 2022年08月30日）为新的计算机视觉和语音平台设计满足硬件和算法要求的解决方案非常困难，因为这涉及、运动和物理以及传感器等诸多发计算机视觉和语音算法通常需要在广泛的用例中进行探索和分析，而的传感器配置、环境条件和运动条件必须经常调查以验证算法和设备将可靠地按预期运行，这可能会带来重大的成本和调度问题。

在名为“Computer vision and speech algorithm design service”的专利申请中，微软就提出使用合成世界界面模拟数字环境、传感器和运动，从而开发计算机视觉和语音算法。这种数字环境、传感和运动又可以以真实或虚拟图像集合的形式作为硬件的计算机视觉和语音功能的输入。将合成数据云服务与传感器基元库、运动生成器和具有程序性和游戏性能力的环境一起使用，可以促进涉及计算机视觉和语音能力的制造解决方案的工程设计。

简单来说，微软认为可以利用基于虚拟现实和增强现实的模拟环境，因为这可以有利地加速开发，同时降低成本和开发复杂性。

微软专利提出用AR/VR模拟环境开发计算机视觉算法，降低开发成本和复杂性

在一个实施例中，合成视频场景可以不基于实际物理设置的图像，而是可以使用三维渲染技术创建。适用的三位渲染技术可以包括内容库、设备和传感器模型库、程序环境、场景交互控件、照明模型、物理模拟和动画运动。

合成视频可以通过定义一个或多个虚拟传感器平台来生成，虚拟传感器平台由各种传感器、惯性测量单元（IMU）、透镜、处理器等组成。另外，定义的合成场景呈现虚拟化对象，虚拟化对象由经历虚拟移动的合成传感器查看，从而创建一组图像，然后对其进行挖掘，以获得不仅可用于定位，而且可用于定义衍生合成场景的数据。正如用户可以在房间周围移动真实世界的摄像机，虚拟放置在合成场景中的合成摄像机可以生成等效的数据集。

总的来说，微软提出了一种成本有效的端到端计算机视觉和语音设计服务，其可用于快速优化定位、对象识别、对象跟踪、对象重建和/或语音识别算法和硬件配置。例如，与手动构建和测试过程相比，合成设计解决方案可以将开发时间从几个月缩短到几天，并可能将开发成本降低几个数量级。

微软专利提出用AR/VR模拟环境开发计算机视觉算法，降低开发成本和复杂性

图4是计算机视觉和语音设计服务400的框图。计算机视觉和语音设计服务400包括传感器平台模拟器402，其可以实现用于通过模拟硬件优化来改善计算机视觉的合成服务。传感器平台模拟器402可用于模拟包括一个或多个虚拟传感器的一个或更多硬件配置。

计算机视觉和语音设计服务400同时操作其他四个所示模块，包括运动编排器404、环境编排器406和实验生成器408、实验运行器410以及计算机视觉和语音应用评估器412。

在要给实施例中，运动编排器模块404允许计算机视觉和语音设计服务400的用户通过表达目标运动轮廓来建模与测试计算机视觉和语言传感器平台和算法相关的运动。运动编排器404可用于模拟一个或多个虚拟环境中的一个或更多个模拟硬件配置的运动。示例可以包括创建穿过虚拟场景或房间的多个随机漫游的实例，其具有各种持续时间、速度和运动路径。

环境编排器406用于模拟一个或多个虚拟环境。在一个实施例中，环境编排器406允许用户操纵合成环境，例如照明设置和特定对象（例如门）的状态。另外或可选地，环境编排器406定义场景中房间的尺寸、对象、照明、间距或其他属性以及其中的内容。

实验生成器408将高级参数转换为完整实验的多个实例，从而定义要在数据生成中使用的运动和环境集。实验生成器408可用于生成一个或多个模拟硬件配置的合成实验数据，所述模拟硬件配置在一个或更多个虚拟环境中具有模拟运动。

换句话说，实验生成器408生成多个候选计算机视觉和语音解决方案，其具有待测试的不同硬件配置或可调整的计算机视觉和语言算法参数。在一个实施例中，实验运行器410提供用于调度、监视、管理和审查数据生成中使用的实验批的结果的框架。

实验运行器410可用于迭代实验生成器以生成硬件配置、虚拟环境和运动的一个或多个组合的合成实验数据。迭代处理可以使用计算机视觉和语音设计服务400，并经由云环境200访问的不同计算机视觉和语言算法来完成，从而测试算法在给定硬件配置的情况下对计算机视觉和语言建模的程度。

在这种情况下，实验生成器使用各种计算机视觉和语音算法为合成实验中的一个或多个硬件配置计算计算机视觉和语言数据，以生成指示计算机视觉和言语参数的计算机视觉和语言算法输出数据，例如坐标、对象大小、对象方向、对象加速度、语音、音频、对象组合、对象的动态和属性等。

在一个实施例中，计算机视觉和语音应用评估器412计算机视觉和语言算法将数据输出到GT输入数据，用于虚拟化硬件配置（具有或不具有模拟运动），以确定各种计算机视觉和语言算法的执行效率。可以通过将计算机视觉和语音算法输出数据的方差与合成环境中的虚拟硬件配置的GT数据进行比较，以确定各种计算机视觉和语言算法的有效性的这种确定。

对于虚拟硬件配置，被识别为与GT最接近或在接近范围内的计算机视觉和语音设计算法可以识别为更精确地计算计算机视觉和语言参数，并相应地进行存储。

其他计算机视觉和语音算法可能确定为不太准确和/或需要额外配置。对于精度较低的计算机视觉和语音应用，可以反馈模拟虚拟硬件配置与其ground truth值相比的视差数据，以提高此类计算机视觉和语言应用的性能。通过针对其他合成场景、运动和硬件配置运行更多测试来优化不足的计算机视觉和语音应用，直到计算机视觉和语言应用在方差阈值内执行。这种AI处理和机器学习可以使用本文描述的计算机视觉和语音结果来改进计算机视觉和语言算法，无需用户干预。

计算机视觉和语音设计服务400的操作包括使用所示的各种模块的多个过程。用户可以使用传感器平台模拟器402设置设备、环境和运动引擎。参数定义了目标设备、场景和环境，以及将用于设计过程的运动类型。用户可以激活运动编排器模块404以设计如何可以为特定类型的实验操纵运动引擎，并且可以激活环境编排器模块406以设计如何为特定类型实验操纵环境引擎。例如，研究人员/工程师可能对环境的重新定位部分感兴趣，因此可以生成数千个5秒的测试，所有测试都在单个建模房间的同一区域内，其中房间的内部条件系统地变化，例如家具移动或变化的照明条件。

用户可以激活实验生成器模块408以生成产生计算机视觉和语音设计问题的特定方面的实验集。实验可分为多种类别，如一般测试、研发或压力测试。一般测试通常旨在生成被测计算机视觉和语音单元基本覆盖所需的最小代表性数据集。研究和开发实验可能会有细微差别，试图以设备支持的最小或最大照明条件为目标，或发现特定产品或算法缺陷。

除了模拟的长时间运行或不稳定的使用模式外，压力测试往往针对设备可能遇到的最广泛的实验集。通常，用户可以利用实验生成器408来参数化底层框架并生成用于计算机视觉和语音算法的全自动模拟和分析的工作负载。然后，用户可以使用实验运行器410来调度、启动、管理和监控用实验生成器408设计的各种作业。可选的评估器（见图6）可用于将计算的计算机视觉和语音数据与地面实况数据进行比较。