空 挡 广 告 位 | 空 挡 广 告 位

苹果专利探索为远程会议中的AR/VR用户交互提供情景上下文说明

查看引用/信息源请点击:映维网Nweon

提供情景上下文说明

Vision Pro QQ群交流653565822

映维网Nweon 2024年01月03日)对于参与本地会议的远程XR用户,他们可能会看到缺少情景说明的用户表示。例如在本地会议中,本地用户可以伸手抓取一个杯子并喝水,但对于远程XR用户,他们可能只会看到表示本地用户的虚拟角色摆出类似喝水的空举动作,但无法确定这个行为背后的本质意义。

所以在名为“Showing context in a communication session”的专利申请中,苹果介绍了一种在通信会话中提供情景上下文说明的方法。

在图1中,物理环境150是一个房间,其中包括壁挂165、沙发170和咖啡桌180上的咖啡杯175。电子设备155包括一个或多个摄像头、麦克风、深度传感器或其他传感器,以捕获关于和评估物理环境150及其中的物体的信息,以及关于电子设备155的用户160的信息。关于物理环境150和/或用户160的信息可用于在通信会话期间提供视觉和音频内容。

图2示出图1中的示例性电子设备105。在通信会话期间,电子设备105提供视图200,视图200使得用户110能够在与物理环境100对应的3D环境中查看用户160的至少一部分的表示260。因此,视图200包括用户160的表示260以及壁挂120的表示220和桌子上的花125的表示225。

另外,用户160的表示260可以提供用户160的实时视图,例如基于传感器数据,包括在通信会话期间获得的用户160的图像和其他传感器数据。

当用户160四处移动、做出手势和面部表情时,可以为视图200中的表示260显示相应的动作、手势和表情。例如,当用户160在物理环境150中向左移动两英尺时,视图200可以显示260在与物理环境100相对应的视图200中向左移动两英尺的表示。

在一个示例中,电子设备155是头戴式设备,用户面部的实时图像数据包括用户脸颊和嘴巴的朝下摄像头图像以及用户眼睛的朝内摄像头图像,而它们可以与用户面部、头部和躯干的其他部分的先前图像数据组合。

图3示出用户160在物理环境150中坐下。电子设备155的传感器可以检测到这种活动。例如,可以基于检测用户160的运动和/或诸如沙发170在用户160下方的对象的相对位置来检测活动,例如,沙发170的一部分是否正在触摸或即将触摸用户160。

在一个实施例中,对用户160的身体运动进行分类或以其他方式评估。基于传感器数据生成用户的姿势。通常,计算机程序和/或机器学习模型可用于解释传感器数据,以识别满足条件的用户活动和/或环境特征,从而提供情景上下文说明。

在图3的示例中,检测坐姿状态满足显示情景上下文特征以提供情景上下文的标准。这可以涉及检测用户运动(例如躯干向下移动,腿部弯曲等),以及与所述运动对应的交互式对象(例如沙发170在所述运动的方向)。

在本例中,在视图200中提供了沙发170的一部分的抽象表示300。所述表示300提供的上下文可使视图200的用户更容易地解释用户160的动作,例如更容易地识别理解用户160正在坐下。

在图3的示例中,表示300是基于沙发170相对于用户160在物理环境150中的位置的点云表示。表示300的特征限制了在视图200中显示的关于物理环境150的信息量。在本例中,点云表示不显示沙发170的类型、大小或形状。

可以要求用户160同意和/或提供定义其环境中有关对象的信息的透露的偏好,例如是否透露所述对象以提供上下文,将透露多少细节,将向谁透露这些对象等等。

所述表示300可以基于由电子设备155获得的传感器数据,例如,在动作之前立即获得的传感器数据或来自先前时间的作为历史数据存储的传感器数据。表示300的大小可能不对应于它所表示的对象的大小。例如,可能没有必要显示沙发170的完整尺寸来提供用户坐下的上下文。例如,表征物可以基于与用户160的距离而不超出该距离。

在一个实施例中,用户活动随时间发生,并且表示260具有随时间变化的特征。例如,当用户开始坐着时,表示300可能具有微弱的外观,而当用户继续坐着时,表示300可能看起来变暗或变得更密集。

在一个实施例中,关于对象的信息是随时间获得。最初,基于可用的有限传感器数据,关于对象的类型、大小、形状、状况等信息可能知之甚少。在这样的初始阶段,可以使用抽象表示。但随着时间的推移,可以获得更多关于物体的传感器数据,而表示可以改进以包含更多细节,从而符合用户的同意和偏好。

图4示出用户160在物理环境150中坐下的另一示例。在本例中,基于检测到用户160正坐着,在视图200中提供了沙发170的一部分的类表面表示400。所述表示400提供的上下文可使视图200的查看者(用户110)更容易地解释用户160的动作。

图5示出用户160在物理环境150中坐下的另一示例。在本例中,基于检测到用户160正坐着,在视图200中提供了表示沙发170的一部分的类似奥斯曼的表示500,从而帮助视图200的查看者(例如用户110)更容易地解释用户160的动作。

作为另一个示例,可以使用通用沙发的表示,而不是使用沙发170的现实表示。可以根据对象类型或功能选择通用沙发,并且可以或可以不具有与所表示的实际沙发170的特征相对应的特征。

图6示出用户160在物理环境150中坐下的另一示例。在本例中,基于检测到用户160正坐着,在视图200中提供了表示沙发170的逼真表示600。所述表示具有与沙发170的实际外观相对应的特征。

表示600可以基于沙发170的实时和/或或先前的传感器数据生成。可以基于生成沙发170的3D模型来生成表示600。可使用各种技术推断或生成不被传感器观察到的沙发170的部分。在一个示例中,对象与可获得完整信息的3D模型相匹配,例如基于描述沙发170的图像/传感器数据识别沙发170的特定品牌和型号。

逼真的表示600提供上下文,使视图200的查看者(例如用户110)能够更容易地解释用户160的动作。

图7示出用户160在物理环境150中伸出并抓住咖啡杯175。电子设备155的传感器可以检测到这种活动。例如,可以基于检测用户160的运动、用户的注意力检测和/或诸如咖啡杯175的相对位置来检测活动。

在一个实施例中,对用户160的身体运动(例如伸出手)和/或用户160的注意力(例如看着咖啡杯175)进行分类或以其他方式进行评估。

在一个实施例中,物理环境150中的对象标识或分类为交互式。可以基于传感器数据(例如识别用户关节的3D位置的模型160)生成用户的姿势,例如手的形状。通常,计算机程序和/或机器学习模型可用于解释传感器数据,以识别满足提供上下文条件的用户活动、注意力和/或环境特征。

在图7的本例中,检测到达和抓取条件满足用于显示上下文特征以提供上下文的标准。具体地,在视图200中提供了咖啡杯175的抽象表示700和底层咖啡桌180的抽象表示710。

所述表示700、710提供可使视图200的观看者更容易地解释用户160的动作。在本例中,表示710提供了咖啡杯来自何处的上下文(例如在表面之上而不是漂浮在半空中),并且表示700提供了用户触达和抓取动作的上下文。在本例中,基于识别对象之间的接触来识别要显示的对象,例如,基于图像/深度数据检测咖啡杯175在被抓取和拿起之前是放在咖啡桌180之上。

在一个实施例中,一随着时间的推移,表示260发生相应的特征变化。例如,当用户160开始伸出并抓住咖啡杯时,表示700、710可能会淡入。当用户160抽出拿着咖啡杯175的手喝饮料时,咖啡桌180的表示710可能会淡出,因为它不再与情景上下文相关。

当用户160然后将咖啡杯重新放在咖啡桌180上时,表示710可以重新出现。最后,当用户160然后在没有咖啡杯175的情况下缩回他或她的手时,这两种表示700和710都可能消失。在本例中,物理环境150的对象的表示700、710用于提供情景上下文,并随时间实时调整,以提供对理解用户当前动作的上下文有用的适当信息量。

图8示出用户160在物理环境150中伸出并抓住咖啡杯175的另一示例。在本例中,基于检测到用户160伸出并抓取对象,在视图200中提供了表示咖啡杯175的表示800和表示咖啡桌180的表示810。与图7的表征700、710相比,表征800、810不那么抽象,并且具有更多的特征,更准确地对应于咖啡杯175和咖啡桌180的实际外观。表示800、810可以基于对象的实时和/或或先前的传感器数据生成。

表示800可以是基于咖啡杯175相对于用户160在物理环境150中的位置的点云表示。类似地,表示810可以是基于咖啡桌180相对于用户160在物理环境150中的位置的点云表示。

图9示出了用户160在物理环境150中将注意力引向另一个人900。电子设备155的传感器探测到这种活动。检测用户160的注意力可以基于检测用户的注视方向来检测,以识别用户160正在看什么对象或用户160已经改变焦点。

检测用户160的注意力可以另外或可选地基于检测另一个人、动物或其他物体正在做与潜在的注意力抓取事件相对应的事情来确定。在一个实施例中,环境150及其中的对象根据类型、活动、这些对象是否寻求注意、对象是不是用户注意的焦点等进行分类或以其他方式进行评估。

通常,计算机程序和/或机器学习模型可用于解释传感器数据,以识别满足提供上下文条件的用户活动、注意力和/或环境特征。

在图9的本例中,检测到另一个人900存在于物理环境150中,满足显示上下文特征以提供上下文的标准。具体地说,在视图200中提供了人900的抽象表示910。使用表示910的抽象性可以保护人900的隐私。

在另一个示例中,当用户160倚靠在物理环境150中的某物(例如墙壁)时,就满足了显示上下文的条件。在这样的示例中,提供上下文特性可能包括提供用户160在视图200中所依赖的对象的逼真的或抽象的表示。

图10示出了流程图。

在1010,方法1000基于用户在物理环境中的图像生成用户的至少一部分的表示。这可以涉及例如基于用户的一个或多个图像和/或其他传感器数据生成用户的至少一部分的3D模型。3D模型可以随着时间的推移而更新。可以通过基于识别用户或基于用户的特征选择3D化身来生成表示。

在另一个示例中,生成用户的表示包括基于传感器数据生成点云。例如,可以基于当前获得的或先前获得的与用户外观相对应的图像和其他传感器数据来致密化这样的点云。

在1020,提供用于包含在由远离物理环境的电子设备提供的三维环境视图中的表示。这可以涉及向一个或多个其他电子设备发送或传输包括该陈述在内的电子通信。

在涉及物理环境中的用户电子设备和位于远离用户物理环境的另一物理环境中的电子设备的通信会话期间,可以提供所述表示。另一电子设备可以基于所述其他物理环境或以其他方式生成3D环境的视图。另一电子设备可以接收用户的表示并将其包括在3D环境的视图中。

在1030,确定提供关于物理环境的上下文的条件是否得到满足。例如,这可能涉及确定用户动作与物理环境对象的交互相对应,比方说用户坐下,伸出手,转向另一个人等等。

在一个示例中,确定满足提供上下文的条件涉及确定用户操作对应于与对象的交互或与对象交互的意图。在一个示例中,确定提供上下文的条件得到满足涉及确定用户动作对应于坐在对象上或坐在对象上的意图,其中对象的表示是坐姿表面的表示。在一个示例中,确定提供上下文的条件是否满足涉及确定用户操作是否对应于依赖对象或依赖对象的意图。在一个示例中,确定满足提供上下文的条件涉及确定用户操作对应于抓取对象或抓取对象的意图。在一个示例中,确定提供上下文的条件得到满足涉及确定物理环境中的活动具有与吸引用户注意或激发用户行动相对应的特征。

在1040,在确定提供上下文的条件得到满足的基础上,提供表示物理环境对象的上下文特征,以便将其包含在远离物理环境的电子设备所提供的3D环境视图中。提供上下文特征可涉及向一个或多个其他电子设备发送包含上下文特征的电子通信。提供上下文特征可以在涉及物理环境中的用户电子设备和位于远离用户物理环境的另一物理环境中的电子设备的通信会话期间发生。

相关专利Apple Patent | Showing context in a communication session

名为“Showing context in a communication session”的苹果专利申请最初在2023年9月提交,并在日前由美国专利商标局公布。

需要注意的是,一般来说,美国专利申请接收审查后,自申请日或优先权日起18个月自动公布或根据申请人要求在申请日起18个月内进行公开。注意,专利申请公开不代表专利获批。在专利申请后,美国专利商标局需要进行实际审查,时间可能在1年至3年不等。

另外,这只是一份专利申请,不代表一定通过,同时不确定是否会实际商用及实际的应用效果。

本文链接https://news.nweon.com/116515
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯