开源 归档 - 映维网资讯 https://news.nweon.com/opensource 影响力虚拟现实(VR)、增强现实(AR)、混合现实(MR)产业信息数据平台 Thu, 29 Jun 2023 05:10:41 +0000 zh-CN hourly 1 谷歌为Cardboard开源项目发布Unity插件 https://news.nweon.com/75094 https://news.nweon.com/75094#respond Tue, 26 May 2020 23:56:13 +0000 https://news.nweon.com/75094 谷歌同时为iOS/Android提供了一个示例应用程序]]> 查看引用/信息源请点击:映维网

谷歌同时为iOS/Android提供了一个示例应用程序

映维网 2020年05月27日)谷歌于2019年底决定开源Cardboard头显,从而为开发者社区开发iOS和Android体验提供了最大的自由度。这一举措受到了开发者社区的欢迎,而谷歌进一步承诺会发布发布一个用于Unity的插件。今天,谷歌终于实现了这个承诺,他们在Unity Asset Store发布了相关的Google Cardboard开源插件。

谷歌今天发布了Cardboard Unity SDK,这样用户就可以继续使用Unity创建智能手机XR体验。Unity是世界最流行的3D和XR开发平台之一,这个Unity SDK将为Cardboard内容创建者提供一个更为便利的工作流程。

除了Unity SDK,谷歌同时为iOS/Android提供了一个示例应用程序。这能够大大帮助尝试调试内容的开发者。谷歌指出:“随着我们开始远离智能手机虚拟现实技术,并将其交给开发社区中的能力更强人员,这个SDK的发布不仅实现了我们对Cardboard社区的承诺,而且显示了我们对社区的支持。”

如果你有兴趣学习如何利用Carboard开源项目进行开发,请参阅谷歌的开发者文档或访问Google VR GitHub以获取源代码、构建项目和下载最新版本。

]]> https://news.nweon.com/75094/feed 0 布朗大学用外置模组实现手机AR手部交互 https://news.nweon.com/67536 https://news.nweon.com/67536#comments Fri, 18 Oct 2019 00:26:13 +0000 https://news.nweon.com/67536 团队开放了源代码]]> 查看引用/信息源请点击:brown

团队开放了源代码

映维网 2019年10月18日)布朗大学研究人员开发的全新软件系统将智能手机变成了增强现实的传送门,用户可以把虚拟积木、虚拟家具和其他虚拟对象放置在现实背景中,并用双手进行操作,仿佛它们确实存在于物理世界一样。

团队希望这款名为Portal-ble的新系统可以成为艺术家、设计师、游戏开发者和其他用户进行增强现实实验的工具。据悉,他们在ACM Symposium on User Interface Software and Technology大会介绍这项研究。另外,Andriod的源代码可通过研究人员的网站进行免费下载,也可以直接在Github项目托管页面下载,而iPhone代码将很快推出。

布朗大学计算机科学系的助理教授Jeff Huang及其学生开发了这个系统,Jeff Huang表示:“AR将成为一种优秀的交互新模式。我们希望开发出赋予AR便携性的产品,从而允许人们可以在任何地方使用,无需笨重的头显。我们同时希望人们能够用双手自然地与虚拟世界交互。”

Jeff Huang指出,Portal-ble的双手交互灵感来源于《Pokemon Go》等AR应用的挫折感。这种体验可以将虚拟对象放置于真实世界,但你只能通过屏幕来与之交互。

触屏交互并不是一种令人满意的交互方式。在现实世界中,我们用双手进行交互。我们用手开门,捡起物品和投掷物品。所以,我们认为用手操作虚拟对象要比触屏操作要强大得多。这就是Portal-ble的不同之处。

他们的系统利用了附接于智能手机背面的小型红外传感器,后者能够追踪双手相对于虚拟对象的位置,并可以支持用户实现拾取,转动,堆叠或释放等操作。它同时支持用户在真实背景“绘图”。作为演示,Jeff Huang及其学生在校园的一个公共空间中绘制了一个虚拟花园。

这位教授指出,这项研究的主要技术贡献是开发出了合适的适配与反馈工具,能够支持人们与虚拟对象进行直观的交互。

Jeff Huang解释说:“事实证明,如果你尝试应用现实世界的物理原理,拾取虚拟对象将非常困难。人们往往会在错误的位置尝试抓取对象,或者手指会穿过数字对象。所以,我们必须留心观察用户是如何尝试与虚拟对象进行交互,然后令我们的系统能够适配这些倾向。”

为了实现这一点,Jeff Huang招募了班级中的学生,并共同构思他们希望在AR世界中执行的操作,比如说堆叠积木。然后,学生请求其他被试尝试通过Portal-ble来执行所述操作,同时进行记录。接下来,他们调整系统的物理结构和用户界面以优化实际的交互。

Jeff Huang说道:“这有点像你在Photoshop中描线。我们描的线永远都不会完美,但程序可以进行调整并令其变得笔直。我们正是在尝试为用户与虚拟对象的交互带来这种适配调整。”

团队同时增加了感官反馈:对象的视觉高光和智能手机震动。Jeff Huang指出,他对于手机震动为交互提供的帮助感到非常吃惊。尽管只是握持手机的手部能够感受到震动,而非抓取虚拟对象的手部,但震动反馈确实能够帮助用户更成功地与对象进行交互。

后续研究的用户报告称,系统的适配性和反馈性令任务变得更容易,更省时,更令人满意。

他们计划继续拓展Portal-ble:扩展对象库,改进交互,并开发新活动。他们同时希望简化系统,使其完全能够支持智能手机。就目前而言,系统需要附接红外传感器和和额外的处理能力。

团队开放了源代码,并希望大家能够自由下载并进行尝试。

他说道:“我们只是希望将其开放给大家,并看看大家会用来做什么。代码已经存放于我们的网站上,供人们下载,编辑和再开发。我们非常期待大家会用它来做什么。”

]]>
https://news.nweon.com/67536/feed 1
Facebook用逼真物理建模构建智能具身化AI、AR https://news.nweon.com/62369 https://news.nweon.com/62369#respond Sat, 15 Jun 2019 03:22:34 +0000 https://news.nweon.com/62369 释放AR眼镜的潜力,并帮助人们更好地理解周遭的世界,同时以强大的新方式帮助人类进行沟通和协作。]]> 查看引用和消息源请点击:映维网

释放AR眼镜的潜力,并帮助人们更好地理解周遭的世界,同时以强大的新方式帮助人类进行沟通和协作。

映维网 2019年06月15日)当AI机器人穿过房间时,它会经过两个沙发,一张咖啡桌和数张棕褐色椅子。在地毯打转一番后,它朝研究人员所要求的钥匙径直走去。

但这实际上是Replica项目的一次数字模拟。对于这项研究,Facebook Reality Labs(FRL)针对18个样本空间创建了照片级真实感的副本,如办公室和双层房屋。

为了帮助AI研究人员向机器提供真实物理世界的感知,FRL开发了所述的虚拟空间 ,而这是开发出更强大的现实助手,以及下一代增强现实和虚拟现实体验的重要一步。Facebook的想法是,如果研究人员能够训练人工智能系统在一个逼真的数字客厅中定位一组虚拟钥匙,机器人最终将能够在真实房间中定位真实的钥匙。如果AR/VR应用程序可以学习如何与不同的物理环境进行交互,未来我们将能够通过照片级真实的数字化身来参加远方亲人的生日聚会。

研究人员相信,如果模拟环境能够捕捉到细微的细节(如镜面反射和地毯纹理),他们将能最大化训练效果。这正是FRL开展Replica项目的原因。

这个视频显示了Replica模拟与真实世界空间(左边是真实世界;右边是数字副本)

“Relica数据集为真实空间的三维重建真实性和质量设定了新标准。”FRL科学家朱利安·斯特拉布(Julian Straub)如是说道。斯特拉布曾在德国研读了电子工程学,并在麻省理工学院获得了计算机科学博士学位,然后加入FRL并专攻机器感知。首席科学家迈克尔·亚伯拉什则指出,FRL的使命是开发帮助AR和VR成为下一个计算平台所需的技术。诸如Replica这样的项目将在实现这一愿景的过程中发挥重要作用。

这是FRL创建的一个数字Replica环境

Replica精确性和保真度得益于精心设计的摄像装置,深度捕获系统,SLAM系统,以及密集重建系统的有机组合。利用以红外线投射到场景中的点,FRL的高精度深度捕获系统能够捕获桌子和椅子等大型物体和遥控器等小型物体的精确形状。

定制的SLAM和密集重建系统可以将摄像装置捕获的原始视频流转换为真实空间的副本,而即使是最为细心的用户都难以区分真假。(更多细节请参阅Replica数据集白皮书,以及团队于2018 SIGGRAPH大会的演讲介绍 )。

研究人员在陌生的Relica环境生成了一个虚拟机器人。位置随机(蓝点),然后它将要导航到目的地(红点)。研究人员向机器人给出相对于其起始位置的指令,例如“向北10米和向西15米” ,但不提供地图。机器人必须仅利用感官输入(常规RGB摄像头,某些情况包括深度摄像头)来完成目标。

1. 一小时内练习数百万次任务

Replica可以加载到AI Habitat。AI Habitat由Facebook AI开发,是一个用于具现AI研究的全新开源平台,同时旨在成为研究人员在模拟空间中训练和测试AI机器人的最强大和最灵活方式。AI Habitat允许研究人员将机器人置放于Replica环境中,并学习如何处理不同的任务,比方说“看看我的笔记本电脑是否放在厨房的桌面上”。这种任务对于人类来说非常简单,但机器人则不然,因为它们必须识别对象,理解语言,并有效地进行导航。今天的机器人(如智能扫地机)可以响应命令,但无法像人类那样理解和适应周围的世界。AI Habitat可以帮助研究人员开发能够理解物理世界的机器人。但它同时是创造下一代AR体验的重要研究工具。如果我们能够训练AI系统理解你周围的物理空间,未来有一天我们或许可以将它融入至AR眼镜。例如,它可以将你奶奶的数字副本逼真地置放于沙发之上,或者当你走过餐馆或商店时显示相关的用户评价。

Replica提供了逼真的3D数据,而AI Habitat则为模拟提供了速度和灵活度。尽管其他模拟引擎通常能够以每秒50帧到100帧的速度运行,但AI Habitat的运行速度超过每秒10000帧(单个GPU的多进程)。这使得研究人员能够更加快速地测试机器人。如果说另一个模拟器需要运行数个月的时间,Habitat只需数小时即可完成。Facebook AI研究实习生、佐治亚理工学院博士后埃里克·韦杰曼斯(Erik Wijmans),以及AI Resident巴瓦纳·杰恩(Bhavana Jain)利用这个系统来进行最先进的研究,用超过10亿帧的体验来训练机器人。虚拟机器人同时可以不断犯错,但无需担心损坏的风险,如撞墙摔倒等等。

Facebook现在已经开源了AI Habitat并发布Replica数据集,所以社区中的任何人都能够以其作为基础进行探索,尝试新方法,比较结果并从其他人的研究中学习。(关于Habitat的技术细节请访问这个页面Replica环境则托管至GitHub。)。Facebook表示,不同企业和组织的研究人员之间的信息公开共享是自然语言理解,计算机视觉等人工智能技术进步的关键,而Facebook AI和FRL相信这对AI Habitat和Replica而言同样如此。

为了建立可供所述领域中的所有人使用的性能基准,Facebook AI最近组织了一次Habitat Challenge挑战赛,邀请来自AI社区的工程师和研究人员为机器人完成特定导航任务寻找最佳的方式。

Replica数据集数能够识别并标记在虚拟空间中确定的对象,为不同类别的对象分配不同的颜色,如“椅子”或“墙壁”。AI研究人员可以利用这种“语义分段”数据来开发出更智能的系统。

Habitat团队负责人、Facebook人工智能研究科学家兼乔治亚理工学院教授领杜鲁弗·巴特拉(Dhruv Batra)认为,这种技术有朝一日可以帮助机器人学会如何智能地适应现实世界,不再仅仅局限于我们的智能手机或笔记本电脑。他与同事将其描述为从“互联网人工智能”变成“具身化人工智能”。这意味着在训练机器不仅要利用静态数据集(如汽车照片),同时需要采用交互式环境(如充满模拟汽车的模拟停车场)。巴特拉和众多AI研究人员都认为,这种交互式对于构建能够在物理世界和数字世界中帮助我们的全新智能工具浪潮而言非常有必要。

2. 打造能够创建“社交临场感”的工具

利用AI Habitat等开放式平台模拟来训练系统,研究人员可以在具身化人工智能技术方面取得进展。例如,巴特拉认为未来的工具可以帮助视障人士更好地导航周遭环境。

FRL研发总监理查德·纽科姆(Richard Newcombe)指出,其中一个令人兴奋不已的应用是将“社交临场感”带到物理世界。今天的虚拟现实能够允许用户与数百公里之外的朋友共享虚拟空间。纽科姆正致力于通过通过AR眼镜为体验带来进一步的逼真感,并在日常生活中实现社交临场感。有了这项技术,朋友和家人在未来将能以莱雅公主般的逼真全息图出现在你身边。为了创造这种社交临场感,AI系统需要支持数字化身自然而逼真地来与物理空间进行交互,或者能够将你传送至一个仿如真实的模拟环境。

纽科姆解释说:“就像FRL在研究虚拟人类时所实现的人类临场感捕获与传输一样,我们的重建研究能够实现仿佛置身于一个地方的感觉,如办公室,家里,商店,博物馆或咖啡店。”这位Facebook的研究人员热衷于开发能够感知和理解世界情景的技术。他16岁就开始涉足这个领域,并在埃塞克斯大学攻读机器人,计算机视觉和机器学习,并于伦敦帝国理工学院获得了博士学位。他于四年前加入Facebook,然后开始领先致力于实现AI和XR应用程序机器感知未来的研究和孵化团队。Replica的面世是实现这一目标的重要一步。

另一个Replica环境能够捕获诸如电源插座和书柜玻璃门背后的物体等细节。

3. 一种负责任的开源方式

打造诸如社交临场感之类的体验将需要硬件方面的突破,以及Replica和AI Habitat等训练资源的持续进步。但纽科姆指出,这同时存在重要的隐私和安全考量。

他指出:“我们必须孜孜不倦的地生成重建,场景理解,以及AI推理系统。”。研究人员和工程师,以及外部专家和公众需要通过合作来解决变革性技术对社会和个人的影响。要做到这一点,企业必须保持公开透明的态度,并分享最新的进展。在F8大会,Facebook介绍了最近关于道德设计和解决偏见的研究,而这对于AR体验和具身化AI的研究进展非常重要。

对于Replica扫描,研究人员将匿名数据,删除可识别个人的任何详细信息(例如家庭照片)。在构建这种3D重建技术时,FRL研究人员同时需要确保这是一个强大的安全系统。例如,数据安全地存储在服务器中,而且只有有限数量的研究人员能够访问。另外,团队定期与隐私,安全和系统方面的专家进行联合审查,从而确保他们遵循相关安全协议并实施最新和最严格的保障措施。只有在完成所述步骤后,他们才会向更广泛的研究社区提供扫描数据。

在AR社交临场感和高级AI助手等技术成为现实之前,我们需要更多的技术突破。例如,Facebook AI研究人员正在探索通过AI Habitat构建逼真物理建模的方法,从而帮助AI机器人理解当它碰到虚拟桌面上的虚拟玻璃杯时会发生什么情况。随着这个项目的开展,Replica和AI Habitat的研究人员相信它们将在Facebook的未来中发挥重要作用。通过实现下一代具身化AI,这种技术将能释放AR眼镜的潜力,并帮助人们更好地理解周遭的世界,同时以强大的新方式帮助人类进行沟通和协作。

纽科姆最后说道:“通过将AR眼镜作为一个平台,社交临场和AI助手将能帮助你实现最高的效率,并为你呈现你所希望看到的世界。”

]]>
https://news.nweon.com/62369/feed 0
微软为AR/VR推出Maps SDK,助你轻松创建MR旅行探索体验 https://news.nweon.com/59489 https://news.nweon.com/59489#respond Thu, 11 Apr 2019 00:55:33 +0000 https://news.nweon.com/59489 短短几周内轻松创建MR旅行探索体验。]]> 查看引用和消息源请点击:映维网

短短几周内轻松创建MR旅行探索体验。

映维网 2019年04月11日)正所谓人多力量大,在两支Microsoft Garage团队的合作之下,3D版本的Space Needle要比2D版本更加酷炫。微软今天正式推出了Maps SDK,支持开发者将3D世界数据集成至基于Unity的混合现实体验,并放出了全新的混合现实旅游体验Outings以讲述这一SDK的潜能。

Maps SDK提供了一系列的开发者友好型控件,允许创作者将精力集中在MR体验。你可以将地图控件拖放至Unity场景,并以一个开箱即用的地图作为基础(包含来自Bing地图的3D地形,以及可配置的城市和位置标签),无需从零创建自己的地图。然后,你可以覆盖其他地理锚定内容,这样用户就可以通过内置的平移,缩放和导航进行探索。

实际上,Maps SDK为开发者创建了一张的画布,允许其使用新奇有趣的方式来展示内容。无论在数据可视化,自定义3D对象/地形,或其他地理锚定内容,这个项目都可以为你提供了一个优秀的着手点,这样你就无需为地图花费太多的时间与精力,并全身专注于将创意的MR地图体验变为现实。

Maps团队高级软件工程师兼Maps SDK开发者Brian Kircher分享道:“我们一直在思考地图和新媒介之间的交集。我们不仅希望赋能MR开发者,同时渴望激发他们的创意。”

最初的Outings Garage项目是于2018年11月推出。利用从数字旅行期刊中提取丰富的图片和相关描述,这款MR体验可以向用户提供关于目的地的沉浸式说明。借助Maps SDK,以及为Outings iOS和Android应用程序提供支持的LBS数据,微软团队能够在短短几周内轻松创建类似的旅行探索体验。

延伸阅读:微软版『谷歌地球』推出正式版,支持WMR和HoloLens

Outings MR示例性体验提供了类似于移动版本的功能,并增加了MR的优点:

  • 就如同小鸟略过3D桌面地球仪,你可以通过搜索或平移/缩放探索景点
  • 保存喜爱的目的地,并建立旅行清单或行程
  • 在3D中畅游著名的自然景点和城市地标

结合Outings团队,实习生团队,以及致力于创新3D体验的其他团队的反馈,Maps SDK团队对新体验进行了细致的打磨优化,并增强了SDK。这支团队已经收集了第一方开发者的反馈意见,但同时非常欢迎第三方开发者提供的反馈。

Maps SDK目前已经托管至GitHub,全新的Outings则已经上架Microsoft Store,免费下载,支持WMR头显和HoloLens

]]>
https://news.nweon.com/59489/feed 0
Oculus VR移动机制开源工具VRTP开始支持虚幻引擎 https://news.nweon.com/58076 https://news.nweon.com/58076#respond Thu, 14 Mar 2019 00:07:33 +0000 https://news.nweon.com/58076 为VR开发者带来了易于使用的舒适移动机制插件。]]> 查看引用和消息源请点击:映维网

为VR开发者带来了易于使用的舒适移动机制插件。

映维网 2019年03月13日Oculus表示他们一个重要的目标是支持开发者构建VR工具和应用程序,所以他们今天宣布免费开源的VR Tunnelling Pro (VRTP)现已支持Unreal 4

即插即用的VR Tunnelling Pro (VRTP)可以帮助VR开发者将一系列的舒适移动机制集成至应用程序之中。每一种技术都可自行定制,并能轻松启用,从而能够提高VR应用程序的舒适度,并覆盖尽可能多的人群。VRTP已经帮助了众多Unity开发者,而从今天开始Unreal开发者同样能够享受到Oculus的帮助。这意味着Unreal应用程序可以在不影响计划表或成本的情况下马上评估和集成相关的移动机制,尤其是因为VRTP免费且开源。

VRTP已经成为Oculus和Sigtrap Games之间的持续合作,并为VR开发者带来了易于使用的舒适移动机制插件。下面这个5分钟的演示内容将向你介绍VRTP,帮助你理解系统的工作原理,以及如何启用有助于提升VR舒适度的技术。

下面则是Oculus开发者关系工程师Tom Heath和Sigtrap Games的Luke Thompson博士在OC5大会发表的演讲。他们深入介绍了VRTP中的一些技术,如隧穿和传送门,以及如何在游戏引擎中启用这些功能。

面向Unreal引擎的VRTP开源Beta版本已托管至GitHub。另外,同样开源的Unity版新迭代已经托管至GithubUnity Asset Store

]]>
https://news.nweon.com/58076/feed 0
Xsens开源运动追踪器通信模块XDA,允许用户自行编译、修改和扩展 https://news.nweon.com/56830 https://news.nweon.com/56830#respond Tue, 19 Feb 2019 00:19:34 +0000 https://news.nweon.com/56830 开源API]]> 文章相关引用及参考:映维网

开源API

映维网 2019年02月19日)Xsens MTi是一个旨在超精确和超稳定加速度、航向和方向测量的惯性运动追踪模块,而将Xsens模块绑定至主机的粘合剂是名为XDA(Xsens Device API)的API。现在,XDA迎来了主要更新:最重要的变化是,XDA已经成为一个开源软件模块,可允许用户查看其运行方式,并自行编译,修改和扩展。

XDA最初是在2003年用C/C ++开发而成,它提供了一种简单方便的方式来与Xsens的运动追踪器模块进行通信。快进到今天,传感器融合算法为这种加速度计/磁力计/陀螺仪设备提供了支持,并且远比2003年时更为成熟。因此,用户可以选择的配置选项比过去要多得多,而模块和主机之间传输的数据流同样多了很多。

这意味着我们需要功能更强大的API。它同时需要反映出当今用户运行的环境:一系列的开发者都在使用C/C ++,但并非所有人都选择这种编程语言。许多用户正在开发面向PC的应用程序,但有些用户则在使用嵌入式计算平台。今天的XDA已经远不同于2003版本,而下列功能都受到了开发者的欢迎:

  1. 围绕C/C ++接口的Wrapper,可以支持用户使用其他编程语言,如MatLab,Python和C#

  2. 众多的抽象层使得架构更具可扩展性

  3. 更丰富的功能集,提供了用户所需的所有主要功能,包括数据类型配置,波特率和硬件操作

多平台支持

对于不是为PC平台开发应用程序的人来说,向用户开放代码这项更新尤其重要。XDA始终原生支持大多数用户最常用的平台:在PC上运行的Windows和Linux操作系统。

但除了PC,市场中还存在数百种不同的嵌入式平台。今天Xsens用户最常用的嵌入式平台是Raspberry Pi,BeagleBoard和ODROID。

Xsens指出:“我们无法提供XDA的其他版本来支持它们中的每一个,但我们可以支持用户自行将XDA编译至任何选定的平台,当然,前提是它需要运行Linux或Windows操作系统。”

他们进一步解释说,他们正是希望通过开放XDA而实现所述目标。这一举措存在多个益处,其中最重要的是开发者能够在其选择的任何平台上编译API。在预测试版本中,Xsens的软件开发团队将开源XDA移植到运行Linux操作系统的Raspberry Pi开发板。端口十分容易实现,而在编译之后,XDA可以通过XBus协议与Raspberry Pi开发板进行通信,从而完美运行于MTi 1系列模块。

全新的开源XDA同时可以支持用户:

  1. 将自己的扩展添加到API并进行修改。

  2. 查看API里面的内容,并跟踪运动追踪器模块和主机处理器之间的通信流程。

由于XDA不再是黑盒子,因此开发者可以更高效地进行调试和故障排除。以往如果在涉及MTi模块的应用程序中遇到问题,开发者常常需要咨询Xsens技术支持团队,但现在他们可以看到问题发生的位置,并且在许多情况下,无需Xsens团队的帮助即可自行解决问题。即使需要技术支持,解决方案通常都会更容易实现,因为用户能够为Xsens提供详细的问题日志,帮助Xsens的工程师更快地定位和诊断。

Xsens写道:“通过向用户开发并提供源代码的免费访问,XDA进入了一个新时代。我们希望你喜欢新的开源XDA,并欢迎你提出意见和建议,以便我们进一步改进。”

有兴趣的开发者可以下载包含 Xsens Open XDA的MT Software套件。MT Software Suite 2019仍然为免费。

]]>
https://news.nweon.com/56830/feed 0
微软开源工具Light Capture为HoloLens带来更自然的照明效果 https://news.nweon.com/56604 https://news.nweon.com/56604#respond Thu, 14 Feb 2019 00:43:37 +0000 https://news.nweon.com/56604 更自然的照明]]> 文章相关引用及参考:next.reality

更自然的照明

映维网 2019年02月14日)我们离HoloLens 2的亮相只有大概两周时间,但微软的沉浸式计算平台正在努力扩展优化其“混合现实”生态系统的其他方面。

微软日前发布了一个新的Unity扩展和Mixed Reality Tookit,用以帮助开发者更轻松地为HoloLens,以及基于ARKit,ARCore和其他AR平台的增强现实体验复制自然照明。

Microsoft Mixed Reality Academy首席工程师Nick Klingensmith通过Twitter发布了Light Capture,有兴趣的开发者可以通过GitHub访问这款开源工具。

根据AR设备在物理空间中移动时所捕获的图片,Light Capture可以构建自然环境照明的复制品:Cubemap。接下来,这款工具可以将数据输入至Unity的照明系统,从而应用于3D模型中的着色器。Klingensmith指出,Light Capture在HoloLens和其他搭载显示器的AR头显上的运行效果特别优秀。另外,通过用于Unity的ARFoundation包,开发者同样可以将这款工具应用于ARKit和ARCore应用程序。

需要注意的是,HoloLens摄像头可以锁定为特定曝光度以更准确地捕获光线变化,但其他设备却不会这样,从而可能导致“混浊”的照明。另外,由于Light Capture工具需要利用设备的摄像头,因此系统可能无法同时运行其他基于摄像头的活动,如Vuforia标记追踪或通过混合现实捕获的摄像头视频流。

对于在增强现实场景中确保尽可能逼真的3D内容,照明是十分关键的组成部分,所以这款新工具有望为开发者和终端用户带来真正意义上的帮助。

]]>
https://news.nweon.com/56604/feed 0
回馈社区,已解散的Hardlight VR将开源完整触觉套装项目 https://news.nweon.com/55489 https://news.nweon.com/55489#respond Fri, 18 Jan 2019 03:55:34 +0000 https://news.nweon.com/55489 开源整个项目]]> 文章相关引用及参考:vrfocus

开源整个项目

映维网 2019年01月18日)总是会令人感到遗憾的一件事是,由于缺乏持续的兴趣,一个成功的Kickstarter项目将不得不关门结业。这正是Hardlight VR团队在2018年9月所面临的情况。其创始人当时发布了一份声明,称公司因缺乏资金而关门。这支团队日前更新了Kickstarter页面,并表示将开源整个Hardlight VR项目。

这对支持者而言并不意味着什么,因为Hardlight仍然维持关门的状态。但对于有兴趣在其技术上进行优化调整DIY的发明者而言,这意味着你将能获取制作Hardlight Suit的所有信息。

团队在声明中写道:

我们已经在MIT许可证下开源了整个Hardlight项目,这包括:

  1. 我们的SDK和Windows服务
  2. 我们的Unity,Unreal和C/C++插件
  3. 用于将游戏引擎数据转换为触觉事件的Hardlight Engine
  4. 诸如Haptic Explorer(用于触觉序列设计)和Hardlight诊断工具(用于调试触觉外围设备)等独立应用程序
  5. 数个Unity项目demo,包括我们的运动追踪原型。
  6. Hardlight套装中使用的所有塑料,数据线,电子设备和固件。
  7. 无线模块和背包PC附件等配件

你现在需要做的就是前往HardlightVR GitHub页面并下载所有必需的文件。

Hardlight VR于2017年初开始众筹活动,最终筹集了147574美元,轻松实现了最初设定的80000美元目标。在众筹期间,Hardlight Suit的早鸟优惠价是499美元,而正常价格则为549美元。众筹结束后,一切看起来都非常顺利,例如他们与Vertigo Games和Source Team等进行合作,套件将支持《Arizona Sunshine》等作品。但最终,由于缺乏持续的兴趣,Hardlight团队最终宣布关闭。

]]>
https://news.nweon.com/55489/feed 0
Facebook Mask R-CNN2Go已开源,提供对象检测、分类、分割和身体姿势估计 https://news.nweon.com/54076 https://news.nweon.com/54076#respond Fri, 14 Dec 2018 00:43:37 +0000 https://news.nweon.com/54076 开源Mask R-CNN2Go]]> 文章相关引用及参考:fb

开源Mask R-CNN2Go

映维网 2018年12月14日)MLPerf是由谷歌,斯坦福,哈佛和百度等机构组织联手打造的组织,旨在为衡量机器学习软件框架,硬件加速器和云平台的系统级性能建立一套通用行业基准。它为云端训练与推理,以及设备边缘推断提供了基准。今天,Facebook宣布正式加入MLPerf,并开源Mask R-CNN2Go。

Facebook表示:“我们长期以来都一直支持框架和硬件之间的开源标准和互操作性,通过开放式神经网络交换(ONNX)和PyTorch等项目来推动机器学习的创新。开发行业标准的机器学习模型与基准可以帮助研究人员和工程师更好地评估和展示其工作的影响,而这正是我们支持MLPerf计划的原因。”

作为这一努力的组成部分,Facebook成立了专门的工作组来识别和应对基准创建的不同方面所出现的挑战,他们同时开源了Mask R-CNN2Go,一个针对嵌入式和移动设备优化的计算机视觉模型。

Facebook AI Infra研究科学家Carole-Jean Wu是MLPerf Edge Inference工作组的联合主席。Facebook指出:“与其他行业和学术组织一道,我们将为边缘推理类别提供基于开源数据集训练的基准参考实现。对于图像分类用例,我们将提供最先进的ShuffleNet模型实现。对于姿势估计用例,我们将提供由Facebook移动视觉研究人员开发的Mask R-CNN2Go模型实现。随着越来越多的机器学习正发生在边缘,我们有必要为边缘推理用例定义代表性的基准,并帮助社区描述设备推理执行的性能瓶颈,同时设计和优化系统,从而实现高效的设备本地推理解决方案。”

开源Mask R-CNN2Go

作为MLPerf贡献的一部分,Facebook将开源Mask R-CNN2Go,一个针对嵌入式和移动设备优化的领先计算机视觉模型。Mask R-CNN2Go构成了各种设备本地机器学习用例的基础:对象检测,分类,分割和身体姿势估计,并支持准确与实时的推理。主模型是基于更广泛的Mask R-CNN框架。顾名思义,MaskRCNN2Go专为移动设备而设计和优化。

延伸阅读:Facebook用手机实现全身动捕追踪,准确检测身体姿势,从背景分割人像

Mask R-CNN2Go目前运行在Caffe2,并计划运行在PyTorch 1.0,因为为了给开发者提供从研究到创建的无缝路径,机器学习框架正继续增加更多的功能。目前,Facebook正利用Mask R-CNN2Go在移动设备上创建有用和有趣的体验,如Facebook Camera中的“Control the Rain”增强现实效果中的手部追踪。

Facebook表示:“我们期待看到社区通过Mask R-CNN2Go开发创意性的人工智能移动体验。作为MLPerf基准测试的一部分,Mask R-CNN2Go将帮助我们的社区设计和评估移动与嵌入式设备,并实现最先进的机器学习推理。”

]]>
https://news.nweon.com/54076/feed 0
Valve正式开源为Knuckles定制的VR演示内容Moondust https://news.nweon.com/50492 https://news.nweon.com/50492#respond Wed, 19 Sep 2018 00:26:45 +0000 https://news.nweon.com/50492 Valve有可能很快就会开源至少一部分Moondust内容]]> 文章相关引用及参考:phoronix

Valve开源了Moondust内容

映维网 2018年09月18日)在今年6月,Valve为演示最新的Knuckles EV2原型而发布了一款名为“Moondust”沙箱体验,接着于上周在GitHub上创建了一个Moondust资源库。现在映维网获悉,这个技术演示作品正式迎来开源。Valve今天凌晨正式上传了Moondust源代码,为Moondust存储库选择了MIT许可。

源代码是开发者了解如何构建和组合内容的最佳方法之一。根据Valve官方信息,Moondust的开源是为了更好地给开发者提供最新发布的Knuckles EV3开发套件学习资料。这个演示内容(Moondust)利用了Knuckles所有的新输入,并且演示了控制器所能带来的新游戏机制。

今天Valve正式发布了Knuckles EV3开发套件,对输入、束带设计和续航能力等进行了优化。与EV2相比,Valve正在更大批量地生产EV3套件,而他们很快就会向更多的开发者发货。V社表示,他们期待开发者提供更多的反馈,并令现有和未来的内容兼容Kunckles控制器。对于尚未申请套件的开发者,Valve很快就会提供EV3套件的申请。具体请留意Steam社区通知和映维网的更新。

]]>
https://news.nweon.com/50492/feed 0
已开源,开发者推出Vive Tracker替代方案Hive Tracker https://news.nweon.com/50042 https://news.nweon.com/50042#respond Wed, 05 Sep 2018 00:20:45 +0000 https://news.nweon.com/50042 在或许是在3D空间中追踪对象的最佳替代解决方案。]]> 文章相关引用及参考:映维网

在或许是在3D空间中追踪对象的最佳替代解决方案。

映维网 2018年09月05日Vive追踪器能够将现实世界对象添加到你的虚拟环境,如果你想拥有这样一款设备就需要找HTC购买。当然,借助任何合适的计算硬件,你也可以构建一款复制品。日前,有开发者构建了一款开源的Vive追踪器,名为HiveTracker的设备现在或许是在3D空间中追踪对象的最佳替代解决方案。

在采用超声波和磁力解决方案时出现过一定的失误后,团队决定选择SteamVR Lighthouse技术。SteamVR技术产品HTC Vive的两个基站能扫描激光光束,首先垂直扫描,然后是水平。这是Valve工程师Alan Yates在2016年Hackaday Superconference上谈到的一项令人难以置信的技术。

尽管大多数微控制器的运行速度都不足以看到这些激光扫描,但HiveTracker背后的团队发现了一个包含蓝牙,以及一个名为“PPI”功能的微控制器。这种可编程外设互连有点像是交叉开关,但主要用于更为实时的应用控制。借助合适的软件,HiveTracker背后的团队能够检测到Lighthouse基站,并将位置和方向数据发送回计算机。

开源项目主页:https://github.com/HiveTracker/HiveTracker.github.io

]]>
https://news.nweon.com/50042/feed 0
Pixvana宣布开源视场自适应VR视频流传输及云服务技术 https://news.nweon.com/49859 https://news.nweon.com/49859#respond Wed, 29 Aug 2018 23:23:51 +0000 https://news.nweon.com/49859 允许第三方集成Pixvana的云服务和VR视频流传输技术,从而创建高品质的品牌VR视频应用]]> 文章相关引用及参考:映维网

允许第三方集成Pixvana的云服务和VR视频流传输技术,从而创建高品质的品牌VR视频应用

映维网 2018年08月30日)Pixvana是一家致力于为XR故事叙述与沉浸式媒体提供支持的服务生,他们今天宣布开放自家的软件开发套件(SDK),允许第三方集成Pixvana的云服务和VR视频流传输技术,从而创建高品质的品牌VR视频应用。

Pixvana SPIN Play SDK是一个Apache 2.0开源授权库,开发者可以将其插入到自己的Unity应用程序开发环境中,为所有VR头显添加高质量的VR视频播放,动态控制和跨平台支持。Pixvana基于云端的CMS支持媒体公司的高级数据流和可定制的元数据字段。用户可以从现有的云端存储上传和导出到自定义或公共端点。

这款工具包括灵活的媒体传输和优化的编码,而16K分辨率编码可通过视场自适应流媒体传输(FOVAS)和VR原生播放投影提供优化的分辨率。

Pixvana的产品经理Beverly Vessella表示:“应用程序开发者需要一个拖放式的解决方案,为基于Unity的虚拟现实,增强现实或混合现实应用程序添加360度和180度VR视频。通过向社区开放我们宝贵的,基于云端的VR插件,我们希望能够加速VR和AR应用的普及和创新。”

在今年早些时候,CNN就采用了SPIN Play SDK来为Oculus提供CNN VR应用程序,为读者提供突发新闻和一系列以沉浸式360度格式制作的原创故事。借助Pixvana SDK,CNN的应用程序匹配了“快速启动”的要求,在观众选择任意视频内容后即可在数秒内提供高质量的播放。

CNN的副总裁Jason Farkas说道:“Pixvana与我们的开发团队合作定制了内容管道,使得我们在纽约的编辑能够尽可能快速,无缝地将最高质量的内容带到CNN VR应用程序。”

现在任何人都可以利用Pixvana的开源SKD来开发第一方的品牌VR视频应用,如需下载,请访问Pixvana官网的开发者页面

]]>
https://news.nweon.com/49859/feed 0
Leap Motion为北极星AR头显增加控制器等组件 https://news.nweon.com/47450 https://news.nweon.com/47450#respond Fri, 29 Jun 2018 00:18:01 +0000 https://news.nweon.com/47450 并且添加了对替代头套和扭力弹簧铰链的支持。]]> 文章相关引用及参考:映维网

并且添加了对替代头套和扭力弹簧铰链的支持。

映维网 2018年06月29日Leap Motion在今天早上更新了北极星头显组件。项目CAD文件现在适用于Leap Motion Controller,并且添加了对替代头套和扭力弹簧铰链的支持。

对于这种增量支持,Leap Motion表示他们希望增加你自行组装北极星头显的能力。Leap Motion目前正在AR领域中探索工业设计和核心用户体验方面的可行与不可行,所以这是一个进行中的开源项目,未来仍将继续更新信息。

1. Leap Motion控制器

如果你正在阅读这篇文章,你有可能已经拥有了Leap Motion Controller。如果没有,你可以通过Leap Motion官网进行获取。设备搭载了Leap Motion V4手部追踪的速度与响应性,其135度的视场大于北极星头显的发射器。你可以轻松地集成至头显或拆卸出来,从而为不同的项目快速制作原型。

这个备用3D打印支架是北极星的直接替代品。由于你需要移开零件以在同一位置适配Leap Motion Controller,因此Leap Motion借此机会覆盖了显示驱动板,并且加厚了特定区域。总体而言,这种改动令设备更加稳固。

2. 更加稳固的头套

当Leap Motion开始研发北极星原型时,他们采用了3M的Speedglas Utility头套。在当时,光学系统会周围弹跳,因此随着我们移动头部时,反射图像将出现剧烈晃动。Leap Motino已经替换以更加稳固的Miller头套,并且一直在继续其他的优化。

但是,3M头套令人感到怀念,因为它容易穿戴,而且在演示时更令人放心。由于Leap Motion已经增加了面颊校准功能,从而解决了图像晃动的问题,所以他们决定回到最初的头套设计。头套与光学元件都可替换,只有铰链需要匹配头套。Leap Motion希望在你构建北极星原型时可以提供更多的选择。

3. 扭力铰链

原来头套最佳的功能之一是扭力铰链,而Leap Motion已经在最新版本中加上了这一点。扭力铰链可以减轻光学元件压在用户脸上的夹紧载荷(我们可以联想至一台笨重的VR头显,其压力很快就会令鼻子感到不舒服)。

两个扭力弹簧不断地在铝腿上施加扭转力,从而抵消作用在光学元件上的压力。最终的结果是,用户可以将光学元件悬挂在鼻子上方,甚至可以毫不费力地完全翻转光学元件。在放弃原来的铰链原型之后,Leap Motion增加了旋转限制和其他简单修改(例如在组件其余地方采用了相同的螺钉)。

Leap Motion表示,他们将在未来数周内公布更多的进展,同时采集反馈,进行优化,并且期待你利用Leap Motion设备所创造的惊喜。这家公司继续指出,考虑到生产反射器的障碍,他们目前正在探索自动化校准过程,以及一系列DIY低成本反射器的选项。

]]>
https://news.nweon.com/47450/feed 0
将2D图像人物实时映射3D模型,Facebook开源DensePose技术 https://news.nweon.com/46975 https://news.nweon.com/46975#respond Tue, 19 Jun 2018 00:12:01 +0000 https://news.nweon.com/46975 高效地计算2D RGB图像和人体三维表面模型之间的密集对应关系。]]> 文章相关引用及参考:映维网

高效地计算2D RGB图像和人体三维表面模型之间的密集对应关系。

映维网 2018年06月19日Facebook AI Reaserch(FAIR)今天正式开源了DensePose,一项将2D RGB图像的所有人类像素实时映射至3D模型的技术。

最近在人类认识方面的研究主要是定位一组零散分布的关节,如手腕或肘部。这对手势或动作识别等应用程序而言可能已经足够,但这减少了图像解释。Facebook则希望更进一步,比如说通过一张照片来进行试装,或者替换图片中朋友的衣服。对于这些任务,我们需要更完整的基于表面的图像解释。

DensePose项目旨在解决这个问题,通过基于表面的模型来理解图像中的人类。Facebook的研究表明,我们可以高效地计算2D RGB图像和人体三维表面模型之间的密集对应关系。与人体姿势估计中利用10个或20个人体关节的常见项目不同,DensePose涉及整个人体,需要超过5000个节点。Facebook系统的最终速度和准确性加速了与增强现实和虚拟现实的联系。

早期对这个问题的研究在速度上相对缓慢,而DensePose则可以在单个GPU上以每秒多帧的速度运行,并且能够同时处理数十,甚至数百人。

为了实现这一点,Facebook推出了DensePose-COCO。这个大型标注数据集,在50000张COCO的图像上手工标注了图像-人体表面(image-to-surface)的对应点。在第一阶段,标注者将划定与可见的、语义上定义的身体部位相对应的区域。在第二阶段,Facebook用一组大致等距的点对每个部位的区域进行采样,并要求标注者将这些点与表面相对应。

Facebook同时开发了一种新颖的深层网络架构。Facebook以Detectron系统为基准,并且纳入了密集姿态估计的功能。和Detectron的Mask-RCNN系统一样,Facebook采用了Region-of-Interest Pooling,并且引入了一个全卷积网络。Facebook用三个输出通道来增强网络,训练它把像素分配给各个部分,以及U-V坐标。得益于Caffe2,所产生的架构实际上与Mask-RCNN一样快。

Facebook表示,之所以开源是因为他们希望DensePose可以为计算机视觉,增强现实和计算机图形的研究人员和开发者可以更紧密地合作,并且助力新体验的发展。据映维网了解,DensePose目前已经托管至GitHub。Facebook同时为DensePose-COCO准备多个预先训练模型的性能基准,以及人工标注信息。

]]>
https://news.nweon.com/46975/feed 0
谷歌嫌皮克斯USD SDK难用,推出修订版USD Unity SDK https://news.nweon.com/46526 https://news.nweon.com/46526#respond Fri, 08 Jun 2018 00:05:58 +0000 https://news.nweon.com/46526 并提供更加准确、可靠、易用的API]]> 文章相关引用及参考:映维网

并提供更加准确、可靠、易用的API

映维网 2018年06月08日)在今年的苹果WWDC发布会上,苹果宣布与皮克斯联合制定了USDZ这一全新的开源文件格式,实现对USD文件的“零压缩”。随后,映维网也详细介绍了USDZ及其背后的核心技术USD——这一用于3D成像、增强现实和虚拟现实应用的单一对象容器文件。

USD是在新版Apache授权协议下发布的开源项目,皮克斯已经将其托管在Github上。但谷歌觉得皮克斯的USD SDK有点复杂,对AR/VR开发者并不那么友好,所以谷歌近期把皮克斯USD的Unity SDK单独抽取出来,并在此基础上作修改,推出了自己的USD Unity SDK。

谷歌重新修订了最初由皮克斯编写的USD Unity API,并提供更加准确、可靠、易用的API。谷歌说,该SDK包含一系列库文件,以支持在Unity中使用USD格式,主要的目标是让开发者能在Unity中更简易地使用USD,目前也已经托管在Github上

延伸阅读已在皮克斯发展6年,解读苹果USDZ AR文件格式,对AR发展有何帮助

USD同时是皮克斯3D图形制作管道的核心,现在已经迭代到了第四代,而且正用于皮克斯的每一个3D创作与渲染应用之中。

]]>
https://news.nweon.com/46526/feed 0
Leap Motion北极星AR头显正式开源 https://news.nweon.com/46484 https://news.nweon.com/46484#respond Thu, 07 Jun 2018 00:17:59 +0000 https://news.nweon.com/46484 北极星头显正式开源]]> 文章相关引用及参考:映维网

北极星头显正式开源

映维网 2018年06月07日)对于Leap Motion而言,他们认为物理世界和虚拟世界将在未来融合成一种单一的神奇体验,而体验的核心则是手部追踪。Leap Motion表示,手部追踪可以解锁专注于虚拟现实和增强现实的交互模式。为了探索AR交互设计的概念,Leap Motion开发了AR头显开源平台:北极星。

今天,Leap Motion宣布北极星头显正式开源,同时为用户提供一份简单的开发指南。通过开源设计,Leap Motion希望可以加速增强现实的实验,并且促进围绕AR的讨论。你可以通过Leap Motion官网或者GitHub下载相关的文档。

Leap Motion对这个参考设计的目标是,支持广泛的用户以低成本开发设备,只需使用现成的元件和3D打印组件即可。与此同时,这一切仍处于早期阶段,而Leap Motion希望大家可以积极地提供反馈。机械组件和大部分软件都已经成熟,而其他方面则有待提升。反射器和显示驱动板是定制组件,单独生产将非常昂贵,但如果是量产则具备成本效益。Leap Motion表示,他们同时在探索如何能帮助每个人更方便地使用自定义组件。

北极星头显采用了两块1600×1440分辨率京东方Fast-LCD显示屏,具备120Hz的刷新率和100度视场角。尽管典型的Leap Motion控制器视场显著高于微软HoloLensMagic Leap One等现有头显,但北极星头显上的视场则更为有限。因此,Leap Motion采用了下一代的超宽追踪模块。这些新模块已经直接嵌入至即将面世的VR头显,而AR则在准备之中。

延伸阅读Leap Motion推出AR头显开源平台——北极星

]]>
https://news.nweon.com/46484/feed 0
已在皮克斯发展6年,解读苹果USDZ AR文件格式,对AR发展有何帮助 https://news.nweon.com/46426 Tue, 05 Jun 2018 23:39:01 +0000 https://news.nweon.com/46426 USDZ是现有USD文件的“零压缩”ZIP文件。]]> 文章相关引用及参考:映维网

USDZ是现有USD文件的“零压缩”ZIP文件。

映维网 2018年06月06日)在发布ARKit 2.0的时候,苹果提到正在与皮克斯合作制定USDZ这一全新的开源文件格式,而苹果表示这为Messages,Safari,Mail,Files和News等应用的分享进行了优化,帮助用户共享强大的图形与动画。苹果同时提到借助USDZ格式目,用户将能把3D对象叠加在现实世界中,并且允许其他用户在同一时间,同一地点看到相同的事情。下面映维网将向大家解释这是什么,以及这对AR的扩张有何帮助。

ARKit 2和USDZ是iOS 12开发者预览版的一部分,而苹果已经开始向苹果开发者项目的成员开放。作为iOS 12和MacOS 10.14 Mojave的一部分,ARKit 2和USDZ支持将在今年秋季正式上线。

1. USDZ是多个USD文件的压缩文件

USDZ文件不是新事物,根据皮克斯的说法,USDZ是现有USD文件的“零压缩”ZIP文件。USD同时是皮克斯3D图形制作管道的核心,自《虫虫危机》之后就一直是如此。USD文件格式现在已经来到了第四迭代,而且正用于皮克斯的每一个3D创作与渲染应用之中。USD是用于3D成像、增强现实和虚拟现实应用的单一对象容器文件。

核心的USD文件格式可以由多位美工在他们自己的图层上同时使用,然后在每位用户完成工作后进行合并,并提供责任变更的审核跟踪。单个USD文件充当其他asset的“场景”,但单个USD文件最适合单个对象。兼容的软件套件可以利用组合文件创建3D场景,方法是将一系列单独的文件合并为一个越来越大的聚合。这才有了USDZ格式,将多个USD文件进行合并。

单个USDZ文件是只读文档。编辑内容需要用户解压文件,并提取其中的各个部分。文件不允许访问其他文件或外部asset,例如存储在不同目录中的更高分辨率asset。但如果这些asset包含在文件之中,而且设备不需要它们,它们将不会影响渲染的性能。

2. 什么是USD

能够制作计算机图形影片和游戏的管道通常都会生成,存储和传输大量的3D数据,皮克斯将其称之为“场景描述(Scene Description)”。管道中的每一个协作应用(建模,着色,动画,照明,fx,渲染)通常都有专门形式的场景描述以适应特定的需求和工作流程,而且任何其他应用程序都不可读或不可编辑。通用场景描述(Universal Scene Description;USD)是第一款公开提供的软件,对于需要稳定地,可扩展地交换和增强由一系列基本asset组成的任意3D场景而言,USD可以满足这种需求。

USD可用于基本asset(如模型)或动画的交换。但与其他交换软件包不同,USD还可以将任意数量的asset汇编和组织成虚拟舞台,场景和镜头,将它们从应用程序传输到应用程序,并且使用一个统一的API,以非破坏性方式在一个场景图形中编辑它们。USD为阅读,编写,编辑和快速预览3D几何和阴影提供了丰富的工具集。另外,由于USD的核心场景图形和“合成引擎”不受3D影响,因此USD能够通过可维护的方式进行扩展,在其他领域编码和组成数据。

USD是在新版Apache授权协议下发布的开源项目

3. 为什么使用USD

USD是皮克斯3D图形管道的核心,用于每个3D制作和渲染应用程序,包括皮克斯专有的Presto动画系统。为解决以下问题,皮克斯正致力于开发和改善USD:

  • 为定义,打包,汇编和编辑3D数据提供丰富的通用语言,促进使用多个数字内容创建应用程序。跟其他许多交换包一样,USD提供了一个low-level数据模型,在“文件格式级别”中规定了数据的编码和组织方式。USD同时提供了一组(可扩展的)的high-level模式,为网格和变换之类的概念提供了有意义的API和组织。有了这样的基础,你可以创建几何图形和阴影缓存。但USD能够进一步提供一套可通过高性能运行时评估引擎进行打包,聚合,更改,覆盖原语元素和asset的“composition arcs”,以解析所产生的“合成场景描述”和从中提取(并制作)数据。

  • 允许多位美工在相同的asset和场景上进行协作。subLayers是USD最基本的composition arc,通过支持每个美工负责自己的文件/图层,然后在USD文件中明确规定的“强力排序”中对所有的layer进行组合和解解析,subLayers可以促进不同部门或同一部门内的多位美工同时处理同一asset或场景。当建模美工改变在较弱图层中定义的几何图形拓扑结构时,该功能不是一个可以自动调整较强图层中着色数据的灵丹妙药,但它允许每位美工独立工作,同时不会擦除或编辑其他美工的作品,并且有助于提供清晰的变更审核跟踪,有助于解决变拓扑等问题。

  • 通过最小化延迟来最大化艺术性迭代。与许多媒体内容一样,实现高质量数字艺术的最重要因素之一是,能够快速并经常地在设计,asset和动画上进行迭代。3D艺术中最重要的迭代障碍之一是速度:美工对编辑结果获取“足够好的”视觉反馈的速度;在多个应用程序之间迁移新数据的速度;或者是恢复已经崩溃会话的速度。速度是皮克斯USD项目的主要目标,皮克斯将继续探索算法优化,探索如何更好地利用现代多核系统和GPU,以及压缩技术来最大限度地减少网络文件访问的延迟。

如果你的需求与上述所列类似,USD可能是一个十分具有吸引力的选择。

4. USD在皮克斯的历史发展

USD大概是皮克斯开发的第四代“合成场景描述”。在经过《玩具总动员》的强化之后,皮克斯研发团队开始在专有的动画系统Marionette(原为Menv)中增加和演变引用,分层,编辑和变更的概念。皮克斯首先在《虫虫危机》中进行应用,并且在接下来的十部故事片中延续。

到2004年,很明显的是,尽管Marionette已经相当强大,但最初的起源正成为其继续稳定发展的障碍,并且影响着皮克斯利用多核系统等重要工具。皮克斯工作室开始致力于设计和开发一款名为Presto的第二代动画系统。Presto首次用于《勇敢传说》,并在随后的所有故事片中进行了应用。Presto开始着手解决的一个问题是,Marionette用于合成和覆盖三维场景描述的各种功能无法总是有效地一起运用,因为它们分布在三种不同的格式和“合成引擎”中。Presto提供了统一的第二代场景描述,支持从单一网格到整个模型的引用,覆盖,变更和其他操作,能够以ASCII格式编码,并通过一个合成引擎进行求值。

但与此同时,皮克斯及大部分电影和特效行业都发现:对于在渲染前都维持动画和rigging的管道,如果将其转变为新管道:其中动画和rigging都烘烤至包含动画姿态点和变换的高效“姿态缓存”,这可以减少照明,效果和渲染访问数据的延迟(和内存占用)。因此在2008至2009年期间,管道开发团队开始构建TidScene,这是一个由二进制数据库(Berkeley DB)支持的几何架构,它使用轻量级场景图形作为创作和读取时间采样数据的机制。TidScene的关键元素包括一个(当时)高性能的OpenGL渲染插件(可以支持所有管道应用程序直接从TidScene进行预览渲染),以及一个本地引用功能的开发,以用于实现分层,场景图形“分离”(即仅加载场景一部分),asset引用,以及对变更的一定支持。

TidScene姿态缓存的速度,可扩展性和通用管道访问都取得了成功,但同时也让皮克斯重新回到了一个存在多个竞争系统的位置。对于在2012年启动的USD项目,其任务是结合Presto的合成引擎和low-level数据模型,以及TidScene的延迟访问,时间采样数据模型和轻量级场景图形。USD提供了一个全新的场景图形,它基于与Presto完全相同的合成引擎,并且将并行计算引入至场景描述和合成内核的所有level。

USD项目的一个关键组成部分是开发出超现代,可扩展的OpenGL渲染架构,代号为Hydra。Hydra作为USD项目一部分的原因是,它为管道中的USD采用带来了巨大的价值,可以用于皮克斯所有的插件之中,并且为如何利用USD的多线程来实现快速场景加载和成像提供了基准和参考。但Hydra本身就是一款产品,除了USD之外,Hydra已经有了其他直接的前端联接(包括Presto和皮克斯的Maya和Katana插件),而Hydra同时正在超越其最初的OpenGL灵感架构,它已经可以服务于其他后端客户端,比如说路径追踪器。

]]>
谷歌I/O多个AR创意项目已开源,帮助开发者创建更丰富AR应用 https://news.nweon.com/46173 Thu, 31 May 2018 00:51:00 +0000 https://news.nweon.com/46173 帮助开发者创建更丰富,更为身临其境的AR应用程序。]]> 文章相关引用及参考:映维网

帮助开发者创建更丰富,更为身临其境的AR应用程序。

映维网 2018年05月31日谷歌在数周前的I/O大会为ARCore带来了一次重大更新,增加了像Cloud Anchors和Augmented Images这样的新API,允许启用多用户协作式AR体验和将2D图像转换成3D对象。这一系列的新功能将能改变我们今天使用AR的方式,并且帮助开发者创建更丰富,更为身临其境的AR应用程序。

对于这些新功能,谷歌决定对平台进行测试,所以他们构建了多项真实体验,以向大家展示这一切是如何成为现实。所有的演示作品都在I/O大会的AR&VR沙箱区域进行了展示。谷歌已经对它们进行了开源,希望大家可以看到构建这些体验是有多么容易。谷歌同时分享了它们的创作过程,以及背后的一些经验教训。

1. Light Board:AR多用户

Light Board是一款AR多用户桌上游戏,其中两人玩家可以在漂浮棋盘上相互发射颜色导弹。

尽管开发Light Board对牢记终端用户是谁十分重要,但谷歌希望这对开发者而言同样是一款简单有趣的游戏,让他们在参观I/O大会的沙箱区域时可以尽情享受。开发者只有数分钟的时间进行体验,所以游戏需要允许玩家轻松上手和游玩。

Light Board的美术是一大重点,谷歌对游戏外观的目标是匹配I/O大会的设计与装饰风格。通过这种方式,应用看上去就会像是大会的一种延伸。因此,谷歌的设计哲学存在3个目标:明亮的强调色,简单的图形和自然的物理材质。


左图:I/O 2018演示,右图:Light Board游戏

谷歌是通过Maya和Cinema 4D创建了美术,用Substance Painter为模型创建了基物(physically based)材质。正如持续迭代对工程而言十分关键,这在创建美术asset方面同样非常重要。因此,谷歌十分仔细地跟踪内容管道,即便是相对简单的对象也同样如此。这允许谷歌快速尝试不同的形状和棋盘风格,然后才决定最终的设计。

在工程端,谷歌选择了Unity游戏引擎来作为开发环境。Unity为谷歌提供了一系列的重要优势。首先,可以马上且轻松地运行精美外观的3D图形;第二,引擎已经相当完整,所以谷歌可以马上开始迭代玩法代码。跟美术一样,这允许在敲定最终方案之前测试玩法选项。另外,只需小小的额外工作量,即可同时支持安卓和

开源代码:https://github.com/googlesamples/arcore-lightboard

为了处理多用户功能,谷歌使用了Firebase Realtime Database。谷歌十分关注大会期间的网络性能表现,而谷歌认为数据库的持续性质更能忍受糟糕的网络情况。结果表明,运行效果十分优秀,而且可以免费停止和重新加入游戏。

谷歌表示,十分享受开发Light Board的过程,希望大家能够将它作为例子,以说明不仅开发AR应用十分简单,而且真正利用Cloud Anchors等酷炫功能同样非常轻松。你可以关注谷歌的Github页面,并且尝试一下Light Board。

2. Just a line

谷歌在三月推出了Just a Line。这款安卓应用允许你用手机在空中进行绘画涂鸦。这项简单的实验旨在展示ARCore的能力。在I/O大会上,谷歌为这款应用增加了Cloud Anchors,这样两人用户就能同时在相同的空间中进行创作,包括安卓用户和iOS用户。

两款应用都是原生开发:安卓版本采用了Android Studio,iOS版本则是xCode。ARCore的Cloud Anchors可允许Just a Line匹配两台智能手机,支持用户在联机空间中同时绘画。这种匹配支持安卓和iOS设备,而画作是通过Firebase Realtime Database进行实时同步。你可以在映维网找到iOS和安卓的开源代码。

安卓开源代码:https://github.com/googlecreativelab/ar-drawing-java

iOS开源代码:https://github.com/googlecreativelab/justaline-ios

3. Illusive Images

“Illusive Images”这款增强画廊包含3件艺术作品,其中每一个都探索了不同的增强图像用例和用户体验。随着你围绕对象从一边走到另一边,或者从特定的方向进行欣赏,2D艺术作品将融入至3D,邀请你进入艺术作品的空间,突破物理相框的限制。

由于增强图像的视觉设计本质,谷歌创建了包含不同程度功能的数据库。为了实现最佳的结果,谷歌通过重新调整画布大小来迅速迭代。谷歌同时调整了亮度和对比度水平。这种不同的变体帮助实现了最优的图像,同时无需在设计意图上进行让步。

这款应用是通过的Unity with ARCore进行开发,其中大部分的asset都是在Cinema 4D中进行创建。动画是以fbx的形式导入至Unity,并且完全是由用户相对于艺术作品的位置进行驱动。

开源代码:https://github.com/googlesamples/arcore-illusive-images

为了帮助你更轻松地开发体验,谷歌已经开源了所有的演示作品。谷歌表示,他们希望这可以为你带来帮助。

]]>
马克斯普朗克开源项目VNect用2D摄像头实现低成本动捕 https://news.nweon.com/45113 https://news.nweon.com/45113#respond Thu, 10 May 2018 01:09:00 +0000 https://news.nweon.com/45113 这是一个开源项目]]> 文章相关引用及参考:映维网

这是一个开源项目

映维网 2018年05月10日)大部分应用都需要实时将用户及其运动映射至3D空间。在以前,我们只能通过昂贵的所相机系统,或者令用户穿上特殊的传感器套装才能实现。昨天映维网报道了RADiCAL的技术,现在据映维网了解(消息源:李今),马克斯普朗克计算机科学研究所的计算机科学家开发出了一种只需要单个摄像头的系统,而且它甚至可以预测用户在预录制视频中的三维姿势,比如说YouTube视频。

延伸阅读只需一个2D摄像头,RADiCAL利用AI实现低成本动捕

博士后学生Dushyant Mehta表示:“这允许通过手机来捕捉视频,同时实现身体追踪。能够实时在3D中实现这一点,而且只是借助移动设备上的摄像头,这是一个巨大的进步。”

Mehta与同事研发了只需一个传统摄像头就可以实时捕捉用户及其运动的软件系统。研究人员Srinath Sridhar解释说:“到目前为止,多摄像头系统,或者像Kinect这样深度摄像头对这项任务来说都是必不可少的工具。”

新系统基于神经网络,而研究人员将其称之为“卷积神经网络”(简称CNN),而这通常是与“深度学习”联系在一起。马克斯普朗克计算机科学研究所的研究人员开发了一种新方法,其能够借助神经网络从视频流的二维信息中计算用户的三维姿态。

他们在官网上公布了一个演示视频。一位研究人员在后面玩杂耍,而前方的显示器则播放相应的视频录像。我们看到右边的画面叠加了一个简单的火柴人。另一个三维视图则显示了相应的运动,其用于说明研究人员能够实时捕捉完整的三维姿态。无论研究人员移动肢体的速度有多快,或者移动幅度有多大,火柴人都会进行相应的三维运动,而另一个显示器中的虚拟角色同样如此。

研究人员将他们的系统称为“VNect”。VNect既可以预测人物的三维姿态,也可以定位图人物的位置。这允许系统避免在不包含人类的图像区域上浪费计算。在机器学习过程中,系统的神经网络通过数万个注释图像进行训练。系统根据关节角度提供三维姿态信息,而这可以轻松用于控制虚拟角色。

Mehta补充说:“NVect令更广泛的人群可以触及虚拟现实的三维身体姿态追踪,因为他们不需要Kinect或其他摄像头,无需要穿戴特殊的传感器套件,只需使用十分普遍的网络摄像头即可。这同时可以为第一人称VR带来全新的体验。”除了这种交互式角色控制之外,VNect还是第一个可以用来预测视频中人物3D姿势的系统,比如说YouTube视频。马克斯普朗克计算机科学研究所的Christian Theobalt教授接着说道:“从人机交互到人类与机器人交互,再到工业4.0,这还有其他许多的应用。我们同时可以考虑自动驾驶,汽车在未来或许可以通过摄像头来预测人们的完整表达运动,然后评估他们的行为。”

但VNect仍然存在局限性。姿态估计的准确度比多相机系统或基于标记的姿态估计系统更低。如果人脸被遮挡,运动速度太快,或者出现没有训练过的姿势,系统将出现问题。另外,多用户场景也是一个问题。尽管如此,Sridhar相信技术将会进一步成熟,并且能够处理越来越复杂的场景,从而可以在日常生活中使用。

VNect是一个开源项目,目前已经有多个基于该项目的实现案例托管在GitHub上开源,更多信息可以通过他们官方网站了解。

相关论文:VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera

]]>
https://news.nweon.com/45113/feed 0
谷歌开源场景简化工具Seurat,在一体机上实现更好渲染 https://news.nweon.com/44980 https://news.nweon.com/44980#respond Sun, 06 May 2018 23:18:03 +0000 https://news.nweon.com/44980 开发者现在可以把震撼视觉的场景带到自己的VR应用]]> 文章相关引用及参考:映维网

开发者现在可以把震撼视觉的场景带到自己的VR应用

映维网 2018年05月07日)优秀的VR体验可以给你带来一种仿如身临其境般的感觉。为了创建深度沉浸感的体验,我们需要整合一系列不同的因素:精美的图形,空间音频,自由移动的能力,以及世界能够对你做出回应的感觉。

谷歌在去年的I/O大会发布了Seurat工具,以帮助开发者和创作者为支持完整定位追踪的VR一体机带来高保真度图形,比如基于Daydream的联想Mirage Solo。Seurat这项场景简化技术旨在将非常复杂的3D场景转化成能够有效在移动硬件上渲染的表现。下面这个视频说明了工业光魔利用Seurat把高度详细的《星球大战外传:侠盗一号》场景制作成VR一体机体验。

今天,谷歌正在开源Seurat。开发者现在可以把震撼视觉的场景带到自己的VR应用,并且可以根据工作流程自定义工具。

用户通常都是从有限的观影区域来浏览VR场景,Seurat利用这一点来在你的场景中有话几何图形和纹理。它把RGBD图像(颜色和深度)作为输入,生成纹理网格,定位可配置数量的三角形,纹理大小和填充率,从而以传统方法所无法实现的方法来简化场景。

为了演示Seurat的能力,下面是关于《Blade Runner:Revelations》的一小片段(这款体验已于今天与联想Mirage Solo一同面世)

《银翼杀手》系列以其令人惊叹的世界而闻名,在《Revelations》中,你将在未来派十足,但又十分阴暗诡异的街道中解开关于逃亡复制人的神秘事件。为了创建《Revelations》中的整体气氛与画面,Seismic利用Seurat把场景中466万个三角形降低至30.7万个,从而将性能提高了100倍以上,而且几乎没有视觉质量的损失。


原场景


Seurat处理后场景

如果你有兴趣了解更多关于Seurat的信息或者是亲自体验,你可以访问托管至GitHub页面的Seurat文档和源码

]]>
https://news.nweon.com/44980/feed 0
研究员利用EMS电肌肉刺激为AR-VR带来力反馈 https://news.nweon.com/44108 Mon, 16 Apr 2018 23:18:00 +0000 https://news.nweon.com/44108 增加了物理作用力,同时解放了用户的双手,允许其自由与对象进行交互]]> 文章相关引用及参考:roadtovr

增加了物理作用力,同时解放了用户的双手,允许其自由与对象进行交互

映维网 2018年04月17日)哈索-普拉特纳研究所(Hasso-Plattner-Institut)是位于德国波茨坦的一所私立学校,其人机交互实验室的研究人员日前公布了一段关于新颖AR可穿戴触觉解决方案的视频。借助能够向手臂肌肉提供低电压的电肌肉刺激设备(EMS),无需穿戴触觉手套或握持物理控制器的AR头显,用户在与虚拟对象交互时将能体验到力反馈,而他们在触碰物理对象时同样能感觉到额外的作用力。

研究人员通过HoloLens展示了他们的解决方案,其包含一个背包,一台运行Uniy的笔记本电脑,一个基于电池的EMS设备,电极垫,以及用于提升手势追踪精度的视觉标记。这个研究团队表示,他们的系统“增加了物理作用力,同时解放了用户的双手,允许其自由与对象进行交互”。

HoloLens和即将上市的Magic Leap One都包含一个物理控制器:HoloLens提供了一个简单的“点击器”;而ML One则是一个6自由度控制器。尽管两种系统都支持手势识别,但AR头显用户仍然没有确定的方式来“感受”周围的世界。

根据今年在蒙特利尔召开的ACM CHI会议上发布的论文,一个基于EMS的系统可以通过低电压来致动用户的手腕,肱二头肌,三头肌和肩部肌肉,从而模拟一种“虚拟压力”。当你与按钮这样的虚拟对象,甚至是真实世界转盘和水平仪这样的物理对象进行交互时,系统将激活这种感知压力以在用户手臂上创建一种额外的力感。

但这种系统存在一定的取舍,其当前的设置不适合长期使用。两个最大的缺点是:在每次使用之前都需要进行精确的电极放置和针对每个用户进行单独校准;而且设备会造成肌肉疲劳,从而降低了其有用性和舒适感。

然而,或许一点点的肌肉刺激也可以发挥非常重要的作用。论文探讨了如何有节制地在物理环境(而非虚拟环境)中使用EMS,利用用户的敏锐感觉来增强其合理性。

就(增强现实)而言,我们观察到用户谈到他们十分喜欢EMS设备所带来的微妙感觉,例如:‘我可以感觉到沙发更难移动(这是因为基于EMS的静态摩擦)’。对于MR领域的UX设计者,我们建议尽可能地匹配‘触觉物理’与预期物理,而不是说过分夸张。

对于为AR可穿戴设备增加触觉反馈的多管齐下的方法而言,这个有趣的步骤可能非常有用,因为用户希望能够在日常生活中空出双手来完成其他操作。当前基于致动器的手套和背心已经可以轻松实现,而且正迅速成为VR触觉反馈的标准解决方案。但这难以应用于日常的AR用例,而今天的力反馈外骨骼则仍然过于笨重。

我们无法预测未来哪一种形态的AR可穿戴设备能够流行起来,但无论是什么,它都必须是既轻便又实用,而EMS似乎在这两方面的表现都相当优秀。

该项目目前已经在Github上开源

相关论文:Haptics using EMS

]]>
谷歌开源VR180视频、图片格式,人人都可创作VR180 https://news.nweon.com/43745 https://news.nweon.com/43745#respond Mon, 09 Apr 2018 23:39:00 +0000 https://news.nweon.com/43745 任何开发者或厂商都可以开始探索VR180的可能性]]> 文章相关引用及参考:映维网

任何开发者或厂商都可以开始探索VR180的可能性

映维网 2018年04月10日谷歌于2017年推出了VR180,这种全新的视频格式可以支持你拍摄或创建引人入胜的沉浸式视频。大部分VR180相机的工作原理都类似于傻瓜式模型。但是,你在VR180拍摄的内容将更具沉浸感。只需轻轻点击拍摄按钮,你便可以创建惊人4K分辨率的VR图片和视频。

谷歌今天开源了关于创建VR180视频(点击前往)和创建VR180图片(点击前往)的其他详细信息,这样任何开发者或厂商都可以开始探索VR180的可能性。

对于VR180视频,谷歌扩展了Spherical Video Metadata V2标准。Spherical V2支持基于网格的投影,从而允许消费者相机输出原始鱼眼片段。然后谷歌创建了Camera Motion Metadata Track,这样你就可以在捕获视频后根据相机运动来稳定视频。这为观众带来了更舒适的VR体验。由相机生成的照片是现有的VR Photo Format(由Cardboard Camera开创)编写。

当你使用Cardboard或Daydream View查看基于VR180拍摄的照片和视频时,你会觉得自己仿如重新走进记忆之中。你可以使用Google Photos或YouTube在手机或网络上与其他人分享素材。谷歌表示,他们希望这可以帮助任何人轻松拍摄VR内容和浏览观影。据映维网了解,在未来数个月谷歌还将发布有助于编写和播放合适格式的VR180照片和视频的工具。

]]>
https://news.nweon.com/43745/feed 0
开源项目Safespaces想让你在VR中使用Linux系统 https://news.nweon.com/43534 https://news.nweon.com/43534#respond Mon, 02 Apr 2018 23:51:03 +0000 https://news.nweon.com/43534 在虚拟现实中访问Linux桌面环境]]> 文章相关引用及参考:映维网

在虚拟现实中访问Linux桌面环境

映维网 2018年04月03日)对于VR,我们相当熟悉Oculus RiftHTC VivePSVR和其他热门的品牌,但VR同样来到了Linux。假如能够在虚拟现实中访问Linux桌面环境,你又是否喜欢呢?Arcan显示服务器背后的开发者现在正准备一个新项目:Safespaces

这是一个正在开发中的3D/VR桌面环境。开发者希望能够在Arcan显示服务器运行。你届时可以使用兼容OpenVR HMD的VR头显进行访问。根据介绍,Safespaces的代码可以在几乎不改动的情况下重复使用。开发者确保他们最终不会模仿或重复Windows、安卓和Xorg等设计模型。

关于这一开源VR桌面的信息可访问其GitHub页面(点击前往)。开发者提醒说,在测试这一初期项目时有可能会出现恶心作呕的情况。

在VR中利用Linux桌面听起来很棒。但在现实中,你不仅仅只是用来玩游戏和观看过山车视频。我们十分期待用户将如何在佩戴头显的同时键入文本(除非你是训练有素的打字员)。

]]>
https://news.nweon.com/43534/feed 0
无穷乐趣,谷歌AR实验Just a Line让你快速AR涂鸦 https://news.nweon.com/42935 https://news.nweon.com/42935#respond Fri, 23 Mar 2018 00:12:00 +0000 https://news.nweon.com/42935 令微软Paint应用看起来就像是Adobe Illustrator。]]> 文章相关引用及参考:映维网

微软Paint应用看起来就像是Adobe Illustrator。

映维网 2018年03月23日)作为本周ARCore新品的一部分,谷歌正在把一次性的AR实验Just a Line变成完整的应用程序。这款简单的AR绘画应用已经上线Play Store,而它令微软Paint应用看起来就像是Adobe Illustrator。

应用的操作十分简单:在应用程序确定用户相对于地板的方向后,用户用手指在智能手机屏幕上绘制线条即可。用户同时可以抽起手指,然后再重新绘制多条线条。另外,应用程序提供了撤销按钮供你擦除最后的操作。就调色板而言,用户可以选择任何想要绘制的颜色,只要它是白色即可。线条能够维持在空间中的位置,然后用户可以拍摄与浮动线条交互的图像或者录制视频。

这款应用由谷歌创意实验室和Uncorked Studios共同研发,是谷歌于去年发布ARCore时的16个AR实验之一。如果你是一名开发者,并且认为自己可以更进一层楼,谷歌为你提供了源代码(点击下载)

事实上,诸如PaintAR和Pain Space AR等类似应用已经上线Play Store,而App Store上同样为iPhone和iPad用户提供了大量的选择。但Just a Line实在是太容易上手了,我们很难抗拒其中的乐趣。

]]>
https://news.nweon.com/42935/feed 0
AMD为Vulkan创建了一个直接内存分配器 https://news.nweon.com/42731 https://news.nweon.com/42731#respond Mon, 19 Mar 2018 01:02:59 +0000 https://news.nweon.com/42731 支持从较大的分配块中轻松分配缓冲区和图像存储]]> 文章相关引用及参考:gpuopen

支持从较大的分配块中轻松分配缓冲区和图像存储

映维网 2018年03月19日)对GPU内存的全面应用控制是新款显式图形API(如Vulkan和Direct3D 12)的主要差异化功能之一。在以往的API中,GPU驱动可以完全控制你创建的曲面和缓冲区,根据应用程序希望如何进行渲染的推断视图,以及将GPU与其他系统元素(如显示合成器)共享的需要来调度内存以实现良好的性能。

在现代的显式API中,GPU仍然是一项共享资源,这意味着驱动仍然有其他工作要做。但现在你已经可以完全控制应用程序所使用的GPU内存,比方说如何放置,如何分配,以及如何移动以适应你正在渲染的内容。作为应用程序开发者,这对你来说是一种新负担,而且我们通常不清楚处理它的最佳策略是什么。

为了解决这个问题,AMD为Vulkan创建了一个直接内存分配器。现在开发工作已经来到了可以进行发布以便大家开始使用的阶段,而AMD将继续优化这个内存分配器,并在考虑集成至其他Vulkan技术。

1.0版本支持从较大的分配块中轻松分配缓冲区和图像存储,并附带一个旨在说明如何使用的示例。示例主要是渲染具有索引缓冲区,顶点缓冲区和纹理的立方体,而这一起都是通过库进行分配。对于未来2.0版本,AMD计划包含对所有分配策略(适用于需要进行纹理流式传输的游戏)的支持。所以大家可以留意未来的库更新。

这个API定义在一个记录详尽的头文件中(与STB非常相似),而且代码为MIT授权,包含一个Apache授权的依赖项MathFu(仅用于样本,而不是库)。你同时可以非常轻松地更换以自己的STL变量,或者甚至是完全移除AMD的STL兼容数据结构。所以如果你是使用EASTL之类的东西,或者像AMD一样定义自己的内部STL兼容结构,集成该库的工作量将非常少。

代码已经托管至GitHub(点击前往)。AMD表示,鼓励大家将其用于自己的项目并向他们提供反馈。

]]>
https://news.nweon.com/42731/feed 0
无绿幕MR特效,谷歌开源AI语义分割模型DeepLab-v3+ https://news.nweon.com/42630 https://news.nweon.com/42630#respond Fri, 16 Mar 2018 00:42:02 +0000 https://news.nweon.com/42630 实时视频分割。]]> 文章相关引用及参考:映维网

实时视频分割。

映维网 2018年03月16日)在3月出我们有报道说谷歌利用AI实现视频的背景分离,而这涉及到语义图像分割技术。语义图像分割是指将诸如“道路”,“天空”,“人”,“狗”等语义标签分配至图像中的每一个像素,从而实现一系列的新应用,比如Pixel 2和Pixel 2XL人像模式中的合成浅层景深效果,以及实时视频分割。

延伸阅读没绿幕也能做MR特效视频了,谷歌用AI实现背景分离

分配语义标签需要精确定位对象的轮廓,因此这比其他视觉实体识别任务(如图像级分类或边界框级检测)要求的定位精度更严格。好消息是,映维网了解到谷歌日前在GitHub上开源了最新的语义分割模型DeepLab-v3+(应用在Tensorflow)

这一版本包含基于强大卷积神经网络(CNN)骨干体系架构构建的DeepLab-v3 +模型,旨在应用于服务终端。另外,谷歌同时分享了他们的Tensorflow模型训练与评估代码,以及已经预先经过训练的Pascal VOC 2012和Cityscapes基准语义分段任务模型。

自三年前Deeplab模型的第一次出现以来,优化的CNN特征提取器,更好的对象比例建模,对情景信息的详细同化,改进的训练过程,以及越来越强大的硬件和软件带来了DeepLab-v2和DeepLab-v3的优化。对于DeepLab-v3 +,谷歌添加了简单而有效的解码器模块以细化分割结果,尤其是沿对象边界。谷歌进一步将深度可分离卷积应用于空间棱锥面缓冲池和解码器模块,从而形成更快速,更强大的语义分割编码器-解码器网络。

由于方法,硬件和数据集的进步,构建在卷积神经网络之上的现代语义图像分割系统已经达到了五年前难以想象的精度。谷歌希望与社区分享他们的系统,从而帮助学界和业界的其他团体能够更容易地进行复刻,同时进一步优化系统,对新数据集进行模型训练,并且为这一技术设想新的应用。

]]>
https://news.nweon.com/42630/feed 0
谷歌开源空间音频Resonance Audio,加速AR-VR普及 https://news.nweon.com/42572 https://news.nweon.com/42572#respond Thu, 15 Mar 2018 00:14:59 +0000 https://news.nweon.com/42572 加速沉浸式音频技术的普及]]> 文章相关引用及参考:映维网

加速沉浸式音频技术的普及

映维网 2018年03月15日)当你身处在VR或AR环境的时候,空间音频可以增强你的临场感。无论你采用的是哪种显示硬件,空间音频都可以让你听到来自四面八方的声音。

谷歌于去年推出的空间音频SDK Resonance Audio能够帮助开发者在移动端和桌面端创建更为逼真的VR和AR体验。我们已经在各个平台看到利用谷歌SDK的优秀体验。最近的示例包括皮克斯《Coco VR》,迪士尼的AR应用《Star Wars: Jedi Challenges》,以及Runaway的《Flutter VR》,它们都是采用了Resonance Audio技术。

为了加速沉浸式音频技术的普及,并加强围绕沉浸式音频的开发者社区,映维网了解到谷歌已经正式开源了Resonance Audio。通过创建针对移动和桌面计算优化的开源空间音频项目,任何平台或软件开发工具供应商都可以轻松集成Resonance Audio。更多的跨平台和工具支持意味着内容创作者可以获得更多的分发机会,无需投资于成本高昂的移植项目。

作为开源项目的一部分,谷歌提供了YouTube基于Ambisonic的空间音频解码器的参考实现,其兼容业界其他的相同Ambisonics格式(Ambix ACN / SN3D)。借助谷歌的参考实现,开发者可以轻松在自己的VR媒体和其他应用程序中呈现Ambisonic内容,并且受益于Ambisonics开源免版税模型。这个项目还包括编码、声场处理和解码技术,以及用于实现丰富空间音频的头相关变换函数(HRTF)。最后,谷歌为所有人开放了高度优化的DSP类与函数库,这包括重采样器,卷积器,滤波器,延迟线和其他DSP功能。此外,开发者现在可以在自己的项目中使用Resonance Audio全新的Spectral Reverb,一种高效,高品质的混响效果。

谷歌已将Resonance Audio作为独立库和相关引擎插件,VST插件,教程和基于Apache 2.0授权的示例进行开源。这意味着无论你在哪里工作,你都可以在你的项目中自由使用Resonance Audio。如果你发现自己愿意优化的内容,请提交一个GitHub提交请求,并交由Resonance Audio项目委托人审查。尽管支持Unity,Unreal,FMOD和Wwise的引擎插件保持开源,但未来将分别由谷歌的合作伙伴Unity,Epic,Firelight Technologies和Audiokinetic的项目委托人进行维护。

如果你对Resonance Audio感兴趣,请访问谷歌的开发者官网(点击前往)。如果你希望进一步参与其中,请访问这个GitHub页面(点击前往)以访问源代码,构建项目的,下载最新的版本,甚至是为优化开始贡献自己的力量。映维网期待着你可以与社区一起构建沉浸式音频的未来。

]]>
https://news.nweon.com/42572/feed 0
Facebook用手机实现全身动捕追踪,准确检测身体姿势,从背景分割人像 https://news.nweon.com/40872 Fri, 26 Jan 2018 06:39:05 +0000 https://news.nweon.com/40872 Facebook AI Camera团队今天公布了一份论文,介绍了如何在VR或AR环境中进行全身替换或追踪。]]> 文章相关引用及参考:fb

Facebook AI Camera团队今天公布了一份论文,介绍了如何在VR或AR环境中进行全身替换或追踪。

映维网 2018年01月26日)Facebook正在娱乐和通信两方面大力投资AR和VR并不是什么秘密。据映维网了解,最新的研究表明,Facebook并不只是在研发可以修改或取代人脸的AR应用,他们同时在研发可以取代整个身体的AR应用。

Facebook AI Camera团队今天公布了一份论文,介绍了如何在VR或AR环境中进行全身替换或追踪。Facebook的研究人员写道:

“为了用化身来替换整个身体,我们需要实时准确地检测和追踪身体动作。这是一个非常具有挑战性的问题,因为姿势和特征的变化很大。一个人可能是就座,走路或跑步状态。她或他可能穿着长外套或短裤。而且,一个人经常会被其他人或物体阻挡。所有这些因素都大大增加了稳定身体追踪系统的难度。

Facebook最近开发了一种全新的技术,可以准确地检测身体姿势并从背景中分割出人像。目前Facebook的模型还处于研究阶段,但体积只有数M大小,可以在智能手机上实时运行。或许在未来某一天中,它可以支持实现一系列的创新应用,例如创建身体遮罩或者使用手势来控制游戏等等。”

1. MaskRCNN2Go架构

Facebook的身体检测和分割模型基于Mask R-CNN框架。这是一个概念简单,灵活和通用的对象检测和分割框架,可以高效地检测图像中的对象,同时能够预测关键点和为每个对象生成分割遮罩。为了在移动设备上实时运行Mask R-CNN模型,Facebook Camera的研究人员和工程师与FAIR和AML团队进行了合作,他们构建了一个高效轻便的框架:Mask R-CNN2Go。(值得一提的是,Mask R-CNN框架曾获得ICCV 2017的最佳论文奖)。

Mask R-CNN2Go模型包含5个主要的元素:

  1. Trunk Model包含多个卷积层,并生成输入图像的深度特征表示。
  2. 区域提议网络(region proposal networ,RPN)以预定义的比例和纵横比(定位点)提出候选对象。ROI-Align层则从每个对象边界框中提取特征并将它们发送到Detection Head。
  3. Detection Head包含一组卷积,共享和完全连接的层。对于每个候选框,它将预测这个对象属于人的可能性。Detection Head同时精细了边界框坐标,用非最大值抑制(non-max suppression)来对相邻的边界框进行分组,并为图像中的每个人生成最终的边界框。
  4. 根据每个人的边界框,我们使用第二个ROI-Align层来提取特征,而这些特征是Key Point Head和Segmentation Head的输入。
  5. Key Point Head和Segmentation Head具有相似的结构。这为身体上的每个预定义关键点预测一个掩码。一次最大扫描将用于生成最终坐标。

2. 为移动设备的轻便模型

与现代GPU服务器不同,手机的计算能力和存储空间有限。原来的Mask R-CNN型号是基于又大又慢的ResNet,无法在手机上运行。为了解决这个问题,Facebook为移动设备开发了一个非常有效的模型架构。

Facebook应用了数种方法来减小模型的大小。他们优化了卷积层的数量和每层的宽度(处理中最耗时的部分)。为了确保足够大的感知视场,Facebook使用了包括1×1,3×3和5×5的内核大小组合。Facebook同时利用了重量修整来减小尺寸。最终的模型只有几M字节,而且非常准确。

3. 模块化设计提高了计算速度

为了实时运行深度学习算法,Facebook利用并优化了核心框架,集成NNPack的Caffe2,SNPE和Metal。通过使用包括NNPack,SNPE和Metal的移动CPU和GPU库,能够显着提高移动计算速度。所有这一切都是通过模块化设计完成,不需要改变一般的模型定义。因此,既可以获得较小的模型大小,又可以获得较快的运行时间,同时避免潜在的不兼容问题。

Facebook AI Research最近已经开源了Mask R-CNN研究平台(Detectron)。Facebook同时为社区提供了Caffe2运算符的开源实现(GenerateProposalsOp,BBoxTransformOp,BoxWithNMSLimit和RoIAlignOp)和必要的模型转换代码。

4. AR与VR

众所周知,身体追踪在AR和VR领域存在广泛的应用。然而,当前的AR和VR应用对设备计算和内存的要求非常高。Facebook正在努力实现高效和轻便的模型,亦即支持在传感器数据,图像分辨率和刷新率,可用处理能力等方面存在诸多严格限制的设备。

毫无疑问,Facebook的Mask R-CNN是朝着这一方向迈进的重要一步。可以肯定的是,Facebook在未来将会为我们带来更多相关的研究。

相关论文:Facebook Mask R-CNN

]]>
加速AR对象分类,Facebook开源计算机视觉算法Detectron https://news.nweon.com/40786 https://news.nweon.com/40786#respond Wed, 24 Jan 2018 05:50:59 +0000 https://news.nweon.com/40786 Facebook今天正式开源基于深度学习框架的计算机视觉对象检测算法平台Detectron]]> 文章相关引用及参考:roadtovr

Facebook今天正式开源基于深度学习框架的计算机视觉对象检测算法平台Detectron

映维网 2018年01月24日)Facebook今天正式开源基于深度学习框架的计算机视觉对象检测算法平台Detectron。Facebook表示,开源项目是为了加速计算机视觉的研究。目前Facebook内部团队正把Detectron平台用于一系列的研究,比如增强现实。

在2017年9月30日的一篇文章中,映维网曾介绍过实时对象分类是AR面临的一大挑战:

令计算机视觉能够理解“杯子”,而不仅仅只是看到一个形状,这是一个非常重要的问题。所以这么多年来,我们在AR演示作品中看到人们把基准标记附加到对象身上,以实现更细致的追踪和交互。

为什么如此困难呢?第一个挑战在于分类。杯子有数千种形状,大小,颜色和纹理。部分杯子拥有特殊的属性和特殊的用途(如烧杯),这意味着不同的杯子被用于不同的场景和背景。

你可以想象编程这么一个可以帮助计算机了解所有上述概念的算法的挑战;你也可以想象编写一个向计算机解释杯子和碗之间区别的代码的挑战。

延伸阅读远落后于VR,AR面临三大挑战:视场、分类、自适应设计

文章同时指出“深度学习”有可能是实时对象分类的其中一种解决方案。现在,Facebook已经正式开源了他们的对象检测算法,而这可能会加速开发能够进行实时对象分类的系统,从而赋予增强现实真正的功效。

如果没有对特定环境进行预编程,与我们周围世界进行交互的增强现实将需要粗略了解我们附近的情况。比方说,如果你正穿戴一款AR眼镜,然后你希望将烤箱温度投影到烤箱上方,同时在冰箱上方呈现出已经将近吃完的食物,这时AR眼镜将需要了解烤箱和冰箱的形状。考虑到烤箱和冰箱涵盖一系列不同的形状和样式,而且其摆放位置的不尽相同,这将成为一项极具挑战性的任务。

Facebook的人工智能研究团队与其他相关团队一直在研究如何通过深度学习来帮助计算机解决对象检测的问题,而这一基于Caffe2深度学习框架的对象检测算法名为Detectron。在正式托管至GitHub后(点击前往),现在任何人都可以自行实验。Facebook希望开源Detectron后将能帮助世界各地的计算机视觉研究人员尝试并不断改进最新的技术。

他们在GitHub页面上写道:“Detectron的目标是为对象检测研究提供高质量,高性能的代码库。Detectron十分灵活,能够支持新研究的快速实现与评估。”

算法可以检测视频输入,并能够猜测构成场景的离散对象。“Detecting and Recognizing Human-Object Interactions (Gkioxari et al)”等研究项目已经在应用Detectron,将其作为了解人类在环境中的行为的基础。

除了AI研究之外,诸如增强现实这样的其他内部团队同样在使用Detectron。Facebook在开源Detectron的声明中写道:“各支团队正在利用这个平台来为各种应用训练定制模型,包括增强现实…”

目前尚不清楚具体是哪支团队正在把Detectron用于增强现实,但一个可能答案是Oculus。早在F8大会期间,Oculus的首席科学家迈克尔·亚伯拉什就曾探讨过增强现实将如何和将于何时改变我们的生活。

延伸阅读Oculus首席科学家:AR将在何时,如何地改变人类生活

]]>
https://news.nweon.com/40786/feed 0
布朗大学科学家用VR控制机器人,并开源项目代码 https://news.nweon.com/40507 Tue, 16 Jan 2018 23:50:59 +0000 https://news.nweon.com/40507 通过虚拟现实来直观地操纵机器人]]> 文章相关引用及参考:haptic

通过虚拟现实来直观地操纵机器人

映维网 2018年01月17日)尽管自动机器人能够独立而且出色地完成自己的任务,但仍然存在需要人类介入和控制的情况。由布朗大学计算机科学家开发的新软件能够支持用户通过虚拟现实远程控制机器人,而这将能帮助用户沉浸在机器人的环境之中。

软件能够通过网络将机器人的手臂和抓爪,以及板载摄像头和传感器连接至虚拟现实硬件。借助手持式控制器,用户能够控制器机器人手臂的位置并执行复杂的操作。

用户可以步入机器人的金属皮肤以获取环境的第一人称视图,或者以第三人称视角调查场景。你可以自由切换,寻找最方便完成任务的视角。而且机器人和虚拟现实设备之间传输的数据足够紧凑,能够以最低延迟通过互联网发送,以支持用户远程控制机器人。

布朗大学研究生David Whitney是这一系统的联合负责人,他表示:“我们认为这可以用于需要精巧操作,而且人类不应该亲临现场的情景。我们在思考的三个专门用例是拆弹,在受损核设施内完成任务,或者在国际太空站中操作机器人手臂。”

这一项目的其他负责人包括布朗大学的本科生Eric Rosen。这两人都在由计算机科学助理教授Stefanie Tellex负责的Humans to Robots实验室中工作。值得一提的是,他们本周在智利举办的国际机器人研讨会上介绍了描述这一系统和评估其实用性的论文。

即使是高度复杂的机器人也常常使用一些相当简单的手段进行远程控制,通常是键盘或者诸如游戏手柄和二维显示器之类的设备。Whitney和Rosen指出,这适合驾驶轮式机器人或者无人机那样的任务,但可能不适合更加复杂的任务。

Whitney说道:“对于操作机器人手臂那样包含多个自由度的机器,键盘和游戏手柄并不是十分直观。”他们指出,将三维环境映射到二维屏幕上会限制人们对机器人所处空间的感知。

Whitney和Rosen认为虚拟现实或许可以提供更为直观和更加身临其境的选项。他们的构思与映维网早前关于丰田实验的报道类似。

延伸阅读全身动作映射,丰田用HTC Vive远程控制机器人

软件利用机器人传感器来创建机器人本身及其环境的点云模型,然后将其传输到连接至Vive的远程计算机。用户可以透过头显来感知相应的空间,并在内部进行虚拟行走。与此同时,用户还可以通过机器人手腕上的摄像头观看实时高清视频,获取操作任务的详细视图。

研究人员表示,他们可以为用户创造一种身临其境的体验,同时保持足够小的数据负载,使其能够通过互联网进行传输。举例来说,位于普罗维登斯的用户能够远程操作位于马萨诸塞州剑桥的一个机器人(彼此之间相隔41英里),令机器人堆叠一系列的塑料杯。

在另外的研究中,18位新手用户通过虚拟现实中完成叠杯操作的速度比传统的键盘显示器界面高出66%。用户也表示他们更喜欢虚拟界面,而且他们认为操作难度比键盘和显示器界面更加简单。

Rosen认为,任务执行速度的提升是由于虚拟现实界面的直观性导致。Rosen说:“在VR环境中,人们可以像移动自己的身体一样移动机器人,所以他们在操作时更本不用多想。这让人们可以专注于手头上的问题或任务,不需要花费更多的时间去了解如何移动机器人。”

研究人员计划进一步开发这个系统。第一个迭代专注于一个相当简单的操作任务(机器人保持固定),而他们希望尝试更复杂的任务,比如在操纵的基础上加入导航移动。他们同时希望尝试混合自动模式,比如机器人自身完成一部分任务,而用户则接管其他任务。

研究人员已经把系统托管至GitHub(点击前往)。他们希望其他机械学研究人员可以进行尝试或创新,从而为我们带来更优或更多的用例。

相关论文:Comparing Robot Grasping Teleoperation across Desktop and Virtual Reality with ROS Reality

]]>