雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Synthesis AI可通过文本提示创建逼真虚拟数字人

查看引用/信息源请点击:venturebeat

通过文本提示创建逼真的3D数字人

映维网Nweon 2023年04月19日)位于美国旧金山的Synthesis AI是一家专门从事合成数据技术的初创公司。团队日前宣布,他们开发了一种可以通过文本提示创建逼真虚拟数字人的新方法。

据介绍,所述技术使用生成式人工智能和视觉效果管道来制作高分辨率、电影质量的虚拟数字人,并可用于游戏、虚拟现实、电影和模拟等各种应用。

Synthesis AI声称,他们是第一家以如此高质量和细节展示文本到3D数字人的公司。其中,用户只需输入所需数字人的文本描述,如年龄、性别、种族、发型和服装,然后系统就会马上生成符合规范的3D模型。用户同时可以通过改变文本提示或使用滑块来调整面部表情和照明等功能,从而编辑3D模型。

据悉,全新的文本到虚拟数字人功能将从今年第二季度开始提供给一组选定的测试人员。

根据文本提示生成虚拟数字人

编辑3D模型

Synthesis AI首席执行官兼创始人亚沙尔·贝赫扎迪(Yashar Behzadi)表示:“我们展示的文本到3D功能以编程、API驱动的方法为起点,添加了一个非常简单的基于提示的用户界面,并输出了一个高分辨率的3D模型。”

通过生成式人工智能来实现文本到3D

Synthesis AI将生成式人工智能和电影特效管道相结合,产生完美标记的合成数据来训练机器学习模型。团队表示,这带来了高分辨率的电影质量模型,并预计能够加速AR/VR、游戏、VFX、智能城市、虚拟试穿(VTON)、汽车、工业和制造模拟等多个行业的3D应用开发,并降低相关成本。

3D模型的创建是一个复杂的过程,需要数个元素的相互作用,包括几何体、网格和纹理层。对于经验丰富的游戏和特效美术而言,从人体模型开始一直是首选。这种方法通常比从零开始构建计算机生成人类更快、更直接。

然而,制作高质量的人体模型是并不容易,需要专门的摄影测量装置捕获实际人体的多个角度,从而创建原始2D图像。然后,工作人员需要通过各种优化工具精心组合图像,以确保最佳质量。

对于文本到虚拟数字人合成,Synthesis AI设计了一种创新方法利用diffusion-based生成式人工智能架构来生成由性别、年龄、种族等关键参数控制的各种网格。其中,纹理层是使用单独的生成模型创建,以提供细粒度的独立控制,而通过合并这两个基本组件,系统可以生成一个完整的、高分辨率的3D模型。

贝赫扎迪指出:“由于招募特定个体和获得许可的后勤工作,创造多样化的人类群体变得更加复杂。文本到3D的功能可以按需生成高质量的asset,为每个模型节省数周的时间和数千美元。”

Synthesis AI的文本到3D产品引入了基于提示的输入和编辑,令无代码生成式人工智能功能更容易覆盖不同的用户群体。

这位首席执行官进一步解释道:“首先,基于提示的生成和迭代为任何有能力使用搜索引擎的人带来了创造力。然而,我们认为早期采用者将是各种形式的娱乐和媒体的技术美术,以及工业和制造软件的产品经理,他们希望用有代表性的数字人来填充3D模拟。他们都是技术受众,但可能不具备高级机器学习技能。”

这家公司目前拥有超过10万名数字人(或ID)的专有库,它是用于训练模型的基础数据。Synthesis AI的其他产品则已经利用这个库为领先的计算机视觉团队提供标记的训练数据,以支持人脸识别功能、驾驶员监控等的开发。

下一步是什么?

Synthesis AI的文本到虚拟数字人工具是团队发展的一个重要里程碑,可允许企业、工业和公共部门的客户通过合成任何人物、地点或物体来模拟现实。相关应用包括模拟和合成数据,并用于训练VFX、AR/VR以及媒体和内容创建中的计算机视觉模型等等。

据悉,全新的文本到虚拟数字人功能将从今年第二季度开始提供给一组选定的测试人员。

贝赫扎迪表示:“向第三方用户开放这一能力将允许我们利用社区反馈来进一步完善潜在的生成式模型。从人类反馈中强化学习是不断提高基础模型性能和发现边缘案例的关键。”

另外,通过将生成式人工智能与电影视觉效果管道相结合,公司将能够合成世界,包括人类环境和物体。

他补充道:“我们希望继续创新,降低开发人员创建asset和合成数据的门槛,以推动计算机视觉的最先进发展。”

本文链接https://news.nweon.com/106992
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯