什么是真正的元宇宙级虚拟数字人
元宇宙爆火,相关的产业很多,元宇宙各类应用场景及定义也是层出不穷。虽然我们现在还不能实现元宇宙,但现在能看到的是,无论元宇宙未来发展到了什么阶段,都离不开数字人的存在。
数字人作为构建元宇宙内容的基石,也是目前最早可落地且可持续发展的元宇宙细分成熟场景,包括虚拟偶像、品牌代言、电商带货、电视主持、虚拟主播等商业应用已被大众认可。
1. 数字人的三大价值
那么数字人的真实价值有哪些呢,能长期满足上面的各个场景吗,是否会是昙花一现。我收集了市面上的各种数字人应用,并总结出以下三大价值:
1.1 “人”可以完全属于公司
技术创新使得在法律上首次可以实现“人”完全属于公司。从长远来看,在宣传上,未来每家公司都需要一个能永远陪伴公司发展成长,能长久符合公司宣传调性且不会出错的数字人,使得品牌真正人格化。
1.2 数字化超越物理束缚,带来无限可能
数字化内容创新使得当“人”数字化后可以超越物理束缚,为我们带来无限可能:颜值变得不再昂贵;真人相隔万里也可以同场表演、开会、社交;场景、道具、动作、特效等无所不能。
1.3 复刻真人在现实世界所有能做的事情
在前两个超越真人价值的同时,人们拥抱数字人是因为相信数字“人”还能够像真人一样满足各种场景,这也是数字人价值的基石。这就要求数字人能够出席参加各种活动,能够实现作为人的各种职责,能够像人一样满足我们对内容的各种想象。能达到这些要求的数字人,就可以满足各种元宇宙场景,我称之为元宇宙级数字人。
当你发现了一个数字人代替真人做了代言人,就会期待他演技高超、情感真挚,可代替真人参加各种活动,完成各种影视作品,各种直播等。
反之,如果数字人做不到这一点,就会像自动驾驶一样。前几年的自动驾驶宣传,大家都以为很快就不用自己开车了,可多年过去至今还遥遥无期,数字人如果也这样,就会是空中楼阁!
2. 数字人的技术三要素
除了数字人本身的新价值,根据前面提到的多个元宇宙级细分场景的要求,以及通过分析真人推导出的数字人能力要求, 我将能满足这些场景要求且满足这些能力要求的数字人称之为——元宇宙级数字人,并从技术上总结了三个要素:
- 高级别:静态达到影视界别,PBR效果逼真;动态精准传达真人的喜怒哀厌、说话口型,且动作精准、自由多样。有灵魂、有情感、有理解能力。
- 实时驱动:数字人能实时驱动,可以在元宇宙中呈现出活灵活现的人。
- 普及易用:单个数字人成本万元级 + 普通摄像头、普通衣服 + 轻松易用、人人可用。
以上元宇宙级数字人技术三要素,至少能满足前两要素,只是规模小一点,还可以称之为“小元宇宙”,否则就容易误导大众做不切实际的想象。
3. 普通级别代表性数字人
我从所有数字人中搜集了一些有代表性的案例。
3. 1 图片视频类
据柳夜熙官方宣传,她们的动画制作成本1/秒=1克黄金的价格。
这些你以为的虚拟人其实都是由传统手key动画流程制作,以图片、视频方式展现,跟10年前20年前动画片的人物本质上没任何区别,只能说是动画效果做的还不错。但很遗憾,粉丝看不到她们的直播,也没办法和他们实时互动,所以这些不能纳入元宇宙级别,
3. 2 对话/自动播报机器人类
这些有的看着还很像真人,骗到你了吗?其实她们就是用真人的图片、视频进行换脸、换嘴合成的像素人。
不管是像素生成还是模型制作的CG动画,都不能在原来视频的基础上换角度、换光照、换发型、换服装、换动作。不能像真人一样根据要讲述的内容自由自在地做动作、表达情绪,更不能和观众进行像真人一样的互动,没有灵魂、没有情感、没有理解。只能在播报新闻资讯、查询特定信息时比较方便。也受到众多网友调侃“你以为的人工智能其实是人工智障, 只能做个工具人。”
3. 2 低级别类(只能玩玩用)
以上这些只能玩玩的低级别类共性就是表情弱、没有感染力、只有上半身简单的肢体动作。
往往我们人都感动哭了,这些卡通形象看起来还在卖萌,严重影响观感。很多时候,我们看这些数字人直播表达的情绪,完全靠听声音猜,简直就是在看音频主播。现在B站上已经有几万这样的主播,但很多都没人看。大家也都说,新做这样的主播不可能再火了,原因就是达不到真人的表现力,所以没有基石价值,真人主播几百万都照样可以继续火,就是因为表情动作准确,感染力强。这和我说的数字人第一要素“高级别”的要求相差甚远,也不能属于元宇宙级。
4. 元宇宙级数字人
此类数字人驱动技术实现了传统影视行业导演预览的效果、可以精准捕捉人的无穷表情跟全身肢体动作、并能实时驱动直播落地活动!
代表公司: Vicon、optitrack、青瞳、xsense、dynamicxyz、cubic motion
这类是影视行业里用了很多年的传统专业动捕面捕设备,但穿着与定制繁琐,价格昂贵。他们的共同点是:有场地限制,需要在独立半封闭空间;每次表情捕捉都需要定制面部贴点;全身穿戴动捕服装;提前准备1个小时的匹配和校准;使用者需要1周以上专业培训;10人以上团队的支持维护;换人成本高,每次换人就要重新定制、培训、熟悉操作等1个月以上的时间;直播过程中主播不能休息,设备穿戴一次就需要重新适配,大大降低了使用效率。
再看价格,一套驱动设备下来大几十万至上百万,抱歉我家境贫寒可能不配,先行告辞了……难道我们个人主播、小公司就没有机会踏足元宇宙了吗?
我最近在B站发现了一个 “ 赛博演猿cybactor ” 的技术演示的视频,仅用一个普通家用摄像头就能实现面部微表情、全身肢体动作的精准捕捉,来自于聚力维度。我眼前一亮不禁畅想,如果未来都能够普及这种应用效果的驱动设备,那元宇宙的第一批驻民远超10亿也不是梦,人人都是头号玩家。现在疫情再次爆发,我正在居家隔离,期待跟大家共同实现元宇宙到来的那天都能拥有帅气漂亮的元宇宙级虚拟数字人。