三星Android XR头显上手体验:Gemini是迄今最好的XR端AI代理
上手体验
(映维网Nweon 2024年12月13日)谷歌日前发布了用于头显和眼镜设备的Android XR,而三星则宣布将于2025年推出基于所述操作系统的무한/无限代号设备。
RoadtoVR本杰明·朗(Ben Lang)分享了自己使用무한/无限的上手体验:
三星是第一家正式宣布推出基于Android XR的合作厂商,代号为무한/无限,计划于2025年向消费者市场发售。
注意:三星和谷歌没有透露这款设备的任何关键细节,比如分辨率、重量、视场或价格。另外,在演示过程中不允许拍摄照片或视频。
如果我告诉你무한/无限感觉像是Meta Quest和Apple Vision Pro之间的混搭,你可能会认为它有大量重叠的功能。但我不是在进行粗略的类比。只要看看这款设备,你就可以明显看出它从Apple Vision Pro身上获得了重要的设计灵感。从颜色到按钮位置到校准步骤,很多地方你都会联想到市场中的其他产品。
然后在软件方面,如果我告诉你“请开发一个融合了Horizon OS和visionOS的操作系统”,你只要带着Android XR回来找我,我就会说“好,你完成任务了”。
무한/无限和Android XR与另外两大平台的接近感非常不可思议。
但这并不是说有人剽窃。科技公司总是互相借鉴优秀的想法和设计,并加以改进。所以,只要Android XR和무한/无限吸取了别人的优点,并避免了缺点,那就是开发者和用户的双赢。
实际上,它们确实吸取了一系列的优点。
무한/无限
从무한/无限的硬件开始——毫无疑问,这是一个非常好看的设备。它绝对采用了Apple Vision Pro的“护目镜”风格,以及系留电池组(图中没有)。
不过,Apple Vision Pro是柔质头带,而三星则是带有收紧表盘的硬质头带,整体上的人体工程学设计与Meta Quest Pro非常接近。这种外围开放设计非常适合AR。另外,与Meta Quest Pro一样,这款头显有磁性扣入式眼罩,适合想要完全沉浸式体验的用户。
除了护目镜风格,甚至一系列按钮的位置(和形状)都与Apple Vision Pro惊人地相似,但무한/无限并没有外显屏来渲染用户的眼睛。Apple Vision Pro的Eyssight显示屏受到了大量的批评,但我认为这是一个令人满意的功能,而我希望무한/无限能够拥有类似的功能,因为你能看到对方,但对方看不到你,这多少有点尴尬。
三星对这款头显的规格技术细节守口如瓶,并坚称它依然是一个原型。然而,我们了解到这款头显搭载了高通骁龙XR2+ Gen 2处理器。
在上手体验时,我能够收集到一定的细节。首先,这款头显使用了带自动IPD调节功能的Pancake透镜(这要归功于集成的眼动追踪功能)。它的视场感觉比Quest 3或Apple Vision Pro小,但在明确这一点之前,我首先需要尝试不同的额垫选项(已确认包括在内),它们可能会允许眼睛进一步靠近透镜,以获得更宽的视场。
但从我的体验情况来看,视场确实感觉小于Quest 3和Apple Vision Pro(不过依然足以让人身临其境),而且由于亮度朝显示器的外边缘下降,最佳视点同样变小。如果透镜离我的眼睛更近一点,这个问题可能会得到改善,但我目前的感觉是,从透镜的角度来看,Meta Quest 3依然领先,其次是Apple Vision Pro,무한/无限稍微落后。
尽管三星已经确认这款设备将支持控制器,但我没有看到或尝试它们。工作人员表示,他们尚未决定控制器是默认随头显发货还是单独销售。
所以在我体验设备的时候,所有的输入都是手+眼追踪。再一次,这是Horizon OS和visionOS惊人的相似点。你可以像Horizon OS那样使用光线投射光标,或者可以像visionOS那样使用眼+捏输入。三星的头显同时配备了朝下摄像头,这样当手舒适地放在膝盖上时,系统就能检测到指捏动作。
当我真正戴上头显的时候,我首先注意到的是手看起来非常清晰。据我记忆,这款头显的透视摄像头似乎比Quest 3更清晰,运动模拟比Apple Vision Pro更少(但我只在极好的照明条件下进行了测试)。考虑到我的手看起来非常锐利,但远方对方则稍逊,我觉得透视摄像头或许只能对焦在大约一臂距离的位置。
Android XR
如前所述,它可以立即令你联想到Horizon OS和visionOS。你会看到与Apple Vision Pro相同的“主屏幕”,透明背景有应用图标。看一看并指捏一下,你会看到一个(或几个)包含应用的浮动面板。甚至打开主屏幕的手势都是一样的(看着手掌并指捏一下)。
系统窗口本身看起来更接近Horizon OS,而不是visionOS,它们的背景大多不透明,并且可以通过覆盖整个面板的不可见框架将窗口移动到任何地方。
除了平面应用,Android XR可以支持完全沉浸式体验。我看到了谷歌地图的VR版本,感觉与谷歌地球VR非常相似,允许我在全球范围内选择任何地方访问,包括看到主要城市的3D模型,街景图像,以及室内空间的体三维捕获。
尽管街景是单镜360度图像,但体三维捕获是实时渲染,并且完全可探索。谷歌表示这是一个高斯飞溅的解决方案,但我不清楚是不是意味着标准谷歌地图已经支持,或者它需要一个全新的扫描。它并没有像摄影测量扫描那样清晰,但不差。谷歌指出,场景是在设备端运行,而不是串流。另外,随着时间的推移,清晰度有望提高。
Google Photos也为Android XR进行了更新,包括自动将任何现有的2D照片或视频从您的库转换为3D的能力。在我使用它的短暂时间内,转换看起来确实令人印象深刻;质量与Vision Pro上的相同功能相似。
YouTube是谷歌为充分利用Android XR而优化的另一个应用。除了在大型曲面显示器欣赏普通平面内容外,你同时可以看到平台现有的180度、360度和3D内容库。并不是所有的视频都是超高质量,但非常高兴团队没有遗忘这一点,而且随着越来越多的头显能够查看这类媒体,它肯定会添加进来。
谷歌同时向我展示了一段YouTube视频。视频最初是用2D拍摄,但会自动转换为3D。它看起来相当不错,在质量方面似乎与谷歌Photos 3D转换技术相似。目前尚不清楚YouTube创作者是否需要自行选择加入生成,或者说YouTube可以自动生成。
突出的优势(就目前而言)
无论从硬件还是软件的角度来看,Android XR和무한/无限都像是市场现有产品的谷歌版本。但它明显优于其他头显的地方是对话式人工智能。
谷歌的人工智能代理Gemini可以从主屏幕触发。它不仅能听到你的声音,而且能看到你在现实世界和虚拟世界中看到的一切。它对你所说和所见的持续感知能力令人感觉这个人工智能代理更智能、更无缝、更健谈。
是的,Apple Vision Pro有Siri,但Siri只能听到你的声音,而且主要集中在单一任务,而不是正在进行的对话。
Quest有一个实验性的人工智能代理,它可以听到你的声音,看到你所看到的一切,但仅限于现实世界。它不知道你面前的虚拟内容是什么,这就造成了一种奇怪的脱节。Meta表示这种情况最终会改变,但目前的情况就是这样。另外,为了“看到”,你必须询问它一个关于周围环境的问题,然后站着不动,当发出“快门”的声音时,它就会开始思考相关的图像。
另一方面,Gemini更接近于你在现实世界和虚拟世界中看到的低帧率视频馈送。这意味着在拍摄一张照片时,你无需尴尬地停顿。
Android XR的Gemini有一定的记忆能力,从而在语境理解方面有所提升。谷歌表示它有10分钟的滚动记忆,并可保留“过去谈话的关键细节”,这意味着你不仅可以提起最近谈论的事情,而且可以询问你看到的一切。
我看到的是现在十分常见的人工智能演示:你在一个满是物品的房间里,你可以提出问题。我试着用几个狡猾的问题来困扰系统,但它避免犯错的能力给我留下了深刻的印象。
我要求Gemini把西班牙语标志转译成英语。它很快给了答案。然后我要求它把旁边的另一个标志转译成法语——实际上,这个标志已经是法语。Gemini没有犯错,并正确地回答道“这个标志已经是法语”,它甚至会用法国口音说出法语单词。
我继续询问房间里的其他物品,几分钟后,我问它:“之前那个标志是什么意思?”它知道我在说什么,而且能大声读出来。然后我说“那之前的那个呢? ” ….
数年前,“那之前的那个呢?”这个问题对任何人工智能系统而言都是一个巨大挑战(今天对大多数系统来说依然是)。正确回答这个问题需要从谈话中知晓多个层次的上下文背景,并理解刚询问事项与我们之前讨论过的另一件事情之间的关系。
但Gemini完全明白我的意思,并很快就把西班牙语标志读给我听。这给我留下了深刻的印象。
Android XR端的Gemini可以做更多的事情,不仅仅只是回答一般性问题。当然,这一点有待观察,但谷歌已经向我展示了Gemini控制头显的几种方法。
比如,要求它“带我去埃菲尔铁塔”,它会弹出一个沉浸式谷歌地图视图,这样我就能以3D的形式看到埃菲尔铁塔。因为它既可以看到虚拟内容,又可以看到真实内容,所以我可以继续进行相当自然的对话,询问不同问题,比如“它有多高?”或者“它是什么时候建成?”
Gemini同时可以获取特定的YouTube视频。所以,当你在查看虚拟的埃菲尔铁塔时并要求“播放一段从地面看到的视频”,它就会弹出一段YouTube视频来显示你所要求的内容。
从表面上看,Android XR的Gemini应该能够做到大多数手机AI可以实现的事情,例如发送短信,撰写电子邮件和设置提醒等等,但看看它在XR特定功能方面的深度将十分有趣。
Android XR端的Gemini感觉像是迄今为止头戴式设备中最好的人工智能代理(包括Meta Ray-Ban智能眼镜),但苹果和Meta无疑正在朝着类似的方向努力。谷歌在这方面的领先地位能保持多久有待观察。
当把Gemini用于提高空间效率时,它感觉像是一个非常好的附加功能,但它的真正命运可能系于更轻便的、日常可穿戴的智能眼镜身上。