谷歌DeepMind正加速推进多模态AI代理Project Astra的开发

编辑：刘余欣 | 分类：快讯 | 2025年4月22日

Astra对现实世界理解的发展比预期要快得多

（映维网Nweon 2025年04月22日）谷歌正积极打造多模态智能代理Project Astra，并认为眼镜形态设备是AI的理想载体，可帮助实现一个“能看见且能说话的响应式助手”。

在一次采访中，DeepMind负责人戴米斯·哈萨比斯（Demis Hassabis）表示团队正努力开发这个多模态智能代理，而Astra对现实世界理解的发展比预期要快得多。

但Astra并不只是被动地看。DeepMind一直在努力教导这个人工智能如何生成逼真的图像和视频，并叠加在设备视场。在两年前，工程师的视频模型依然难以理解四肢是如何附着在狗狗身上。但现在，Veo 2已经能够变出一只扇动翅膀的飞行狗。

这对增强现实眼镜的未来发展将产生深远的影响。想象一下，你的眼镜不仅能告诉你面前的建筑是什么，而且可以把这个地点一个世纪前的样子可视化，并以高清的方式呈现在你的视场之中。

然后是Genie 2， DeepMind的新世界建模系统。如果Astra可以理解这个世界的存在，则Genie就可以帮助将静态图像转换为可通过眼镜设备看到的可探索环境。

在演示中，当你往前走的时候，Genie可以在眼镜视场的拐角位置生成各种有趣的数字对象，它甚至可以根据一张瀑布照片为穿戴眼镜设备的用户提供一个可玩的游戏关卡，并随着你的探索行进动态生成。

可以看到，谷歌正全力推动Project Astra的发展，并希望以眼镜形态实现一个“能看见且能说话的响应式助手”，从而提升你的日常生活体验。

所以，谷歌正努力将Project Astra风格的感知带到大家。现在已有一小部分人穿戴基于Astra的眼镜，相关硬件已经可以使用Micro LED显示屏投影一定的数字内容，并通过太阳穴附近的微型定向扬声器传递音频。与最初的谷歌眼镜相比，这已经是向前迈进了一步。

当然，我们离真正的眼镜圣杯设备依然存在相当遥远的距离，而谷歌是否能帮助实现这一未来尚不得而知。但随着Meta，苹果，谷歌，三星等巨头纷纷发力，未来或许人人都会穿戴可以在视场中叠加各种有用图形，并通过语音向你提供不同说明的眼镜。

您可能还喜欢...