Meta开源AI模型ImageBind,助力创造身临其境多感官体验

查看引用/信息源请点击:theverge

帮助我们轻松创造身临其境的多感官体验

映维网Nweon 2023年05月10日)Meta日前开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind,包括文本、音频、视觉数据、温度和运动读数。目前,相关源代码已托管至GitHub

对于以往的AI系统,每个模态都拥有特定的嵌入,一般只支持一个或两个模态,而不同模态之间难以进行互动和检索。例如,你无法直接根据音频来准确检索出相关图像和视频。但ImageBind可以将六种模态的嵌入对齐到一个公共空间,从而实现跨模态检索。

换句话说,你只需提供一种形式的输入,它就能够将其与其他模态联系起来。举个例子,如果提供一张海浪的图片,ImageBind就可以检索海浪的声音;如果你提供老虎的图片和瀑布的声音,系统就可以自动生成一个老虎行走在瀑布前的视频。

当然,所述模型目前只是一个研究项目,暂时没有直接的消费者应用。然而,这种生成式AI显然可以帮助我们轻松创造身临其境的多感官体验。例如,当你要求VR设备提供在天空中翱翔的场景时,系统可以马上匹配相应的画面,声音和触感。

......(全文 903 字,剩余 517 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/107572
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯