Meta开源AI模型ImageBind,助力创造身临其境多感官体验
帮助我们轻松创造身临其境的多感官体验
(映维网Nweon 2023年05月10日)Meta日前开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind,包括文本、音频、视觉数据、温度和运动读数。目前,相关源代码已托管至GitHub。
对于以往的AI系统,每个模态都拥有特定的嵌入,一般只支持一个或两个模态,而不同模态之间难以进行互动和检索。例如,你无法直接根据音频来准确检索出相关图像和视频。但ImageBind可以将六种模态的嵌入对齐到一个公共空间,从而实现跨模态检索。
换句话说,你只需提供一种形式的输入,它就能够将其与其他模态联系起来。举个例子,如果提供一张海浪的图片,ImageBind就可以检索海浪的声音;如果你提供老虎的图片和瀑布的声音,系统就可以自动生成一个老虎行走在瀑布前的视频。
当然,所述模型目前只是一个研究项目,暂时没有直接的消费者应用。然而,这种生成式AI显然可以帮助我们轻松创造身临其境的多感官体验。例如,当你要求VR设备提供在天空中翱翔的场景时,系统可以马上匹配相应的画面,声音和触感。
......(全文 903 字,剩余 517 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限