Meta开源AI模型ImageBind，助力创造身临其境多感官体验

编辑：刘余欣 | 分类：论文 | 2023年5月10日

加入映维网会员

查看引用/信息源请点击：theverge

帮助我们轻松创造身临其境的多感官体验

（映维网Nweon 2023年05月10日）Meta日前开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind，包括文本、音频、视觉数据、温度和运动读数。目前，相关源代码已托管至GitHub。

对于以往的AI系统，每个模态都拥有特定的嵌入，一般只支持一个或两个模态，而不同模态之间难以进行互动和检索。例如，你无法直接根据音频来准确检索出相关图像和视频。但ImageBind可以将六种模态的嵌入对齐到一个公共空间，从而实现跨模态检索。

换句话说，你只需提供一种形式的输入，它就能够将其与其他模态联系起来。举个例子，如果提供一张海浪的图片，ImageBind就可以检索海浪的声音；如果你提供老虎的图片和瀑布的声音，系统就可以自动生成一个老虎行走在瀑布前的视频。

当然，所述模型目前只是一个研究项目，暂时没有直接的消费者应用。然而，这种生成式AI显然可以帮助我们轻松创造身临其境的多感官体验。例如，当你要求VR设备提供在天空中翱翔的场景时，系统可以马上匹配相应的画面，声音和触感。

......（全文 903 字，剩余 517 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限