北大联合腾讯打造了一个多模态15边形战士!以语言为中心,“拳打脚踢”视频、音频、深度、红外理解等各模态。提出LanguageBind的多模态预训练框架。LanguageBind包含三个部分: 多模态编码器(Multi-modal Encoders),语言编码器(Language Encoder),以及多模态联合学习