微软研究院近日展示了Project Rumi项目,结合文本、音频和视频数据,通过多模方法,提高AI系统的理解能力,从而更能理解人类的意图。该项目包括两个主要部分:多模式副语言编码器和多模式副语言解码器。