浙大校友开源多模态大模型LLaVA-1.5

AI行业动态1年前 (2023)发布 ainavi

0 2800

来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员开源发布了端到端多模态大模型LLaVA-1.5。据介绍，该模型不仅在11个基准测试上实现了SOTA，甚至还可以直接对打GPT-4V。
此前，该团队于今年4月发布了LLaVA大模型。此次升级，研究人员通过使用带有MLP映射的CLIP-ViT-L-336px，添加具有简单响应格式提示的、面向学术任务的VQA数据，大幅提升了LLaVA-1.5的性能。实验结果显示，架构更加简单的LLaVA-1.5只需要120万公开数据，即可超越用了14.5亿训练数据的Qwen-VL和1.3亿数据的HuggingFace IDEFICS。其中，13B模型的训练只需要8个A100芯片就可以在1天内完成。

# AI行业动态