研究称Gemini Pro视觉能力与GPT-4V不相上下

AI行业动态1年前 (2023)发布 ainavi

0 1200

来自腾讯优图实验室、上海AI实验室、香港中文大学多媒体实验室等机构的团队发表128页的论文，对谷歌Gemini Pro的视觉理解能力进行测评并与OpenAI的GPT-4V比较，同时还与最新的开源MLLM Sphinx进行了比较，Sphinx显示了人工和黑盒系统之间的差距。测评涵盖了四个领域：基础感知、高级认知、挑战性视觉任务和各种专业能力。定性样本表明，虽然GPT-4V和Gemini展示了不同的回答风格和偏好，但它们在视觉推理能力上是可比较的，而Sphinx在领域泛化方面仍然落后于它们。具体来说，GPT-4V倾向于详细解释和中间步骤，而Gemini更喜欢输出直接而简洁的答案。

# AI行业动态