研究称Gemini Pro视觉能力与GPT-4V不相上下

AI行业动态11个月前发布 ainavi
7,336 0

来自腾讯优图实验室、上海AI实验室、香港中文大学多媒体实验室等机构的团队发表128页的论文,对谷歌Gemini Pro的视觉理解能力进行测评并与OpenAI的GPT-4V比较,同时还与最新的开源MLLM Sphinx进行了比较,Sphinx显示了人工和黑盒系统之间的差距。测评涵盖了四个领域:基础感知、高级认知、挑战性视觉任务和各种专业能力。定性样本表明,虽然GPT-4V和Gemini展示了不同的回答风格和偏好,但它们在视觉推理能力上是可比较的,而Sphinx在领域泛化方面仍然落后于它们。具体来说,GPT-4V倾向于详细解释和中间步骤,而Gemini更喜欢输出直接而简洁的答案。

© 版权声明

关注公众号,免费获取chatgpt账号
免费获取chatgpt

相关文章

暂无评论

暂无评论...