据谷歌7月12日发表在《Nature》的论文,当回答医学问题时,其微调后的医疗大模型Med-PaLM表现良好,一组临床医生对其回答的评分为92.6%,与现实中临床医生的水平(92.9%)相当。另外,谷歌提出了全新的MultiMedQA评估基准,涵盖了医学考试、医学研究等领域的问题和回答,以评测大模型在临床方面的能力。