近日,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。本轮由华兴资本担任独家财务顾问。
生数科技成立于2023年3月,是全球领先的多模态大模型公司,致力于图像、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。此前公司已完成近亿元融资,过往股东还包括蚂蚁集团和锦秋基金等知名机构。
在多模态视觉模型的研发上,生数科技较早地确立了Diffusion Transformer架构,与不久前引起爆炸式关注的Sora在架构思路和实验路径上完全一致。所谓Diffusion Transformer是在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的涌现能力。
DiT架构由伯克利团队于2022年12月发表。但其实早在2022年9月,生数科技创始成员就提出了基于Transformer的网络架构U-ViT,两项工作在架构思路与实验路径上完全一致,均是将Transformer与扩散模型融合。
当时,U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性(scaling up),这项工作在CVPR 2023发表,早于DiT成为全球范围内最早被提出的Diffusion Transformer架构。
据生数科技介绍,生数对扩散模型融合架构的前瞻创新源自于团队多年的深耕。团队从事生成式人工智能和贝叶斯机器学习研究已有20余年,在深度生成模型突破的早期就开展了深入研究。在扩散模型方面,团队于国内率先开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
目前,团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇,其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果,获得ICLR杰出论文奖,并被OpenAI、苹果、Stability.ai等国外前沿机构采用,应用于DALL·E 2、Stable Diffusion等明星项目中。
2023年3月,团队开源了全球首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型UniDiffuser,在参数量和训练数据规模上,与Stable Diffusion直接对齐。在架构上,UniDiffuser比最近才采用DiT架构的Stable Diffsion 3领先了一年。
此外,除了单向的文生图以外,Unidiffuser支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。
在统一化架构的思路下,生数科技持续进行Scale up。在图文模型的训练中,参数量从最早开源版的1B不断扩展至3B、7B、10B及以上,使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。同时在此基础上,通过拓展空间维度和时间维度,逐步实现3D生成和视频生成模型的训练。
依托底层U-ViT架构的创新尝试,截至去年9月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版),全链路自主训练、自主研发,在图像生成、3D生成、视频生成等多项任务中达到国际一流水平。
3D生成可实现高精度与最快10秒级的模型生成,并推出全球首个4D动画生成、可控3D场景编辑等工作。视频生成已实现短视频的编辑与生成能力,在画面美观度、连贯性方面实现了突破。
此外,生数科技也积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验,并搭建了完整的数据管理和使用体系。从算法原理、算法架构,到工程实现、数据准备,生数科技打造了多维度、全方位的基础建设,这为后续多模态大模型,尤其长视频生成的训练奠定了重要基础。
在商业化落地方面,依托于全面领先的MaaS(模型即服务)能力,生数科技在2B、2C端同时发力,一方面以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。
目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,开放模型服务,提供AIGC个性化体验、定制化内容生产等方面的能力。
同时也于去年上线两款工具产品:视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft,面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域提供赋能,提升创作效率,同时为创作者提供源源不断的灵感和想象力。
对于未来的规划,生数科技始终坚持“原生多模态”方向,基础模型层面会持续优化,不断提升语义理解、可控性、美观度方面的生成效果,近期则将重点突破长视频生成能力。在产品端,现有产品将持续迭代,不断满足用户需求,实现用户量的持续增长,同时公司也正在探索工具以外的全新产品形态,致力于提升每个人的创造力和生产力。
投资人评价
1、启明创投合伙人周志峰
如今的大模型已经从原来的纯语言模态,逐步走向多模态的探索。生数科技从去年成立之初就选择多模态赛道,是国内这个领域起步最早、积累最深的团队,大量工作被OpenAI、Stable Diffusion团队引用。生数科技推出的U-ViT架构作为全球Diffusion Transformer架构的首创,不仅具有前瞻的技术视野,更是经过了大规模训练的验证,展现出强大的技术可行性。这种兼具开拓性和成熟度的核心工作,让我们对生数科技在多模态大模型方向的长期发展充满信心。
今年过年期间,Sora的亮相不仅展示出视频生成技术的巨大潜力,而且增强了人们对于多模态生成未来发展的信心。随着Scaling Law在视频生成领域的进一步加强,我们预期多模态技术将引领一系列令人瞩目的创新和令人惊叹的成果。在这一过程中,生数科技无疑将扮演一个关键的推动角色!
2、达泰资本合伙人姚承
在当下大模型赛道的竞争中,生数科技在多方面都脱颖而出。不仅敏锐洞察到多模态的前沿趋势,而且作为国内最早投身多模态赛道的公司,生数科技在过去短短一年的时间内就取得了令人瞩目的成绩单,从基础设施、模型算法、数据资源到场景化应用积累了独特的竞争优势。同时生数科技也是国内极少拥有“从零开始、自主训练”大模型能力的公司,具备深厚理论基础和实践经验,拥有突破主流框架技术难点和瓶颈的技术实力,因此我们坚持在人工智能领域的布局,并对生数科技未来发展充满期待。
3、智谱AI CEO 张鹏
智谱AI CEO 张鹏表示:作为清华系的创业团队,生数科技是国内最早开展深度生成式AI研究的组织之一。从对抗生成网络到扩散模型,生数科技敏锐洞察到融合架构的重要性,将其作为原生多模态的技术核心和重要支撑。智谱AI很高兴同生数科技展开深入合作,助力生数科技多模态核心技术研发与商业化探索,一同推动多模态大模型技术落地应用,更好惠及千行百业。
4、华兴资本董事总经理、华兴资本集团联席总裁 王力行
我们身为生数科技的亲密战友,见证了公司的厚积薄发和无限潜力。作为全球顶尖的研发团队,生数科技在基础理论架构和工程实现等层面展现出了超群的创新力和前瞻性,率先提出U-ViT架构并一以贯之,引领了多模态行业的发展;同时团队以极强的执行力和落地速度,陆续在图像、3D、视频生成等领域贡献了艺术级的作品。作为未来数字世界的天才建筑师,生数将率先攻克多模态生成瓶颈,把人类的创造力和艺术构想一一落为现实,始于科学、忠于创新、迈向未来。