王长虎：PixVerse 实测效果已超过 Pika，抖音经验让我们有足够优势

AI行业动态1年前 (2024)发布 ainavi

0 3200

今年 4 月宣布创办爱诗科技，加入视频生成赛道后，王长虎就消失在舆论场中了。他在抖音的职业经历，让爱诗科技在视频生成的牌桌上拥有一席重要位置。

2017 年，王长虎加入字节跳动开始担任 AI Lab 总监，在这个岗位上，他为抖音和 Tiktok 从 0-1 构建了视频AI能力。用王长虎本人的话说，为抖音所做的工作，让他的团队涉猎了几乎所有与视频智能相关的领域，包括且不限于数据处理、内容生成、安全问题处理、视频内容精准理解以及全方位广告场景。

近期，王长虎接受了机器之心的独家专访。在采访中，王长虎详细介绍了抖音的视频智能化经验是如何被他复用到视频生成领域的，所积累的这些经验为他的新公司构建了数据、算法以及工程上的竞争优势。

爱诗科技在近期上线的视频生成工具 PixVerse，能够生成免费 4K 分辨率的高清视频，在光影细节和运动准确性等方面取得了进展。王长虎告诉机器之心，PixVerse 的性能在某些方面已经达到了 Pika 的水平，甚至在多项评测中超越了它们

自媒体 KOL 歸藏在一次对比评测中，从物品特写、写实风景、写实人像、皮克斯 2.5D 风格、 2D 动画风格五种风格对 PixVerse、Pika 以及 Runway 三大模型进行比较，为这三者评分 74.5 分、 73.5 分、 64.5 分，PixVerse 位居第一。

歸藏认为，“PixVerse 的模型是这三者最为平衡的，可以有比较强的运动幅度，同时可以维持较好的一致性。Pika 在动漫和 2.5D 风格上的优势巨大，但图像质量以及一致性相对差一些。

王长虎认为，目前视频生成领域存在的两个最关键的技术问题是准确性和一致性，而在这两个核心维度上，Pika 和 Runway 还有提升空间。“在目前的实测中，PixVerse 欢迎投资人和同行以及用户来进行随机大样本量的对比，对比越多，越能发现我们的优势”。

王长虎表示，视频生成技术上的累进和商业化的运行已经可以同步开展。爱诗科技内部正在大量孵化基于视频生成技术的轻量应用，这些应用将面向使用抖音、快手等短视频平台的 C 端视频消费者，借助这些应用扩充产品影响力。

“产品效果超越 Pika”

机器之心：能否请您介绍下目前公司最新的情况？

王长虎：我们核心团队成员从 2017 年开始参与抖音从零到一的发展，负责抖音背后的视频人工智能能力构建，在视频 AI 领域积累了很多独特的实战经验。随着 AI 时代的到来，我们认识到 AI 视频生成的巨大潜力，而我们的经验让我们有信心（比别人）做得更快更好。

2023 年 4 月份，我们获得首轮数千万人民币的融资，6 月份核心团队基本成型。我们只用了 3-4 个月的时间就实现了重大进展，在某些方面超越了全球最大的竞争对手像 Pika 这样的公司。之前在抖音积累的视频处理经验，被成功应用在目前我们的 AI 视频生成项目上。

整体上，我们的产品发展分为两个阶段：

第一阶段：TO 创作者，提供更好的视频生成服务，更好地理解创作者动机。同时，也支持直接面向用户，接受用户反馈进行迭代。我们目前已经推出的产品 PixVerse，用户已经可以在网页端和 Discord 社区使用，利用文字或者图片生成 4K 高清视频。

在第二阶段，我们希望直接面向消费者，不仅仅是提供工具，而是要打通创作和消费的整个流程，直接提供 AI 原生的可消费内容。

机器之心：横向对比，目前，PixVerse 在哪些方面做得比较好？

王长虎：目前，我们认为在视频生成领域最关键的两个问题是准确性和一致性。准确性要求每一帧都能精确地反映用户需求，一致性要求在时间轴上，视频中物体的运动符合客观规律。

只有在这两方面上实现进步，让 AI 生成的视频准确反映用户需求，并且保证动态内容符合规律，运动具有连贯性，这样的视频才能应用于实际场景。就目前而言，我们发现在这两个核心维度上，Pika 和 Runway 各有明显的不足。

目前，在这两方面，我们已经取得了重大进展。我们已经可以生成 4K 高清的动态视频，并且在可用性上实现了提升。

举个例子，这是我们海外的一些创作者所实现的效果，一位创作者利用 PixVerse 制作的宣传片，其中每个素材都运用了我们的技术。

此外，我们还能制作一些基于电影、游戏素材的创新场景，比如钢铁侠在黄浦江游泳、让《原神》角色在其他游戏场景里跳舞等等。

机器之心：你提到说在效果上已经 “超过了 Pika 和 Runway”，这个标准是什么？我们可以怎么感受到？

王长虎：我们可以用同一个 Prompt，对比一下 PixVerse 和 Pika 1.0、Runway 的效果。

比如，柯基跳舞的 Prompt（a corgi is dancing_一只柯基在跳舞）

在 Pika 1.0 的表现里，柯基主体非常精确且吸引人，但是它只进行了微小幅度的运动。观察它的画面，虽然每一帧单独看起来都不错，但当它们连在一起时，就不再呈现出视频的信息量。而Runway在柯基的表现上很好，但是基本没有跳舞的动作。

这本质上，是刚才我提到的 “运动一致性” 的问题，因为现在对于要让一个物体在时间轴上去做运动，本身是一个非常难的技术。

总之，整个行业在模型视频生成方面面临的最基础问题，就是准确率和运动一致性。如果我们制作的视频素材既不准确又缺乏一致性，就无法在任何场景中有效使用。因此，我认为这是全球这个行业首要解决的问题。在这方面，我们技术上可能走在了前列。

我们欢迎对我们的模型进行实时测试，事实上，测试的案例越多，我们的优势就越明显。现在视频生成领域还没有形成统一的竞争格局，我们认为在这个方向上，我们有机会在全球范围内取得领先地位。

机器之心：你们内部视频生成内容评价的标准是什么？

王长虎：目前我们内部已有一个评估标准，可以用于评估视频生成产品准确性和一致性。目前整个行业缺乏一个明确的判断标准，所以我们也在不断完善过程中，未来可能会发布出来。

我们将评估标准分为三个部分：主体动作风格、一致性（包括主体和背景），以及主体运动的合理性。我们还考虑了运镜技巧、创新瓶颈，以及丰富性，后者主要涉及画质和帧率。这些都是比较客观的维度。我们还评估信息量，即单位时间内的信息量。很多同行在研发时缺乏这样的逻辑。我们有一套体系来支持我们的迭代进程。

在效果评定上，除了主观与客观的标准，我们还采用盲测的方法做测试。向多个模型输入随机 Prompt，抹去水印，让足够样本的人做效果排序，来判断谁更优秀。

机器之心：你认为这种评估方式相对客观吗？

王长虎：是的，这种方法相对客观。虽然图片生成和视频生成的效果判断比较主观，但我们之所以能在市场上迅速崛起，是因为我们使用的模型和整个系统支持我们从数据角度快速作出评估。

机器之心：你们最近进行的盲测评估结果如何？

王长虎：根据我们最近的评估结果，我们的性能在某些方面已经达到了 Pika 平台的水平，甚至在多项评测中超越了它们。我们的产品在视觉效果、分辨率、画质上明显优于竞品。此外，在模型准确性、一致性和丰富性方面，我们的表现也更好。

通常情况下，如果有投资人或同行要进行测试，我们会建议他们出至少 20 个问题，以确保样本量足够大。我们会根据他们认为重要的方面来进行测试。在所有这些测试中，我们通常可以明显地看出我们的产品比竞品更优秀，这是肉眼可见的。

但最终判断哪个产品更好，很多时候并不仅仅是基于技术性的因素，而是主观上的偏好。如果大家普遍认为某个产品好，那么这个产品就被视为更优秀。

用抖音经验解决准确性与一致性问题

机器之心：再聊聊 “准确性” 以及 “一致性” 的问题，和其他公司比，你们是怎么做到这两方面表现得更好？

王长虎：影响视频生成最后结果的因素有很多，但最重要的是：数据、算法和工程能力，而我们在过往经验中，这几方面都有自己的优势。

我们从 0 到 1 建立过抖音背后的视频平台能力，这里面包括了数据处理、内容生成、安全问题处理、对视频内容的精准理解甚至全方位的广告场景，几乎所有与视频相关领域我们都有所涉猎。

数据层面，我们的关键能力是，能够从海量数据中筛选出一小部分高质量数据来训练更优秀的模型，并且在安全问题上足够有经验。在抖音和 TikTok，每天都有海量视频上传，我们需要利用 AI 技术有效地整合和剔除低质量和重复性内容，并且防止用户生成不适当内容。处理这些问题的经验，让我们能够用更少的整体数据量训练模型，同时降低模型大小和 GPU 资源。

算法层面，我们在多模态对齐、视频特征表示、时空建模以及主体控制上都有自己的创新。在多模态建模上，我们进行了大量自监督学习，更充分利用动作型数据，特别是在处理未标注的视频数据方面，我们尝试了多种方法来建模那些标注噪声较大的数据集，这些尝试直接帮助我们解决动态建模的问题。

特征表示上，我们在文字和视频内容的向量化做了很多尝试。时空建模方面，我们努力在训练过程中生成局部内容，同时让模型能够把握整体视野。生成中间某一帧时，模型应能够记住之前和之后的内容。在最优关键帧选择和动作建模质量上取得平衡。主体控制上，我们在关键帧生成、视频内容分割等方进行优化，帮助我们对视频性能控制更精准。

工程方面，我们参考了之前在抖音操盘上万块 GPU 的经验，帮助在大规模集群训练和推理时的稳定性提升，并且复用了自动化的能力去应对数据分布变化问题。

机器之心：基于 “数据、算法和工程” 这三个要素，你认为你们实现了 “用更少资源取得了更优效果” 的成就，有没有具体数字可以说明这一点？

王长虎：我们的研发效率极高、迭代速度极快，Runway 成立了 5 年多时间，融资几亿美金，Pika 成立了近一年，融资大几千万美金。我们正式训练模型是在 2023 年下半年，花了 3 个月左右的时间就做到了全球第一梯队的水平，资源资金的消耗比 Runway、Pika 至少小了一个数量级。

未来计划通过轻量产品吸引用户

机器之心：目前 PixVerse 的策略是通过加速技术进步来取得优势，还是更多侧重于提高市场曝光度？

王长虎：我们目前观察到，像用户用 Pika、Runway 这些平台制作的视频在 YouTube 或 TikTok 等主流社交媒体上并没有太多播放量，很多 AI 视频生成厂商目前的受众更多在服务一小部分 AI 发烧友。

但我们的目标是希望技术能去找到具体的消费场景，满足实际需求，这里面需要用户对我们的技术信心，所以我们需要展示我们的技术能力，让用户愿意去使用。

机器之心：你的意思是你们计划首先找到一个适合你们平台的应用场景，然后与创作者合作，优化这个场景，并通过这种方式吸引用户吗？

王长虎：我们首先确定的是，我们的平台不仅会提供技术，还会推出产品。技术只是起点，我们要解决的核心问题是如何利用这些技术创造的内容。我们已经有一些思路了。比如，帮创作者用《原神》中的人物进行高质量的二次创作。类似的场景尝试内部还有很多，我们在积极尝试，这部分产品主要面向 C 端用户。

机器之心：你认为当前整体的视频生成赛道竞争局势如何？

王长虎：现在的竞争虽然已经开始，但真正激烈的阶段还未到来。我们发现目前大部分的用户只是停留在了解 AI 视频产品的阶段，并没有真正在使用产品去创作，这表明市场的增量仍然很大。

不过，我们认为并非只有在技术完全成熟时才有商业化机会。即便我们目前的技术仅支持生成数秒的视频，但已经有用户在此基础上做出了大片级的作品。在这个阶段，我们正考虑哪些特性能更广泛地吸引 C 端消费者，使他们觉得产品既有趣又实用，并愿意去传播。这部分工作是目前我们的战略核心。

机器之心：你们对公司半年或者一年后的预期是什么？

王长虎：在未来 6-12 个月里，我们希望用 AI 制作出 15 秒长的可消费短视频。实际上，抖音刚开始时就是从 15 秒的视频开始的，所以我认为这样的长度足以承载丰富的信息供用户消费。我们希望这些内容是由 AI 生成的，同时也是用户感兴趣、愿意传播和浏览的。这些内容可能是单镜头拍摄，也可能是多个镜头组合的，但都能讲述故事并承载信息。

未来，我们希望实现视频的实时秒级生成。我相信一旦做到这一点，将会对整个内容行业、视频行业带来巨大的颠覆。因为我们目前想到的都是存量的场景，而这将是一个全新的物种，带来许多增量的新体验和玩法，这些都是我们和同行未来需要一起探索和理解的。

机器之心：要达到这个 6-12 个月的目标，公司还需要哪些方面的进步？

王长虎：首先是视频生产的基础能力，继续提升准确性和一致性，目前的技术仍然存在一些瑕疵，我们希望继续改进。另外，我们希望能支持生成更长时间的视频。

机器之心：视频内容如果实现秒级实时生成了，可能会发生什么？

王长虎：现在人们消费视频的方式是在电影院观看相同的电影，或者在网上观看相同的剧集。但是 AI 视频生成技术意味着未来我们可能实现秒级甚至实时的视频生成。

这种实时生成允许我们在视频播放时改变其某些元素，比如让观众成为视频中的主角，并且可以实时变化。这使得每个观看者都能与视频互动，参与到视频的发展过程中，每个人看到的内容都是不同的。这种技术能够理解每个人的喜好，并根据这些喜好定制化视频内容，就像创造一个平行宇宙一样。

未来，我们获取信息的方式可能会变为推荐加生成结合的方式，每个人看到的视觉内容都会不一样。由于互联网上的信息已经高度视频化，这个领域的未来想象空间非常大，但这需要逐步实现，从一个模型应用开始，慢慢发展到更远大的目标。

# AI行业动态