上周 OpenAI 发布了开启新范式的 o1 模型,这周开源大模型圈也掀起了新的波澜。
在今天的云栖大会,阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2.5,旗舰模型 Qwen2.5-72B 性能超越 Llama 405B,再登全球开源大模型王座。
阿里巴巴集团 CEO 吴泳铭认为,过去 22 个月,AI 发展速度超过任何历史时期,但我们依然还处于 AGI 变革的早期。
生成式 AI 最大的想象力,绝不是在手机屏幕上做一两个新的超级 app,而是接管数字世界,改变物理世界。
对中国 AI 影响颇大的几位大模型公司掌舵者——阶跃星辰创始人姜大昕、月之暗面 Kimi 创始人杨植麟以及清华大学人工智能研究院副院长、生数科技首席科学家朱军,也齐聚一堂讨论 AI 的前沿趋势和应用进展,包括对 o1 模型的深度思考。
回顾过去,我们的感觉还是 GPT-4 是一家独大,遥遥领先。到了今年就变成了一个好像是群雄并起,你追我赶的局面,所以感觉各家是在提速了。
FSD V12 它的成功意义不仅在于智驾本身,这套方法论可以认为是为将来的智能设备,如何和大模型相结合,更好地去探索物理世界指明了一个方向。
o1 从能力上来讲,它展示了 language model 可以有系统 2 的能力。从技术上来讲,它带来了一个新的 scaling 的范式。
o1 第一次证明了语言模型其实也可以有人脑的慢思考,就是系统 2 的能力。
算法、算力、数据,铁三角的关系没有改变。RL 确实是算法上的改变。
OpenAI o1 主要意义在于它提升了 AI 的上限。AI 的上限是说,你现在去提升 5%、10% 的生产力,还是说 10 倍的 GDP。
新的 PMF 产生的过程或者探索的过程,其实是要在在延时增长的用户体验下降和最后结果产生质量更高的用户价值的上升之间找到一个平衡点。
以后的 AI,可能它不光是现在思考个 20 秒、40 秒,它已经可能要思考或者调用各种工具,它可能执行分钟级别、小时级别甚至天级别的任务,所以你的产品形态上可能会更接近一个人,它更接近「助理」的概念。
大家最后要指向的有两个方向——一个是给消费者看到的这些数字内容,就是说看上去很好看、很自然,能够讲故事,能够让大家参与讲故事、能够交互。这肯定是一个很重要的方向,在数字内容上,另外一个方向,指向实体、指向物理世界。
现在用到 L1、L2 的进展之后,后面肯定会提升到 L3,让机器人更好地做它的推理规划,然后更好更高效地和环境做交互,更好地完成我们的复杂任务。
APPSO 在云栖大会现场第一时间梳理了这场讨论的内容,以下是论坛实录(有删减),Enjoy it~
张鹏:
最近刚刚出的这个 o1 新模型,也是在专业人群里形成了非常多的影响。在还在很丰富地讨论。
正好我们既然都在这个舞台有机会,三位都对这个事儿有自己的见解,我们就在这儿来讨论一下。
很多人认为这是 AGI 的一个发展阶段的一个重要进步,到底我们怎么理解这个进步。
姜大昕:
确实,我看到一些非共识,有些人觉得意义很大,有些人觉得也不过如此。
我觉得大家如果去试用 o1 的话,可能第一印象就是他的这个推理能力确实非常惊艳,我们自己试了很多的这个 query,觉得推理能力确实上了一个大台阶。
然后我们去思考它背后的意义究竟是什么?我能想到的有两点,第一个就是还是刚才说的,就是他第一次证明了 large language model,就是语言模型,它可以有这个人脑的慢思考,就是 system 这样的一个能力,因为它和就比如说以前的这个 GPT 的范式或者 GPT 训练,它是叫 Predict next token。
他只要这样训练。就注定了他一定只有这个系统 1 的能力,而这个 o1 他是用了一个强化学习这样的一个训练框架,所以带来了这个系统 2 的能力。
那么系统 1 体现一个直线性思维。虽然我们看到这个 GPT-4,它有的时候可以把一个复杂的问题拆解成很多步,然后去分步的去解决。
系统 2 和系统 1 最大的区别就在于,系统 2 能够去探索不同的路径,就它可以自我去反思,自我去纠错,然后不断的试错,直到找到一个正确的途径。
所以这次我觉得 o1 是把以前的模仿学习和强化学习结合起来了,使得一个模型同时有了人脑系统 1 和系统 2 的这样的一个能力。
第二个,我觉得是它带来了一个 scaling law 的一个新的方向。
就是我理解这个 o1,他实际上想试图回答的一个问题就是说 RL 强化学习究竟怎么去泛化,因为强化学习不是他第一个,Deepmind 其实一直走的就是强化学习这个路线。
从这个 AlphaGo 到 AlphaFold,到 AlphaGeometry,其实他的强化学习是非常厉害的。
但是以前的强化学习的这个场景,都是为特定场景去设计的。AlphaGo 只能下围棋,AlphaFold 只能去预测蛋白质的结构。
所以 o1 就是在 RL 强化学习上,代表着通用性和泛化性上了一个大的台阶。
它 scale 到了一个很大的规模,所以我是把它看成带来了一个技术的新的范式。我们不妨称之为这个 RL scaling。
而且我们看到其实有意思的一点就是,o1 它并没有到一个成熟的阶段,它还是一个开端。
但是这个我觉得恰恰让人觉得非常的兴奋,这就等于 OpenAI 跟我们说,我找到了一条上限很高的道路,你仔细去思考它这个背后方法的话,你会相信这条路实际上是能够走得下去的。
o1 从能力上来讲,我觉得它展示了 language model 可以有系统 2 的能力。从技术上来讲,它带来了一个新的 scaling 的范式。所以我觉得它的意义还是非常大。
张鹏:
听起来虽然说现在有非共识,但感觉你非常看好,我是非常认同的。那我再听听朱军老师怎么看这个 o1 它带来的这一个阶段的进展,怎么评价他这个进展的意义。
朱军:
对,我的看法是它是代表着一个显著的质变。因为我们也对 AGI 也大概做了一些分级。
其实学术界,包括产业界,大家是有这个 L1 到 L5 的这种分级。
其实 L1 的话相当于是那个叫聊天机器人,比如像 ChatGPT 这种,L2 的话,其实就是它叫推理者,就是可以做复杂问题的深度思考的这种推理。
然后 L3 的话就是叫智能体,它实际上是从在回应刚才吴总讲的——就是数字世界走向物理世界,我要去改变的,我要去交互的。
然后 L4 的话就是创新者,他实际上就是要去发现,要去创造一些新的东西,或者就发现一些新的知识。然后 L5 的话就是组织者,它可以去协同,或者是有某种组织的方式更高效来去运转。
这是大家对这个 AGI 的一个 L1 到 L5 的分级。每一级的话,他的也有这个相应叫 narrow 和 general 的一个区分。就是你现在在某些 task 上可能展示出来。
比如说像现在的 o1,其实它在 L2 的这个 narrow 场景下,在一些特定任务下已经实现了。
他可以去达到人类很高阶的这种智能的水平。我觉得从这个分级的角度来看的话,其实它确实代表着整个行业的一个巨大的进步。
刚才技术上的姜总也讲了,他实际上还是将过去,比如说强化学习,或者是其他一些技术的话,其实在研究里面已经做了一些很多东西。
但实际上他在这个大规模的几种模型上面能够给他 scae up,给他做出来效果。这还是一个从工程上或者从实现上来说,是对行业一个很大的触动。
然后当然他也会触发或者激发出来很多未来的一些探索,或者是实际的这个研发,它可能会走向从 narrow 到 general 的这种跃迁,我觉得可能刚才讲到这个速度,我相信他可能会很快。
因为大家已经有很多准备了。然后我也期待这个领域里面可能会更多的将这个 L2 能够做的更好,甚至更高阶的能够实现。
张鹏:
我觉得再回植麟这边,因为这次发布 o1 之后,Sam Altman 也热情洋溢的说了,我们认为这是一次新的范式的革命,当然就是 Sam Altman 是很会演讲,也很会表达。
我们想听听你怎么看,就是我们怎么理解他说的这是一次新的范式的变革。你是否认同,这是一次范式的变革。
杨植麟:
我觉得它的确实意义很大,主要的意义在于说提升了这个 AI 的上限。你现在去提升,比如说 10% 的生产力,还是说十倍的 GDP,我觉得这里面确实可能最重要的问题就是,你能不能通过强化学习去进一步的 scaling。
所以我觉得这个是一个完全提升了 AI 上限的东西。
就是我们如果看 AI 历史上七八十年的发展是吧?唯一有效的就是 scaling,加更多的算力。
但是在 o1 提出来之前,其实也可能也有很多人在研究强化学习,但是可能都没有一个非常确切的答案,就是说强化学习。如果跟大语言模型或者跟现在这个 post-traing 这些东西整合在一起,它能不能持续的提升。
而我觉得比如说 GPT-4 这一代模型的提升,它更多的是一个确定性的提升。我在一样的方式下,然后把这个规模变得更大,它肯定是会有确定性的提升。
但是我觉得 o1 的提升并不是一个完全确定性的提升,所以在之前可能大家会担心说,你现在可能互联网上大部分的优质数据都已经被使用完了。
杨植麟:
然后你可能继续去使用这个数据,你也没有更多的数据可以挖掘。所以你原来的范式可能会遇到问题,但是 AI 有效的,你要需要进一步的 scaling,对吧?那你这个 scaling 可能从哪里来?
所以我觉得其实很大程度上是解决了这个问题,或者说至少是证明了他初步可行的情况下,就可能我们会有越来越多的人可以去投入去做这个事情。最终去做到可能这种十倍 GDP 这样最终的效果。
当然,我觉得对于很多产业的格局上,或者说对于创业公司的新机会来讲,也会发生一些变化。对,因为比如我觉得这里面很关键的一个点,就是说你的这个训练和推理的算力的占比,它其实是会发生很大的变化。这个变化当然我不是说训练的算力会下降,其实训练算力可能还会持续提升。
但是在与此同时,可能推理的算力提升的会更快。然后这个比例的变化,我觉得其实本质上是会产生很多新的机会。可能这里面会有很多新的创业公司的机会。
一方面,如果你是有达到一定算力门槛的公司,他其实可以在这里面做很多算法的基础创新。那你可以在这个基础的模型上甚至取得突破。所以我觉得这个很重要。对于说可能你算力相对少一点的公司,他也可以通过比如说后训练的方式,在一些领域上去做到最好的效果。
那这里面也会产生更多的产品和技术的机会。所以我觉得整体可能也是打开了很多这种,我觉得至少是创业相关的一些想象空间。
张鹏:
所以核心这一次的所谓范式变化,带来的就是在解决了 scaling law 的问题,我们到底接下来要 scaling what 吧,其实我们看到了一个新的路径。
并且可能你刚才也讲到,就是未来可扩展的这种创新的路径,空间,可探索的东西变多了,而不是原来是一个收缩的状况。
当然,我觉得今天看起来三位都对于这个 o1 带来的这次变化是蛮兴奋的。但这也是大家现在比较关心的一个问题。
在一个阶段性,毕竟接下来还是在一些比较明确的场景里,我想问问朱军老师,就是在这种把 RL 加到这个体系里面成为一个新的范式之后,我们能看到明显的去泛化这个能力的路径。
因为在今天你看他的这个能力在局部还是蛮棒的,提升很明显。但如果要泛化这个路径明确吗?确定性明确吗?
朱军:
对,其实这个问题确实很值得思考。因为现在他在每一级的话都有,先是在一些任务上能够取得突破,然后我们再想着给他做到更广泛的任务上。
从这个 IO 来说,就比如说现在的 o1 的这种技术的实现路线。因为他没有完全地告诉我们是怎么做的。
张鹏:现在不像 ChatGPT 出来那么OPEN,目前明显没有那么 OPEN。
对,所以单从这个本身的这些科研的积累,或者从这个解读上能够看到他可能用到哪些技术。但其实做 RL 这里边一个很重要的问题,就是这个叫过程监督的这种数据。
它和之前的这个结果,直接 UP 的监督还不太一样。你要对里边的每一步,比如说我思考的过程,每一步都要去标注这种数据。
首先获取可能就比较难了,就是他需要你需要专业的人,然后去做这个专业的这种高价值的数据。另外一个就是说你在实际做 IO 里边,包括之前大家看 AlphaGo 迁移到其他领域里面临同样的问题。
就是说你在更泛化的或者更开放的这种场景下,你的这个 reward model 不好定义。比如说就拿这个,现在他做的是这个是定理证明,或者是一些编程的。
他有确定答案的这种问题的话,你的奖励函数是很容易定义的。
但如果你到比如说到自动驾驶里面,或者到这个艺术创作里边,比如像生图生视频,那在这个里面的话,你是比较模糊的去界定。
可能很多场景下你是很难清晰的来定义到底什么好什么不好。
或者是他可能很多问题不是「是」和「非」的问题,他是大家对这个比如像生成内容的话,他是对美学,或者对其他的这种评价。每个人的感受可能还不太一样。
就在这种情况下,你要去泛化的话,在技术上就面临着很多问题的,就是我怎么去定义这个 reward model,我怎么去收集数据。当然还包括你怎么去让高效的来去实现,能够去 get scale?
但是现在刚才也讲到很多,就是说现在其实大家看到这条路了,这条路其实已经相当于看到曙光,就是会引导大家很多的去朝这边去努力。
然后,另外就结合现在的比较强大的这个基座的话,其实可能比之前,比如上一代把 Alpha 给迁移到其他的领域里面,我相信会更快。
因为包括像一些像开放领域里边,我们可能有更好的模拟器。这些加持在一起,我想这个路可能会走的更快一点,会比之前可能会更容易达到取得效果和提升。
对,可能从我的角度来说看,这个可能后边要去泛化的一些思考,就是今天是还没有看到一个公开的明确的可以确定性把这个泛化完成的路径,但它存在探索的空间和足够的可能性。
张鹏:
这个问题我觉得想再追问一下,植麟,我其实想问的是说,你看到那个东西的时候,你会映射到自己未来要做的事情会是一个什么心理状态,你会怎么分析这个环境。
杨植麟:
对,我觉得这个其实是一个很好的机会。因为等于说你有一个新的技术变量,一个新的技术维度。然后当然这个可能或多或少我们之前也有一些投入,但是可能现在会变成一个主题。
然后在这个主题下面,我觉得我们是有非常多的这种新的机会。
一方面是刚刚朱老师提到的这个怎么去泛化的问题,然后另一方面就是可能不光是泛化,就是说在这个过程中可能还有一些基础的技术问题可能不完全解决。
因为可能他和实际上底层涉及到训练跟推理,可能两个东西要同时去 scaling。对,但这里面可能很多性质,我觉得今天也许也没有被完全探索清楚,然后包括刚刚提到的过程监督的这些问题。
可能中间的一些幻觉也会给这个效果带来很大的伤害,所以这些问题我觉得都很值得研究。但如果能够做好的话,那其实是可以把现在的很多能力去提升一个台阶的。
我觉得还是像我刚刚说的,对我们来讲,可能会有更多通过这种基础创新去形成一些突破的机会。
张鹏:
不确定其实是好事儿,对吧?就是有确定的方向,然后有不确定的路径。
对创业公司本身是好事,否则就没有创业公司的事儿了。我再回到大昕这边,我其实刚才植麟也提到了一点,我觉得这是个很有意思的问题。
你看。过去我们说算法、算力、数据,这三个都是我们在谈 AGI 的时候,看起来是一个关键的三角,对吧?这次看起来在算法层面有一些范式的变化。
反过来,对于算力,对于数据这方面,这个三角形它会怎么产生连锁的反应。能不能帮我们推理一下?
姜大昕:
对,我觉得这个连锁的关系就是算法、算力数据这个铁三角的关系没有改变。RL 确实是一个算法上的改变,对算力造成的结果,我觉得有一个是确定的,有一个大概率会确定。
还有一个是我目前不太确定的,就像刚才两位谈到的,就是在推理侧的对计算的需求量肯定是成倍的提升,这就是 OpenAI 的 blog,里面也提到叫 test time scaling。
因为可想而知,就是 OpenAI 在这个 o1 的背后,可能是用的 H100 在做推理,一个问题往往要消耗十几秒几十秒的时间。所以我们想加快这个速度的话,对这个推理芯片的要求也会提高,一个大概率会确定的事情就是在训练 RL 的阶段,我们所需要的算力可能并不比预训练要少。
张鹏:
这可能是一个非公共利益的需求,还是会持续上升。
姜大昕:
对,就是为什么呢?因为在这个 RL 的阶段,我们做 self play这个数据量,刚才这个植麟也谈到,它是 self play出来,它理论上是可以没有上限的。
所以我们也听说 OpenAI 在训练 strawberry 模型的时候,用了上万张的 H 卡训练几个月。现在还是一个 o1 的 preview,就是他训练还没有完成,所以这个训练代价是非常高的。
我觉得如果我们追求的是一个通用的有泛化能力的推理模型,而不是为某个特定场景所设计的一个 RL 的模型的话。那么它可能训练所需要的这个计算量并不小。
还有一个是我不太确定的,就是在这个 self play 的时候,我们用的这个主模型,它的参数量要不要再继续 scale,让它产生更好的推理路径。因为现在有一个大家有个普遍的观点,就是说 GPT-4 到了万亿参数以后,你再去 scale 它的参数。那么它的边际效益是在下降的。
但如果 RL 这个方法它产生一个放大器的作用,能够加倍你的收益的话,那是不是总的收益 ROI 又打正了,所以这是一个不太确定的事情,可以留到后面去验证。
如果这个结论成立的话,那么算力的增长又回到了平方这样的一个维度。
因为算力计算量等于参数量乘以这个数据量,所以我的感觉就是 RL 要带来的这个不管是对推理侧还是训练侧,它对算力的需求都是在增长的。
对,刚才提到了在 IO 阶段其实有两种数据,一个是少量人工合成的数据,第二个就是海量的 Self-Play,就是机器生成的数据。
那么数据量很大,但是数据的质量非常的关键。所以就是你怎么去构造生成这个数据的算法,以及 self play用的这个主模型的能力就变得非常关键了。
张鹏:
从 ChatGPT 的发布,可能引发了整个世界对于 AGI 这件事的理解,到现在可能也差不多 18 个月了。我不知道各位的感受是怎么样的,这个模型技术的发展是在加速还是在减速?
要不大昕先来帮我们分享一下,你怎么看过去 18 个月,这个 AI、AGI 的发展是在加速还是减速。
姜大昕:
对,我觉得过去 18 个月其实感觉是在加速的,速度还是非常快的。
因为当我们回顾过去 18 个月发生的大大小小的 AI 事件以后,我们可以从两个维度去看。一个是数量的角度,一个是质量的角度。
从数量的角度来看,基本上还是每个月都会有新的模型、新的产品、新的应用这样涌现出来。比如单从模型来看的话,OpenAI 二月份发了一个 Sora,我记得当年当时还是过年的时候,把大家轰炸了一下。
然后五月份出了个 GPT-4o,然后上周又出了这个 o1,然后 OpenAI 的老对手,Anthropic,它有这个 Claude 3到3.5这样的一个系列。再加上 Google 的 Gemini 系列、Llama 系列等等。
回顾过去,我们的感觉还是 GPT-4 一家独大,遥遥领先,到了今年就变成了好像是群雄并起,你追我赶这样的一个局面。所以感觉各家是在提速的。
从质量的角度来看,我觉得有三件事情可能给我的印象非常的深刻。
第一件事情就是 GPT-4o 的发布。因为我认为他是在多模融合这样的一个领域上了一个新的台阶。
在 GPT-4o 之前,比如说 GPT-4V 它是一个视觉的理解模型,有 Sora,就是视觉的生成模型,还有 whisper,这是声音模型。原本这些孤立的模型到了 4o 这里都融合在了一起。
是因为我们的物理世界本身就是一个多模的世界,所以多模融合一定是有助于我们更好的去为物理世界建模,去模拟世界。
第二件事情就是特斯拉发布的这个 FSD V12。大家知道它是一个端到端的大模型,它把这个感知信号直接变成这个控制序列。而智驾这件事情,我觉得它是非常有代表性的。
所以我觉得 FSD V12 它的成功意义不仅在于智驾本身,这套方法论可以认为是为将来的智能设备,如何和大模型相结合,更好地去探索物理世界指明了一个方向。
第三件事情就是上周的这个 o1,我觉得我对他的理解就是,它第一次证明了语言模型其实也可以有人脑的慢思考,也就是系统 2 的能力。
而我们觉得系统 2 的能力,它是归纳世界所必备的一个前提条件,是一个基础的能力。所以我们一直认为 AGI 的演进路线可以分为模拟世界、探索世界,最后归纳世界。
过去几个月的时间,我们看到 GPT-4o、FSD V12 和 o1 分别在这三个阶段或者这三个方向上都取得了非常大的突破。
而且更重要的是为将来的发展也指明了一个方向。所以我觉得无论是从数量还是质量来说,都是可圈可点。
张鹏:
看来,对于你期待的领域里,其实都看到了广泛的突破和进展。植麟,你的体感是怎么样的,投身其中的人可能会跟我们外边看游戏的人不一样,你可以分享一下。
杨植麟:
对,我觉得整体也是处于一个加速发展的阶段。然后可能核心是分层,我觉得可以从两个维度来看,就是 AI 的发展。
现在我觉得第一个维度是这个纵向的维度。也就是说智商是一直在提升的。现在的反映方式还是去看这个文本模型能做到多好。
除了文本模型之外,像刚才姜总提到的,就是也会有各种不同的模态来。这个模态其实也在做一个横向的发展。它更多的是说能让模型具备更多的技能,能够去完成更多的任务。然后同时跟这个纵向的智商的发展去相结合。
比如说在这个纵向的维度上,其实智商是一直在提升的。比如说像我们如果去看这个数学竞赛,数学的能力可能去年是完全不及格,到今年可能已经做到能做到 90 多分。
然后像代码其实基本上也是一样,就是能够击败很多专业的编程选手。然后包括因此也产生了很多新的应用机会。比如说像现在比较流行的类似 Cursor 的这种,可能通过自然语言直接去写代码,这样的软件也越来越普及。
包括我们如果去看很多具体的技术指标,像比如现在的语言模型,能支持的这个上下文的长度。其实如果去年这个时间点去看的话,大部分的这个模型它都只能支持 4 到 8K 的 context。
但是从今天去看,你会发现 4 到 8K 这个已经是一个非常低的数了,对吧?可能 128K 已经是个标配,已经有很多可以支持 1M 或者甚至 10M 的长文本长度。
然后包括最近的很多进展,它其实不光只是做 scaling,比如说 scaling 还是会持续,而且很多进展它其实也来自于比如说后训练的算法的优化,来自于数据的优化。
这些优化其实它的周期是会更短的,所以这个周期更短会导致整体的 AI 的发展节奏也会进一步加快。
包括我们最近在数学上看到的很多进展,其实也是得益于这些技术的发展,横向上当然也产生了很多新的这样的突破。
当然,Sora 可能是影响力最大的。在这里面完成了这个视频生成。
最近有特别多新的产品和技术出来。类似这样的这种不同模态之间的转换交互和生成,其实会变越来越成熟。所以我觉得整体是在这个加速的过程中。
张鹏:
感觉这些技术其实还在加速的去扩展它带来的变化和创新。
虽然可能我们客观上看,好像没有说再长出某个 Super App,但如果我们抛掉这个 Super App 的视角,我们去看技术,反而能够看到它的真正的进展。这个可能是更加理性客观的视角。
我也想听听朱军老师你会怎么总结这 18 个月,到底我们说 AGI 的技术,它是经历了什么样的发展,有什么可以总结的这种进步的台阶。
朱军:
对,其实就是 AGI,这里边可能大家最关注的还是大模型,就是大模型从刚才两位也讲了,去年其实发生了,包括今年发生很多重要的变化。然后整个的进展我是非常同意。刚才讲到就是在加快。
另外我想补充一点,其实现在就是大家在做这个,比如说我在解析的问题或者什么,这个速度其实也在变快的。
就我们说它的 learning curve 在变得更陡。
原来比如说像如果你看语言模型的话,可能植麟他们也算最早去做这个,大概走了五六年。
但其实从去年开始,上半年大家还是关注语言模型。下半年的话在讨论这个多模态,从多模态理解再到多模态生成。在我们再回头看的话,比如说像这个图像或者像视频。
像视频其实最明显,从今年的二月份,当时很多人是被震惊到了。我就很多时候觉得这个技术是不是因为他很多没有公开。然后就是都在讨论怎么去突破。
但事实上,我们现在看到就是说这个行业里边,大概用了半年的时间,其实已经已经做到了,就是可以去用,而且达到了一个很好的效果。
我想这里面加速的一个最核心的原因就是说,其实现在大家对这种路线的认知和准备,其实达到了一个比较好的程度。
我们还有这个物理的条件。比如说像这个云的设施,计算的这种资源的这种准备上,不像那个 ChatGPT 当时出来的时候,大家当时更多的是一种不知所措。
我觉得很多人可能没准备好去接受这个,所以中间去花了很长的时间去学习,去掌握这个。
当我们掌握了之后,再发现这个进展的话,再去做新的问题。其实它的这个速度是越来越快的。当然这个可能不同的能力在辐射到实际的用户的这个角度来说,有一些快慢之分,也分行业。
这可能在广泛的角度来说,大家可能没感知到。但是从技术来说,其实这个进展是我感觉是曲线是越来越陡。而且我们要预测未来的话,可能就是包括像更高阶的这种 AGI 可能发展。
我觉得我是比较乐观的,可能会看到比之前更快的速度来去实现。
张鹏:
我想问问植麟,Kimi 在今年引发了大家很多关注的产品,发展的也很好。
你觉得这一波的 AI 的新的变化,接下来会对于 AI 相关的产品带来什么样的连锁反应,能不能也帮我们推理一下,你在看到它的时候,脑子里会怎么想,这个变化会如何发生。
杨植麟:
对,这是个很好的问题。我觉得我们现在其实还是处于这个产业发展的早期。
所以现在的这个技术发展,我觉得有几个点。一个就是说其实我觉得这里面会有很多探索新的 PMF 的机会。因为这个 PMF 指的是,我觉得是两个东西的平衡。
一方面是由于你需要做这种系统 2 的思考,导致了你的延迟是增加的。
那这个延迟增加对用户其实是一个负向的体验对吧?因为所有用户都希望尽快能拿到这个结果。
但第二个点就是说他确实能提供更好的输出,能拿到更好的结果,能甚至能完成一些更复杂的任务。
所以等于说这个新的 PMF 产生的过程或者探索的过程,它其实是要在这个延时增长的用户体验下降和最后结果产生质量更高的用户价值的上升之间去找到一个平衡点。
所以你要让这个增量的价值是大于体验损失的。我觉得这个是很重要。
在这里面可能就是我觉得一些更高价值的场景,特别是生产力的场景,我觉得是会率先可能有一些东西出来。因为如果你是一个娱乐场景,那大概率就是你你可能很难忍受这种延时上的增加。
然后可能我觉得产品形态上也会发生一些变化,可能就是因为你娱乐这种思考的方式,所以现在这种同步及时的类似聊天的这种产品的形态,那可能一定程度上也会发生变化。
因为以后的 AI 可能它不光是这种,现在可能思考个 20 秒、40 秒,他以后可能要思考或者去调用各种工具,他可能是执行这种分钟级别、小时级别甚至天级别的任务。
所以你的产品形态上他可能会更接近一个人,他更接近一个 assistant 或者助理的概念,然后帮你去完成一个异步的任务。
这里面的产品形态的设计,我觉得可能也会发生很大的变化。所以这里面我觉得可能新的想象空间是蛮大的。
张鹏:
其实我们刚才聊到了这个 o1 带来的变化。其实我们也看到在 AGI 领域也有一些其他的变化。
比如像李飞飞在推这个空间智能,包括其实今天我们也会看到,后面也会看到在自动驾驶,在这个机器人等等具身智能方面的变化。
所以我想问问朱军老师,因为朱军老师可能也会去思考,就是在其他的这个 AI 相关的条件里面的最近的一些技术进展会对于未来的产品或者说一些技术最终落到产业里有什么明确的推动了。有没有阶段性的一些总结和观察?
朱军:
对,我觉得现在是这样,其实大模型或者叫我们叫大规模预训练这种技术,它还是代表着一个整个范式的变化。就是不光是前面也聊了很多,也不光是语言到多模态。
再到刚刚提到像这个具身或者就李飞飞老师叫空间智能,其实还是重点,还是想怎么去让智能体能够有交互,能够在这个过程中去学习。
从智能的角度来看的话,从包括从 AGI 发展上,它是一个必然的决策交互。
就是因为决策交互实际上是智能里面非常核心的这个能力的一个体现。我们其实每时每刻都在做决策。
我们面对的是一个未知的开放环境。所以对智能来说的话,它的发展的路径上,就在整个的规划里面,大家也是朝这个方向在走。
然后现在其实像所有这些进展,包括刚才讨论了很多的 o1,也包括像我们做这个像视频生成,或者像 3D 这些东西的话,其实大家都是最后要指向的——
我觉得有两个方向,一个是就是给这个消费者给大家看的,就是说这些数字内容就是他看上去很好看,然后很自然,然后能够讲故事,能够让大家真正能够去参与的去去讲故事,有交互。这肯定是一个很重要的方向。
就是在这个数字内容。然后另外一个方向就是指向这个实体,指向这个物理世界就是生产力。对,一定是生产力的一个提升。就是说它不光是给我们去去做一些好看的东西,或者觉得好玩的一些东西。
然后他实际上最终还是要去和我们的这个物理世界结合。这其中现在可能最好的一个结合点就是和和机器人结合在一起。其实现在已经有好多例子在在展示出来。
我们也看到很好的一些进展,就用了这种比如说像预训练的这种范式,能够让机器人的他的能力具有这个通用性。比如说像我们做过我们自己实验室也做过一类的,像这个四足机器人。
过去可能大家在这不同场地下边,你要让他跑起来,都要去需要用很多的人工去调,可能去调仓。但现在其实你在一个仿真环境里面,或者是用一些 AI 的方式来生成一些合成数据,让他去在里面大规模的训练。
这训练出来的策略可以装到机器人上,他相当于换了一副大脑,就可以让他的四肢能够去更好的协同起来。
他可以同样一套策略来去做各种场地的这种适应。这其实还是一个初步的例子。而且现在大家也在关注更复杂的这种控制决策等等。就像这个空间智能、计算智能这里边,其实就像刚才讲到这个,它实际上智能体是 AGI 的 L3。
所以从现在用到的 L1、L2 的进展之后,后边肯定会集成到这个 L3 里边。让机器人比如说更好地去做推理规划,然后更高效的和这个环境做交互,完成复杂任务。
因为现在任务很多时候还是相对分散的。未来可能很快我们会看到,就是说他可以接受复杂的指令,完成复杂的任务。
然后通过他的这个内嵌的这种思维链或者这个过程的学习方式,能够给完成这个复杂任务。到那个时候,可能这个智能的能力又有一个很巨大的提升。
张鹏:
我突然想到了一个问题,因为这个还是让人很兴奋的技术进展,但作为创业公司,肯定也在面临着今天的一个现实的产业环境。
就是我想问问大家,不知道像你们这样的花很多的成本去做基础模型,包括你们做这个统一多模态的这种模型,也要参数做的很大。过去都让人觉得要捏把汗?因为要花很多的钱,对吧?
然后遇到这样问题,今天这种新的技术的变化,在过去 18 个月,包括这次的 o1 出来,会对你的心态是有什么影响和改变吗?你是觉得未来作为这样的创业公司是有了更大的创新空间,有了更让人兴奋的可能性吗?你会是一个什么样的心理的反应,你怎么看你未来创业路的走向。
姜大昕:
对。我觉得从两个角度看,一个就是创新的点,我觉得 RL 出来确实和前面那个范式不太一样。就是第一个 GPT 的范式,它就 predict next token。
这个事情其实从 18 年 GPT-1 出来,一直到这个 GPT-4,除了加了一个 MOE 的混合专家模型以外,其实没有什么太多新的很新的东西在里边儿。但是 o1 的话,我觉得它还是一个初始阶段。
就是刚才两位也谈到,就是这个强化学习究竟怎么和大模型相结合,能够做到泛化这件事情我觉得有非常多的问题值得去探索。就是刚才其实你也谈到,如果的 function,包括我们在做这个搜索路径的时候,需不需要人工干预去帮他找到更好的路径等等。包括你 self play 题目从哪里来,答案怎么去找,这些都是一些新的这个未知的领域去要去探索的。
我相信在未来的这个一段时间里面,肯定会有很多很多问题,朱军老师说这个一定会加速的,那我也相信一定是这样的一个趋势。所以对我们创业公司来说,在创新这个方向上肯定是有很多的机会。
但是另外一方面,我觉得从刚才您谈到就是算力的挑战,其实我刚才也讲了一下,其实我们认为在推理侧也好,在训练侧也好,他所需要的这个算力还是不小的,尤其是当我们需要追求的一个是通用性的,能够泛化的推理模型的时候,这个所需要的算力并不小,也包括回应您刚才说的那件事情。
其实我们经常内部有调侃,就是说这个讲卡伤感情,没卡没感情,然后我们后面又加了一句叫用卡费感情。但如果我们这个所要追求的目标就是 AGI 的话,那你付出再多,你还是要坚持下去。
张鹏:
因为过去觉得如果按照上一个 scaling law 继续往下走,其实能玩的玩家就会变得越来越少。因为对资源的比拼太多了。现在你觉得对于资源的门槛是会有降低吗?
还是说还是继续要拼在这个算力上的资源,包括这种你怎么去能整合这么多的计算资源工程上要做的更好,这个还是一个核心点。
姜大昕:
我觉得是这样的,就分成两种不同的创新,一种就是基础模型,就是奔着 AGI 去,我就是要做通用的泛化性能力强的这个的话,投入是很大。
而且我们看到国外的巨头不约而同的都是一年几十亿美金,上千亿美金这样的一个规划。但是另外一方面,我觉得还有大量的创新的空间,实际上是做应用。
本来我觉得 GPT-4 所展现出来的智能,后面加上智能体 agent 这样一个框架,已经能够解决我们其实很多的问题了。
就像朱军老师说两类问题,一个是数字世界的问题。物理世界的问题,我们都可以再往前走。
今年 o1 出来以后,把这个强化学习又泛化到了一个更高的阶段。像植麟说的,它的上限变得更高了。所以我觉得这里面还是有大量的机会的。
张鹏:
那我再问问这个植麟,因为植麟现在有 C 端的产品,最近我其实听到很多投资人都在看这个 DAU 是多少,留存多少等等,各种各样的指标去再看,去评估要不要投一个公司。
我觉得今天能不能换个身份,假定你今天不是创业者,假定你是个有技术背景,对 AI 有很了解的投资人,你会在今天看创业者的什么数据来做你的投资决策。
杨植麟:
这个是个很好的问题。我觉得首先像 DAU,你刚刚说的这些数据,我觉得肯定是重要的指标,然后我觉得可能分成几个层面。
第一个层面就是说作为一个创业来讲,你做一个产品,它首先是要有价值,或者说你是满足了用户的一个真实的需求。我觉得这个可能还是一个本质,可能跟 AI 也没有太大关系。就是你作为一个产品本身,它需要满足这个属性,所以可能也有更多的前置的指标,比如说像一些留存,所以这个还是最重要的。
然后我觉得第二个点,可能是跟 AI 跟相关的。就是说你不光是要有价值,其实你也要有增量的价值。这个增量价值可能相比于市面上已有的 AI 产品,或者说像更通用的。
我觉得接下来肯定会有通用的 AI 产品,其实现在已经有了。对,也是我们正在做的事情。但就是说你在这个通用产品之外,比如说 GPT之外,其实可能还会有大量的机会。这些 AI 产品的机会,你要相比于这个东西能产生增量价值,产生一个你在 ChatGPT 里面做不了的事事情,或者说做起来体验很差的事情。
这个我觉得是一个会有很大的这样的价值。比如说最近很火的 Cursor,它就是一个很好的例子,这里面一般你的增量价值会产生几个方面。一方面就是说你有可能你的交互是完全不一样,或者你是不同的入口,对吧?
然后有可能你是背后对应的是不同的这个资源,也有可能。所以我觉得通过这种方式去产生这个增量价值,可能是我觉得会很重要的一个事情。
然后第三个维度,我觉得是说不光是有价值,有这样价值,而且他可能还是要随着这个技术的发展,就是市场规模应该越来越大,而不是越来越小。
对,比如说如果你是一个专门研究 prompt engineering 的,那你可能现在就是会有一个风险:也许接下来的需求会越来越小。
对,但是你如果是说目前已经能产生一定的 PMF,但是还没有说泛化到一个很主流的群体,有可能是因为你技术不够强。那这个时候其实你在搭配上。
第二点就是你有增量价值的话,然后你的市场又越来越大。它可能就是一个好的 AI 创业的机会。
张鹏:
对,听起来就是数据是要看的。但是在看数据之前先看逻辑,就是产品存在的逻辑。如果他是成立的,数据又能证明,可能这就是一个值得投的公司。
还有一个很感兴趣的问题,就是因为我们的时间也有限,我们 move on 到也许未来的 18 个月。
我想问各位,你虽然预期预料未来都很难,但是你至少心里会有一个期待。
比如在下一个 18 个月里,我们期待看到什么样的进展。在 AGI 的领域里面,第一,会让你觉得你会很兴奋。第二,你觉得它是有可能的。
朱军:对,我觉得因为现在整个 A 技术处于加速状态,其实很多时候我们的预测通常会过于保守。如果回到你那个问题的话,就是说我预想的,比如说未来 18 个月可能比较令人兴奋的一个进展可能是,我希望看到可能 L3 已经基本上实现。
AGI 的 AGI L3 就是关于智能体。比如说我们说的这个世界模型的创建生成,然后虚实的融合,还有包括像这个至少在一些特定场景下的这种决策能力的一个巨大提升。就结合其实今天讲到的这个推理、感知等等这些。
张鹏:在特定场景里,已经确实不是 copilot,是 autopilot。
朱军:
我觉得可能在某种意义上会达到这种。就是说他是在至少在一些特定场景下,但是这个可能还会有更长、更泛化的能力。
与此同时,我前一段时间领了一个任务,就是对 L4 来去做专门的分析。最后调研或者是分析下来,你会发现可能如果我们要去做那个科学发现或者做创新的话,他需要的那些能力,或者可能现在已经是散落在各个角落里边。
但是现在可能还没有,还缺一个系统怎么把这些东西给集成在一起,给他做 work。但我觉得如果更激进一点,我甚至觉得未来 18 月可能在 L4 上也会有显著的进展。
其实还有一些比如说像创意的这种表达上的。就目前其实我们在某种意义上已经达到了比如像艺术创造,像这个生图生视频,就是一定程度上能帮大家来去放大想象,或者是让你的想象可以具象化。
所以我对整个的这个发展还是比较乐观的。我觉得至少有一些 L3 或者说 L4 的苗头。
张鹏:
说完了 18 个月到年底之前,你自己的事儿上会有什么进展,能提前透露吗?
朱军:
对,我到今年年底的话,我肯定是希望将我们本身做的这个像视频的模型能够以更加高效更可控的方式提供给大家。
我解释一下高效和这个可控可控的话,主要是指比如说你想去表达一个故事,它不是简单地将一段话或者一个图片给它动起来,我们是希望它可以连续的去讲。
而且是它不光是人的这个一致性,还像物体等等各种的这种主题的一致性,还包括交互性。这些都是在可控里边的高效。
其实它一方面是解决是对算力的成本的一个考量。因为你要做,比如说像想去服务很多人,让大家去用的话,你首先你成本也要降下来,不然的话这个本身就是烧钱的。
然后其实另外一个更重要的还是从这个体验上,就是使用者来说的话,因为他想去表达自己的创意,他可能需要多次的去和这个系统来去来去交互,能够让他自己的一方面去验证。另外其实还是启发。
所以这个过程的话也需要你的模型系统能够比较高效,尽量的是比如说终极目标是达到 40,就能够让大家快速的能够能去尝试。等到这个阶段的话,我相信用户体验,包括用户量的都会有一个巨大的一个提升。
这是今年我们可能重点想去突破的。然后长远的话,我们还是看到就像可能明年 18 月可能就会走向这个实体的虚实融合的这种场景了。
张鹏:
对,3 个月的目标和 18 个月对未来的期待都是很明确的。植麟,我觉得这是挺好的概念,你既可以说说 18 个月,也可以讲讲未来 3 个月有什么样的进展。
杨植麟:我觉得接下来最重要的 milestone 可能是开放性的强化学习。
就是你可能真的能够,比如说你就在产品上跟用户去交互,在一个真实的环境里面去完成任务,然后自己去进化。我觉得 o1 其实已经可能一定程度上说明这个方向有比之前更强的确定性。
我觉得这个会是一个重要的里程碑,可能也是 AGI 这个路上现在仅剩唯一的一个重要问题了。
张鹏:所以关键问题是,期待未来 18 个月要有新的突破和进展?
杨植麟:对,应该是能看到很多进展的。18 个月其实很长,在 AI 领域。
张鹏:
如果看看过去 18 个月走的路,那你未来三个月会有什么可以透露的吗?
杨植麟:
我们还是希望能在产品和技术上持续的创新,就至少可能在一两个重要领域能够做到世界最好。但是有新的进展会尽快跟大家分享。
张鹏:
看似没透露,但实际上我觉得后头应该会看到他的进展的。来,大昕。你怎么看 18 个月和未来三个月,
姜大昕:
对,第一我很期待,就是强化学习能够进一步泛化。另外一个方向,其实我也很期待,应该说期待了很久了。
就是在视觉领域的理解和生成一体化的这个事情,因为在文字这个领域,GPT 已经做到了,是理解生成一体化。但是遗憾的是,在视觉领域,这个问题当然不只是遗憾,就是它非常难。
在目前为止,我们看到的视觉,它的理解和生成这两个模型是分开的。
即使像刚才说多模融合 GPT 思路,大家仔细去看,其他模态都解决了,它唯独不能生成视频。所以这是一个悬而未决的问题。
如果我们解决了视频理解生成一体化,那么我们就可以彻底的建立一个多模的世界模型。从有一个多模的世界模型以后,可以帮助我们真正的去产生非常长的视频。
也就是说解决 Sora 目前的技术缺陷。还有一个就是它可以和机器人智能相结合,它可以作为机器人的大脑去帮助智能体更好的去探索这个物理世界。所以我也是非常期待的。
张鹏:你未来年底之前,有什么我们值得期待的你的进展?
姜大昕:
我也是期待一方面模型和技术的进步,另外一方面产品能带给用户更多更好的体验,其实阶跃有一款产品叫「跃问」,在上面,用户可以体验我们最新的万亿参数的模型,它不光是理科很强,而且它的文学创作能力也很强,经常给大家带来一些惊喜。
同时,跃问上还有一个新的功能叫「拍照问」,我们看到用户经常拍张照片去问食物的卡路里,去问宠物的心情,问一个文物的前世今生,包括 Mata 眼镜的发布,还有 Apple Intelligence,它今年都突出了视觉交互的功能。所以我们在跃问上也有体现,而且我们会努力一步步把这个功能做得越来越好。
张鹏:
今天,我们已经略微超时了,但其实感觉我们讨论刚刚开始,还有很多值得持续深入的。当然可能要在未来不断的 AI前 进的过程中,我们再把这种讨论继续下去。反过来,我们至少能看到的是 AGI 的发展还在提速,这些技术还是让人充满了期待。
摘:https://mp.weixin.qq.com/s/RK834YtR6e2GHRKW39enAA
© 版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
相关文章