免费GPT
AI大模型平台
ChatGPT
ChatGPT指南
ChatGPT Prompts
ChatGPT API
进阶到大神
书籍
ChatGpt账号
Midjourney
Midjourney指南
进阶教程
prompt词库
提示词工具
AI写作工具
写作工具
写作提示
内容检测
AI绘画工具
绘画生成
背景替换
图片修复
头像生成
图像设计
绘图社区
LOGO生成
AI-3D生成
AI视频工具
视频生成
文字生成视频
图片生成视频
数字人
制作长视频
视频后期
制作广告视频
AI办公工具
AI办公工具
AI自动生成PPT
AI思维导图
AI智能翻译
AI语音合成
AI好玩有趣
AI社区
算力平台
AI音乐制作
AI游戏应用
AI学习平台
AI装修设计
AI常用工具
AI辅助提示
AI辅助编程
AI流量优化
AI竞赛平台
开放平台
AI优质博文
博客
AI交流社群
商务合作
ChatGPT plugins
文章
首页
•
AI行业动态
•
一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果
一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果
AI行业动态
9个月前发布
ainavi
8,944
0
3200
苹果最新的 AI 工具可以使用文本描述为图像制作动画。
现阶段,大模型惊人的创新能力持续影响着创意领域,尤其是以 Sora 为代表的
视频生成
技术,更是引领了新一代潮流。当大家都为 Sora 感到震撼的同时,或许苹果的这项研究也值得大家关注一下。
在一篇名为 「Keyframer: Empowering Animation Design using Large Language Models 」的研究中,来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer,该框架允许用户采用自然语言提示来创建静态 2D 图像的动画。
论文地址:https://arxiv.org/pdf/2402.06071.pdf
具体而言,该研究结合了基于语言提示设计工件的新兴设计原则和 LLM 的代码生成能力,构建了一个新的 AI 驱动的动画工具 Keyframer。通过 Keyframer,用户可以通过自然语言提示,从静态 2D 图像创建动画插图。借助 GPT-4,Keyframer 可以生成 CSS 动画代码,使输入的 SVG(Scalable Vector Graphic)动画化。
除此以外,Keyframer 支持用户通过多种编辑器类型直接编辑生成的动画。
用户还可以通过连续提示和请求 LLM 生成的设计变体来迭代他们的设计,以在新的设计方向上进行构思。不过,Keyframer 尚未公开。
之所以做这项研究,苹果表示 LLM 在动画中的应用尚未得到充分探索,并带来了新的挑战,例如用户如何有效地用自然语言描述运动。现阶段虽然文生图工具如 Dall・E 和 Midjourney 等效果出色,但动画设计需要考虑更复杂的因素,例如时间以及协调性,这些因素很难在单个提示中全面概括。
至于这项研究的效果如何,用户只需上传图像,在提示框中输入「让星星闪烁」之类的内容,然后点击生成即可。
用户可以在一个
批次
中生成多个动画设计,并在单独的窗口中调整颜色代码和动画持续时间等属性。无需任何编码经验,因为 Keyframer 会自动将这些更改转换为 CSS,代码本身也是完全可编辑的。这种基于描述的方法比其他形式的
人工智能
生成动画简单得多,后者通常需要多个不同的应用程序和一些编码经验。
Keyframer 介绍
Keyframer 是一款由 LLM 驱动的应用程序,旨在从静态图像创建动画。Keyframer 可以充分利用 LLM 的代码生成能力,以及静态矢量图(SVG)的语义结构,从而根据用户提供的自然语言提示生成动画。
输入
:该系统提供了一个输入区域,用户可以在其中粘贴他们想要动画化的 SVG 图像代码(SVG 是一种标准且流行的图像格式,在插图中因其可伸缩性及在多个平台上的兼容性而常用)。在 Keyframer 中,SVG 的渲染显示在代码编辑器旁边,以便用户可以预览图像的视觉设计,如图 2 所示,土星插图的 SVG 代码包含了如天空、光环等标识符。
GPT 提示
:该系统允许用户输入自然语言提示来创建动画。用户可以请求单个设计(让行星旋转)或多个设计变体(创建 3 个星星闪烁的设计),之后单击「生成动画」按钮开始请求。在将用户请求传递给 GPT 之前,该研究会用完整的原始 SVG XML 完善其提示,并指定 LLM 响应的格式。
GPT 输出
:一旦提示请求开始,GPT 就会传输响应,该响应由一个或多个 CSS 片段组成,如图 3 所示。
渲染
:渲染部分包括(1)每个动画进行可视化渲染以及由 LLM 生成的 1 句解释(2)一系列用于修改设计的编辑器。
其中代码编辑器使用 CodeMirror 实现;属性编辑器为编辑代码提供了特定于属性的 UI,例如为了编辑颜色,该研究提供了一个颜色选择器。图 5 显示了代码编辑器与属性编辑器图示。
迭代
:为了支持用户在动画创建过程 (DG1) 中进行更深入的探索,该研究还提供了一项功能,允许用户使用提示在生成的动画上迭代构建。每个生成的设计下面都有一个按钮「 + Add New Prompt 」;单击此按钮会在页面底部打开一个新表单,供用户使用新提示扩展其设计。
保存设计的侧边栏以及摘要
。该系统允许用户对设计加注星标进行收藏并将其添加到侧边栏,如图 6 右侧所示。此外,该系统还有一个摘要模式,其能隐藏所有文本编辑器并显示动画及其提示,使用户能够快速重新访问以前的提示和设计。
实验过程中,苹果团队选择了 13 名参与者(6 名女性,7 名男性)试用 Keyframer。表 1 为参与者的一些信息及其掌握的技能。
甚至专业动作设计师「EP13」也看到了 Keyframer 扩展其能力的潜力:「我有些担心这些工具会取代我们的工作,因为它的潜力如此之大。但细细想来,这项研究只会提高我们的技能。应该是件值得高兴的事情。」
总体而言,参与者对 Keyframer 的使用体验感到满意。参与者给出的平均分数为 3.9 ,介于满意 (4) 和中立 (3) 之间。参与者生成了 223 种设计。平均来看,每位参与者生成 17.2 个设计。图 8 显示了两个参与者的最终动画示例。
更多技术细节请参阅原论文。
# AI行业动态
©
版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
上一篇
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
下一篇
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
相关文章
LeCun、吴恩达等370多人签联名信:严格控制AI是危险的,开放才是解药
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
清华开发出开瓶器形耳塞脑机接口:有望将思想转换成文本
ChatGPT当中的“GPT”是什么意思?
智驾未来,创新动能,2023全球智能汽车AI挑战赛火热招募中
LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证
暂无评论
暂无评论...
相关文章
无需开颅将ChatGPT植入大脑,这家比尔·盖茨支持的AI硬件公司,要挑战马斯克脑机接口
ChatGPT 的 AI 搜索正式上线!即将免费可用,实测后我们发现了这些细节
不出所料!Jürgen又站出来反对Hinton得诺奖,Nature也炮轰提名过程不透明
万字实录 | 杨植麟、姜大昕、朱军现场激辩!国产 AI 巨头对 o1 模型和行业的深度思考
ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略
热门标签
Chatgpt
(21)
ai
(20)
AI绘画
(13)
AI应用
(11)
ai画画
(10)
AI游戏
(10)
人工智能
(9)
chatgpt
(9)
Midjourney
(8)
自动生成视频
(7)
AI写作
(6)
算力平台
(6)
AI行业动态
(6)
AI科研
(6)
AI文本写作
(5)
openai
(5)
AI写作助手
(5)
chatgpt-api
(5)
Ai视频生成
(5)
聊天机器人
(5)
广告位
常用
搜索
工具
社区
生活
常用
百度
Google
站内
淘宝
Bing
搜索
百度
Google
360
搜狗
Bing
神马
工具
权重查询
友链检测
备案查询
SEO查询
关键词挖掘
素材搜索
大数据词云
社区
知乎
微信
微博
豆瓣
搜外问答
生活
淘宝
京东
下厨房
香哈菜谱
12306
快递100
去哪儿
热门推荐:
AI交流社群
AI最新资讯
ChatGPT指南
Midjourney指南