免费GPT
AI大模型平台
ChatGPT
ChatGPT指南
ChatGPT Prompts
ChatGPT API
进阶到大神
书籍
ChatGpt账号
Midjourney
Midjourney指南
进阶教程
prompt词库
提示词工具
AI写作工具
写作工具
写作提示
内容检测
AI绘画工具
绘画生成
背景替换
图片修复
头像生成
图像设计
绘图社区
LOGO生成
AI-3D生成
AI视频工具
视频生成
文字生成视频
图片生成视频
数字人
制作长视频
视频后期
制作广告视频
AI办公工具
AI办公工具
AI自动生成PPT
AI思维导图
AI智能翻译
AI语音合成
AI好玩有趣
AI社区
算力平台
AI音乐制作
AI游戏应用
AI学习平台
AI装修设计
AI常用工具
AI辅助提示
AI辅助编程
AI流量优化
AI竞赛平台
开放平台
AI优质博文
博客
AI交流社群
商务合作
ChatGPT plugins
文章
首页
•
AI行业动态
•
ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计
ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计
AI行业动态
11个月前发布
ainavi
0
4000
有人表示:「等待已久的 AI 图像创建功能终于迎来了图层!」
尽管用于生成图像的大模型已经成为
计算机视觉
和图形学的基础,但令人惊讶的是,分层内容生成或透明图像(是指图像的某些部分是透明的,允许背景或者其他图层的图像通过这些透明部分显示出来)生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉内容编辑软件和工作流程都是基于层的,严重依赖透明或分层元素来组合和创建内容。
来自斯坦福大学的研究者提出了一种「latent transparency(潜在透明度)」方法,使得经过大规模预训练的潜在扩散模型能够生成透明图像以及多个透明图层。
论文地址:https://arxiv.org/pdf/2402.17113.pdf
论文标题:Transparent Image Layer Diffusion using Latent Transparency
举例来说,对于给定的文本提示(如头发凌乱的女人,在卧室里),该研究提出的方法能够生成具有透明度的多个图层。也就是说该模型不仅能根据提示生成图片,还能将前景和背景进行分层,背景丢失的信息也能很好的补充。
此外,本文还采用
人机交互
的方式来训练模型框架并同时收集数据,最终数据集的规模达到 100 万张透明图像,涵盖多种内容主题和风格。然后,该研究将数据集扩展到多图层样本。该数据集不仅可以训练透明
图像生成
器,还可以用于不同的应用,例如背景 / 前景条件生成、结构引导生成、风格迁移等。
实验表明,在绝大多数情况下 (97%),用户更喜欢由本文方法生成的透明内容,而不是以前的解决方案(例如先生成然后抠图)。当研究者将生成的质量与 Adobe Stock 等商业网站的搜索结果进行比较时,也取得了不错的成绩。
这项研究作者共有两位 Lvmin Zhang 以及 Maneesh Agrawala ,其中 Lvmin Zhang 还是 ContorlNet 的作者。
有网友表示:「能生成透明图层的意义绝不仅仅是抠图。这是现在动画、视频制作最核心的工序之一。这一步能够过,可以说 SD 一致性就不再是问题了。」
方法介绍
本文的目标是为像 Stable Diffusion (SD) 这样的大规模潜在扩散模型添加透明度支持,这些模型通常使用一个潜在编码器(VAE)将 RGB
图像转换
为潜在图像,然后再将其输入到扩散模型中。在此过程中,VAE 和扩散模型应共享相同的潜在分布,因为任何重大不匹配都可能显著降低潜在扩散框架的推理 / 训练 / 微调性能。
潜在透明度:当调整潜在空间以支持透明度时,必须尽可能保留原始的潜在分布。这个看似不明确的目标可以通过一个直接的测量来确定:可以检查修改后的潜在分布被原始预训练的冻结潜在解码器解码的如何 —— 如果解码修改后的潜在图像创建了严重的人工痕迹,那么潜在分布就是不对齐或损坏的。这一过程可视化结果如下图所示:
生成多个图层:该研究进一步使用注意力共享和 LoRA 将基础模型扩展为多图层模型,如图 3-(b) 所示。图 3-(a) 为训练可视化结果。
图 4 引入了几种替代架构,以实现更复杂的工作流程。研究者可以向 UNet 添加零初始化通道,并使用 VAE(有或没有潜在透明度)将前景、背景或图层组合编码为条件,并训练模型生成前景或背景(例如,图 4-( b,d)),或直接生成混合图像(例如,图 4-(a,c))。
数据准备及其训练细节
训练数据集包括基础数据集(图 5-(a))以及多图层数据集 (5-(b)) 。
训练设备为 4 × A100 80G NV-link,整个训练时间为一周(为了减少预算,在人工收集下一轮优化数据时暂停训练),实际 GPU 时间约为 350 A100 小时。该方法适合个人规模或实验室规模的研究,因为 350 个 GPU 小时预算通常在 1K 美元内。
实验
图 6 展示了使用单图像基础模型生成的图像定性结果。这些结果展示了该模型可以生成原生透明图像,如生成高质量的玻璃透明度、头发、毛发、发光、火焰、魔法等效果。这些结果还证明了该模型可以泛化到不同的场景。
图 7 展示了使用具有不同主题的提示来生成图片的定性结果。每个示例会显示混合图像和两个输出层。这些图层不仅在照明和几何关系方面保持一致,而且还展示了稳定扩散的美学品质(例如,背景和前景的颜色选择,看起来和谐且美观)。
条件层生成。研究者在图 8 中展示了条件层生成结果(即以前景为条件的背景生成和以背景为条件的前景生成)。可以看到,本文的模型可以生成具有一致几何和照明效果的连贯构图。在「教堂中悬挂的灯泡」示例中,该模型尝试通过一种对称性审美设计来匹配前景。而在「坐在长登上或坐在沙发上」示例中,该模型可以推断前景和背景之间的交互,并生成相应的几何。
迭代生成。如图 9 所示,研究者可以迭代使用以背景为条件的前景
生成模型
,以实现构图或任意数量的层。对于每个新的层,他们将之前生成的所有层融入到一个 RGB 图像,并馈入到以背景为条件的前景模型。研究者还观察到,该模型能够在背景图像的上下文中解释自然语言,比如在一只猫的面前生成一本书。该模型展现了强大的几何构图能力,比如生成一个人坐在箱子上的组合图像。
可控生成。如图 10 所示,研究者展示了 ControlNet 等现有可控模型可以用于他们的模型,以提供丰富的功能。可以看到,本文的模型可以基于 ControlNet 信号来保留全局结构,以生成具有一致照明效果的和谐构图。研究者也通过一个「反射球」示例展示了本文的模型可以与前景和背景的内容进行交互,从而生成反光等一致性照明效果。
# AI行业动态
©
版权声明
文章版权归作者所有,未经允许请勿转载。
上一篇
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分
下一篇
2万多亿美元,英伟达市值创新高,华尔街排第三
相关文章
只动手不动口,或只动口不动手,你真能做到吗?
完善AI软硬件生态,联想集团在MWC2024发布最新AI PC
打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉
亚马逊AWS:AI需求依旧强劲 已投入自研芯片开发
Llama中文社区|1个月快速迈入AI大模型黄金赛道!
李飞飞、吴恩达开年对话:AI 寒冬、2024新突破、智能体、企业AI
暂无评论
暂无评论...
相关文章
豆包全新端到端语音功能发布!智商与情商双重在线,中文语音对话遥遥领先
令人震撼!Claude伪对齐率竟达78%,Anthropic用论文揭开内幕
ChatGPT升级为生产力工具:Canvas全量开放,人+AI协作模式启动
UC伯克利探索GPT-5:使用当前模型预测未来模型的潜力
AI现场发了2万红包,打开了大模型Act时代
热门标签
Chatgpt
(21)
ai
(20)
AI绘画
(13)
AI应用
(11)
ai画画
(10)
AI游戏
(10)
人工智能
(9)
chatgpt
(9)
Midjourney
(8)
自动生成视频
(7)
AI写作
(6)
算力平台
(6)
AI行业动态
(6)
AI科研
(6)
AI文本写作
(5)
openai
(5)
AI写作助手
(5)
chatgpt-api
(5)
Ai视频生成
(5)
聊天机器人
(5)
常用
搜索
工具
社区
生活
常用
百度
Google
站内
淘宝
Bing
搜索
百度
Google
360
搜狗
Bing
神马
工具
权重查询
友链检测
备案查询
SEO查询
关键词挖掘
素材搜索
大数据词云
社区
知乎
微信
微博
豆瓣
搜外问答
生活
淘宝
京东
下厨房
香哈菜谱
12306
快递100
去哪儿
热门推荐:
AI交流社群
AI最新资讯
ChatGPT指南
Midjourney指南