51CTO首页
AI.x社区
博客
学堂
精品班
直播训练营
企业培训
鸿蒙开发者社区
WOT技术大会
AIGC创新中国行
IT证书
公众号矩阵
移动端

Diffusion 和Stable Diffusion的数学和工作原理详细解释

人工智能
扩散模型的兴起可以被视为人工智能生成艺术领域最近取得突破的主要因素。而稳定扩散模型的发展使得我们可以通过一个文本提示轻松地创建美妙的艺术插图。所以在本文中,我将解释它们是如何工作的。

扩散模型的兴起可以被视为人工智能生成艺术领域最近取得突破的主要因素。而稳定扩散模型的发展使得我们可以通过一个文本提示轻松地创建美妙的艺术插图。所以在本文中,我将解释它们是如何工作的。

图片

扩散模型 Diffusion

扩散模型的训练可以分为两部分:

  • 正向扩散→在图像中添加噪声。
  • 反向扩散过程→去除图像中的噪声。

正向扩散过程

正向扩散过程逐步对输入图像 x₀ 加入高斯噪声,一共有 T 步。该过程将产生一系列噪声图像样本 x₁, …, x_T。

当 T → ∞ 时,最终的结果将变成一张完包含噪声的图像,就像从各向同性高斯分布中采样一样。

但是我们可以使用一个封闭形式的公式在特定的时间步长 t 直接对有噪声的图像进行采样,而不是设计一种算法来迭代地向图像添加噪声。

封闭公式

封闭形式的抽样公式可以通过重新参数化技巧得到。

通过这个技巧,我们可以将采样图像xₜ表示为:

然后我们可以递归展开它,最终得到闭式公式:

这里的ε 是 i.i.d. (独立同分布)标准正态随机变量。使用不同的符号和下标区分它们很重要,因为它们是独立的并且它们的值在采样后可能不同。

但是,上面公式是如何从第4行跳到第5行呢?

有些人觉得这一步很难理解。下面我详细介绍如何工作的:

图片

让我们用 X 和 Y 来表示这两项。它们可以被视为来自两个不同正态分布的样本。即 X ~ N(0, αₜ(1-αₜ₋₁)I) 和 Y ~ N(0, (1-αₜ)I)。

两个正态分布(独立)随机变量的总和也是正态分布的。即如果 Z = X + Y,则 Z ~ N(0, σ²ₓ+σ²ᵧ)。因此我们可以将它们合并在一起并以重新以参数化的形式表示合并后的正态分布。

重复这些步骤将为得到只与输入图像 x₀ 相关的公式:

现在我们可以使用这个公式在任何时间步骤直接对xₜ进行采样,这使得向前的过程更快。

反向扩散过程

与正向过程不同,不能使用q(xₜ₋₁|xₜ)来反转噪声,因为它是难以处理的(无法计算)。所以我们需要训练神经网络pθ(xₜ₋₁|xₜ)来近似q(xₜ₋₁|xₜ)。近似pθ(xₜ₋₁|xₜ)服从正态分布,其均值和方差设置如下:

损失函数

损失定义为负对数似然:

这个设置与VAE中的设置非常相似。我们可以优化变分的下界,而不是优化损失函数本身。

通过优化一个可计算的下界,我们可以间接优化不可处理的损失函数。

通过展开,我们发现它可以用以下三项表示:

1、L_T:常数项

由于 q 没有可学习的参数,p 只是一个高斯噪声概率,因此这一项在训练期间将是一个常数,因此可以忽略。

2、Lₜ₋₁:逐步去噪项

这一项是比较目标去噪步骤 q 和近似去噪步骤 pθ。通过以 x₀ 为条件,q(xₜ₋₁|xₜ, x₀) 变得易于处理。

图片

经过一系列推导,上图为q(xₜ₋₁|xₜ,x₀)的平均值μ′ₜ。为了近似目标去噪步骤q,我们只需要使用神经网络近似其均值。所以我们将近似均值 μθ 设置为与目标均值 μ̃ₜ 相同的形式(使用可学习的神经网络 εθ):

图片

目标均值和近似值之间的比较可以使用均方误差(MSE)进行:

经过实验,通过忽略加权项并简单地将目标噪声和预测噪声与 MSE 进行比较,可以获得更好的结果。所以为了逼近所需的去噪步骤 q,我们只需要使用神经网络 εθ 来逼近噪声 εₜ。

3、L₀:重构项

这是最后一步去噪的重建损失,在训练过程中可以忽略,因为:

  • 可以使用 Lₜ₋₁ 中的相同神经网络对其进行近似。
  • 忽略它会使样本质量更好,并更易于实施。

所以最终简化的训练目标如下:

我们发现在真实变分界上训练我们的模型比在简化目标上训练产生更好的码长,正如预期的那样,但后者产生了最好的样本质量。[2]

通过测试在变分边界上训练模型比在简化目标上训练会减少代码的长度,但后者产生最好的样本质量。[2]

U-Net模型

在每一个训练轮次

  • 每个训练样本(图像)随机选择一个时间步长t。
  • 对每个图像应用高斯噪声(对应于t)。
  • 将时间步长转换为嵌入(向量)。

训练过程的伪代码

图片

官方的训练算法如上所示,下图是训练步骤如何工作的说明:

图片

反向扩散

图片

我们可以使用上述算法从噪声中生成图像。下面的图表说明了这一点:

在最后一步中,只是输出学习的平均值μθ(x₁,1),而没有添加噪声。反向扩散就是我们说的采样过程,也就是从高斯噪声中绘制图像的过程。

扩散模型的速度问题

扩散(采样)过程会迭代地向U-Net提供完整尺寸的图像获得最终结果。这使得纯扩散模型在总扩散步数T和图像大小较大时极其缓慢。

稳定扩散就是为了解决这一问题而设计的。

稳定扩散 Stable Diffusion

稳定扩散模型的原名是潜扩散模型(Latent Diffusion Model, LDM)。正如它的名字所指出的那样,扩散过程发生在潜在空间中。这就是为什么它比纯扩散模型更快。

潜在空间

图片

首先训练一个自编码器,学习将图像数据压缩为低维表示。

通过使用训练过的编码器E,可以将全尺寸图像编码为低维潜在数据(压缩数据)。然后通过使用经过训练的解码器D,将潜在数据解码回图像。

潜在空间的扩散

将图像编码后,在潜在空间中进行正向扩散和反向扩散过程。

  • 正向扩散过程→向潜在数据中添加噪声
  • 反向扩散过程→从潜在数据中去除噪声

条件作用/调节

图片

稳定扩散模型的真正强大之处在于它可以从文本提示生成图像。这是通过修改内部扩散模型来接受条件输入来完成的。

图片

通过使用交叉注意机制增强其去噪 U-Net,将内部扩散模型转变为条件图像生成器。

上图中的开关用于在不同类型的调节输入之间进行控制:

  • 对于文本输入,首先使用语言模型 𝜏θ(例如 BERT、CLIP)将它们转换为嵌入(向量),然后通过(多头)Attention(Q, K, V) 映射到 U-Net 层。
  • 对于其他空间对齐的输入(例如语义映射、图像、修复),可以使用连接来完成调节。

训练

图片

训练目标(损失函数)与纯扩散模型中的训练目标非常相似。唯一的变化是:

  • 输入潜在数据zₜ而不是图像xₜ。
  • U-Net增加条件输入𝜏θ(y)。

采样

图片

由于潜在数据的大小比原始图像小得多,所以去噪过程会快得多。

架构的比较

比较纯扩散模型和稳定扩散模型(潜在扩散模型)的整体架构。

Diffusion Model

图片

Stable Diffusion (Latent Diffusion Model)

图片

快速总结一下:

  • 扩散模型分为正向扩散和反向扩散两部分。
  • 正扩散可以用封闭形式的公式计算。
  • 反向扩散可以用训练好的神经网络来完成。
  • 为了近似所需的去噪步骤q,我们只需要使用神经网络εθ近似噪声εₜ。
  • 在简化损失函数上进行训练可以获得更好的样本质量。
  • 稳定扩散(潜扩散模型)是在潜空间中进行扩散过程,因此比纯扩散模型快得多。
  • 纯扩散模型被修改为接受条件输入,如文本、图像、语义等。
责任编辑:华轩 来源: DeepHub IMBA
相关推荐
Stable Diffusion如何在企业中落地
很多时候非技术人员或初学者在用StableDiffusion或者在网上拿过来的做训练的时候,他们最大的问题是不知道用多大的数据集,即便知道了用多大的训练集,也不知道再训练多少步,而知道该训练多少步后,又不知道该训练到什么时候停止。

2023-07-14 13:34:34

Stable Diffusion 模型
Midjourney与Stable Diffusion大比拼
虽然这两款AI图像生成器都非常出色,但它们在自定义功能、美术风格、易用性、定价等方面存在明显差异。因此,在本文中,我们介绍了如何将二者区分开,以及您应该使用哪一款。

2023-05-26 15:53:48

Midjourney AI 图像
Stable Video Diffusion来了,代码权重已上线
本周二,基于StableDiffusion的视频生成模型StableVideoDiffusion来了,AI社区马上开始了热议。

2023-11-22 11:22:57

AI 模型
50张图“毒倒”Stable Diffusion,汽车牛都分不清了
研究人员用StableDiffusion测试毒效,只需50张毒图,就能让模型输出变得奇怪;数量达到300张时,生成的图像已经完全变成了另一个物种。

2023-10-24 19:27:01

AI 模型
如何在无 GPU macOS 上运行 Stable Diffusion
Prompt有很多的撰写技巧、句式、修饰词;StableDiffusion也有很多参数可以调整。但本篇主要描述的是在无GPU情况下,在macOS下运行StableDiffusion,因此在此仅输入bird,进行测试。

2023-02-10 21:12:41

GPU macOS Stable
文件更小,质量更高,大火Stable Diffusion还能压缩图像?
或许StableDiffusion这个宝藏模型还有一些潜力待挖掘。

2022-10-20 16:04:26

模型 质量
ZK 证明 zkEVM 工作原理(无需数学
在区块链的背景下,ZKP被用来提高Polygon的zkEVM[17]等产品中以太坊的可扩展性,通过提供一种验证批量交易的新方法,而不会出现我们今天在其他汇总解决方案中看到的典型的安全性或EVM兼容性损失。

2023-07-10 09:23:31

Fooocus:一个简单且功能强大Stable Diffusion webUI
StableDiffusion是一个强大的图像生成AI模型,但它通常需要大量调整和提示工程。Fooocus的目标是改变这种状况。

2023-08-29 17:43:39

人工智能 Fooocus
使用Stable Diffusion生成超逼真人脸三条途径
本文介绍了如何使用基本模型生成图像、如何升级到StableDiffusionXL模型以改善图像质量以及如何使用自定义模型生成高质量图像。

2024-01-16 08:00:00

人工智能 基本模型
扫描大脑画面,Stable Diffusion逼真复现图像
近日,一项研究声称能够用StableDiffusion将大脑活动重建为高分辨率、高精确度的图像。相关论文被CVPR2023接收,引起网友哗然,AI读脑已经近在咫尺?

2023-03-06 12:35:45

AI 大脑画面 图像
Stable Diffusion背后公司开源大语言模型,很火,但很烂
据StabilityAI官方介绍,StableLM的建立是基于GPTJ、GPTNeoX和Pythia套件开发的;而它们又是在ThePile开源数据集上进行的训练。

2023-04-20 17:47:57

模型 开源
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
全靠多模态扩散Transformer架构MMDiT。成功关键是对图像和文本表示使用单独两组权重的方式,由此实现了比SD3之前的版本都要强的性能飞升。

2024-03-06 23:23:36

Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理
小白都能看懂的StableDiffusion原理!

2023-01-18 16:13:32

模型
Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了
大脑活动到图像,StableDiffusion能重建。

2023-03-04 21:51:27

图像 研究
Stable Diffusion XL 现已推出—有什么新功能,你知道吗?
总的来说,我对新预览模型的结果印象不深。MidJourney、LeonardoAI和MicrosoftImageGenerator有更好看的生成结果。

2023-03-31 23:39:08

AI 模型 版本
GAN反击:朱俊彦CVPR新作GigaGAN,出图速度秒杀Stable Diffusion
在文生图领域,扩散模型似乎已经一统天下,让曾经也风头无两的GAN显得有些过时。但两相比较,GAN依然存在不可磨灭的优势。这使得一些研究者在这一方向上持续努力,并取得了非常实用的成果。相关论文已被CVPR2023接收。

2023-03-13 16:11:37

模型 文本
基于Diffusion Model图像生成
2022年美国科罗拉多州博览会艺术比赛,在其中数字类别项目比赛中,一位名叫JsonAllen的游戏设计师的作品《太空歌剧院》勇夺桂冠,事后人们发现该作品是由Allen使用AI工具Midjourney完成的,值得玩味的是,两位评委此前对于Midjourney是AI工具毫不知情,但是两人表示,即使知道,他们同样也会给予其最高奖项,因为这并不违反比赛规则。

2022-12-18 19:49:45

AI
真·大语言模型Stable Diffusion时刻?StableLM开源,70亿参数在线体验
StabilityAI也有大语言模型了,现在已有3B和7B的版本。大语言模型的StableDiffusion时刻,是真来了。

2023-04-21 10:37:40

语言模型
推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本
本周论文包括MIT造出薄如纸的太阳能电池板;推理速度比StableDiffusion快2倍的Muse模型等研究。

2023-01-08 13:22:03

模型
如何在Mac、WindowsDocker上本地电脑上搭建AI人工智能绘画工具Stable Diffusion
在电脑的D盘创建一个文件夹如“github”来保存stablediffusionwebui库文件,进入该文件夹后,右键鼠标在打开的下拉列表中选择“在终端中打开”即可在WindowsPowerShell中打开此文件夹,只有在此文件夹中打开终端才能保证后续的安装文件能够正确的安装在当前文件夹。

2023-05-24 08:52:12

深圳SEO优化公司吉安网站优化推广多少钱坪山网站推广多少钱拉萨模板推广推荐贵阳网站制作设计哪家好观澜网站建设设计公司昆明网站优化推广多少钱南通百度竞价包年推广报价抚顺网站优化软件报价泰安至尊标王报价木棉湾百度竞价价格太原企业网站设计推荐杭州网站推广方案哪家好双龙百搜标王崇左网站推广系统推荐扬州网络广告推广推荐荷坳网站推广价格南平网络推广多少钱莆田优化推荐淮北网站搜索优化哪家好长沙百姓网标王推广哪家好吉安百度网站优化排名徐州百搜标王推荐菏泽网页设计多少钱吉林百度seo价格咸宁网站推广工具哪家好醴陵网络广告推广推荐黄南网站优化按天扣费推荐临汾网站推广系统柳州外贸网站建设报价益阳网站制作设计多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化