本周我们将继续介绍我们的Portfolio公司，挖掘Stable Diffusion的所有信息。在正式解析前，我们先为大家做一个初步介绍。

Stable Diffusion 是Stability AI 公司开发的一款文本到图像的产品模型，它将使数十亿人能够在几秒钟内创作出令人惊叹的艺术作品。它是速度和质量方面的突破，意味着它可以在消费类 GPU 上运行。模型权重由托管合作方Hugging Face处理。

这是由 Runway 的 Patrick Esser 和慕尼黑大学机器视觉与学习研究小组的 Robin Rombach（以前是海德堡大学的CompVis实验室）领导的，基于他们之前在CVPR'22上的潜在Diffusion模型工作，并结合了社区的支持在 Eleuther AI、LAION 和Stability 生成 AI 团队。

该模型本身建立在 CompVis 和 Runway 团队在其广泛使用的潜在扩散模型中的工作基础上，结合我们的首席生成 AI 开发人员 Katherine Crowson、Open AI 的 Dall-E 2、Google Brain 的 Imagen和其他AI专家对条件扩散模型的见解。

我们很高兴AI媒体生成成为了一个开源社区驱动的领域，我们也希望能够继续吸引越来越多的创造性人才加入我们。

本周我们挖掘Stable Diffusion的所有信息：

什么是Stable Diffusion？
它是如何生成那些很酷的动画的？
它如何衡量文本数据和图像数据之间的相似性？
让我们用文字提示和Stable Diffusion生成音乐。

什么是Stable Diffusion？

它类似于DALL-E 2，因为它是一个Diffusion模型，可以用来从文本提示中生成图像。与DALL-E 2不同的是，它是开源的，有PyTorch实现[1]和HuggingFace[2]上的预训练版本。它是用LAION-5B数据集[3]训练的。Stable Diffusion由以下子模型组成：

我们有一个自动编码器[4]，它是由感知损失[5]和基于补丁的对抗性目标[6]的组合训练而成。有了它，我们可以将一个图像编码为一个潜在的表示，并从它那里解码。

随机噪声被逐步应用到嵌入中随机噪声被逐步应用到嵌入中[7]。文本提示的潜在表征是从CLIP对齐到图像表征中学习的[8]。

然后，我们然后使用U-Net，一个带有ResNet块的卷积网络来学习对Diffusion嵌入进行去噪[9]。文本信息通过交叉注意层注入网络[10]。得到的去噪图像然后由自动编码器解码器进行解码。

你可以在这里找到这篇文章: Stable Diffusion的文章[11]。有趣的模型!

它是如何生成那些很酷的动画的呢？

请看我在Replicate中做的：我的Stable Diffusion动画。那些动画主要是由于在潜伏空间（嵌入表征）中，很容易在2张图片或2个文本提示之间进行插值。DALL-E 2的文章对此有很好的解释：。那些动画主要是由于在潜空间中的2张图片或2个文本提示之间的插值很容易（嵌入表征）。DALL-E 2的文章很好地解释了这一点[12]。

你需要一个开始和结束提示。我选择了 "一只熊的图片 "和 "一个苹果的图片"。

然后你用CLIP模型的文本编码器[13]在潜空间中对这些文本进行编码，你用这2个文本提示之间的插值来指导随机图像的去噪过程的几个步骤。这只是为了将去噪过程固定在两个提示之间，使动画的跳跃性更小。

然后，你在2个提示之间创建尽可能多的中间插值，因为你需要在你的动画中的帧，并继续去噪过程，直到你得到干净的图像。如果你需要更平滑的动画，你只需在潜空间中生成的图像之间进行插值。

我对Andreas Jansson用Stable Diffusion技术实现的动画玩得很开心[14]。他在使用Hugging Face[2]的预训练模型。

如何测量文本和图像数据之间的相似性？

你怎么知道一张图片与它的文字说明是否 "相似"？从概念上讲，你可以 "简单地 "测量图像和文本之间的余弦相似度。这就是CLIP（对比性语言-图像预训练[13]）背后的想法，它是Dall-E 2和Stable Diffusion的基础OpenAI算法。图像和文本的中间潜在向量表示被学习，这样点积的高值就表明了高相似度。以下它是如何建立的）

首先，他们从互联网上公开的数据集中创建了一个由4亿对（图像、文字）组成的数据集。

然后他们使用了一个63M参数的转化器模型（A small GPT-2 like model 然后他们使用了一个63M参数的转化器模型（A small GPT-2 like model [15]）来提取文本特征T和一个视觉转化器[16]来提取图像特征I。

得到的向量被进一步转化，使文本和图像向量具有相同的大小。有了N个（图像，文字）对，我们可以生成N^2-N个图像与文字标题不对应的对。然后，他们在图像与文字说明不对应的对之间进行归一化点积（余弦相似度）。如果文本对应于图像，模型就会收到一个标签1，否则就是0，这样，模型就学会了对应的图像和文本应该产生一个接近于1的点积。

这个模型在零点学习中有很多的应用! 在典型的图像分类中，我们给模型提供一个图像，而模型从监督训练期间使用的一组预定义的文本标签中提供一个猜测。但是有了CLIP，我们可以提供一组我们希望模型将图像分类的文本标签，而不需要重新训练模型，因为模型将试图衡量这些标签和图像之间的相似性。我们实际上可以通过切换文本标签来建立无限量的图像分类器! CLIP文章[8]展示了它的稳健性，可以概括到不同的学习任务，而不需要重新训练模型。在我看来，ML模型的这种适应性显示了我们离真正的人工智能有多远! CLIP是一个开源项目（展示了它的鲁棒性，以概括不同的学习任务而不需要重新训练模型。在我看来，ML模型的这种适应性表明我们离真正的人工智能有多远！"。），所以一定要试试。

让我们用文本提示生成音乐

想象一下，如果你能告诉机器学习模型 "用爵士萨克斯管演奏放克基调"，它就会合成人工音乐！这就是我们的机器学习。实际上，你不需要想象，你可以直接使用它! 介绍一下RIFFUSION，一个根据Spectrogram图像数据训练的Stable Diffusion模型。这个想法很简单。

只要挑选一个预先训练好的Stable Diffusion模型[2]就好了。

将大量的音乐及其文字描述转换成Spectrogram图像数据。

微调到Stable Diffusion模型。

你现在有了一个模型，可以根据其他谱图或文字提示预测新的谱图。只要将这些频谱图转换回音乐。

如果你想了解更多关于如何自己做的细节，你可以按照这里的流程：https://www.riffusion.com/about。

引用

Stable Diffusion的Pytorch实现：https://github.com/CompVis/stable-diffusion
HuggingFace上的预训练版本：https://huggingface.co/spaces/huggingface-projects/diffuse-the-rest
LAION-5B数据集: https://laion.ai/blog/laion-5b/
Taming Transformers for High-Resolution Image Synthesis by Patrick Esser et al: by Patrick Esser et al: https://arxiv.org/pdf/2012.09841.pdf
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric by Richard Zhang et al: by Richard Zhang et al: https://arxiv.org/pdf/1801.03924.pdf
Phillip Isola等人：Phillip Isola等人：https://arxiv.org/pdf/1611.07004.pdf《用条件对抗网络进行图像到图像翻译》
Jascha Sohl-Dickstein等人的《使用非平衡热力学的深度无监督学习》：Jascha Sohl-Dickstein等人：https://arxiv.org/pdf/1503.03585.pdf
Learning Transferable Visual Models From Natural Language Supervision by Alec Radford et al: by Alec Radford et al: https://arxiv.org/pdf/2103.00020.pdf
U-Net。Olaf Ronneberger等人的《卷积网络用于生物医学图像分割》：Olaf Ronneberger等人：

More from atom_crypto

Cover image for A deep dive into CosmWasm : a cross-chain smart contract engine for Cosmos SDK and IBC

atom_crypto

Jun 9

A deep dive into CosmWasm : a cross-chain smart contract engine for Cosmos SDK and IBC

OverviewCosmWasm is a smart contract engine that improves based on the Cosmos SDK and IBC. It’s the only cross-chain interpretable Virtual Machine besides the EVM. If you think of EVM as a Mainframe computer, the CosmWasm VM is a cluster of computers which can communicate through IBC。 CosmWasm, along with Tendermint, Cosmos SDK, IBC are the the core technology stack within the Cosmos, any chain based on the Cosmos SDK can implement CosmWasm without changing the existing logic. CosmWasm curren...

Cover image for Stable Diffusion的基准测试-哪种GPU运行AI模型的速度最快（已更新）

atom_crypto

Feb 20

Stable Diffusion的基准测试-哪种GPU运行AI模型的速度最快（已更新）

哪种显卡能提供最快的人工智能？人工智能和深度学习最近不断成为头条新闻，无论是ChatGPT产生的不良建议，自动驾驶汽车，艺术家被指控使用人工智能，人工智能的医疗建议，等等。这些工具大多依靠复杂的服务器和大量的硬件进行训练，但通过推理使用训练过的网络可以在你的PC上，使用其显卡来完成。但是，消费类GPU做人工智能推理的速度如何？我们在最新的Nvidia、AMD、甚至英特尔的GPU上对Stable Diffusion进行了基准测试，看看它们的表现如何。如果你碰巧尝试过在自己的电脑上启动和运行Stable Diffusion，你可能会对这一过程的复杂性--或简单性--有一些印象。- 这可能是多么复杂或简单。简而言之，Nvidia的GPU占主导地位，大多数软件都使用CUDA和其他Nvidia工具集设计。但这并不意味着你不能在其他GPU上运行Stable Diffusion。我们最终使用了三个不同的Stable Diffusion项目进行测试，主要是因为没有一个软件包可以在每个GPU上运行。对于Nvidia，我们选择了Automatic 1111的webui版本；它表现最好，有更多的选...

atom_crypto

Mar 2

为什么第四次工业革命不应该属于现有垄断企业？

以下文章部分内容来自于Jim O’Shaughnessy 以及Emad CEO of Stability AI在infinite loops访谈中关于AI未来发展公开对话。同时也感谢Hugging Face 铁震童鞋提供的相关行业信息。伟大的人类从400万年前的南方古猿物种一步一步演变而来，经历了史前革命，古文明时期，中世纪，文艺复兴时代，工业革命时代等，启蒙时代的物理学家丹尼斯构想出了蒸汽机的雏形，为之后的水泵、驱动轮船和火车奠定了基础。工业革命时代，人们意识到科技进步能够提升质量，带来全人类的幸福。这段时间内，潜艇，火车，摄影术，电灯，电话，电影等技术相继问世，这也是严格意义上的第二次工业革命。第三次工业革命则是继蒸汽机以及电力革命后的，以原子能、电子计算机等的主要应用为标志的时代。而过去两年人工智能惊人的发展速度，以社区主导的大规模信息聚合有潜力推动下一个世纪的主导。当然人工智能在之前并不缺乏故事和市场运作，以自动驾驶、安防、监控等应用为特征的企业服务/政府服务题材公司，比如商汤科技，旷世科技等，都是领域的龙头。前几年AI主要以inference推理的统计模型为主导，而非...

本周我们将继续介绍我们的Portfolio公司，挖掘Stable Diffusion的所有信息。在正式解析前，我们先为大家做一个初步介绍。

我们很高兴AI媒体生成成为了一个开源社区驱动的领域，我们也希望能够继续吸引越来越多的创造性人才加入我们。

本周我们挖掘Stable Diffusion的所有信息：

什么是Stable Diffusion？
它是如何生成那些很酷的动画的？
它如何衡量文本数据和图像数据之间的相似性？
让我们用文字提示和Stable Diffusion生成音乐。

什么是Stable Diffusion？

随机噪声被逐步应用到嵌入中随机噪声被逐步应用到嵌入中[7]。文本提示的潜在表征是从CLIP对齐到图像表征中学习的[8]。

你可以在这里找到这篇文章: Stable Diffusion的文章[11]。有趣的模型!

它是如何生成那些很酷的动画的呢？

你需要一个开始和结束提示。我选择了 "一只熊的图片 "和 "一个苹果的图片"。

我对Andreas Jansson用Stable Diffusion技术实现的动画玩得很开心[14]。他在使用Hugging Face[2]的预训练模型。

如何测量文本和图像数据之间的相似性？

首先，他们从互联网上公开的数据集中创建了一个由4亿对（图像、文字）组成的数据集。

让我们用文本提示生成音乐

只要挑选一个预先训练好的Stable Diffusion模型[2]就好了。

将大量的音乐及其文字描述转换成Spectrogram图像数据。

微调到Stable Diffusion模型。

你现在有了一个模型，可以根据其他谱图或文字提示预测新的谱图。只要将这些频谱图转换回音乐。

如果你想了解更多关于如何自己做的细节，你可以按照这里的流程：https://www.riffusion.com/about。

引用

Stable Diffusion的Pytorch实现：https://github.com/CompVis/stable-diffusion
HuggingFace上的预训练版本：https://huggingface.co/spaces/huggingface-projects/diffuse-the-rest
LAION-5B数据集: https://laion.ai/blog/laion-5b/
Taming Transformers for High-Resolution Image Synthesis by Patrick Esser et al: by Patrick Esser et al: https://arxiv.org/pdf/2012.09841.pdf
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric by Richard Zhang et al: by Richard Zhang et al: https://arxiv.org/pdf/1801.03924.pdf
Phillip Isola等人：Phillip Isola等人：https://arxiv.org/pdf/1611.07004.pdf《用条件对抗网络进行图像到图像翻译》
Jascha Sohl-Dickstein等人的《使用非平衡热力学的深度无监督学习》：Jascha Sohl-Dickstein等人：https://arxiv.org/pdf/1503.03585.pdf
Learning Transferable Visual Models From Natural Language Supervision by Alec Radford et al: by Alec Radford et al: https://arxiv.org/pdf/2103.00020.pdf
U-Net。Olaf Ronneberger等人的《卷积网络用于生物医学图像分割》：Olaf Ronneberger等人：

More from atom_crypto

atom_crypto

Jun 9

A deep dive into CosmWasm : a cross-chain smart contract engine for Cosmos SDK and IBC

atom_crypto

Feb 20

Stable Diffusion的基准测试-哪种GPU运行AI模型的速度最快（已更新）

atom_crypto

Mar 2

为什么第四次工业革命不应该属于现有垄断企业？

atom_crypto

More from atom_crypto

atom_crypto

什么是Stable Diffusion？

它是如何生成那些很酷的动画的呢？

如何测量文本和图像数据之间的相似性？

让我们用文本提示生成音乐

引用

No comments yet

More from atom_crypto

atom_crypto

More from atom_crypto

atom_crypto

什么是Stable Diffusion？

它是如何生成那些很酷的动画的呢？

如何测量文本和图像数据之间的相似性？

让我们用文本提示生成音乐

引用

No comments yet

More from atom_crypto

你需要知道的关于Stable Diffusion的所有信息

你需要知道的关于Stable Diffusion的所有信息

No comments yet

No comments yet

什么是Stable Diffusion？

它是如何生成那些很酷的动画的呢？

如何测量文本和图像数据之间的相似性？

让我们用文本提示生成音乐

引用

什么是Stable Diffusion？

它是如何生成那些很酷的动画的呢？

如何测量文本和图像数据之间的相似性？

让我们用文本提示生成音乐

引用