![1.png](http://static.itsharecircle.com/240307/ded6f4d3ab22907f8c3e09d8ab865817.png)
一、Stable Diffusion概念
Stable Diffusion 这个模型架构是由 Stability AI 公司推于2022年8月由 CompVis、Stability AI 和 LAION 的研究人员在 Latent Diffusion Model 的基础上创建并推出的。其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的首席研究科学家 Patrick Esser,以及慕尼黑大学机器视觉学习组的 Robin Rombach 这两位开发者在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)的研究
Stable Diffusion WebUI(Automatic1111) 是一个图形化界面,可以让我们方便地使用Stable Diffusion来进行文本到图像(txt2img)和图像到图像(img2img)的转换。它提供了丰富的功能和设置选项,例如:
文本反转:根据图像输入,生成描述该图像的文本输出
文本加权和负文本:通过在文本中添加括号或减号,来增加或减少对某些词语的关注度
图像编辑:可以使用遮罩和裁剪功能,来对图像进行局部修改或重绘
图像增强和放大:可以使用GFPGAN和realESRGAN等技术,来提升图像的清晰度和分辨率
生成预览:可以实时观察生成过程中的图像变化
提示矩阵:可以使用竖线分隔多个文本输入,来生成多个图像输出的组合
词语种子:可以使用词语代替数字作为种子,来控制生成结果的随机性
二、原理简介
Stable Diffusion 技术,作为 Diffusion 改进版本,通过引入隐向量空间来解决 Diffusion 速度瓶颈,除了可专门用于文生图任务,还可以用于图生图、特定角色刻画,甚至是超分或者上色任务。作为一篇基础原理介绍,这里着重解析最常用的“文生图(text to image)”为主线,介绍 stable diffusion 计算思路以及分析各个重要的组成模块。
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。
- 请尽量让自己的回复能够对别人有帮助
- 支持 Markdown 格式, **粗体**、~~删除线~~、
`单行代码`
- 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
- 图片支持拖拽、截图粘贴等方式上传