AI绘画_SD_界面操作
1 介绍
本文将介绍 Stable Diffusion
的具体使用方法。首先,介绍界面中的重要元素,如图所示:
1.
基础模型:基础模型是最重要的设置项
文生图:选项卡列出了各大功能,文生图指通过文字生成图片
图生图:图生图指通过图片和文字生成图片
修复照片:用于优化图片,提升精度,常用来修复旧照片
设置:软件设置,VAE 模型可在此设置
插件:用于安装和管理插件,注意命令行启动时应允许安装插件
提示词:提示词分为正向提示和负向提示,负向提示用于限制可能的问题
采样方式:常用 Euler a,DPM2++2M Karras
提示词相关性:设置画面与提示词的相关性,一般设为
5-10,如果太高,色彩会过于饱和
扩展模型:设置基础模型的附加模型,Embedding 和 LoRA
模型就在此设置
生成按钮:按此按钮生成图片
2 提示词
2.1 提示词格式
提示词用于描述待生成的图像内容
提示词可支持中文,但不如英文理解的好
多个提示词可用逗号隔开,无需符合英文语法
对提示词加权重:
用小括号把关键词括起来(curly hair),这样括号一次就是 1.1
倍权重,那括两次 ((cur ...
论文阅读_扩散模型_LDM
1234567英文名称: High-Resolution Image Synthesis with Latent Diffusion Models中文名称: 使用潜空间扩散模型合成高分辨率图像地址: https://ieeexplore.ieee.org/document/9878449/代码: https://github.com/CompVis/latent-diffusion作者:Robin Rombach日期: 2022-06-01引用: 2275
1 读后感
Latent Diffusion
Models(LDMs)基于潜空间的扩散模型,是目前主流的基础模型,Stable
diffusion 就是基于 LDMs
原理工作的。之前的扩散模型运算都在像素层面,优化通常会消耗数百个 GPU
天,且评估和推理成本也很高。LDMs
大量自编码器的运算基于潜空间数据,降低了计算复杂度,从而大幅节省了算力,并保持了图像质量和灵活度,它让更多人可以训练模型。其应用场景包含有条件(根据文本或图像生成图像)和无条件(去噪/着色/根据涂鸦合成)的图像生成。
研究背景和动机
扩散模型是由逐层去噪的自 ...
论文阅读_生成模型_VAE
英文名称: Auto-Encoding Variational Bayes
中文名称: 自编码变分贝叶斯
论文地址: http://arxiv.org/abs/1312.6114
时间: 2013
作者: Diederik P. Kingma, 阿姆斯特丹大学
引用量: 24840
1 读后感
VAE 变分自编码(Variational
Autoencoder)是一种生成模型,它结合了自编码器和概率图模型的思想。它的目标是:解决对复杂性高,且量大的数据难以拟合的问题。具体方法是:使用基于变分推理的原理,以变分下界作为目标函数,用梯度方法求取模型参数。
2 通俗理解
听起来非常抽象,简单地说:变分自编码器是自编码器的改进版。
2.1 自编码器
自编码器通常由编码器和解码器两部分组成,其中编码器将原始数据映射到低维表示,解码器则将低维表示映射回原始数据空间。即:原始数据为
x,将其输入编码器降维后,变成数据 z,再经过编码器还原成数据
x'。它常用于高维数据的低维表示和从低维表示中生成高维数据。比如:图像去噪,修复图片,生成高分辨率图片等。
2.2 变分自编码器
变分自编码器在中间加了一 ...
论文阅读_扩散模型_SDXL
123456英文名称: SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis中文名称: SDXL:改进潜在扩散模型的高分辨率图像合成论文地址: http://arxiv.org/abs/2307.01952代码: https://github.com/Stability-AI/generative-models时间: 2023-07-04作者: Dustin Podell
1 读后感
SD 是语言引导的扩散模型。SDXL 是 2023 年 7 月 Stable Diffusion
新发的大模型框架,它是潜在扩散模型(LDM)扩展。其主要效果是:加强了画面细腻度,优化了构图,以及对语言的理解能力。
我对比了 SD 1.5 和 SDXL
模型,感觉速度差不太多,个人感觉:图片质量,对文字的理解略有提升,可能因为目前
SDXL 的基模比较少,用的还不太多。个人理解,目前阶段,无论是 AI
写作,绘画还是编程,都需要与人和其它工具深度结合,远不到可以独立解决问题,自动生成最终成果的阶段,但确实能提 ...
论文阅读_扩散模型_DDPM
12345678英文名称: Denoising Diffusion Probabilistic Models中文名称: 去噪扩散概率模型论文地址: http://arxiv.org/abs/2006.11239代码地址 1: https://github.com/hojonathanho/diffusion(论文对应代码 tensorflow)代码地址 2: https://github.com/AUTOMATIC1111/stable-diffusion-webui stable-diffusion-webui/modules/models/diffusion/ddpm_edit.py (推荐 pytorch)时间: 2020-12-16作者: Jonathan Ho, 加州大学伯克利分校引用量: 3286
论文阅读_生成模型_VAE
读后感
论文优化了扩散模型的具体实现,并证明了扩散模型可生成高质量的图像。具体方法是结合扩散概率模型和朗之万动力学去噪的加权变分训练模型。
学习路径
论文中公式很多,有些依赖 DM 论文,VAE
论文,还有跳步,虽然方法部分不长,但是很难读明白。至今看 ...
论文阅读_扩散模型_DM
英文名称: Deep Unsupervised Learning using Nonequilibrium
Thermodynamics
中文名称: 使用非平衡热力学原理的深度无监督学习
论文地址: http://arxiv.org/abs/1503.03585
代码地址:
https://github.com/Sohl-Dickstein/Diffusion-Probabilistic-Models
时间: 2015-11-18
作者: Jascha Sohl-Dickstein, 斯坦福大学
引用量: 1813
1 读后感
论文目标是建立灵活且易用的数据生成模型。它利用非平衡统计物理学原理:通过扩散过程(少量加噪)系统地、缓慢地破坏数据分布中的结构;然后,学习反向扩散过程,恢复数据结构。
2 介绍
2.1 扩散模型与变分模型
扩散模型与变分模型原理类似,都是将图片拆成一系列高斯分布的均值和方差,而扩散模型是一个逐步变化的过程,主要差别如下:
原理不同:扩散模型使用物理学、准静态过程和退火采样的思想。由于任何平滑目标分布都存在扩散过程,因此理论上该方法可以捕获任意形式的数据分布。
...
论文阅读_模型结构_ControlNet
英文名称: Adding Conditional Control to Text-to-Image Diffusion
Models
中文名称: 向文本到图像的扩散模型添加条件控制
论文地址: http://arxiv.org/abs/2302.05543
代码: https://github.com/lllyasviel/ControlNet
时间: 2023-02-10
作者: Lvmin Zhang
1 读后感
ControlNet 几乎是 Stable Diffusion
中最重要的功能插件,利用它可对画面内容进入精准控制。本文介绍了
ControlNet 的原理和具体功能。
ControlNet 是一种对文本生成图像的优化方法。比如:生成 AI
画作时,画面中人体的形态,面部表情都难以精准控制,ControlNet
基于图生图的操作方式,从另一图中提取对应元素,用于新图像的生成,大幅提升了人对大模型的控制力。
具体方法是调整网络结构,基于预训练的扩散模型,根据新输入的描述和指定任务对应的条件进一步训练模型。使模型既可以在小数据量(<50K)时在个人设备上训练,也可以在 ...
论文阅读_模型结构_LoRA
英文名称: LoRA: Low-Rank Adaptation of Large Language Models
中文名称: LORA:大语言模型的低阶自适应
论文地址: http://arxiv.org/abs/2106.09685
代码: https://github.com/microsoft/LoRA pytorch,风格简捷
时间: 2021-10-16
作者: Edward J. Hu
引用量: 657
1 读后感
LoRA 是 Low-Rank
的缩写,它是一种大模型微调技术。一开始用于优化自然语言模型,但是后来自然语言模型后来选择了
Prompt 的道路;而该技术在图像领域得到了广泛的应用,比如 Stable Diffusion
的一众 LoRA 模型,从背景风格到人物形像,不用精调 2-8 G
的基础模型,通过训练 只有几十到几百兆 LoRA 模型,就可以实现建模。
它针对的问题是:当模型大到一定程度,比如 GPT-3 有 175B
参数,精调变得费时而昂贵。其解决方法是:它修改了 fine-tune
过程,提出低阶自适应技术,冻结了预训练的模型权重,并将可训练的秩分 ...
编程助手_CodeGeeX
1 介绍
CodeGeeX 是清华系列国产工具,底层基于 ChatGLM2 模型,开源免费。
2 VSCode 使用方法
安装插件:codegeex
安装之后,在右侧看到说明文档,内容比较全也比较长。
主要功能分成两部分,同 copilot,都封装在一个插件中。
正常安装后,左侧边栏和界面右下会出现类似菱形的图标。
按提示 login,微信登录即可用。
生成后续程序
基本用法同 Copilot 一致,AI 生成的代码浅灰色,按 Tab
链后变正常。
点击左侧图标可调出 Chat 栏
Chat
栏支持提问和代码翻译等功能;智能问答含三个基本功能:/explain,/comment,/fixbug(在左下角输入框输入
"/"
可调出),在右边选代码,左边点功能即可。也可以在框中输入需要操作的文本描述。
3 总结
3.1 优点
开源免费
无需“科学”,直接使用
无需复杂配置
3.2 缺点
功能相对偏少,可看作低配版的 Copilot
在聊天中,输入自已描述的功能效果不太好,它不太能看懂需求
我测试了两个时段,其中有一次提问时不太稳定,一直 wait timeout
(也可能是巧合) ...
编程助手_Copilot
1 介绍
Copilot 由 Github 和 OpenAI 合作推出,底层基于的 Codex 模型,通过
GPT-3 继续训练得到。
Copilot
可以先免费试用一个月。所以大家可以先试试,如果觉得必需,再购买或者在某宝以便宜的方式购买。
每次他帮我写注释,或者补全代码的时候,我都觉得钱花得值。
2 VSCode 使用方法
安装插件:github copilot, github copilot lab, github copilot
chat
主要功能分成两部分:一部分是生成后续程序 (github
copilot),另一部分通过与 copilot 对话实现更丰富的功能支持 (github
copilot chat)。
正常安装后,左侧边栏和界面右下会出现小机器人图标
右下角提示 copilot 需要 github
帐号登录,按提示操作即可一个月免费使用(或者申请个比较便宜的学生号)。
|600
生成后续程序
例如:编写一行注释,回车后等几秒,自动生成的代码以灰色呈现;按 Tab
键接受推荐;Alt+ 左/右中括号可切换不同的推荐;Ctrl+Enter:打开一个 Tab ...