Yan 的杂物志_个人主页分享

Created2023-08-24|2_Note0_Technic2_算法8_图形图像AI绘画

英文名称: Auto-Encoding Variational Bayes 中文名称: 自编码变分贝叶斯论文地址: http://arxiv.org/abs/1312.6114 时间: 2013 作者: Diederik P. Kingma, 阿姆斯特丹大学引用量: 24840 1 读后感 VAE 变分自编码（Variational Autoencoder）是一种生成模型，它结合了自编码器和概率图模型的思想。它的目标是：解决对复杂性高，且量大的数据难以拟合的问题。具体方法是：使用基于变分推理的原理，以变分下界作为目标函数，用梯度方法求取模型参数。 2 通俗理解听起来非常抽象，简单地说：变分自编码器是自编码器的改进版。 2.1 自编码器自编码器通常由编码器和解码器两部分组成，其中编码器将原始数据映射到低维表示，解码器则将低维表示映射回原始数据空间。即：原始数据为 x，将其输入编码器降维后，变成数据 z，再经过编码器还原成数据 x'。它常用于高维数据的低维表示和从低维表示中生成高维数据。比如：图像去噪，修复图片，生成高分辨率图片等。 2.2 变分自编码器变分自编码器在中间加了一 ...

论文阅读_扩散模型_SDXL

Created2023-08-23|2_Note0_Technic2_算法8_图形图像AI绘画

123456英文名称: SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis中文名称: SDXL：改进潜在扩散模型的高分辨率图像合成论文地址: http://arxiv.org/abs/2307.01952代码: https://github.com/Stability-AI/generative-models时间: 2023-07-04作者: Dustin Podell 1 读后感 SD 是语言引导的扩散模型。SDXL 是 2023 年 7 月 Stable Diffusion 新发的大模型框架，它是潜在扩散模型（LDM）扩展。其主要效果是：加强了画面细腻度，优化了构图，以及对语言的理解能力。我对比了 SD 1.5 和 SDXL 模型，感觉速度差不太多，个人感觉：图片质量，对文字的理解略有提升，可能因为目前 SDXL 的基模比较少，用的还不太多。个人理解，目前阶段，无论是 AI 写作，绘画还是编程，都需要与人和其它工具深度结合，远不到可以独立解决问题，自动生成最终成果的阶段，但确实能提 ...

论文阅读_扩散模型_DDPM

Created2023-08-22|2_Note0_Technic2_算法8_图形图像AI绘画

12345678英文名称: Denoising Diffusion Probabilistic Models中文名称: 去噪扩散概率模型论文地址: http://arxiv.org/abs/2006.11239代码地址 1: https://github.com/hojonathanho/diffusion（论文对应代码 tensorflow）代码地址 2: https://github.com/AUTOMATIC1111/stable-diffusion-webui stable-diffusion-webui/modules/models/diffusion/ddpm_edit.py (推荐 pytorch)时间: 2020-12-16作者: Jonathan Ho, 加州大学伯克利分校引用量: 3286 论文阅读_生成模型_VAE 读后感论文优化了扩散模型的具体实现，并证明了扩散模型可生成高质量的图像。具体方法是结合扩散概率模型和朗之万动力学去噪的加权变分训练模型。学习路径论文中公式很多，有些依赖 DM 论文，VAE 论文，还有跳步，虽然方法部分不长，但是很难读明白。至今看 ...

论文阅读_扩散模型_DM

Created2023-08-22|2_Note0_Technic2_算法8_图形图像AI绘画

英文名称: Deep Unsupervised Learning using Nonequilibrium Thermodynamics 中文名称: 使用非平衡热力学原理的深度无监督学习论文地址: http://arxiv.org/abs/1503.03585 代码地址: https://github.com/Sohl-Dickstein/Diffusion-Probabilistic-Models 时间: 2015-11-18 作者: Jascha Sohl-Dickstein, 斯坦福大学引用量: 1813 1 读后感论文目标是建立灵活且易用的数据生成模型。它利用非平衡统计物理学原理：通过扩散过程（少量加噪）系统地、缓慢地破坏数据分布中的结构；然后，学习反向扩散过程，恢复数据结构。 2 介绍 2.1 扩散模型与变分模型扩散模型与变分模型原理类似，都是将图片拆成一系列高斯分布的均值和方差，而扩散模型是一个逐步变化的过程，主要差别如下：原理不同：扩散模型使用物理学、准静态过程和退火采样的思想。由于任何平滑目标分布都存在扩散过程，因此理论上该方法可以捕获任意形式的数据分布。 ...

论文阅读_模型结构_ControlNet

Created2023-08-17|2_Note0_Technic2_算法8_图形图像AI绘画

英文名称: Adding Conditional Control to Text-to-Image Diffusion Models 中文名称: 向文本到图像的扩散模型添加条件控制论文地址: http://arxiv.org/abs/2302.05543 代码: https://github.com/lllyasviel/ControlNet 时间: 2023-02-10 作者: Lvmin Zhang 1 读后感 ControlNet 几乎是 Stable Diffusion 中最重要的功能插件，利用它可对画面内容进入精准控制。本文介绍了 ControlNet 的原理和具体功能。 ControlNet 是一种对文本生成图像的优化方法。比如：生成 AI 画作时，画面中人体的形态，面部表情都难以精准控制，ControlNet 基于图生图的操作方式，从另一图中提取对应元素，用于新图像的生成，大幅提升了人对大模型的控制力。具体方法是调整网络结构，基于预训练的扩散模型，根据新输入的描述和指定任务对应的条件进一步训练模型。使模型既可以在小数据量（<50K）时在个人设备上训练，也可以在 ...

论文阅读_模型结构_LoRA

Created2023-08-17|2_Note0_Technic2_算法8_图形图像AI绘画

英文名称: LoRA: Low-Rank Adaptation of Large Language Models 中文名称: LORA：大语言模型的低阶自适应论文地址: http://arxiv.org/abs/2106.09685 代码: https://github.com/microsoft/LoRA pytorch，风格简捷时间: 2021-10-16 作者: Edward J. Hu 引用量: 657 1 读后感 LoRA 是 Low-Rank 的缩写，它是一种大模型微调技术。一开始用于优化自然语言模型，但是后来自然语言模型后来选择了 Prompt 的道路；而该技术在图像领域得到了广泛的应用，比如 Stable Diffusion 的一众 LoRA 模型，从背景风格到人物形像，不用精调 2-8 G 的基础模型，通过训练只有几十到几百兆 LoRA 模型，就可以实现建模。它针对的问题是：当模型大到一定程度，比如 GPT-3 有 175B 参数，精调变得费时而昂贵。其解决方法是：它修改了 fine-tune 过程，提出低阶自适应技术，冻结了预训练的模型权重，并将可训练的秩分 ...

编程助手_CodeGeeX

Created2023-08-15|2_Note0_Technic0_工具编程工具

1 介绍 CodeGeeX 是清华系列国产工具，底层基于 ChatGLM2 模型，开源免费。 2 VSCode 使用方法安装插件：codegeex 安装之后，在右侧看到说明文档，内容比较全也比较长。主要功能分成两部分，同 copilot，都封装在一个插件中。正常安装后，左侧边栏和界面右下会出现类似菱形的图标。按提示 login，微信登录即可用。生成后续程序基本用法同 Copilot 一致，AI 生成的代码浅灰色，按 Tab 链后变正常。点击左侧图标可调出 Chat 栏 Chat 栏支持提问和代码翻译等功能；智能问答含三个基本功能：/explain，/comment，/fixbug（在左下角输入框输入 "/" 可调出），在右边选代码，左边点功能即可。也可以在框中输入需要操作的文本描述。 3 总结 3.1 优点开源免费无需“科学”，直接使用无需复杂配置 3.2 缺点功能相对偏少，可看作低配版的 Copilot 在聊天中，输入自已描述的功能效果不太好，它不太能看懂需求我测试了两个时段，其中有一次提问时不太稳定，一直 wait timeout (也可能是巧合) ...

编程助手_Copilot

Created2023-08-15|2_Note0_Technic0_工具编程工具

1 介绍 Copilot 由 Github 和 OpenAI 合作推出，底层基于的 Codex 模型，通过 GPT-3 继续训练得到。 Copilot 可以先免费试用一个月。所以大家可以先试试，如果觉得必需，再购买或者在某宝以便宜的方式购买。每次他帮我写注释，或者补全代码的时候，我都觉得钱花得值。 2 VSCode 使用方法安装插件：github copilot, github copilot lab, github copilot chat 主要功能分成两部分：一部分是生成后续程序 (github copilot)，另一部分通过与 copilot 对话实现更丰富的功能支持 (github copilot chat)。正常安装后，左侧边栏和界面右下会出现小机器人图标右下角提示 copilot 需要 github 帐号登录，按提示操作即可一个月免费使用（或者申请个比较便宜的学生号）。 |600 生成后续程序例如：编写一行注释，回车后等几秒，自动生成的代码以灰色呈现；按 Tab 键接受推荐；Alt+ 左/右中括号可切换不同的推荐；Ctrl+Enter：打开一个 Tab ...

编程助手_Cursor

Created2023-08-15|2_Note0_Technic0_工具编程工具

1 介绍 Cursor 是调用 Chatgpt 接口实现的 AI 编程工具，目前 GPT-3.5 可免费使用，GPT-4 只对专业订购者开放。Cursor 本身是一个 IDE，可从其官网下载安装包。 2 使用方法从其主页：https://www.cursor.so/ 直接下载对应平台的 IDE 安装。 IDE 和 VSCode 很类似，可看作轻量化的 VSCode，使用习惯非常像，常用快捷键都一样。第一次使用时，可以试用左侧的 demo 测试，融入操作的向导非常贴心。点击右上角可以对它提问主要快捷键有两个： Ctrl+K 在代码中操作 Ctrl+M 以提问方式交互其它的提示都显示在屏幕上，按提示操作很快就学会了，学习成本低。与代码续写相比，它可以根据需求，生成整个程序，整体更有章法。 |600 3 总结 3.1 优点使用 ChatGPT 作为算法引擎，免费可用无需“科学”，直接使用 IDE 和 GPT 结合得非常好，几乎所有操作提示全在界面上不只是补全，还可以生成整体代码无需复杂配置，学习成本低 3.2 缺点 IDE 比较简单，不能满足开发需求 ...

编程助手_大模型提升效率

Created2023-08-15|2_Note0_Technic0_工具编程工具

1 简介网传有了大模型之后，很多人都要失业了，其中也包括一部分程序员，确实大模型可以减轻开发者的工作量，但是具体到减轻了多少工作量，哪种类型的工作，学习成本，使用成本如何？不捧不踩,今天我们尽量客观地体验一下。本文将介绍目前使用最多的三个智能编程助手，它们均可提供：代码解释、注释、生成、实时补全等功能。下面基于 VSCode 环境来介绍具体的使用方法。 2 Copilot 编程助手_Copilot 3 CodeGeeX 编程助手_CodeGeeX 4 Cursor 编程助手_Cursor 5 讨论 5.1 使用场景对于新手，我们不用再花很多时间强调代码规范了，让大家直接用 AI 就可以润色出不错的代码和注释。对于不熟悉的领域、代码、编程语言，可以快速地了解和梳理代码，解释代码和逻辑。自动编写常用的代码片断自动编写相对复杂的正则或 SQL 查询解决一些简单的 bug 帮助程序员快速入门一门语言或一种框架快速程序写 demo 和代码框架，程序员只需要做少量修改即可使用 5.2 使用体验 5.2.1 基于场景的设计最简单的使用大模型的方法是 ChatGPT 聊天界面 ...