StableDiffusion笔记

Stable Diffusion 是一个图像生成方法，由 Stability AI and Runway 在LDM[1] 的基础上提出。在GitHub有很多他的实现和应用[2][3][4] ,其中[2] 是最早的实现版本，[3] 是V2版本，由 Stability AI 完成。整体结构 flowchart TD subgraph Input-noisy Random-seed --> l

2023-05-29

笔记

#文字生成图片

huggingface 和相关库

huggingface 和相关库 huggingface Hugging Face是一个专注于自然语言处理（NLP）的开源平台，它旨在让NLP变得更加易用和普及。Hugging Face推出了多个库，例如Transformers，Datasets，Tokenizers和Accelerate，它们分别提供了预训练的模型，大规模的数据集，高效的分词器和分布式训练的工具。Hugging Face还拥有一

2023-05-09

#文字生成图片

Multidiffusion代码分析

Multidiffusion代码分析前言当我们使用计算机生成图像时，经常会遇到一些困难，例如如何生成高质量、高分辨率的图像，如何控制图像的风格和内容等。近年来，深度学习技术在图像生成领域取得了很大的进展，其中一种流行的方法是使用变分自编码器（VAE）和生成对抗网络（GAN）等模型。然而，这些方法通常需要大量的训练数据和计算资源，而且生成的图像可能会出现一些问题，例如模糊、失真和不连续等。为了

2023-05-09

#文字生成图片

MXnet-arcface数据集准备

众所周知，mxnet是一个沐神主导开发的一个深度学习框架，之前听李沐的讲论文时也听他说过很多次，但是已知没有机会使用，最近接触了一个项目，有机会感受了一些mxnet，但是也踩了很多坑。所有需要的脚本文件可以在https://github.com/StudyingLover/menet-Arcface-tools下载 image.png mxnet 的数据与别处的是不同的，他的训练集是两个文件

2023-05-08

工具

ControlNet训练自己数据集

ControlNet训练自己数据集从官方仓库训练官方教程 https://github.com/lllyasviel/ControlNet/blob/main/docs/train.md 环境配置先看一下有没有显卡 1nvidia-smi 首先下载整个仓库 1git clone https://github.com/lllyasviel/ControlNet.git 然后创建conda虚拟环

2023-04-27

#文字生成图片

I3D笔记

I3D笔记 I3D是一个视频理解模型，采用双流网络的架构，他的核心贡献是提出了如何对2d网络进行膨胀操作，同时提出了一个新的数据集 Kinetics 工作回顾 image.png 在以前，视频理解有三种做法 1. LSTM 2. 3D ConvNets 3. Two-Stream Networks（双流网络） Two-Stream Inflated 3D ConvNets 这篇文章提出的模型

2023-04-23

clip_interrogator教程

clip_interrogator教程文字生成图片是近年来多模态和大模型研究的热门方向，openai提出的CLIP提供了一个方法建立起了图片和文字的联系，但是只能做到给定一张图片选择给定文本语义最相近的那一个，实际项目开发中我们总是需要从一张图片获取描述，感谢社区的活力，clip-interrogator应运而生。受限于clip-interrogator 等于没有的文档，就有了这篇文章来写一些

2023-04-22

#文字生成图片

ControlNet代码改造计划

虽然现在webui已经支持了ControlNet，但是如果我们需要单独抽出来ControlNet做一些项目就需要对ControlNet进行改造。同时我也想加入一些开源的工具让ControlNet更加有趣，例如clip_interrogator. 关于什么是Canny，Hough，可以看北邮鲁鹏老师的课程计算机视觉（本科）北京邮电大学鲁鹏如果你想在webui使用ControlNet，可以看我之前

2023-04-21

#文字生成图片

文字生成图片综述

文字生成图片综述

文字生成图片综述背景根据文字生成图像，是近几年大模型领域和多模态比较热门的研究。以 NovelAI，waifu 等为代表的二次元模型极大地拓展了 stable diffusion 模型和生态的想象空间。例如原本做 AIGC 生成小说的 NovelAI 推出了自己的二次元图像生成模型，基于 SD 算法框架和 Danbooru 二次元图库数据集进行训练和优化。像 NovelAI 这类的二次元模

2023-04-20

笔记

#文字生成图片

Segment Anything笔记

Segment Anything笔记 Segment Anything project是一个用于图像分割的新任务、模型和数据集。在他刚出来的那一天，知乎等平台就已经高呼CV已死。为了这个项目，作者创建了迄今为止最大的分割数据集，1100万张在10亿次授权且尊重隐私的图像上的数据集。模型也被设计和训练成了promptable,就是说可以给他一些提示。作者在多个数据集测试了他的结果并认为结果令人满意。

2023-04-07

笔记

#图像分割 #多模态