StableDiffusion笔记 Stable Diffusion 是一个图像生成方法,由 Stability AI and Runway 在LDM[1] 的基础上提出。在GitHub有很多他的实现和应用[2][3][4] ,其中[2] 是最早的实现版本,[3] 是V2版本,由 Stability AI 完成。 整体结构 flowchart TD subgraph Input-noisy Random-seed --> l 2023-05-29 笔记 #文字生成图片
huggingface 和相关库 huggingface 和相关库 huggingface Hugging Face是一个专注于自然语言处理(NLP)的开源平台,它旨在让NLP变得更加易用和普及。Hugging Face推出了多个库,例如Transformers,Datasets,Tokenizers和Accelerate,它们分别提供了预训练的模型,大规模的数据集,高效的分词器和分布式训练的工具。Hugging Face还拥有一 2023-05-09 #文字生成图片
Multidiffusion代码分析 Multidiffusion代码分析 前言 当我们使用计算机生成图像时,经常会遇到一些困难,例如如何生成高质量、高分辨率的图像,如何控制图像的风格和内容等。近年来,深度学习技术在图像生成领域取得了很大的进展,其中一种流行的方法是使用变分自编码器(VAE)和生成对抗网络(GAN)等模型。然而,这些方法通常需要大量的训练数据和计算资源,而且生成的图像可能会出现一些问题,例如模糊、失真和不连续等。 为了 2023-05-09 #文字生成图片
MXnet-arcface数据集准备 众所周知,mxnet是一个沐神主导开发的一个深度学习框架,之前听李沐的讲论文时也听他说过很多次,但是已知没有机会使用,最近接触了一个项目,有机会感受了一些mxnet,但是也踩了很多坑。所有需要的脚本文件可以在https://github.com/StudyingLover/menet-Arcface-tools下载 image.png mxnet 的数据与别处的是不同的,他的训练集是两个文件 2023-05-08 工具
ControlNet训练自己数据集 ControlNet训练自己数据集 从官方仓库训练 官方教程 https://github.com/lllyasviel/ControlNet/blob/main/docs/train.md 环境配置 先看一下有没有显卡 1nvidia-smi 首先下载整个仓库 1git clone https://github.com/lllyasviel/ControlNet.git 然后创建conda虚拟环 2023-04-27 #文字生成图片
I3D笔记 I3D笔记 I3D是一个视频理解模型,采用双流网络的架构,他的核心贡献是提出了如何对2d网络进行膨胀操作,同时提出了一个新的数据集 Kinetics 工作回顾 image.png 在以前,视频理解有三种做法 1. LSTM 2. 3D ConvNets 3. Two-Stream Networks(双流网络) Two-Stream Inflated 3D ConvNets 这篇文章提出的模型 2023-04-23
clip_interrogator教程 clip_interrogator教程 文字生成图片是近年来多模态和大模型研究的热门方向,openai提出的CLIP提供了一个方法建立起了图片和文字的联系,但是只能做到给定一张图片选择给定文本语义最相近的那一个,实际项目开发中我们总是需要从一张图片获取描述,感谢社区的活力,clip-interrogator应运而生。 受限于clip-interrogator 等于没有的文档,就有了这篇文章来写一些 2023-04-22 #文字生成图片
ControlNet代码改造计划 虽然现在webui已经支持了ControlNet,但是如果我们需要单独抽出来ControlNet做一些项目就需要对ControlNet进行改造。同时我也想加入一些开源的工具让ControlNet更加有趣,例如clip_interrogator. 关于什么是Canny,Hough,可以看北邮鲁鹏老师的课程计算机视觉(本科)北京邮电大学 鲁鹏 如果你想在webui使用ControlNet,可以看我之前 2023-04-21 #文字生成图片
文字生成图片综述 文字生成图片综述 背景 根据文字生成图像,是近几年大模型领域和多模态比较热门的研究。以 NovelAI,waifu 等为代表的二次元模型极大地拓展了 stable diffusion 模型和生态的想象空间。例如原本做 AIGC 生成小说的 NovelAI 推出了自己的二次元图像生成模型,基于 SD 算法框架和 Danbooru 二次元图库数据集进行训练和优化。像 NovelAI 这类的二次元模 2023-04-20 笔记 #文字生成图片
Segment Anything笔记 Segment Anything笔记 Segment Anything project是一个用于图像分割的新任务、模型和数据集。在他刚出来的那一天,知乎等平台就已经高呼CV已死。为了这个项目,作者创建了迄今为止最大的分割数据集,1100万张在10亿次授权且尊重隐私的图像上的数据集。模型也被设计和训练成了promptable,就是说可以给他一些提示。作者在多个数据集测试了他的结果并认为结果令人满意。 2023-04-07 笔记 #图像分割 #多模态