论文阅读_图像生成_unCLIP
读后感
OpenAI 出品,应用于 DALL-E
2。主要实现了以文本为条件生成图像。它在图像的还原和生成过程中,利用了图像与文本间的映射关系,文本可以看作是人对图片内容的抽象,它让模型从人的视角“看”图片,识别了其中人觉得最重要的内容;在图片内容和人类概念之间建立联系,并能通过文本描述的概念来生成和编辑图片。
从技术层面看,它主要基于 CLIP,Diffusion 模型,并在 GLIDE
的方法之上进行了改进(之前 GLIDE 尝试了有分类的 CLIP,本文尝试了无分类的
CLIP;GLIDE 对 Diffusion 中加噪图片训练 CLIP
对齐嵌入,本文用不加噪图片做 CLIP)。
介绍
CLIP
模型在图片和文本之间建立映射关系,能很好的获取图片的含义和风格。本文基于
CLIP,提出了两阶段模型(如图):首先,生成给定文本描述对应的 CLIP
图像嵌入,然后,用解码器生成以图像嵌入为条件的图像。其解码器尝试了自回归和扩散两种方法,发现扩散模型效率更高。
其核心逻辑如图所示:虚线上结合了文本和图像的表示空间;虚线下是生成图片的过程,用文本嵌入产生一个图像嵌入,然后利用这个嵌入在条 ...
论文阅读_ViT
123456name_ch: 将 16x16 的块看作词:用 Transformers 实现大规模图像识别name_en: An Image is Worth 16x16 Words:Transformers for Image Recognition at Scalepaper_addr: http://arxiv.org/abs/2010.11929code: https://github.com/google-research/vision_transformerdate_publish: 2021-06-03other src: ViT 论文逐段精读:https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.999.0.0
读后感
ViT 是 Vision Transformer 的缩写,是 2020 年 Google 团队提出的将
Transformer 应用在图像分类的模型。ViT 将输入图片分为多个 patch,再将每个
patch 投影为固定长度的向量送入 Transformer,后续 encoder 的操 ...
论文阅读_Segment_Anything
name_ch: 切分任何东西
name_en: Segment Anything
paper_addr: http://arxiv.org/abs/2304.02643
date_publish: 2023-04-05
demo: https://segment-anything.com
读后感
论文提出 Segment Anything (SA)
模型,无需精调,即可通过文本提示进行图像分割(抠图)。
SA 基于将 Transformer 模型应用到图像处理领域 ViT 论文阅读_ViT,对图像的无监督学习 MAE 论文阅读_MAE,以及文本图像相互映射的 CLIP 论文阅读_图像生成文本_CLIP,可以说它是图像领域大模型落地的一个精典范例。
之前的图像分割模型,比如要识别图中的猫,先需要做一些标注数据,用工具把图中的猫标注出来,然后用这些标注数据在
pretrain 模型的基础上 fine-tune。
SA 论文解决了两个问题:把文字描述和图中形象联系起来;在不 fine-tune
的情况下解决 zero-shot
问题。另外,本文的一大亮点是:用先交互后自动的方式标注了数以十 ...
大语言模型_带来的一些启发
仅代表个人看法,不喜勿喷。
The limits of my language means the limits of my world. (Ludwig
Wittgenstein)
我的语言的极限意味着我的世界的极限。——维特根斯坦
大语言模型解决的不仅是处理文本相关问题,它带来的是人对世界的理解,或者说让机器可以直接理解人的意图,而不再需要翻译成指邻、代码,而语言本身又隐含了人对世界的理解。从这个角度看,自然语言模型引领
AI 时代的进步也就不足为奇了。
十年前说这个,可能觉得很科幻吧;三年前,当看到 GPT-3
生成的驴唇不对马嘴的文章和回答,也只当是个炒作的噱头,一笑了之;最近两个月发布的
AI 进展真称得上是日新月异了,在这一刻,当 ChatGPT
仅两个月就月活过亿,那只能说,你可以不变,但阻止不了世界改变。
过分拟合人的想法是对真实世界的扭曲
图片来自 GPT-4 论文
[1],对比了预训练模型和使用强化学习调优后模型预测的分布。可以看到,没调前(左图)和真实分布基本是一致的:世界是什么样,模型就学成了什么样;学习调优反而不一致了。强化学习的目标是让
AI 的回答更符 ...
自然语言大模型介绍
1 简介
最近一直被大语言模型刷屏。本文是周末技术分享会的提纲,总结了一些自然语言模型相关的重要技术,以及各个主流公司的研究方向和进展,和大家共同学习。
2 Transformer
目前的大模型基本都是 Transformer 及其变种。本部分将介绍 Transformer
基础模型及其主要变种。
2.1 Transformer 模型
Transformer 是一种基于自注意力机制的模型,由 Encoder 和 Decoder
两部分组成。
下图是精典论文《Attention is all you need》中展示的模型结构图,左边是
Encoder,右边是 Decoder,
|500
在 Transformer 中,Encoder 将输入序列映射到一个高维空间中,Decoder
则将这个高维空间中的向量映射回输出序列。
在 Encoder 中,所有的词一起输入一起计算;在 Decoder 中像 RNN
一样一个一个词输入,将已经出现的词计算得到的 Q 与 Encoder 计算得到的 K,V
进行计算,经过了全部 Decoder 层再经过 FC+Softmax
得到结果之后再把结 ...
论文阅读_LaMDA
中文名称: LaMDA:对话应用程序的语言模型
英文名称: LaMDA:Language Models for Dialog Applications
论文地址: http://arxiv.org/abs/2201.08239
时间: 2022-02-10
读后感
对于对话机器人的调优。提升模型的安全性和事实性,同时可咨询外部知识来源,如:信息检索系统、语言翻译器和计算器——结合了自然语言模型与其它工具。利用众包方式,选择人类偏好的回答,利用外部知识库验证其可靠性。
介绍
Google 推出的 LaMDA(Language Model for Dialogue
Applications),针对对话应用的大语言模型。它可以处理开放式对话,这种对话通常围绕特定主题展开(外部知识源)。
方法
模型结构
LaMDA 采用的是纯 decoder 的结构,类似于 GPT,使用了 46 层
Transformer。
数据
在公共对话数据和 web tex 的 1.56T 词进行预训练,137B 参数。
以 SSI 为例,要求众包工作者与 LaMDA 实例就任何主题进行交互来收集 6400
轮,121 ...
论文阅读_GPT-4
name_ch: GPT-4 技术报告
name_en: GPT-4 Technical Report
paper_addr: https://arxiv.org/abs/2303.08774
date_publish: 2023-03-14
摘要
评测了
GPT-4:一个大规模的多模态模型,可以接受图像和文本输入并产生文本输出。
GPT-4 是一种基于 Transformer 的模型,它延续了 GPT-3
的结构,经过预训练可以预测文档中的下一个
token。训练后的对齐过程可提高真实性和遵守所需行为的措施的性能。
介绍
当前大语言模型的主要目标是提高模型理解和生成自然语言文本的能力,尤其是在更复杂和微妙的场景中。
模型在评估中多数超过绝大多数人类测试者,在这方面明显优于
GPT-3.5。尽管 GPT-4
生成的文本仍然不太可靠(提升了利用知识去解决具体问题的能力)。
模型训练具体使用了互联网数据和一些三方版权数据。然后使用人类反馈强化学习
(RLHF) 对模型进行微调。本报告不包含关于架构
(包括模型尺寸)、硬件、训练计算、数据集构建、训练方法或类似的更多细节。
方法
预测可扩展性 ...
论文阅读_GLaM
12345name_ch: GLaM:使用混合专家有效扩展语言模型name_en: GLaM:Efficient Scaling of Language Models with Mixture-of-Expertspaper_addr: http://arxiv.org/abs/2112.06905journal: ICML 2022(会议)date_publish: 2022-08-01
读后感
针对节约计算资源的研究,推进了针对细分专家领域。
一种混合专家(MoE)模型,可以将其视为具有不同子模型(或专家)的模型,每个子模型都专门针对不同的输入。每层中的专家由门控网络控制,该网络根据输入数据激活专家。
摘要
文中提出 GLaM (Generalist Language Model)
通用语言模型,它使用稀疏激活的专家混合架构来扩展模型容量,同时与密集变体相比,训练成本也大大降低,其中输入批次中的每个标记仅激活
96.6B(1.2T 的 8%)参数的子网络。
最大的 GLaM 有 1.2 万亿个参数,大约是 GPT-3 的 7 倍。它仅消耗用于训练
GPT-3 的 1/3 的能量,并 ...
论文阅读_用引导调优模型
name_ch: 微调语言模型是零样本学习者
name_en: Finetuned Language Models Are Zero-Shot Learners
paper_addr: http://arxiv.org/abs/2109.01652
code: https://github.com/google-research/flan
date_publish: 2022-02-08
读后感
介绍
指令调优是:在通过指令描述的一组数据集上微调语言模型,它显著提高了未见任务的
zeroshot 性能。将此类模型称为 FLAN(Finetuned Language Net),采用 137B
参数预训练语言模型,并在 60 多个通过自然语言指令模板的 NLP
数据集上对其进行指令调优。
模型效果,图 -1 展示了模型在不同类型任务上的效果对比:
方法
原理图
用 Tensorflow Datasets 上公开可用的 62
个文本数据集(包括语言理解和语言生成任务)聚合到一起,每个数据集被分类为十二个任务集之一。
对于每个数据集,我们手动编写了十个独特的模板,这些模板使用自然语言指令 ...
flask多并发
多线程
flask 默认使用多进程处理请求,因此,是支持并发的。比如两个调用 a.html
和 b.html,
请求 a.html 未运行完成,在浏览访问 b.html 不会阻塞。
开两个不同浏览器,分别请求请求运行时间较长的 a.html
也不阻塞。只要不用一个浏览去调,它都是不阻塞的;如果开一个浏览器在不同
tab 页请求同一阻塞页面,则会阻塞,这是浏览器引起的。
WSGI 协议
WSGI 是 Web Server Gateway Interface 的缩写,它是 Python
应用程序或者框架(如 Flask)和 web 服务器之间的一种接口。flask 默认使用
werkzeug 库实现 WSGI 协议。
只要实现了 WSGI 协议的任何 web server 都可以作为 flask app
的服务器,比如 uWSGI,Gunicorn,mod_wsgi 都可以替换 Werkzeug 作为 web
server。
flask 自带的多进程
在 app.run() 时加入参数:threaded=False, processes=5, debug=False
时,可使用 5 ...