论文阅读_GLaM
12345name_ch: GLaM:使用混合专家有效扩展语言模型name_en: GLaM:Efficient Scaling of Language Models with Mixture-of-Expertspaper_addr: http://arxiv.org/abs/2112.06905journal: ICML 2022(会议)date_publish: 2022-08-01
读后感
针对节约计算资源的研究,推进了针对细分专家领域。
一种混合专家(MoE)模型,可以将其视为具有不同子模型(或专家)的模型,每个子模型都专门针对不同的输入。每层中的专家由门控网络控制,该网络根据输入数据激活专家。
摘要
文中提出 GLaM (Generalist Language Model)
通用语言模型,它使用稀疏激活的专家混合架构来扩展模型容量,同时与密集变体相比,训练成本也大大降低,其中输入批次中的每个标记仅激活
96.6B(1.2T 的 8%)参数的子网络。
最大的 GLaM 有 1.2 万亿个参数,大约是 GPT-3 的 7 倍。它仅消耗用于训练
GPT-3 的 1/3 的能量,并 ...
论文阅读_用引导调优模型
name_ch: 微调语言模型是零样本学习者
name_en: Finetuned Language Models Are Zero-Shot Learners
paper_addr: http://arxiv.org/abs/2109.01652
code: https://github.com/google-research/flan
date_publish: 2022-02-08
读后感
介绍
指令调优是:在通过指令描述的一组数据集上微调语言模型,它显著提高了未见任务的
zeroshot 性能。将此类模型称为 FLAN(Finetuned Language Net),采用 137B
参数预训练语言模型,并在 60 多个通过自然语言指令模板的 NLP
数据集上对其进行指令调优。
模型效果,图 -1 展示了模型在不同类型任务上的效果对比:
方法
原理图
用 Tensorflow Datasets 上公开可用的 62
个文本数据集(包括语言理解和语言生成任务)聚合到一起,每个数据集被分类为十二个任务集之一。
对于每个数据集,我们手动编写了十个独特的模板,这些模板使用自然语言指令 ...
论文阅读_LLaMA
name_ch: LLaMA:开放高效的基础语言模型
name_en: LLaMA:Open and Efficient Foundation Language Models
paper_addr: https://arxiv.org/abs/2302.13971
code: https://github.com/facebookresearch/llama
date_publish: 2023-02-27
1 读后感
开源项目,以小取胜。使用更多 token
训练,更少的模型参数。其小模型可以运行在单 GPU 环境下,65B
大模型可与PaLM
模型效果竞争;主要技术包含:调整了模型结构,加速了训练和推理。
2 摘要
论文展示了仅使用公开可用的数据集来训练最先进的模型,而无需诉诸专有和不可访问的数据集。模型从
7B-65B 参数,使用 T 级别 token 训练。LLaMA-13B 模型效果超越了
GPT-3(175B) 模型。LLaMA-65B 模型可与当前最好模型竞争。
3 介绍
大模型在 Few Shot
上表现好,主要归功于大模型的参数量。本文至力于找到合适的数据量和参数量, ...
论文阅读_Chinchilla
name_ch: 训练计算优化的大型语言模型
name_en: Training Compute-Optimal Large Language Models
paper_addr: http://arxiv.org/abs/2203.15556
date_publish: 2022-03-29
读后感
针对训练数据量,模型参数量,以及数据训练量,通过实验,得出一些结论:更长的训练时间,更多
token,能提升模型效果;大模型的参数量和性能之间存在幂律分布;训练时
token 越多,模型效果越好,作者认为模型的大小与训练 token
量应等比增加。
换言之:不应该太过纠结于拟合当前的知识和存储量,更重要的是扩展知识面,另外应该多“思考”。
摘要
现在大模型严重训练不足。通过大量实验发现对于模型的每加倍 size
训练令牌的数量也应该加倍。Chinchilla
使用更少的计算来进行微调和推理,极大地促进了下游应用。
介绍
可以看到,相对当时其它模型,Chinchilla 使用了更多的 token
和更少的模型参数。
文中主要讨论了,在运算量固定的情况下,如何选择参数和 token
量的配 ...
flask多并发
多线程
flask 默认使用多进程处理请求,因此,是支持并发的。比如两个调用 a.html
和 b.html,
请求 a.html 未运行完成,在浏览访问 b.html 不会阻塞。
开两个不同浏览器,分别请求请求运行时间较长的 a.html
也不阻塞。只要不用一个浏览去调,它都是不阻塞的;如果开一个浏览器在不同
tab 页请求同一阻塞页面,则会阻塞,这是浏览器引起的。
WSGI 协议
WSGI 是 Web Server Gateway Interface 的缩写,它是 Python
应用程序或者框架(如 Flask)和 web 服务器之间的一种接口。flask 默认使用
werkzeug 库实现 WSGI 协议。
只要实现了 WSGI 协议的任何 web server 都可以作为 flask app
的服务器,比如 uWSGI,Gunicorn,mod_wsgi 都可以替换 Werkzeug 作为 web
server。
flask 自带的多进程
在 app.run() 时加入参数:threaded=False, processes=5, debug=False
时,可使用 5 ...
8_Obsidian_从豆瓣收集信息
功能
从豆瓣收集图书 _ 电影 _ 电视剧信息,插入 Obsidian 笔记。
原理
用 JS
抓取网站内容填入模板,插入笔记,通过插件之间的配合实现强大功能。
设置
安装 QuickAdd 插件
把 js 文件复制到 templates/script/目录下
把模板复制到 templates/目录下
在左下角设置界面调出 QuickAdd 的设置界面
|400
加 Micro
点 Manage Micros->起个名 ->Add Micro
加好 Macro 后点其对应的 Configure 设置
加 JS 脚本
在 User Scripts 中选刚才拷到 script 下的脚本,然后点其后的 Add
点 Template 按钮,加上一个模板后,设置其内容
在 Template Path 中设置刚才拷进的模板
勾选 File Name Format
在 File Name 中输入:{{VALUE:name}}
双击顶部的模板名,设置成自定义名称
点右上的叉退出,自动保存
连接显示名称和 Macro
进入最顶 ...
论文阅读_GLM
中文名称: GLM:使用自回归空白填充的通用语言模型预训练
英文名称: GLM:General Language Model Pretraining with Autoregressive
Blank Infilling
论文地址: https://aclanthology.org/2022.acl-long.26
出处: Proceedings of the 60th Annual Meeting of the Association for
Computational
Linguistics (Volume 1:Long Papers)
时间: 2022-01-01
读后感
通过在结构上的调整,结合了 GPT 和 BERT
类模型的优点,且模型规模和复杂度没有提升。将 NLU
任务转换成生成任务训练模型,使上下游任务训练方式保持一致。
摘要
没有一个预训练框架对自然语言理解
(NLU)、无条件生成和条件生成这三个主要类别的所有任务表现都好。文中提出了通用语言模型:General
Language Model (GLM),它基于自回归空白填充来解决这一挑战。
在 NLU 任务上的性能 ...
论文阅读_ChatGLM
name_ch: Glm-130B:开放双语预训练模型
name_en: GLM-130B:AN OPEN BILINGUAL PRE-TRAINED
paper_addr: https://arxiv.org/abs/2210.02414
code: https://github.com/THUDM/GLM-130B/
date_publish: 2023-01-01
1 读后感
2022 年 11 月,斯坦福大学大模型中心对全球 30
个主流大模型进行了全方位的评测 2,GLM-130B
是亚洲唯一入选的大模型。GLM-130B 在准确性和恶意性指标上与 GPT-3 175B
(davinci) 接近或持平。
ChatGLM
最大的优点是开源,并针对中文进行了优化,尤其是可以在自己的机器上搭建其简版的
int4 服务,实测回答一般性问题效果还不错,文后附环境搭建方法。
2 摘要
ChatGLM 是使用中英双语预训练的大语言模型,具有 130B 参数(1300
亿),使用 400B token 训练。
在模型结构上结合了 GPT 和 BERT。在英文方面,效果优于
GPT-3;在中文 ...
熵_相对熵_散度
1 信息量
意外越大,越不可能发生,概率就越小,信息量也就越大,也就是信息越多。比如说“今天肯定会天黑”,实现概率
100%,说了和没说差不多,信息量就是 0。
详见:2.
信息量
1.1 公式
\[
I(x)=-logP(x)
\]
概率 P(x) 越小,信息量越大,可以简单理解为最小编码长度,比如概率
0.125,log(1/0.125),如果以 2 为底做 log,则需要 3 位二进制数描述。
2 熵
熵用于描述不确定性,越不确定,熵越高。熵是事件所属的整个分布的不确定性总量量化。可以说:熵越小,越容易被预测。
2.1 公式
\[
H(\mathrm{x})=\mathbb{E}_{\mathbf{x} \sim
P}[I(x)]=-\mathbb{E}_{\mathbf{x} \sim P}[\log P(x)]=-\sum_{x} P(x) \log
P(x)
\]
这里乘了概率 P(x),等于计算了平均最小编码长度。
2.2 特性
接近均匀分布的概率分布具有较高的熵
接近确定性的分布 (输出几乎可以确定) 具有较低的熵
2.3 实例
1234567891011impor ...
论文阅读_PaLM
name_ch: PaLM:使用 Pathways 的扩展语言建模
name_en: PaLM:Scaling Language Modeling with Pathways
paper_addr: http://arxiv.org/abs/2204.02311
date_publish: 2022-10-05
读后感
论文主要介绍了 Google 的超大模型 PaLM,它在多数任务上都超过了
SOTA,其主因是使用模型使用了大量参数和数据训练,作者认为当模型大到一定程度后,其性能也能飞跃,而
PathWay 技术是其大规模训练的基础。
和其它模型相比,PaLM 更关注逻辑推理相关的任务,这也为后面的 PaLM-E
机器人行为规划奠定了基础。
动态路由层选择具体的路怎么走。
摘要
文中提出了 Pathways Language Model (PaLM),使用 6144 个 TPU v4
芯片训练,模型 540 B 参数,780 B 高质量 token,密集激活,Transformer
语言模型。在推理任务上表现很好,文中提出:扩展到巨大模型后,性能急剧提高(Pathways
是 Jef ...