8_Obsidian_从豆瓣收集信息
功能
从豆瓣收集图书 _ 电影 _ 电视剧信息,插入 Obsidian 笔记。
原理
用 JS
抓取网站内容填入模板,插入笔记,通过插件之间的配合实现强大功能。
设置
安装 QuickAdd 插件
把 js 文件复制到 templates/script/目录下
把模板复制到 templates/目录下
在左下角设置界面调出 QuickAdd 的设置界面
|400
加 Micro
点 Manage Micros->起个名 ->Add Micro
加好 Macro 后点其对应的 Configure 设置
加 JS 脚本
在 User Scripts 中选刚才拷到 script 下的脚本,然后点其后的 Add
点 Template 按钮,加上一个模板后,设置其内容
在 Template Path 中设置刚才拷进的模板
勾选 File Name Format
在 File Name 中输入:{{VALUE:name}}
双击顶部的模板名,设置成自定义名称
点右上的叉退出,自动保存
连接显示名称和 Macro
进入最顶 ...
论文阅读_Chinchilla
name_ch: 训练计算优化的大型语言模型
name_en: Training Compute-Optimal Large Language Models
paper_addr: http://arxiv.org/abs/2203.15556
date_publish: 2022-03-29
读后感
针对训练数据量,模型参数量,以及数据训练量,通过实验,得出一些结论:更长的训练时间,更多
token,能提升模型效果;大模型的参数量和性能之间存在幂律分布;训练时
token 越多,模型效果越好,作者认为模型的大小与训练 token
量应等比增加。
换言之:不应该太过纠结于拟合当前的知识和存储量,更重要的是扩展知识面,另外应该多“思考”。
摘要
现在大模型严重训练不足。通过大量实验发现对于模型的每加倍 size
训练令牌的数量也应该加倍。Chinchilla
使用更少的计算来进行微调和推理,极大地促进了下游应用。
介绍
可以看到,相对当时其它模型,Chinchilla 使用了更多的 token
和更少的模型参数。
文中主要讨论了,在运算量固定的情况下,如何选择参数和 token
量的配 ...
论文阅读_LLaMA
name_ch: LLaMA:开放高效的基础语言模型
name_en: LLaMA:Open and Efficient Foundation Language Models
paper_addr: https://arxiv.org/abs/2302.13971
code: https://github.com/facebookresearch/llama
date_publish: 2023-02-27
1 读后感
开源项目,以小取胜。使用更多 token
训练,更少的模型参数。其小模型可以运行在单 GPU 环境下,65B
大模型可与PaLM
模型效果竞争;主要技术包含:调整了模型结构,加速了训练和推理。
2 摘要
论文展示了仅使用公开可用的数据集来训练最先进的模型,而无需诉诸专有和不可访问的数据集。模型从
7B-65B 参数,使用 T 级别 token 训练。LLaMA-13B 模型效果超越了
GPT-3(175B) 模型。LLaMA-65B 模型可与当前最好模型竞争。
3 介绍
大模型在 Few Shot
上表现好,主要归功于大模型的参数量。本文至力于找到合适的数据量和参数量, ...
论文阅读_GLM
中文名称: GLM:使用自回归空白填充的通用语言模型预训练
英文名称: GLM:General Language Model Pretraining with Autoregressive
Blank Infilling
论文地址: https://aclanthology.org/2022.acl-long.26
出处: Proceedings of the 60th Annual Meeting of the Association for
Computational
Linguistics (Volume 1:Long Papers)
时间: 2022-01-01
读后感
通过在结构上的调整,结合了 GPT 和 BERT
类模型的优点,且模型规模和复杂度没有提升。将 NLU
任务转换成生成任务训练模型,使上下游任务训练方式保持一致。
摘要
没有一个预训练框架对自然语言理解
(NLU)、无条件生成和条件生成这三个主要类别的所有任务表现都好。文中提出了通用语言模型:General
Language Model (GLM),它基于自回归空白填充来解决这一挑战。
在 NLU 任务上的性能 ...
论文阅读_ChatGLM
name_ch: Glm-130B:开放双语预训练模型
name_en: GLM-130B:AN OPEN BILINGUAL PRE-TRAINED
paper_addr: https://arxiv.org/abs/2210.02414
code: https://github.com/THUDM/GLM-130B/
date_publish: 2023-01-01
1 读后感
2022 年 11 月,斯坦福大学大模型中心对全球 30
个主流大模型进行了全方位的评测 2,GLM-130B
是亚洲唯一入选的大模型。GLM-130B 在准确性和恶意性指标上与 GPT-3 175B
(davinci) 接近或持平。
ChatGLM
最大的优点是开源,并针对中文进行了优化,尤其是可以在自己的机器上搭建其简版的
int4 服务,实测回答一般性问题效果还不错,文后附环境搭建方法。
2 摘要
ChatGLM 是使用中英双语预训练的大语言模型,具有 130B 参数(1300
亿),使用 400B token 训练。
在模型结构上结合了 GPT 和 BERT。在英文方面,效果优于
GPT-3;在中文 ...
熵_相对熵_散度
1 信息量
意外越大,越不可能发生,概率就越小,信息量也就越大,也就是信息越多。比如说“今天肯定会天黑”,实现概率
100%,说了和没说差不多,信息量就是 0。
详见:2.
信息量
1.1 公式
\[
I(x)=-logP(x)
\]
概率 P(x) 越小,信息量越大,可以简单理解为最小编码长度,比如概率
0.125,log(1/0.125),如果以 2 为底做 log,则需要 3 位二进制数描述。
2 熵
熵用于描述不确定性,越不确定,熵越高。熵是事件所属的整个分布的不确定性总量量化。可以说:熵越小,越容易被预测。
2.1 公式
\[
H(\mathrm{x})=\mathbb{E}_{\mathbf{x} \sim
P}[I(x)]=-\mathbb{E}_{\mathbf{x} \sim P}[\log P(x)]=-\sum_{x} P(x) \log
P(x)
\]
这里乘了概率 P(x),等于计算了平均最小编码长度。
2.2 特性
接近均匀分布的概率分布具有较高的熵
接近确定性的分布 (输出几乎可以确定) 具有较低的熵
2.3 实例
1234567891011impor ...
论文阅读_PaLM
name_ch: PaLM:使用 Pathways 的扩展语言建模
name_en: PaLM:Scaling Language Modeling with Pathways
paper_addr: http://arxiv.org/abs/2204.02311
date_publish: 2022-10-05
读后感
论文主要介绍了 Google 的超大模型 PaLM,它在多数任务上都超过了
SOTA,其主因是使用模型使用了大量参数和数据训练,作者认为当模型大到一定程度后,其性能也能飞跃,而
PathWay 技术是其大规模训练的基础。
和其它模型相比,PaLM 更关注逻辑推理相关的任务,这也为后面的 PaLM-E
机器人行为规划奠定了基础。
动态路由层选择具体的路怎么走。
摘要
文中提出了 Pathways Language Model (PaLM),使用 6144 个 TPU v4
芯片训练,模型 540 B 参数,780 B 高质量 token,密集激活,Transformer
语言模型。在推理任务上表现很好,文中提出:扩展到巨大模型后,性能急剧提高(Pathways
是 Jef ...
论文阅读_Self_instruct
12345name_ch: 自引导:用自我生成的指令调整语言模型name_en: Self-Instruct:Aligning Language Model with Self Generated Instructionspaper_addr: http://arxiv.org/abs/2212.10560code: https://github. com/yizhongw/self-instructdate_publish: 2022-12-20
读后感
文中提出了自引导框架,之前引导精调主要使用人工处理的数据,数据量和范围都有限,本文通过示范少量引导示例,让模型自己生成引导数据对模型进行优化。
摘要
用引导数据精调模型提升了模型适应新任务的能力,它依赖于人工的引导数据,在数量、多样性和创造力方面受到限制,因此阻碍了精调模型的通用性。文中提出了自引导框架,通过自引导来提高预训练语言模型的指令遵循能力。经过自引导可使基础模型的
GPT-3 提升 33%,与 InstructGPT001 差不多的效果。
介绍
2022
年以后的大模型一般都使用了预训练和引导使用人工标注引导的技术。PRO ...
ChatGPT_API
1 用法
1.1 申请 API KEY
openai平台,右上角
->Personal->API Key->Create secret key,然后将 key
加入代码。
ChatGPT3.5 收费的单位,是“$0.002 per 1k tokens”,每 1000 个 tokens
需要花费 0.002 美元。
1.2 代码
1.2.1 命令行
1234567curl https://api.openai.com/v1/chat/completions \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-3.5-turbo", "messages": [{"role": "user", "content": "Wh ...
论文阅读_PaLM-E
name_ch: Palm-E:具身多模态语言模型实现
name_en: PaLM-E:An Embodied Multimodal Language Model
paper_addr: http://arxiv.org/abs/2303.03378
date_publish: 2023-03-06
code: https://palm-e.github.io
1 读后感
Embodied
一般译作“具身”,是一种基于身体经验和感知的认知学科,旨在研究人类知觉、思想和行动的相互作用。
自然语言模型包含了大量关于世界的内化知识,但是不“落地”,本文通过多模态接入了视频,传感器,将大模型学到的知识应用于机器人领域,进一步解决世界中的交互问题。PaLM-E
直接产生动作的计划,从而让机器人以规划过程。
将字,图,传感器的结果等都 Embedding
映射到同一空间,在对模型结构改动小的情况下,同时使用了多模态数据。
文中还测试了将训练不同任务的训练数据放一起训练后三个模型效果都有提升,即举一返三的效果。
2 介绍
提出了多模态语言模型,将现实世界中连续的传感器数据接入语言模型,从而建立了词语 ...