论文阅读_ChatGLM
name_ch: Glm-130B:开放双语预训练模型
name_en: GLM-130B:AN OPEN BILINGUAL PRE-TRAINED
paper_addr: https://arxiv.org/abs/2210.02414
code: https://github.com/THUDM/GLM-130B/
date_publish: 2023-01-01
1 读后感
2022 年 11 月,斯坦福大学大模型中心对全球 30
个主流大模型进行了全方位的评测 2,GLM-130B
是亚洲唯一入选的大模型。GLM-130B 在准确性和恶意性指标上与 GPT-3 175B
(davinci) 接近或持平。
ChatGLM
最大的优点是开源,并针对中文进行了优化,尤其是可以在自己的机器上搭建其简版的
int4 服务,实测回答一般性问题效果还不错,文后附环境搭建方法。
2 摘要
ChatGLM 是使用中英双语预训练的大语言模型,具有 130B 参数(1300
亿),使用 400B token 训练。
在模型结构上结合了 GPT 和 BERT。在英文方面,效果优于
GPT-3;在中文 ...
熵_相对熵_散度
1 信息量
意外越大,越不可能发生,概率就越小,信息量也就越大,也就是信息越多。比如说“今天肯定会天黑”,实现概率
100%,说了和没说差不多,信息量就是 0。
详见:2.
信息量
1.1 公式
\[
I(x)=-logP(x)
\]
概率 P(x) 越小,信息量越大,可以简单理解为最小编码长度,比如概率
0.125,log(1/0.125),如果以 2 为底做 log,则需要 3 位二进制数描述。
2 熵
熵用于描述不确定性,越不确定,熵越高。熵是事件所属的整个分布的不确定性总量量化。可以说:熵越小,越容易被预测。
2.1 公式
\[
H(\mathrm{x})=\mathbb{E}_{\mathbf{x} \sim
P}[I(x)]=-\mathbb{E}_{\mathbf{x} \sim P}[\log P(x)]=-\sum_{x} P(x) \log
P(x)
\]
这里乘了概率 P(x),等于计算了平均最小编码长度。
2.2 特性
接近均匀分布的概率分布具有较高的熵
接近确定性的分布 (输出几乎可以确定) 具有较低的熵
2.3 实例
1234567891011impor ...
论文阅读_PaLM
name_ch: PaLM:使用 Pathways 的扩展语言建模
name_en: PaLM:Scaling Language Modeling with Pathways
paper_addr: http://arxiv.org/abs/2204.02311
date_publish: 2022-10-05
读后感
论文主要介绍了 Google 的超大模型 PaLM,它在多数任务上都超过了
SOTA,其主因是使用模型使用了大量参数和数据训练,作者认为当模型大到一定程度后,其性能也能飞跃,而
PathWay 技术是其大规模训练的基础。
和其它模型相比,PaLM 更关注逻辑推理相关的任务,这也为后面的 PaLM-E
机器人行为规划奠定了基础。
动态路由层选择具体的路怎么走。
摘要
文中提出了 Pathways Language Model (PaLM),使用 6144 个 TPU v4
芯片训练,模型 540 B 参数,780 B 高质量 token,密集激活,Transformer
语言模型。在推理任务上表现很好,文中提出:扩展到巨大模型后,性能急剧提高(Pathways
是 Jef ...
论文阅读_Self_instruct
12345name_ch: 自引导:用自我生成的指令调整语言模型name_en: Self-Instruct:Aligning Language Model with Self Generated Instructionspaper_addr: http://arxiv.org/abs/2212.10560code: https://github. com/yizhongw/self-instructdate_publish: 2022-12-20
读后感
文中提出了自引导框架,之前引导精调主要使用人工处理的数据,数据量和范围都有限,本文通过示范少量引导示例,让模型自己生成引导数据对模型进行优化。
摘要
用引导数据精调模型提升了模型适应新任务的能力,它依赖于人工的引导数据,在数量、多样性和创造力方面受到限制,因此阻碍了精调模型的通用性。文中提出了自引导框架,通过自引导来提高预训练语言模型的指令遵循能力。经过自引导可使基础模型的
GPT-3 提升 33%,与 InstructGPT001 差不多的效果。
介绍
2022
年以后的大模型一般都使用了预训练和引导使用人工标注引导的技术。PRO ...
ChatGPT_API
1 用法
1.1 申请 API KEY
openai平台,右上角
->Personal->API Key->Create secret key,然后将 key
加入代码。
ChatGPT3.5 收费的单位,是“$0.002 per 1k tokens”,每 1000 个 tokens
需要花费 0.002 美元。
1.2 代码
1.2.1 命令行
1234567curl https://api.openai.com/v1/chat/completions \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-3.5-turbo", "messages": [{"role": "user", "content": "Wh ...
论文阅读_Kosmos-1
12345name_ch: 语言并非你所需要的全部:让感知与语言模型保持一致name_en: Language Is Not All You Need:Aligning Perception with Language Modelspaper_addr: http://arxiv.org/abs/2302.14045code: https://github.com/microsoft/unilmdate_publish: 2023-03-01
读后感
文章主要研究视觉和文本领域的对齐,具体应用是看图回答问题。
文中做了大量工具,在评测部分可以看到它在多领域多个数据集上对模型进行了评测,很多领域做了尝试。文中也没太说具体是怎么做的,主要是提出概念,展示能力。
摘要
KOSMOS - 1
是一种多模态语言模型,能够感知通用模态、遵循指令、在语境中学习并产生输出。
The limits of my language means the limits of my world. Ludwig
Wittgenstein
作者还引用了一句话:我的语言的极限意味着我的世界的极限。
KOSMOS ...
论文阅读_Visual_ChatGPT
name_ch: Visual Chatgpt:使用可视化基础模型进行交谈、绘图和编辑
name_en: Visual ChatGPT:Talking, Drawing and Editing with Visual
Foundation Models
paper_addr: http://arxiv.org/abs/2303.04671
code: https://github.com/microsoft/visual-chatgpt
date_publish: 2023-03-08
读后感
在 ChatGPT
和图像构建方法间做了桥接,和其它模型相比,除了利用大语言模型中的知识,还利用了
ChatGPT 强化学习带来的能力,是一个结合已有技术的一个优雅示例。
本文将 CoT
的潜力扩展到大规模任务,包括但不限于文本生成高清图像、图像到图像的翻译、图像到文本的生成等。CoT
指的是 Chain-of-Thought
思想链,主要指模型的多步推理能力,以解决更为复杂的问题。
主要对聊天的场景进行优化,在提示上作文章。即:在 ChatGPT
外边包了一层,这也是当前最常见的用法。文章偏工 ...
论文阅读_PaLM-E
name_ch: Palm-E:具身多模态语言模型实现
name_en: PaLM-E:An Embodied Multimodal Language Model
paper_addr: http://arxiv.org/abs/2303.03378
date_publish: 2023-03-06
code: https://palm-e.github.io
1 读后感
Embodied
一般译作“具身”,是一种基于身体经验和感知的认知学科,旨在研究人类知觉、思想和行动的相互作用。
自然语言模型包含了大量关于世界的内化知识,但是不“落地”,本文通过多模态接入了视频,传感器,将大模型学到的知识应用于机器人领域,进一步解决世界中的交互问题。PaLM-E
直接产生动作的计划,从而让机器人以规划过程。
将字,图,传感器的结果等都 Embedding
映射到同一空间,在对模型结构改动小的情况下,同时使用了多模态数据。
文中还测试了将训练不同任务的训练数据放一起训练后三个模型效果都有提升,即举一返三的效果。
2 介绍
提出了多模态语言模型,将现实世界中连续的传感器数据接入语言模型,从而建立了词语 ...
7_1_强化学习_ChatGPT为什么使用强化学习
最近出现很多 ChatGPT
相关论文,但基本都是讨论其使用场景和伦理问题,至于其原理,ChatGPT 在其
主页上
介绍,它使用来自人类反馈的强化学习训练模型,方法与 InstructGPT
相同,只在数据收集上有细微的差别。
那么,InstructGPT 和 ChatGPT 为什么使用强化学习呢?先看个示例:
聊天示例|500
先不论答案是否正确,回答依赖之前的对话,且不仅是前一句。
强化学习用于解决具有马尔可夫性的问题,马尔可夫性是指每个状态仅依赖前一个状态,而这种链式的关系,又使历史信息被传递到了未来。
强化学习使用的场景是 马尔可夫决策过程,包含以下核心点:
随机过程:人机聊天你一句我一句
马尔可夫性:回答依赖问题
奖利:问题可能有多种答案,答案没有绝对的对错,但提问者会对某个答案更满意
行为:每一次决定如何回答都对后续对话走向产生影响
可以看到聊天的场景是一个马尔可夫决策过程。
进而产生了另一个问题:模型需要大量数据训练,如果用户问个问题,出三个答案,让用户选一个,收集以用于训练模型。这肯定是不够友好,软件在初期效果不佳时也不会有人去用。且有些用户的回答还可能误 ...
论文阅读_近端策略优化_PPO
12345name_ch: 近端策略优化算法name_en: Proximal Policy Optimization Algorithmspaper_addr: http://arxiv.org/abs/1707.06347date_publish: 2017-08-28
读后感
PPO
近端策略优化是一种强化学习算法,具体是对深度学习策略梯度方法的优化。
策略是强化学习中用于决定在每个时刻采取哪个动作的函数。近端约束用于限制策略的变化,以避免过于激进地改变策略。
文中介绍了两种方法:截断和 KL
散度,近端约束通常使用梯度截断来实现,即将梯度限制在一个特定范围内,让学习的步调不要太大。
介绍
一种改进版的强化学习策略梯度算法。它从与环境交互的数据中采样。不同于标准的策略梯度方法对每次采样执行一次梯度更新,文中提出了一个新的目标函数,可以实现多个
epoch 的 minibatch 数据更新,另外,它是 TRPO 的改进算法,相对 TRPO
更为简单,InstructGPT 的强化学习用的就是 PPO(ChatGPT 可能也是)。
方法
优化算法
文章介绍了三种方法,其差别主要在损失 ...