论文阅读_PaLM

name_ch: PaLM：使用 Pathways 的扩展语言建模

name_en: PaLM：Scaling Language Modeling with Pathways

paper_addr: http://arxiv.org/abs/2204.02311

date_publish: 2022-10-05

读后感

论文主要介绍了 Google 的超大模型 PaLM，它在多数任务上都超过了 SOTA，其主因是使用模型使用了大量参数和数据训练，作者认为当模型大到一定程度后，其性能也能飞跃，而 PathWay 技术是其大规模训练的基础。

和其它模型相比，PaLM 更关注逻辑推理相关的任务，这也为后面的 PaLM-E 机器人行为规划奠定了基础。

动态路由层选择具体的路怎么走。

摘要

文中提出了 Pathways Language Model (PaLM)，使用 6144 个 TPU v4 芯片训练，模型 540 B 参数，780 B 高质量 token，密集激活，Transformer 语言模型。在推理任务上表现很好，文中提出：扩展到巨大模型后，性能急剧提高（Pathways 是 Jeff Dean 与 2021 年提出的一种谷歌通用 AI 架构，可高效利用硬件）。

1. 介绍

一般大模型的优势主要来自以下：

缩放模型的深度和宽度；
增加训练模型的 token 数量；
对来自更多不同来源的更干净的数据集进行训练；
通过稀疏激活模块在不增加计算成本的情况下增加模型容量。

本文的主要工作包括：

使用 Pathway 有效地训练大模型，高效利用硬件
随着更大的模型规范，模型效果不断改善
在理解、推理等困难任务上展示了突破性能力
模型从 62B 变成 540B 后，模型效果出现跨越式（非连续）地进步
测试了英文及其它语言（其它语言语料的<22%）
在偏见和毒性测试中发现大模型相对毒性更高，且毒性与提示文本设计有关

2. 模型结构

PaLM 与 GPT-3 模型一样，只使用 Decoder 结构。优化技术如下：

SwiGLU 激活函数

组合了 Swish 和 GeLU 两种激活函数。
平行层

将串行变为平行操作（由于 MLP 和注意力输入矩阵乘法可以融合），提速 15%，且实验证明不影响模型效果。

y = x + MLP(LayerNorm(x + Attention(LayerNorm(x))) $$

变为：

\[ y = x + MLP(LayerNorm(x)) + Attention(LayerNorm(x)) \]

多 Query 注意力

标准的多头注意力在自回归解码期间在加速器硬件上的效率很低，因为键/值张量在示例之间不共享。文中模型让 key/value 映射被每个头共享，而 Query 相互独立，该方法提升了解码器的自回归时间。
RoPE 嵌入

RoPE：rotary position embedding 旋转位置嵌入，是一种相对位置嵌入，它不同于绝对位置嵌入和一般的相对位置嵌入，它对长序列效果更好。
共享输入输出嵌入

输入和输出共享同一个嵌入矩阵，从而减少了模型的参数数量，提高了模型的效率。
无 Biases

网络层不使用 biases，可以增加大模型的训练稳定性。
词表

使用 SentencePiece（通过统计方法，将频繁出现的字符串作为词，然后形成词库进行切分），使切分的粒度会更大一些。使用 256K 的 token 表，词表以外的文本被切分成 utf-8 字符。