自然语言模型 GPT-3

论文:https://arxiv.org/abs/2005.14165

代码:https://github.com/openai/gpt-3

OpenAI 于 2020 年 6 月发表了 GPT-3 论文《Language Models are Few-Shot Learners》,模型包括 1750 亿参数,比之前最大模型又大了 10 倍,使用 45T 数据训练,31 位作者,论文长达 75 页,尝试了不同量级的 GPT-3 模型,在 20 多个 NLP 数据集上做了评价。其核心是不使用 Fine-tune 的 GPT-3 模型

目前前沿的自然语言模型一般是先用大规模无监督数据预测训练(pretrain)模型之后,然后使用带标注的领域数据微调模型 (fine-tune),费时费力,且有些领域难以实现标注;模型也可能被领域数据的分布带偏,从而损失了泛化能力;另外,微调后的模型只能解决特定问题,不像人类,可以在众多类似的问题之间切换,并使用综合技能解决复杂的问题。

Pretrain&fine-tune 方法一般用于有大量标注的数据(带标注数据一般含几千到几十万的数据量),对于仅有少量标注(few-shot 如 10-100 标注)或者单标注(one-shot,一个标注数据)、无标注(zero-shot)的数据效果都不好。

从下图中可以看到,当训练实例和参数规模增加后,模型对 Few-shot 问题学习效果有明显地提升,也就是说加入海量无标注数据学习后,模型举一反三的能力明显提高了。

GPT-3 训练出的模型不需要 fine-tune,但它主要针对的也是 few-shot, one-shot, zero-shot 问题,对于包含大量标注的数据,一般使用 fine-tune 效果更好。

可以看到,最大的模型,1750 亿参数,96 层,128 头的 attention,并在处理更大规模数据时提升了 batch_size,减少了学习率。除了海量的数据和参数,在多个数据集上测试以外,与 GPT-2 相比,GPT-3 并没有引入大量的先进技术。GPT-2 论文发布于 2019 年《Language models are unsupervised multitask learners》,其中包含更多技术细节。

论文很长,第一部分是介绍;第二部分是算法实现和评价方法;第三部分展示了训练效果;第四部分讨论了数据污染(训练和测试集重合问题);第五部分讨论了 GPT-3 的局限性;第六部分是模型的影响,包括伦理相关讨论;第七部分是近期自然语言模型回顾;第八部分为总结。尽管全文 70 多页,但核心内容主要集中在正文的前 8-10 页。