GPT论文阅读:Language Models are Unsupervised Multitask Learners

GPT系列第二篇论文:Language Models are Unsupervised Multitask Learners

第一篇阅读链接

abstract

GPT-2是一个参数量为1.5B的transformer,在zero-shot设定下,在8个测试语言建模数据集中,有7个取得了最先进的结果

最主要的贡献是在没有使用微调的情况下,在参数量更大的模型进行预训练,通过prompt和预测层在多个任务中达到SOTA

method

与GPT1 主要不同点在数据集的规模还有模型架构上面

数据集

从Reddit收集了所有的outbound links

生成的数据集WebText包含了这4500万个链接的文本子集,最后得到40GB 的文本数据

模型架构
  • 将层归一化移动到每个解码器的前端,并在最终的解码器后添加一个额外的层归一化。
  • 采用一种改进的初始化,把每一个残差链接层的参数按照残差层的个数进行了缩放,缩放比例是 11/√N,其中N是残差层的数量。
  • 词汇量扩大到50,257个。我们还将上下文大小从512增加到1024个tokens,并使用了更大的batch size 512。

experiment

GPT论文阅读:Language Models are Unsupervised Multitask Learners_第1张图片

最小的模型 (117M) 相当于原始的GPT,第二小的模型 (345M) 相当于BERT中的最大模型(。我们最大的模型 ( 1542M),我们称之为GPT-2

你可能感兴趣的:(GPT系列,gpt,论文阅读,语言模型)