【深度学习】GPT-2,Language Models are Unsupervised Multitask Learners,【语言建模】

论文:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

文章目录

      • 摘要
      • 引言
      • 方法
      • 2.1 训练数据集
      • 2.2 输入表示
      • 2.3 模型
      • 3. 实验
      • 3.1 语言建模
      • 3.2 Children’s Book Test
      • 3.3 LAMBADA
      • 3.4 Winograd Schema Challenge
      • 3.5 阅读理解
      • 3.6 摘要生成
      • 3.7 翻译
      • 3.8 问答
      • 4. 泛化与记忆
      • 5. 相关工作
      • 6. 讨论
      • 7. 结论
      • GPT-2 论文总结

摘要

自然语言处理任务,如问答、机器翻译、阅读理解和摘要生成,通常通过在特定任务的数据集上进行监督学习来实现。我们展示了当在一个包含数百万网页的新数据集WebText上进行训练时,语言模型在没有任何明确监督的情况下开始学习这些任务。以文档加问题作为条件,语言模型生成的答案在CoQA数据集上达到了55 F1分数——在没有使用超过127,000个训练样例的情况下,匹配或超过了四个基线系统中的三个系统的表现。语言模型的容量对零样本任务转移的成功至关重要,并且随着容量的增加,任务的表现以对数线性方式提高。我们最大的模型GPT-2是一个1.5B参数的Transformer,它在零样本设置下在测试的八个语言建模数据集中七个上达到了最新的结果,但仍未能完全拟合WebText。模型生成的样本反映了这些改进,并包含连贯的段落文本。这些发现表明了一条有前途的路径,即构建能够从自然发生的示范中学习执行任务的

你可能感兴趣的:(深度学习机器学习,深度学习,gpt,语言模型)