论文笔记--Language Models are Unsupervised Multitask Learners

论文笔记GPT-2--Language Models are Unsupervised Multitask Learners

  • 1. 文章简介
  • 2. 文章导读
    • 2.1 概括
    • 2.2 文章重点技术
      • 2.2.1 数据集WebText
      • 2.2.2 分词方法
  • 3. GPT-1 & GPT-2
  • 4. 文章亮点
  • 5. 原文传送门
  • 6. References

1. 文章简介

  • 标题:Language Models are Unsupervised Multitask Learners
  • 作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever
  • 日期:2019
  • 期刊:OpenAI blog

2. 文章导读

2.1 概括

  文章在GPT-1[1][2]的基础上进一步提升了模型的量级和分词方法,使得在完全没有fine-tune的情况下模型在多个下游任务表现良好。

2.2 文章重点技术

2.2.1 数据集WebText

   文章认为当数据集足够大的时候,模型的泛化能力可以得到增强,同时具备处理很多种下游任务的能力。为了获得较大的数据集,文章从网页抓取语料库。但使用网页语料库的一个问题就是网页数据质量参差不齐,为此文章首先从Reddit网站获取所有karma至少为3分的外部链接(karma分数类似于用户得分,得分越高表示质量越高),然后在这些链接指引的网页进行爬取得到文本数据库WebText
   WebText数据集包含45百万个链接网址,文章对这些网页进行了预处理:首先移除2017年12月之前的数据,然后做了网页驱虫,再进行一些启发式的清洗方法。最后得到的数据集大小为:8百万文档,共计40GB。

2.2.2 分词方法

你可能感兴趣的:(论文阅读,论文阅读,语言模型,transformer,chatgpt,自然语言处理)