Language models are few-shot learners:语言模型是小样本学习者

摘要

近期的研究表明,通过在大规模文本语料上进行预训练,再针对特定任务进行微调,可以在许多自然语言处理任务和基准测试中取得显著提升。虽然这种方法在架构上通常与任务无关,但仍然需要包含成千上万个示例的任务特定微调数据集。相比之下,人类通常只需几个示例或简单的指令就能完成新的语言任务——而当前的自然语言处理系统在这方面仍显不足。在本文中,我们展示了将语言模型规模扩大可以极大提升其在任务无关的小样本学习设置中的表现,有时甚至可以与先前基于微调的最先进方法相媲美。具体而言,我们训练了 GPT-3,这是一种具有 1750 亿参数的自回归语言模型,其参数量是之前任何非稀疏语言模型的 10 倍,并测试其在小样本学习设置下的表现。在所有任务中,GPT-3 都是在不进行梯度更新或微调的情况下使用的,任务和小样本演示仅通过与模型的文本交互进行指定。GPT-3 在许多自然语言处理数据集上取得了强劲表现,包括翻译、问答和填空任务,同时在一些需要即时推理或领域迁移的任务中也表现优异,如词语重排、在句子中使用新词,或执行三位数的算术计算。同时,我们也发现 GPT-3 在一些数据集上的小样本学习表现仍存在困难,并在某些数据集中表现出与其在大规模网页语料上训练相关的方法学问题。最后,我们发现 GPT-3 能够生成新闻文章样本,使人类评估者难以将其与真人撰写的文章区分开来。我们讨论了这一发现以及 GPT-3 整体可能带来的更广泛社会影响。

你可能感兴趣的:(大模型专题系列,人工智能)