评估在代码上训练的大型语言模型 CodeX

摘要

我们介绍了 Codex,一个在来自 GitHub 的公开代码上微调的 GPT 语言模型,并研究了它的 Python 代码编写能力。 Codex 的一个不同的生产版本为 GitHub Copilot 提供支持。 在 HumanEval 上,这是一个我们发布的新评估集,用于衡量从文档字符串合成程序的功能正确性,我们的模型解决了 28.8% 的问题,而 GPT-3 解决了 0% 的问题,GPT-J 解决了 11.4% 的问题。 此外,我们发现,从模型中重复采样对于生成对困难提示的有效解决方案是一种非常有效的策略。 使用这种方法,我们通过每个问题 100 个样本解决了 70.2% 的问题。 对我们模型的仔细研究揭示了它的局限性,包括难以处理描述长操作链的文档字符串以及将操作绑定到变量。 最后,我们讨论了部署强大的代码生成技术的潜在更广泛的影响,涵盖安全、安全性以及经济学。

机器学习,IC

你可能感兴趣的:(AI编程之代码大模型研究,语言模型,人工智能,自然语言处理)