OLMO:Accelerating the Science of Language Models

本文是LLM系列文章,针对《Accelerating the Science of Language Models》的翻译。

加速语言模型科学

  • 摘要
  • 1 引言
  • 2 OLMO框架
  • 3 训练OLMO
  • 4 结果
  • 5 已发布的工作
  • 6 许可
  • 7 结论和未来工作

摘要

语言模型(LMs)已经在NLP研究和商业产品中无处不在。随着其商业重要性的激增,最强大的模型已经被封闭,被封闭在专有接口后面,其训练数据、架构和开发的重要细节尚未公开。鉴于这些细节在科学研究这些模型中的重要性,包括它们的偏见和潜在风险,我们认为研究界获得强大、真正开放的LMs至关重要。为此,本技术报告详细介绍了OLMo的首次发布,这是一个最先进的、真正开放的语言模型及其框架,用于构建和研究语言建模科学。与之前大多数只发布模型权重和推理代码的工作不同,我们发布了OLMo和整个框架,包括训练数据以及训练和评估代码。我们希望这次发布将增强开放研究社区的力量,激发新的创新浪潮。

1 引言

2 OLMO框架

3 训练OLMO

4 结果

5 已发布的工作

6 许可

7 结论和未来工作

本技术报告介绍了我们首次发布的OLMo,这是一个最先进的、真正开放的语言模型及其框架,用于构建和研究语言建模科学。与之前大多数只发布模型权重和推理代码的工作不同,我们发布了OLMo和整个框架,包括训练数据以及训练和评估代码。很快,我们还将发布训练日志、消融、发现和权重与偏差日志。我们也在探索OLMo与指令调整和不同风格的RLHF的适应。我们将发布经过调整的模型以及我们所有的模型调整代码和数据。
我们打算继续支持和扩展OLMo及其框架,并继续推动开放LMs的边界,以增强开放研究社区的能力。为此,我们期待着将不同的模型大小、模式、数据集、安全措施和评估纳入OLMo家族。我们希望这一版本和未来的版本将增强开放研究社区的力量,激发新的创新浪潮。

你可能感兴趣的:(LLM,语言模型,人工智能,自然语言处理)