Dolma是由Allen人工智能研究所(AI2)开发的一个开源项目,旨在为大规模语言模型的预训练提供高质量的数据集和强大的数据处理工具。Dolma包含两个主要组成部分:Dolma数据集和Dolma工具包。
Dolma数据集是一个包含3万亿个token的开放数据集,涵盖了多样化的内容来源,包括网页内容、学术出版物、代码、书籍和百科全书材料。这个庞大的数据集专门为训练AI2的OLMo语言模型而创建,但现在已经开放给整个AI社区使用。
Dolma数据集的主要特点包括:
研究人员和开发者可以通过访问huggingface.co/datasets/allenai/dolma来获取完整的Dolma数据集。AI2还提供了一份详细的