智源:LLM中文高质量互联网语料库

智源:LLM中文高质量互联网语料库_第1张图片

标题:CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models
来源:arXiv, 2410.18505

摘要

我们介绍CCI3.0-HQ,这是中国企业互联网3.0(CCI3.0)的高质量500GB子集,使用一种新型的两级混合过滤管道开发,可显著提高数据质量。
为了评估其有效性,我们在不同数据集的100B代币上从头开始训练了一个0.5B参数模型,与CCI3.0、SkyPile和WanjuanV1相比,在零样本设置下,在10个基准上实现了优异的性能。高质量的过滤过程有效地将Qwen2-72B指令模型的能力提取到一个紧凑的0.5B模型中,为中国网络数据分类获得了最佳的F1分数。我们相信,这个开放获取的数据集将有助于更广泛地获取高质量的语言模型。

️文章简介

研究问题:现有的中文开源数据集在规模和质量上存在不足,限制了高性能中文语言模型的发展。
主要贡献:论文提出了CCI3.0-HQ,一个大规模高质量的中文预训练数据集,通过两阶段的混合过滤策略显著提升了数据质量。



你可能感兴趣的:(大模型-模型训练,人工智能,自然语言处理,语言模型,论文笔记)