摘要:预训练最先进的大型语言模型(LLMs)需要大量干净且多样的文本数据。尽管近期在开放开发大型高质量英文预训练数据集方面取得了显著进展,但训练性能出色的多语言大型语言模型仍面临挑战,这很大程度上是因为难以针对大量语言定制过滤和去重流程。在本研究中,我们基于FineWeb引入了一种全新的预训练数据集整理流程,该流程可自动适配任意语言。我们通过一组涵盖九种不同语言的实验,对流程设计进行了广泛消融研究,这些实验依据一组通过基于可衡量标准的新型筛选流程选定的有意义且信息丰富的评估任务展开。最终,我们证明,利用该流程可创建非英文语料库,其训练出的模型性能优于先前数据集。此外,我们还提出了一种简单且合理的方法来重新平衡数据集,该方法同时考虑了重复数量和质量,从而进一步提升了模型性能。最后,我们利用近100个Common Crawl快照将流程扩展至1000多种语言,生成了FineWeb2——一个全新的20太字节(50亿份文档)多语言数据集,并一同公开了我们的流程、训练和评估代码库。Huggingface链接:Paper page,论文链接:2506.20920
研究背景:
随着自然语言处理(NLP)领域的快速发展,大型语言模型(LLMs)已成为推动该领域进步的核心技术。这些模型通过在大规模文本数据上进行预训练,学习到了丰富的语言知识和世界常识,从而在各种下游任务中表现出色。然而,预训练LLMs的性能高度依赖于预训练数据集的质量和规模。当前,尽管在英文等高资源语言上已经存在多个高质量的大型预训练数据集,但在多语言场景下,尤其是低资源语言,预训练数据集的构建仍然面临巨大挑战。
多语言预训练数据集的构建不仅需要处理海量数据,还需解决语言识别、数据清洗、去重和过滤等一系列复杂问题。特别是针对不同语言的特性定制过滤和去重流程,是一项既耗时又资源密集的任务。传统的多语言数据集构建方法往往采用“一刀切”的策略,即对所有语言应用相同的处理流程,这忽视了不同语言间的差异性,导致数据集质量参差不齐,进而影响预训练模型的性能。
研究目的:
本研究旨在解决多语言预训练数据集构建中的关键问题,提出一种能够自动适配任意语言的预训练数据集整理流程。具体目标包括:
1. 流程设计:
本研究基于FineWeb数据集构建流程,设计了一个全新的多语言预训练数据集整理流程。该流程包括语言识别(LID)、去重(Dedup)、过滤(Filtering)和基于去重信息的上采样(Rehydration)四个主要步骤。每个步骤都针对多语言场景进行了优化,确保能够自动适配不同语言的特性。
2. 实验设计:
为了验证流程的有效性和鲁棒性,本研究在九种具有代表性的语言上进行了广泛消融研究。这些语言涵盖了不同的语言家族、脚本和资源可用性,确保实验结果的普遍性和可靠性。实验过程中,通过比较不同处理步骤对模型性能的影响,优化流程设计。
3. 数据集重新平衡:
提出了一种基于重复计数和质量考虑的数据集重新平衡方法。该方法通过计算文档的重复次数和质量得分,对高质量文档进行上采样,同时保持数据集的多样性。
1. 流程有效性验证:
实验结果表明,本研究提出的多语言预训练数据集整理流程能够显著提升多语言LLMs的性能。在九种代表语言上的消融研究显示,经过该流程处理的数据集训练出的模型在各项评估任务上均表现出色,显著优于使用未处理数据集训练的模型。
2. 数据集质量提升:
通过定制过滤规则和去重策略,流程成功去除了大量低质量重复数据,提升了数据集的整体质量。同时,基于去重信息的上采样策略进一步增强了数据集的高质量内容,为模型训练提供了更好的数据支持。
3. 多语言适应性:
流程在不同语言上均表现出良好的适应性和鲁棒性。无论是高资源语言还是低资源语言,流程都能够根据其特性自动调整处理策略,生成高质量的数据集。这证明了流程在多语言场景下的广泛适用性。
4. FineWeb2数据集发布:
基于该流程,本研究成功构建了FineWeb2数据集,覆盖超过1000种语言,总规模达20太字节(50亿份文档)。FineWeb2数据集的发布为多语言NLP研究提供了宝贵的数据资源,促进了该领域的进一步发展。
尽管本研究在多语言预训练数据集构建方面取得了显著进展,但仍存在以下局限:
1. 语言覆盖有限:
尽管FineWeb2数据集覆盖了超过1000种语言,但地球上仍有超过7000种语言未被覆盖。未来研究需要进一步扩展语言覆盖范围,确保更多低资源语言能够受益于多语言预训练技术。
2. 评估任务有限:
本研究采用的评估任务主要针对早期信号任务设计,可能无法全面反映模型在所有下游任务上的性能。未来研究需要开发更多样化的评估任务,以更全面地评估多语言LLMs的性能。
3. 计算资源需求:
大规模多语言预训练需要巨大的计算资源支持。尽管本研究在流程设计上考虑了计算效率,但扩展至更多语言和更大规模的数据集仍需要更多的计算资源。未来研究需要探索更高效的训练方法和优化策略,以降低计算成本。
针对本研究的局限和现有挑战,未来研究可以从以下几个方面展开:
1. 扩展语言覆盖范围:
继续扩展FineWeb2数据集的语言覆盖范围,确保更多低资源语言能够被包含在内。同时,探索针对极低资源语言的数据增强和迁移学习技术,提升这些语言上的模型性能。
2. 开发多样化评估任务:
开发更多样化的评估任务,以更全面地评估多语言LLMs在各种下游任务上的性能。这包括但不限于机器翻译、问答系统、文本摘要等任务。
3. 探索高效训练方法:
探索更高效的训练方法和优化策略,以降低大规模多语言预训练的计算成本。这包括但不限于分布式训练、混合精度训练、模型压缩等技术。
4. 研究跨语言迁移学习:
研究跨语言迁移学习技术,利用高资源语言上的知识帮助提升低资源语言上的模型性能。这有助于解决低资源语言数据稀缺的问题,推动多语言NLP研究的均衡发展。
5. 推动实际应用:
将多语言预训练技术应用于实际场景中,如跨语言信息检索、多语言智能客服等。通过实际应用验证技术的有效性和实用性,推动多语言NLP技术的商业化进程。