DeepSeek Coder 的训练数据集是如何构建的?

DeepSeek Coder 的训练数据集构建过程涉及多个步骤和策略,其核心目标是确保高质量、多样性和针对性的数据,以支持模型在代码生成和任务完成中的卓越表现。以下是其主要构建方法和特点:

  1. 数据来源与过滤

    • 数据主要来源于 GitHub,包括代码、Markdown 格式的文件(如 GitHub 的 README 和 StackExchange)以及高质量的中文文章。
    • 数据收集后,通过基于规则的过滤、依赖关系解析和去重策略,去除语法错误、可读性差或模块化低的代码。
    • 使用 n-gram 方法过滤掉重复内容,例如,如果数据中包含与训练数据完全相同的字符串,则会被删除。
  2. 数据比例与组成

    • 训练数据集包含 87% 的代码13% 的自然语言文本,其中自然语言文本包括英文和中文内容。
    • 英文部分主要来源于 GitHub 的 Markdown 文件和 StackExchange,中文部分则包含高质量的文章,用于增强模型对中文的理解能力。
  3. 数据清洗与质量控制

    • 数据经过严格的质量筛选,确保高质量代码数据的完整性。例如,通过去除冗余代码和低质量代码来提升数据集的整体质量。
    • 去重策略基于仓库级别的依赖关系分析,确保数据的多样性和一致性。
  4. 数据规模与结构

    • 总数据量达到 2万亿个标记(tokens)

你可能感兴趣的:(人工智能,算法,大数据)