生信初学者教程(九):数据预处理

生信初学者教程(九):数据预处理_第1张图片

文章目录

    • LIRI-JP
      • LIRI-JP临床表型
        • 加载R包
        • 导入数据
        • 清洗临床数据
        • 清洗实验处理数据
        • 清洗样品信息数据
        • 输出结果
      • LIRI-JP转录组
        • 加载R包
        • 导入数据
        • 数据清洗
        • 过滤基因
        • 输出结果
    • TCGA-LIHC
      • TCGA-LIHC临床表型
        • 加载R包
        • 导入数据
        • 数据清洗
        • 输出结果
      • TCGA-LIHC转录组
        • 加载R包
        • 导入数据
        • 数据清洗
        • 过滤基因
        • 表达值转换成count abundance
        • 输出结
    • GSE14520
      • GSE14520临床表型
        • 加载R包
        • 导入数据
        • 数据清洗
        • 输出结果
      • GSE14520转录组
        • 加载R包
        • 导入数据
        • 数据清洗
        • 过滤基因
        • 输出结果
    • 总结

LIRI-JPLIHC-US/TCGA-LIHC数据集构成发现数据集,GSE14520作为验证数据集。

在对上述数据集进行数据预处理时,主要进行了两个关键步骤的清洗工作:

  • 临床表型数据清洗:对临床表型数据进行了全面的检查和清理。首先,检查了数据的完整性,确保没有缺失值或异常值对后续分析造成影响。其次,核对了数据的准确性。最后,对临床表型数据进行了必要的标准化处理,以确保不同数据集之间的数据可以相互比较和整合。

  • 表达谱数据清洗:在表达谱数据的清洗过程中,同样注重数据的完整性和准确性。首先,检查了基因表达数据是否存在缺失值或异常值。其次,对表达谱数据进行了质量控制分析。

版权归生信学习者所有,禁止商业和盗版使用,侵权必究

LIRI-JP

从ICGC Data Portal

你可能感兴趣的:(生信论文手把手保姆教程,r语言,数据可视化,数据分析,机器学习)