目录
一、R与Rstudio的下载与安装
二、R包安装与加载
1.R包安装
2.R包加载
三、常用R包
1.tidyverse
2.ggplot2
四、常用数据库
1.GEO
2.TGGA
介绍:
Home - RDocumentation
下载:
R:CRAN: Mirrors
Rstudio:Download RStudio - Posit
R、Rstudio安装:
根据指引安装,R和Rstudio比较占内存,建议安装在其他盘中,如 D 盘。
方法一:
#直接安装
http="https://mirrors.tuna.tsinghua.edu.cn/CRAN"
install.packages("ggplot2", repo=site) # 单个包安装
install.packages(c("ggplot2", "ggforce","ggsci")) # 多个包安装
方法二:通过biocManger安装
#通过biocManger安装
install.packages('BiocManager') # 安装BiocManager
library(BiocManager) # import 已经安装的BiocManager
BiocManager::install(c("GSEABase","GSVA","clusterProfiler" ),ask = F,update = F) # 利用BiocManager安装其他的包
方法三:安装源自Github(https://github.com/)的 R 包,先用install.packages()安装devtools包,然后用devtools包里的install_github函数进行安装
#安装从github上的包
install.packages('devtools') # 安装devtools包
library(devtools) # import devtools包
devtools::install_github("calligross/ggthemeassist") # 从github安装
#加载
library(dplyr)
library(tidyverse)
library(ggplot)
tidyverse由一系列相互关联 R 包组成,其中跟数据清洁最相关的 R 包是dplyr和tidyr。
(1)dplyr
提供一组动词来解决常见的数据清洁操作。①mutate()添加现有函数的新变量;②select()根据名称选择变量;③filter()根据变量的值选择案例;④summarise()将多个值减少为单个摘要;⑤arrange()更改行的顺序。
这些都可以用group_by()结合,允许“按组”执行任何操作。dplyr 旨在抽象数据的存储方式。这意味着除了使用本地数据框外,还可以使用完全相同的 R 代码处理远程数据库表。而在数据处理,尤其是数据框处理的过程中,dplyr是必学的R包之一。处理上述功能之外,dplyr包还支持管道操作(pipe operation,%>%)。
(2)tidyr
包则主要用于数据的separate和extract,常用于GEO数据的基因名转换,数据清洁使用。
在课题开展前,我们就可以从GEO检索获得感兴趣的数据集,下载数据,然后进行数据挖掘了。
pheatmap
是 R 中一个功能强大且高度可定制的热图绘制包,相比基础 R 的 heatmap()
函数,它提供了更美观的默认样式和更简单的参数控制。以下是详细介绍和使用指南:
自动聚类:支持行/列层次聚类(hierarchical clustering)
颜色映射:灵活调整颜色梯度
注释条:添加样本/基因分组信息
图形优化:自动调整字体大小、行列间距等
GEO(Gene Expression Omnibus)既包括基因表达数据,也包括基因组拷贝数变异、染色质结构、甲基化状态和转录因子结合等其他类别的高通量功能基因组数据。这些数据主要来自芯片、二代测序以及单细胞测序数据,也包括其他类型高通量检测得到的数据。这些数据大多数都可以下载、处理。GEO是目前测序数据和疾病种类最全的数据,是每个科研人必须掌握的数据资源!
GEO数据挖掘的整体思路:①基因筛选:首先通过 R 筛选差异基因,有时是多数据集,得到共同变化的基因集(韦恩图展示)筛选;②生信验证:再用其他数据集进行差异表达验证,展开互作分析、富集分析等机制探究;③实验验证:从临床标本、细胞实验和动物模型三个层次来完成。这种套路对肿瘤和非肿瘤都是通用的,适合生信数据挖掘入门!
GEO数据以四种形式存储。GPL是芯片平台,包含芯片探针信息,这个取决于测序公司或平台,比如Illumina、Affymetrix和Agilent Technologies等。
GSM是样本编号,GSE是研究编号。一个GSE是对应一次实验,包含多个GSM。
GDS是数据集编号,包含处理的数据。
GPL的探针信息,GSE的样本分组及表达信息,是我们数据清洁的核心
TCGA数据库包含11,000
个病人的33
种肿瘤的7
个不同层面的基因数据 (包括基因表达、CNV,SNP,DNA甲基化,miRNA,外显子组等)和临床数据,意在解析癌症发生的分子机制、肿瘤的亚型和治疗靶点等。
地址:Cytoscape: An Open Source Platform for Complex Network Analysis and Visualization
它核心功能包括①提供布局和查询网络;②将表达谱、表型和其他分子状态可视化整合;③将网络链接到功能注释数据库。还可通过简单的插件架构进行扩展,允许快速开发额外的计算分析和功能。
地址:STRING: functional protein association networks
STRING 是已知和预测的蛋白质-蛋白质相互作用的数据库。交互包括直接(物理)和间接(功能)关联;它们源于计算预测、生物体之间的知识传递以及从其他(主要)数据库聚合的交互。
WebGestalt:http://www.webgestalt.org/option.php
GeneMANIA:https://genemania.org/
NetworkAnalyst:https://www.networkanalyst.ca/
reactome:https://reactome.org/
富集分析是快速了解兴趣基因及其功能最重要的方法之一,主要有两种方式:①一种是基于筛选的差异基因,判断上调或下调基因在GO或KEGG通路的富集情况,即GO/KEGG分析。②另一种方式是不筛选差异,根据基因表达量或表型相关度排序,判断基因集是否倾向于落在参考基因集的顶部或底部,从而判断基因集对表型差异的影响,即GSEA富集分析。数据以差异分析得到的、含有基因名称和FoldChange为基础。
富集分析(Enrichment Analysis)根据分析的目标和方法,富集分析可以分为以下几种类型:
基因本体论富集分析(Gene Ontology Enrichment Analysis):这是最常用的富集分析类型,用于检验基因集合中基因本体论(GO)条目的富集情况。这可以帮助研究者了解基因集合中的基因在生物学过程、分子功能和细胞组成方面的共同特征。
通路富集分析(Pathway Enrichment Analysis):这种类型的富集分析主要关注基因在代谢途径和信号传导通路中的作用。通过检测基因集合中通路的富集情况,研究者可以了解这些基因在生物体内的功能和调控机制。通路数据库如KEGG(Kyoto Encyclopedia of Genes and Genomes)和Reactome是进行通路富集分析的常用资源。
基因集富集分析(Gene Set Enrichment Analysis,GSEA):GSEA是一种旨在检测一个基因集合(如差异表达基因)与某些生物学特征(如基因本体论、通路、疾病、表型等)之间的关联的方法。GSEA可以帮助研究者了解基因集合与生物学功能和过程之间的关联,从而揭示潜在的生物学意义。
蛋白质-蛋白质相互作用富集分析(Protein-Protein Interaction Enrichment Analysis):这种类型的富集分析关注蛋白质之间的相互作用,帮助研究者了解基因集合中蛋白质在细胞信号和代谢过程中的功能。
基因表达调控富集分析:这种类型的富集分析关注转录因子、miRNA等调控因子对基因表达的调控作用。通过这种富集分析,研究者可以了解基因表达的调控机制和相互关系。
在线工具富集分析的工具Metascape(富集分析神器Metascape)和DAVID(富集分析神器,DAVID更新啦!),也可以用代码来完成。
本文引用及参考资料:
R及RStudio下载安装教程(超详细)_rstudio安装教程-CSDN博客
day07基本环境配置,开启 R 的实操!
R 语言21天教程,致敬坚持的你!
生信学习之通路富集一(GO分析)_go富集分析-CSDN博客
不懂R,如何进行GEO数据库表达谱的差异分析、富集分析、蛋白互作、可视化?
Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Res. 2003 Nov;13(11):2498-504.https://blog.csdn.net/coffeeii/article/details/130355514