陈琪同学

基础生信分析的一下代码

###### 工作路径 ######

#获得路径
getwd()
#设置路径
setwd()
#删除环境变量
rm(list = ls())
## 保存使用save, 可以同时保存多个数据
save(cancergene,b,file = "twoinone.Rdata")
## 加载已有数据使用load
load(file = "twoinone.Rdata")
## 介绍apply()
rm(list = ls())
## apply 处理的是矩阵或者数据框的行或者列
## apply(X, MARGIN, FUN, …) 
## 其中X为一个数组；MARGIN为一个向量（表示要将函数FUN应用到X的行还是列），
## 若为1表示取行，为2表示取列，为c(1,2)表示行、列都计算。
#管道操作符
#%>%  是管道操作符在R语言中由magrittr包提供的,
#%>%的工作原理是将左侧的表达式的结果作为右侧表达式的第一个参数


###### 读取数据 ######
## 最常用的是read.table,速度最快最智能的是fread
fcsv1 = read.table(file = "data/B cell receptor signaling pathway.csv",sep = ",",header = T,stringsAsFactors = F,check.names = F)
fcsv2 = read.csv(file = "data/B cell receptor signaling pathway.csv",check.names = F)
fcsv3 = data.table::fread(file = "data/B cell receptor signaling pathway.csv")
class(fcsv3)
fcsv4 = data.table::fread(file = "data/B cell receptor signaling pathway.csv",data.table = F)
class(fcsv4)
fcsv5 <- as.data.frame(fcsv3)
class(fcsv5)

## 读取txt
platformMap1 <- read.table("data/platformMap.txt",sep = "\t",header = T,stringsAsFactors = F)
platformMap2 <- data.table::fread("data/platformMap.txt",data.table = F)

## 读取GEO数据
exprSet1 <- read.table("data/GSE42872_series_matrix.txt",sep = "\t",comment.char="!",stringsAsFactors=F,header=T)
exprSet2 <- data.table::fread("data/GSE42872_series_matrix.txt",skip = 59,data.table = F)

## 读取TCGA甲基化文件
expr_df <- data.table::fread("data/jhu-usc.edu_BRCA.HumanMethylation450.9.lvl-3.TCGA-BH-A1EV-11A-24D-A138-05.gdc_hg38.txt"
                             ,data.table = F)
## 读取TCGA数据RNAseq data counts 文件
RNAsEQ1 <- read.table("data/0e30bd18-8e8b-4c52-aace-b5587c6df51a.htseq.counts",header = F,stringsAsFactors = F,sep = "\t")
RNAsEQ2 <- data.table::fread("data/0e30bd18-8e8b-4c52-aace-b5587c6df51a.htseq.counts",data.table = F)

## 读取GEO平台注释信息soft文件
GPL6244_anno <-data.table::fread("data/GSE42872_family.soft",skip = "ID",data.table = F)

## GEO soft文件的通用读入(推荐使用,原理我们进阶后讲解)
library(GEOquery)
dd <- GEOquery:::parseGPL("data/GSE42872_family.soft")
data <- dd@dataTable@table

## 读取json文件
metadata <- jsonlite::fromJSON("data/metadata.cart.2018-10-04.json")

### 读取xml文件
library("XML")
result <- xmlParse(file = "data/nationwidechildrens.org_clinical.TCGA-3A-A9IS.xml")
rootnode <- xmlRoot(result)  
xmldataframe <- xmlToDataFrame(rootnode[2])





###### 导出图片以及编辑 ######
## 加载R包
library(export)
## 导成PPT可编辑的格式
graph2ppt(file="dotplot2.pptx")

## 导成AI可以编辑的状态
graph2eps(file="dotplot2.eps")
graph2pdf(file="dotplot2.pdf")
graph2png(file="dotplot2.png")
graph2tif(file="dotplot2.tif")

###### 数据初步处理(TCGA) ######
rm(list = ls())

## 数据调整实战！！：获取清洁数据，表达量绘图,相关性分析
## 最终我们会获得任何一个gene在特定癌症中的表达情况并作图
## 包含的核心步骤
## 1. 获取表达量数据
## 2. 行列转换
## 3. 添加分组信息

### 1.准备自己的数据

### 加载数据，假设我们手上已经获取了这部分数据，他们来自于明天的课程
### 是deseq2 经过vst标准化后的数据
load(file = "data/BRCA_exprSet_vst.Rdata")

### 为了代码复用，把名称改为expr_df
expr_df <- exprSet_vst
### 选取一部分数据
test <- expr_df[1:10,1:10]

### 行名变成第一列，cbind十分好用
expr_df <- cbind(gene_id= rownames(expr_df),expr_df)

#看一下右侧的环境变量区域
#我们有查看大数据的法宝
class(expr_df) #类型
dim(expr_df) #维度
str(expr_df) #结构

#如果不够直观，我们还有一个大法宝，截取部分数据查看
test <- expr_df[1:10,1:10]

### 2.基因名称转换
### 加载数据，至少两列
load(file = "data/gtfdata.Rdata")

write.csv(gtfdata,file = "gtfdata.csv",row.names = F,quote = F)

library(dplyr)
exprSet <- gtfdata %>% 
  ## 和表达量的数据交叉合并，等同于merge
  dplyr::inner_join(expr_df,by ="gene_id") %>% 
  ## 去掉多余列
  dplyr::select(-gene_id) %>% 
  ## 以下是为了删除重复的行(有些基因名称相同)
  ## 增加一列
  mutate(rowMean = rowMeans(.[,-1])) %>% 
  ## rowMena 前置
  dplyr::select(rowMean,everything()) %>% 
  ## 排序
  arrange(desc(rowMean)) %>% 
  ## 去重
  distinct(gene_name,.keep_all = T) %>% 
  ## 删除多余列
  dplyr::select(-rowMean) 

test <- exprSet[1:10,1:10]
### 3.准备分类信息
#制作metadata，不要管这个单词，这一步就是区别肿瘤和正常组
#要对TCGA的id有一点了解，其中第14和15位的数字很重要
#其中01-09是tumor，也就是癌症样本；其中10-29是normal，也就是癌旁

TCGA_id <- colnames(exprSet)[-1]
## 使用table来统计频次么
table(substring(TCGA_id,14,15))

## 分类信息
## 讲解ifelse
sample <- ifelse(substring(TCGA_id,14,15)=="01","Tumor","Normal")
sample <- factor(sample,levels = c("Normal","Tumor"))
metadata <- data.frame(TCGA_id,sample) 

table(metadata$sample)

### 4.(可选)额外的分组信息：比如亚型信息，突变，免疫浸润
## 除了按照正常和肿瘤分组，我们还可以用Pam50亚型分类器来给肿瘤分亚型，我已经分好了，读取数据
## 这个pam50只有乳腺癌有，其他肿瘤，自己添加本领域的分组
pam50score <- read.table("data/TCGA_BRCA_PAM50__pam50scores.txt",header = T)
class(pam50score)
#选取第1列和第7列,因为第7列是分类的结果
subgroup <- pam50score[,c(1,7)]
## 修改列名
colnames(subgroup) <- c("TCGA_id","subgroup")
table(subgroup$subgroup)

### 5.数据转置
### 要实现最终效果，我们需要把他转置，即行列互换
### 转置秘诀，矩阵
### 这个是常用操作，第一列变成行名，需要熟练使用
### 还有个逆向操作，行名变成第一列
test <- exprSet[1:10,1:10]

### 设置行名：
rownames(exprSet) <- exprSet[,1]
## 删除第一列
exprSet <- exprSet[,-1]
#看一下现在数据结构
test <- exprSet[1:10,1:10]

## 行列转置(一定要把数据变成类似矩阵矩阵的结构)
exprSet <-t(exprSet)
exprSet <-as.data.frame(exprSet)
#看一下现在数据结构
test <- exprSet[1:10,1:10]
### 6.添加分类信息
### 加入肿瘤和对照的信息，在metadata里面
### 准备merge 的列
exprSet <- cbind(TCGA_id=rownames(exprSet),exprSet)
test <- exprSet[1:10,1:10]
### 1.加入分组信息
exprSet <- merge(metadata,exprSet,by="TCGA_id")
test <- exprSet[1:10,1:10]
table(exprSet$sample)
### 2.加入亚组信息
exprSet <- merge(subgroup,exprSet,by="TCGA_id")
test <- exprSet[1:10,1:10]
table(exprSet$subgroup)
### 保存数据
### save(exprSet,file = "data/TCGA_BRCA_exprSet_plot.Rdata")

###### 基因间的相关性 ######
### 相关性分析单次操作
gene1 = as.numeric(exprSet[,"FOXA1"])
gene2 = as.numeric(exprSet[,"ESR1"])
dd = cor.test(gene1,gene2,method="spearman")
### 提取p值和相关性系数
dd$p.value
dd$estimate

### 能单次操作就能批量操作
##1.设定容器
correlation <- data.frame()
##2.准备数据
test <- exprSet[1:10,1:10]
data <- exprSet[,-c(1,2,3)]
test <- data[1:10,1:10]
##3.获取基因列表
genelist <- colnames(data)
##4.指定基因
gene <- "ESR1"
genedata <- as.numeric(data[,gene])
##5.开始for循环
for(i in 1:length(genelist)){
  ## 1.指示
  print(i)
  ## 2.计算
  dd = cor.test(genedata,as.numeric(data[,i]),method="spearman")
  ## 3.填充
  correlation[i,1] = gene
  correlation[i,2] = genelist[i]
  correlation[i,3] = dd$estimate
  correlation[i,4] = dd$p.value
}

colnames(correlation) <- c("gene1","gene2","cor","p.value")
## 6.p值矫正
correlation$padjust = p.adjust(correlation$p.value,method = "BH")


###### GEO数据分析 ######

#先解压GSE42872_series_matrix.txt.gz，注意解压到当前目录，再读入
#comment.char="!" 意思是！后面的内容不要读取，可以打开文件看一下?read.table

exprSet <- read.table("data/GSE42872_series_matrix.txt",
                      comment.char="!",
                      stringsAsFactors=F,
                      header=T)

### 高频操作来了：第一列变成行名
### 分两步操作
rownames(exprSet) <- exprSet[,1]
exprSet <- exprSet[,-1]

### 数据预处理，探针ID转换，探针去重
ex <- exprSet
qx <- as.numeric(quantile(ex, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))
LogC <- (qx[5] > 100) ||
  (qx[6]-qx[1] > 50 && qx[2] > 0) ||
  (qx[2] > 0 && qx[2] < 1 && qx[4] > 1 && qx[4] < 2)

## 开始判断
if (LogC) { 
  ex[which(ex <= 0)] <- NaN
  ## 取log2
  exprSet <- log2(ex)
  print("log2 transform finished")
}else{
  print("log2 transform not needed")
}

library(limma) 
boxplot(exprSet,outline=FALSE, notch=T, las=2)
### 该函数默认使用quntile 矫正差异 
exprSet=normalizeBetweenArrays(exprSet)
boxplot(exprSet,outline=FALSE, notch=T, las=2)
## 这步把矩阵转换为数据框很重要
exprSet <- as.data.frame(exprSet)


## 探针基因名转换
##platformMap 中有常见的平台个R注释包的对应关系，这是我整理的。
## 读取，这都是我们已经讲过的
platformMap <- data.table::fread("resource/platformMap.txt",data.table = F)

## 平台的名称如何知道?
index <- "GPL6244"
## 数据储存在bioc_package这一列中
paste0(platformMap$bioc_package[grep(index,platformMap$gpl)],".db")

## 安装R包,可以直接安装，这里用了判断
if(!requireNamespace("hugene10sttranscriptcluster.db")){
  options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
  BiocManager::install("hugene10sttranscriptcluster.db",update = F,ask = F)
} 

## 加载R包
library(hugene10sttranscriptcluster.db)
## 获取探针和基因的对应关系：这是探针注释的关键步骤
probe2symbol_df <- toTable(get("hugene10sttranscriptclusterSYMBOL"))
## 探针有多少个？
length(unique(probe2symbol_df$probe_id))
## 这么多行中，基因名称有重复的么？
length(unique(probe2symbol_df$symbol))

### 探针转换以及去重，获得最终的表达矩阵
### 拆分体会,要学会分步探索排查，#号的使用
library(dplyr)
library(tibble)
exprSet <- exprSet %>% 
  ## 行名转列名,因为只有变成数据框的列,才可以用inner_join
  rownames_to_column("probe_id") %>% 
  ## 合并探针的信息
  inner_join(probe2symbol_df,by="probe_id") %>% 
  ## 去掉多余信息
  select(-probe_id) %>%  
  ## 重新排列
  select(symbol,everything()) %>%  
  ## rowMeans求出行的平均数(这边的.代表上面传入的数据)
  ## .[,-1]表示去掉出入数据的第一列，然后求行的平均值
  mutate(rowMean =rowMeans(.[,-1])) %>% 
  ## 把表达量的平均值按从大到小排序
  arrange(desc(rowMean)) %>% 
  ## 去重，symbol留下第一个
  distinct(symbol,.keep_all = T) %>% 
  ## 反向选择去除rowMean这一列
  select(-rowMean) %>% 
  ## 列名转行名
  column_to_rownames("symbol")

### 保存数据
save(exprSet,file = "output/exprSet_rmdup.Rdata")


###### GEO数据差异分析 ######
### 使用limma来做芯片的差异分析###

#加载limma包，用于校正和比较差异
rm(list = ls())
library(limma)
### 加载数据，注意解决报错
load(file = "output/exprSet_rmdup.Rdata")

### 1.创建分组
### 这一步根据样本来就行，原则就是: 跟样本匹配，取决于样本的排序
group <- c(rep("con",3),rep("treat",3)) 
#group <- c("con","con","treat","con","treat","treat") 
### 分组变成向量，并且限定leves的顺序
### levels里面，把对照组放在前面
group <- factor(group,levels = c("con","treat"))

### 主成分分析PCA：提前预测结果
### 行是样本列是基因

res.pca <- prcomp(t(exprSet), scale = TRUE)
library(factoextra)
fviz_pca_ind(res.pca,col.ind = group)

### 构建比较矩阵
design <- model.matrix(~group)
### 比较矩阵命名
colnames(design) <- levels(group)
design

### 2.线性模型拟合
fit <- lmFit(exprSet,design)
### 3.贝叶斯检验
fit2 <- eBayes(fit)
### 4.输出差异分析结果,其中coef的数目不能操过design的列数
### 此处的2代表的是design中第二列和第一列的比较
allDiff=topTable(fit2,adjust='fdr',coef=2,number=Inf) 
### 这个数据很重要需要保存一下
save(allDiff,file = "output/allDiff.Rdata")

### 定义差异基因：差异倍数2倍，矫正后的p值小于0.05

library(dplyr)
diffgene <- allDiff %>% 
  filter(adj.P.Val < 0.05) %>% 
  filter(abs(logFC) >1)

### 如果出现行名丢失的情况，需要先把行名变成列，处理完毕后再把列变成行名
### 这个工作是由tibble这个包里面的rownames_to_column()和column_to_rownames()完成的
library(tibble)
diffgene <- allDiff %>% 
  rownames_to_column() %>% 
  filter(adj.P.Val < 0.05) %>% 
  filter(abs(logFC) >1) %>% 
  column_to_rownames()

### 可选方案:使用subset直接获取,&是and的意思
diffgene <- subset(allDiff,abs(logFC) >1 & adj.P.Val < 0.05)
test <- allDiff[allDiff$adj.P.Val < 0.05 & abs(allDiff$logFC)>1,]
### 该数据也需要保存，此处一次性保存两个数据，如果是多个，一次写入变量名称即可。
save(diffgene,group,file = "output/diffgene.Rdata")
### 到此差异基因的分析就结束了

## 作图环节
## 1.把现在数据调整成可以作图的格式
### 这个技能是data wrangling部分重点掌握的技能
### 复习一下流程：输入数据是表达量，经过三步
### 1.探针ID转换，2.行列转置，3，添加分组信息。最终获得的是数据框

### 行列转置
exprSet <- as.data.frame(t(exprSet))
### 添加分组信息
dd <- cbind(group=group,exprSet)
### 截取部分展示,这就是清洁数据
test = dd[,1:10]

## 2.作图展示
library(ggplot2)
ggplot(data = dd,aes(x=group,y=CD36,fill=group))+
  geom_boxplot()+
  geom_point()+
  theme_bw()

## 3.steal plot
my_comparisons <- list(
  c("treat", "con")
)
library(ggpubr)
ggboxplot(
  dd, x = "group", y = "CD36",
  color = "group", palette = c("#00AFBB", "#E7B800"),
  add = "jitter"
)+
  stat_compare_means(comparisons = my_comparisons, method = "t.test")

## 改写成函数
diffplot <- function(gene){
  my_comparisons <- list(
    c("treat", "con")
  )
  library(ggpubr)
  ggboxplot(
    dd, x = "group", y = gene,
    color = "group", palette = c("#00AFBB", "#E7B800"),
    add = "jitter"
  )+
    stat_compare_means(comparisons = my_comparisons, method = "t.test")
}

diffplot("CD36")
diffplot("MOXD1")

## 4.多个基因作图查看
## 先把基因提取出来
genelist <- rownames(diffgene)[1:6]
## 再提取表达量，使用名称选取行
data <- dd[,c("group",genelist)]
## 用pivot_longer调整数据，数据变长，增加的是行
library(tidyr)
data <- data %>% 
  pivot_longer(cols=-1,
               names_to= "gene",
               values_to = "expression")
## 多基因作图
## 作图
ggplot(data = data,aes(x=gene,y=expression,fill=group))+
  geom_boxplot()+
  geom_jitter()+
  theme_bw()+
  stat_compare_means(aes(group=group), label = "p.signif", method = "t.test")

## 尝试更清晰的展示
ggplot(data = data,aes(x=group,y=expression,fill=group))+
  geom_boxplot()+
  geom_jitter()+
  theme_bw()+
  facet_grid(.~gene)+
  stat_compare_means(comparisons = my_comparisons, label = "p.signif", method = "t.test")

## 图片导出
library(export)
## 导成PPT可编辑的格式
graph2ppt(file="output/diffgenboxplot.pptx")
## 其他自己想要的格式
graph2pdf(file="output/diffgenboxplot.pdf")
graph2tif(file="output/diffgenboxplot.tif")
## 导成AI可以编辑的状态
graph2eps(file="output/diffgenboxplot.eps")


####差异分析后第一步就是制作heatmap热图
### 热图就是表达量数据，行是差异基因，列是样本
### 想一想该如何提取

### 用行名提取数据
rm(list = ls())
## 1.加载表达数据
load(file = "output/exprSet_rmdup.Rdata")
## 2.加载差异列表
load(file = "output/allDiff.Rdata")
library(dplyr)
library(tibble)
diffgene <- allDiff %>% 
  rownames_to_column() %>% 
  filter(adj.P.Val < 0.05) %>% 
  filter(abs(logFC) >1) %>% 
  column_to_rownames()

## 3.用名称提取部分数据用作热图绘制
heatdata <- exprSet[rownames(diffgene),]
## 4.制作一个分组信息用于注释
group <- c(rep("con",3),rep("treat",3)) 
annotation_col <- data.frame(group)
rownames(annotation_col) <- colnames(heatdata)

## 加载热图的R包
library(pheatmap)
## 颜色包 viridisLite
library(viridisLite)
## 直接作图
pheatmap(heatdata)

### 经过修饰的图
pheatmap(heatdata, #热图的数据
         cluster_rows = TRUE,#行聚类
         cluster_cols = TRUE,#列聚类，可以看出样本之间的区分度
         annotation_col =annotation_col, #标注样本分类
         annotation_legend=TRUE, # 显示注释
         show_rownames = F,# 显示行名
         scale = "row", #以行来标准化，这个功能很不错
         color = viridis(10, alpha = 1, begin = 0.5, end = 1, direction = 1),#调色
         cellwidth = 40, # 格子宽度
         cellheight = 0.2,# 格子高度
         fontsize = 10 # 字体大小
)


### 可以重新筛选，阈值设大一点
diffgene <- allDiff %>% 
  rownames_to_column() %>% 
  filter(adj.P.Val < 0.05) %>% 
  filter(abs(logFC) >3) %>% 
  column_to_rownames()

## 用名称提取部分数据用作热图绘制
heatdata <- exprSet[rownames(diffgene),]
## 制作一个分组信息用于注释
group <- c(rep("con",3),rep("treat",3)) 

annotation_col <- data.frame(group)
rownames(annotation_col) <- colnames(heatdata)

#如果注释出界，可以通过调整格子比例和字体修正
pheatmap(heatdata, #热图的数据
         cluster_rows = TRUE,#行聚类
         cluster_cols = TRUE,#列聚类，可以看出样本之间的区分度
         annotation_col =annotation_col, #标注样本分类
         annotation_legend=TRUE, # 显示注释
         show_rownames = T,# 显示行名
         scale = "row", #以行来标准化，这个功能很不错
         color = viridis(10, alpha = 1, begin = 0.5, end = 1, direction = 1),#调色
         #filename = "heatmap_F.pdf",#是否保存
         cellwidth = 40, # 格子宽度
         cellheight = 12,# 格子高度
         fontsize = 10 # 字体大小
)

### 导出图
## 加载R包
library(export)
## 导成PPT可编辑的格式
graph2ppt(file="output/heatmap_modified.pptx")
graph2pdf(file="output/heatmap_modified.pdf")


####差异分析后第二步就是制作火山图
rm(list = ls())
##用ggplot2
library(ggplot2)
library(ggrepel)
library(dplygener)
load(file = "output/allDiff.Rdata")
### 无论是什么名称，都改为data
data <- allDiff
### 如果没有gene这一列就需要添加
data$gene <- rownames(data)
## 仔细观察data数据
## 如果是你自己的数据，至少有三列
## logFC，P.Value，gene
ggplot(data=data, aes(x=logFC, y =-log10(P.Value))) +
  ## 三个部分分别画点
  geom_point(data=subset(data,abs(data$logFC) <= 1),aes(size=abs(logFC)),color="black",alpha=0.1) +
  geom_point(data=subset(data,data$P.Value<0.05 & data$logFC > 1),aes(size=abs(logFC)),color="red",alpha=0.2) +
  geom_point(data=subset(data,data$P.Value<0.05 & data$logFC < -1),aes(size=abs(logFC)),color="green",alpha=0.2) +
  ## 画线
  geom_hline(yintercept = -log10(0.05),lty=4,lwd=0.6,alpha=0.8)+
  geom_vline(xintercept = c(1,-1),lty=4,lwd=0.6,alpha=0.8)+
  ## 主题
  theme_bw()+
  theme(panel.border = element_blank(),
        panel.grid.major = element_blank(), 
        panel.grid.minor = element_blank(),   
        axis.line = element_line(colour = "black"))+
  labs(x="log2 (fold change)",y="-log10 (q-value)")+
  theme(plot.title = element_text(hjust = 0.5))+
  theme(legend.position='none')+
  ## 标签
  geom_text_repel(data=subset(data, abs(logFC) > 3), aes(label=gene),col="black",alpha = 0.8)


##换一种风格
library(ggplot2)
library(ggrepel)
data <- allDiff
data$gene <- rownames(data)
data$significant <- as.factor(data$adj.P.Val<0.05 & abs(data$logFC) > 1)
data$gene <- rownames(data)
ggplot(data=data, aes(x=logFC, y =-log10(adj.P.Val),color=significant)) +
  geom_point(alpha=0.8, size=1.2,col="black")+
  geom_point(data=subset(data, logFC > 1),alpha=0.8, size=1.2,col="red")+
  geom_point(data=subset(data, logFC < -1),alpha=0.6, size=1.2,col="blue")+
  labs(x="log2 (fold change)",y="-log10 (adj.P.Val)")+
  theme(plot.title = element_text(hjust = 0.4))+
  geom_hline(yintercept = -log10(0.05),lty=4,lwd=0.6,alpha=0.8)+
  geom_vline(xintercept = c(1,-1),lty=4,lwd=0.6,alpha=0.8)+
  theme_bw()+
  theme(panel.border = element_blank(),
        panel.grid.major = element_blank(), 
        panel.grid.minor = element_blank(),   
        axis.line = element_line(colour = "black")) +
  geom_point(data=subset(data, abs(logFC) >= 3),alpha=0.8, size=3,col="green")+
  geom_text_repel(data=subset(data, abs(logFC) > 3), 
                  aes(label=gene),col="black",alpha = 0.8)

### advanced 
library(ggplot2)
library(ggrepel)
data <- allDiff
data$gene <- rownames(data)
logFCfilter = 1.5
logFCcolor = 3
### 标记上下调
index = data$adj.P.Val <0.05 & abs(data$logFC) > logFCfilter
data$group <- 0
data$group[index & data$logFC>0] = 1
data$group[index & data$logFC<0] = -1
data$group <- factor(data$group,levels = c(1,0,-1),
                     labels =c("Up","NS","Down") )
### 正式画图
ggplot(data=data, aes(x=logFC, y =-log10(adj.P.Val),color=group)) +
  geom_point(alpha=0.8, size=1.2)+
  scale_color_manual(values = c("red", "grey50", "blue4"))+
  labs(x="log2 (fold change)",y="-log10 (adj.P.Val)")+
  theme(plot.title = element_text(hjust = 0.4))+
  geom_hline(yintercept = -log10(0.05),lty=4,lwd=0.6,alpha=0.8)+
  geom_vline(xintercept = c(-logFCfilter,logFCfilter),lty=4,lwd=0.6,alpha=0.8)+
  theme_bw()+
  theme(panel.border = element_blank(),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(),
        axis.line = element_line(colour = "black")) +
  theme(legend.position="top")+
  geom_point(data=subset(data, abs(logFC) >= logFCcolor & adj.P.Val <0.05),alpha=0.8, size=3,col="green4")+
  geom_text_repel(data=subset(data, abs(logFC) >= logFCcolor & adj.P.Val <0.05),
                  aes(label=gene),col="black",alpha = 0.8)

## 加载R包
library(export)
## 导成PPT可编辑的格式
graph2ppt(file="output/volcano.pptx")
graph2pdf(file="output/volcano.pdf")

###### 富集分析 ######
## 本节任务：KEGG分析
rm(list = ls())
library(clusterProfiler)
load(file = "output/diffgene.Rdata")
### 这个分析需要什么数据？
### 获得基因列表
gene <- rownames(diffgene)
#基因名称转换，返回的是数据框
### 支持ENSEMBL,SYMBOL,ENTREZID
gene = bitr(gene, 
            fromType="SYMBOL", 
            toType="ENTREZID", 
            OrgDb="org.Hs.eg.db")
head(gene)
#**KEGG分析**
# 如果你想把KEGG 本地化
# organism = 'hsa'
# http://rest.kegg.jp/list/organism
# https://mp.weixin.qq.com/s/PwrdQAkG3pTlwMB6Mj8wXQ
if(F){
  remotes::install_github("YuLab-SMU/createKEGGdb")
  library(createKEGGdb)
  species <-c("mmu","hsa")
  create_kegg_db(species)
}
## 使用我们已经处理好的本地化KEGG数据
##install.packages("./KEGG.db_1.0.tar.gz", repos=NULL)
library(KEGG.db)
EGG <- enrichKEGG(gene = gene$ENTREZID,
                  organism = 'hsa',
                  pvalueCutoff = 0.05,
                  use_internal_data =T)
barplot(EGG)
dotplot(EGG)

## 在线分析
## 实时提取KEGG信息,需要网络支持,
## 如果失败了怎么办？
R.utils::setOption( "clusterProfiler.download.method",'auto' )
EGG <- enrichKEGG(gene = gene$ENTREZID,
                  organism = 'hsa',
                  pvalueCutoff = 0.05)

test <- as.data.frame(EGG)
## 画图
barplot(EGG)
dotplot(EGG)

### KEGG的富集分析比较特殊，他的背后是个网站
KEGG_df <- as.data.frame(EGG)
symboldata <- setReadable(EGG, OrgDb="org.Hs.eg.db", keyType = "ENTREZID")
symboldata  <- as.data.frame(symboldata )

browseKEGG(EGG, 'hsa04110')
save(EGG,file = "output/EGG.Rdata")

### GO, MF,CC,BP
### 1.CC
ego <- enrichGO(gene          = gene$ENTREZID,
                OrgDb         = org.Hs.eg.db,
                ont           = "CC",
                pAdjustMethod = "BH",
                pvalueCutoff  = 0.01,
                qvalueCutoff  = 0.05,
                readable      = TRUE)
barplot(ego)

test <- as.data.frame(ego)


#### 2.MF
ego_MF <- enrichGO(gene          = gene$ENTREZID,
                   OrgDb         = org.Hs.eg.db,
                   ont           = "MF",
                   pAdjustMethod = "BH",
                   pvalueCutoff  = 0.01,
                   qvalueCutoff  = 0.05,
                   readable      = TRUE)
barplot(ego_MF,label_format = 60)
test <- as.data.frame(ego_MF)
dput(test$Description[1:10])

### 3.BP
ego_BP <- enrichGO(gene          = gene$ENTREZID,
                   OrgDb         = org.Hs.eg.db,
                   ont           = "BP",
                   pAdjustMethod = "BH",
                   pvalueCutoff  = 0.01,
                   qvalueCutoff  = 0.05,
                   readable      = TRUE)

barplot(ego_BP,label_format = 60)
test <- as.data.frame(ego_BP)
dput(test$Description[1:10])
goplot(ego_BP) ##这个可以画超级牛逼的层级图
### 4.ALL
ego_all <- enrichGO(gene          = gene$ENTREZID,
                    OrgDb         = org.Hs.eg.db,
                    ont           = "all",
                    pAdjustMethod = "BH",
                    pvalueCutoff  = 0.01,
                    qvalueCutoff  = 0.05,
                    readable      = TRUE)

barplot(ego_all, split="ONTOLOGY",label_format = 60)+ facet_grid(ONTOLOGY~.,
                                                                 scale="free")



###### pathview可视化KEGG富集分析 ######
rm(list = ls())
load(file = "output/EGG.Rdata")
KEGG_df <- as.data.frame(EGG)

## 安装这个R包
if(!requireNamespace("pathview")){
  options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
  BiocManager::install("pathview",update = F,ask = F)
} 

### 这个分析需要什么啊？？
### 很重要的部分，制作geneList
### 什么是geneList

library(clusterProfiler)
load(file = "output/diffgene.Rdata")
gene <- rownames(diffgene)
## 基因名称转换，从symbol 到ENTREZID
gene = bitr(gene, fromType="SYMBOL", toType="ENTREZID", OrgDb="org.Hs.eg.db")
## 去重
gene <- dplyr::distinct(gene,SYMBOL,.keep_all=TRUE)
## 新的数据框
gene_df <- data.frame(logFC=diffgene$logFC,SYMBOL = rownames(diffgene))
## 根据基因名称合并数据
gene_df <- merge(gene_df,gene,by="SYMBOL")

## geneList 三部曲
## 1.获取基因logFC
geneList <- gene_df$logFC
## 2.命名
names(geneList) = gene_df$ENTREZID
## 3.排序很重要
geneList = sort(geneList, decreasing = TRUE)

head(geneList)
### pathview可视化
library(pathview)
pathway.id = "hsa04110"
pv.out <- pathview(gene.data  = geneList,
                   pathway.id = pathway.id,
                   species    = "hsa",
                   limit      = list(gene=max(abs(geneList)), cpd=1))
## 改变倍数的颜色
pv.out <- pathview(gene.data  = geneList,
                   pathway.id = pathway.id,
                   species    = "hsa"
                   #limit      = list(gene=max(abs(geneList)), cpd=1)
)
## 改变构图
pv.out <- pathview(gene.data  = geneList,
                   pathway.id = pathway.id,
                   species    = "hsa",
                   #limit      = list(gene=max(abs(geneList)), cpd=1),
                   #改变构图
                   kegg.native=F)

### pathview批量画图
### 新建文件夹，
dir.create("output/pathview_out")
### 设置工作目录到想要的地方
getwd()
### 然后循环绘图
for (pathway.id in KEGG_df$ID ){
  print(pathway.id)
  pathview(gene.data  = geneList,
           pathway.id = pathway.id,
           species    = "hsa"
  )
}

最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
写完作业的感觉很爽乡村算卦师
今天终于一口气把一个数据分析课的作业写完了。明天还要继续写一个，写完，就可以暂时轻松一下了。想想还是很开心的，哈哈哈。刚出去跑了一圈，结果下雨了，虽然不是很大，可是没办法跑，怕下大。现在在小区门口，吹吹风，也是极好的。希望一些都变的越来越好，加油！
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Amazon广告投放：如何精准筛选并添加关键词？新置元人工智能亚马逊广告 amazon
在亚马逊广告投放领域，关键词的选择是影响广告效果的核心要素之一。一个精准的关键词策略不仅能够提升广告的曝光度，还能确保产品能够被真正的目标受众看到，从而实现更高的转化率。然而，关键词的筛选并不是一个简单的操作，它需要结合数据分析、市场趋势和消费者行为模式进行科学的规划。一、关键词筛选的必要性：为什么精准匹配如此重要？1.提升广告投放的精准度关键词的精准度决定了广告是否能够投放给真正有购买意愿的用户
【数据分析】抓包工具的定义常见类型分类使用场景及注意事项
抓包工具的定义常见类型分类使用场景及注意事项-CSDN直播抓包工具的定义常见类型分类使用场景及注意事项抓包工具的定义常见类型分类使用场景及注意事项抓包工具概述抓包工具顾名思义是一种用于捕获并分析网络数据包的软件或硬件工具它能够在数据传输过程中截取并记录网络流量让用户能够深入理解并排查网络问题这类工具的用途广泛从网络安全测试到应用程序调试都离不开抓包工具的帮助在众多的抓包工具中WiresharkFi
构建高效的物流车辆定位管理系统体制教科书
本文还有配套的精品资源，点击获取简介：物流车辆定位管理系统利用信息技术提高物流效率和安全性。通过集成GPS技术进行实时车辆追踪和监控，它提供及时的货物运送和异常处理。系统的关键技术包括GPS车辆定位、C#编程语言、数据库管理、车辆管理、在途情况监控、预警与通知、数据分析与报告、用户界面设计、安全性与隐私保护以及系统集成。这些要素共同保障物流流程的高效、安全和智能化。1.物流车辆定位管理系统的应用与
# 【GEE基础及工具）（一）】工欲善其事，必先利其器：借助Open Earth Engine实现影像高效处理及批量任务执行遥感AI实战 GEE基础教程遥感 GEE 地理信息信息可视化 sentinel
在遥感数据分析与处理工作中，海量影像数据的预处理（如去云、裁剪）和分析（如均值计算）是支撑后续研究的核心环节。而Sentinel-2影像作为常用的遥感数据源，常因云层遮挡、数据量大等问题增加处理难度。同时，在使用GoogleEarthEngine（GEE）处理数据时，“批量导出任务需手动逐个启动”的问题也会显著降低效率。本文将从“工具优化”和“数据处理”两个维度展开，详细介绍如何通过GEE完成Se
Navicat 全面支持金仓数据库 KingbaseES，为金仓生态圈注入新动能 Navicat中国 Navicat 17 焕新上市 Navicat 免费版数据库
近日，我们宣布Navicat系列产品全面支持中电科金仓（北京）科技股份有限公司旗下金仓数据库管理系统KingbaseES。KingbaseES是面向全行业、全客户关键应用的企业级大型通用融合数据库产品，适用于事务处理类应用、数据分析类应用、海量时序数据采集检索类应用、要求苛刻的互联网等应用场景。这次合作，不仅是Navicat在数据库管理领域的又一重要里程碑，更凭借卓越的技术为金仓数据库的生态注入新
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
如何用Python才能进行数据分析？_运用pycharm做数据分析的步骤 2401_84254530 python 数据分析 pycharm
数据分析流程Python是数据分析利器，掌握了Python的编程基础后，就可以逐渐进入数据分析。一个完整的数据分析项目大致可分为以下五个流程：数据获取→数据存储→数据预处理→建模与分析→可视化分析1)数据获取一般有数据分析师岗位需求的公司都会有自己的数据库，数据分析师可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sqlserver、mysql、orcale等主流数据库的接口
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python【一】Python全方位知识指南程序员_CLUB python 开发语言
目录背景：为什么Python成为开发者必备技能？‌‌一、Python是什么？‌‌二、Python能做什么？六大核心应用场景‌‌1.自动化办公‌‌2.网络爬虫‌‌3.数据分析‌‌三、零基础入门Python：环境搭建与学习路径‌‌1.环境搭建（Windows/Mac详细步骤）‌2‌.基础语法速成（7天掌握）‌四、实战项目推荐（*****）‌‌五、学习建议与避坑指南（新手常见错误）‌六、总结：**背景：
有人考过CDA数据分析师二级吗？ cda2024 数据分析数据挖掘 mysql
一、引言在当今数字化浪潮席卷各个行业的时代，数据成为了最宝贵的资产之一。无论是金融、电信、零售还是其他传统行业，都在积极寻求能够从海量数据中挖掘价值的专业人才。“有人考过CDA数据分析师二级吗？”这个问题不仅反映了人们对提升自身数据技能的渴望，也折射出市场对高水平数据分析师的需求日益增长。今天，我们就来聊聊这个话题。二、CDA数据分析师二级概述（一）认证的重要性首先得明确，CDA数据分析师二级可不
Python数据分析第一课：Anaconda的安装使用二狗的编程之路 Python数据分析 python 数据分析开发语言
Python数据分析第一课：Anaconda的安装使用1.Anaconda是什么？Anaconda是一个便捷的获取包，并且对包和环境进行管理的虚拟环境工具,Anaconda包括了conda、Python在内的超过180多个包和依赖项简单来说，Anaconda是包管理器和环境管理器2.Anaconda从何而来？Anaconda包括了Python和conda，我们从这这两个部分来叙述PythonPyt
数据分析概念和总结小小少年Boy
参考：什么是数据分析？总结：决策=数据+分析数据分析的框架：明确分析目标、数据收集、数据清理、数据分析、数据报告、执行与反馈数据分析与数据挖掘，前者偏向于业务分析，后者偏向于数据库算法，借助数据来指导决策数据分析的框架1.首先是数据分析的目的性极强区别于数据挖掘的找关联、分类、聚类，数据分析更倾向于解决现实中的问题。我想解决什么问题？通过这次的分析能让我产生什么决策？比如是否在某个高校举办一场活动
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
基于Python的酒店订单数据分析与可视化实战不若浮生一梦 python作业 python 数据分析开发语言
本文将通过一个酒店订单数据集，展示如何使用Python进行完整的数据分析流程，包括数据清洗、特征工程、探索性分析、可视化以及业务洞察，适合数据分析初学者或想通过项目提升数据思维的开发者。一、项目背景随着旅游业的迅速发展，酒店运营者越来越依赖数据分析来提升客户体验与优化收益管理。本项目基于某国际连锁酒店集团提供的真实订单数据，包含超过10万条记录，涵盖订单类型、顾客行为、取消情况等多个维度。目标是通
2025年最值得推荐的10款开源数据库管理工具全解析 ivwdcwso 运维与云原生开源数据库管理工具运维管理
在数据驱动的时代，数据库管理工具已成为开发者、数据分析师和运维工程师的必备利器。随着技术的快速发展，2025年的数据库管理工具市场涌现出许多强大而高效的开源解决方案。本文将为您详细介绍10款在2025年表现突出的开源数据库管理工具，帮助您选择最适合自己需求的工具。一、2025年数据库管理工具的新趋势在介绍具体工具前，让我们先了解2025年数据库管理工具的几个关键发展趋势：AI增强功能：越来越多的工
Python Pandas.cut函数解析与实战教程皓月照山川 pandas python pandas 开发语言
PythonPandas.cut函数解析与实战教程摘要pandas.cut是数据分析工具库Pandas中一个极其强大且常用的函数。它的核心功能是将连续的数值型数据根据指定的间断点（bins）进行分割，转换成离散化的区间类别（categoricaldata）。这种操作在数据预处理、特征工程和数据可视化中至关重要，例如，将用户的年龄分段、将考试分数评级、或将销售额划分为不同的等级。本文章将从基础用法到
实践篇：构建基于LLM与本地Pandas的混合式数据分析引擎超人阿亚 pandas 数据分析数据挖掘
公众号：dify实验室基于LLMOps平台-Dify的一站式学习平台。包含不限于：Dify工作流案例、DSL文件分享、模型接入、Dify交流讨论等各类资源分享。在上一篇《思路探索：当大型语言模型遇见数据分析的现实挑战》中，我们阐述了团队确立的技术路线：利用大型语言模型（LLM）作为自然语言到代码的“翻译器”，并结合PythonPandas库作为后端的高性能“计算核心”。本文将从工程实践的角度，详细
【tower】Rust tower库原理详解以及axum限流实战景天科技苑 Rust语言通关之路 rust 开发语言后端 tower rust tower axum限流
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Rust开发，Python全栈，Golang开发，云原生开发，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django
数据赋能（335）——技术平台——技术赋能 lh1793 数据
概述技术赋能原则在数据赋能中占据核心地位。它确保了数据分析、处理和应用过程中的高效、准确和可靠，为业务决策提供了坚实的技术基础。原则定义数据技术赋能原则：在组织运营和业务决策中，以数据技术为核心，通过数据收集、分析、处理和应用，推动业务创新、优化运营和提升决策质量以下是数据技术赋能原则的具体分点表示：战略对齐：数据技术的应用应与组织的战略目标紧密对齐，确保技术投资能够直接支持业务增长和竞争优势的建
思路探索：当大型语言模型遇见数据分析的现实挑战
大家好，我是dify实验室的阿亚。近期，我们团队启动了一项旨在简化数据分析流程的探索性项目。我们的目标是构建一个能够通过自然语言进行交互的数据分析工具，让业务人员无需编写复杂的查询语句，仅通过提问即可获取数据洞察。然而，在将这一构想付诸实践的过程中，我们遇到了一系列预料之外的挑战。本文旨在记录我们的探索路径与思考沉淀。一、第一阶段探索：直接利用大模型进行数据分析项目初期，我们最直接的设想是利用大型
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

基础生信分析的一下代码

你可能感兴趣的:(数据分析)