Doris_xixi

R语言学习

练习1

目的是想获取文件第二行数据，然后找出字符串长度。

数据特点是每两行一个数据单元。偶数行为我所想得到的数据。代码如下

rm(list = ls())  #清空环境变量

#加载所需要使用的包
library(seqinr)   
library(xlsx)

设定工作目录
setwd("D:/BaiduNetdiskDownload/OEdata")

#读入数据
od_data=readLines("ATCACG.fa")   #采用按行读取所有数据
need<-c()                        #建立空向量准备提取，一定要事先申明，不然找不到对

for(i in 1:length(od_data)){

  if(i %% 2 ==0){
    need=append(need,od_data[i])
  }
}

#将list转化为data.frame
df_need=data.frame(need)
df_need$length=NA #数据框中另取一列
df_need$length=nchar(need)     #获得字符串长度

#输出部分结果文件
write.table(df_need,"OD_data_length.xls",quote=FALSE, sep="\t")

1.函数append为写入函数

2.nchar为获得字符数函数

3.使用变量是要提前声明

#后续修改

for循环太花时间，不建议使用。后来改用readDNAStringSet读入fa文件，修改的代码如下

rm(list=ls())

library(Biostrings)

setwd("D:/LQ/免疫/OEdata")

#读入文件，fasta文件处理
od_data_1<-readDNAStringSet("ATCACG.fa")
seq_name = names(od_data_1)
sequence = paste(od_data_1)
df_od_data_1 <- data.frame(seq_name, sequence,stringsAsFactors=F)
df_od_data_1=unique(df_od_data_1)#消除重复行

#求序列长度
df_od_data_1$length=NA
sequence<-as.vector(df_od_data_1$sequence)
df_od_data_1$length=nchar(sequence)
df_od_data_1=df_od_data_1[order(df_od_data_1$length,decreasing = F),]#按序列长度大小排序，从小到大
write.table(df_od_data_1,"od_data_len.xls",quote = F,sep="\t",row.names = F)

#统计长度出现的频率
freq=table(df_od_data_1$length)        
df_oe_data_len_freq=data.frame(freq)
write.table(df_oe_data_len_freq,"oe_data_len_freq.txt",quote = F,sep="\t",row.names = F)

极大地节约了运行时间，一般还是不要轻易用for循环。而且代码相对简洁很多。写完后还要好好消化一下，这里面有很多的函数和参数设置还不太熟悉

read函数的说明：https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html

read.table（file，header = FALSE，sep =“”，quote =“\”'“，
           dec =“。”，数字= c（“allow.loss”，“warn.loss”，“no.loss”），
           row.names，col.names，as.is =！stringsAsFactors，
           na.strings =“NA”，colClasses = NA，nrows = -1，
           skip = 0，check.names = TRUE，fill =！blank.lines.skip，
           strip.white = FALSE，blank.lines.skip = TRUE，
           comment.char =“＃”，
           allowEscapes = FALSE，flush = FALSE，
           stringsAsFactors = default.stringsAsFactors（），
           fileEncoding =“”，encoding =“unknown”，text，skipNul = FALSE）

read.csv（file，header = TRUE，sep =“，”，quote =“\”“，
         dec =“。”，fill = TRUE，comment.char =“”，...）

read.csv2（file，header = TRUE，sep =“;”，quote =“\”“，
          dec =“，”，fill = TRUE，comment.char =“”，...）

read.delim（file，header = TRUE，sep =“\ t”，quote =“\”“，
           dec =“。”，fill = TRUE，comment.char =“”，...）

read.delim2（file，header = TRUE，sep =“\ t”，quote =“\”“，
            dec =“，”，fill = TRUE，comment.char =“”，...）

参数

`file`	数据要从中读取的文件的名称。表格的每一行都显示为文件的一行。如果它不包含绝对路径，则文件名是相对于当前工作目录的 `getwd()`。在支持的情况下执行倾斜扩展。这可以是一个压缩文件（请参阅`file`）。或者，`file`可以是一个可读的文本模式连接（如果需要，将被打开以供读取，如果是这样的话`close`（在函数调用结束时被破坏））。（如果`stdin()`使用的话，线路提示可能会有些混乱，`Ctrl-D`在Unix和`Ctrl-Z`Windows 上终止一个空行或一个EOF信号的输入，`stdin()`在返回之前，任何后退都会被清除。） `file`也可以是完整的网址。（有关支持的URL方案，请参阅帮助中的'URL'部分 `url`。）
`header`	一个逻辑值，指示文件是否包含变量的名称作为其第一行。如果缺失，则根据文件格式确定该值：`header`设置为`TRUE` 当且仅当第一行包含的字段数少于列数时。
`sep`	字段分隔符。文件各行的值由此字符分隔。如果分隔符的`sep = ""`（缺省值`read.table`）是'空格'，即一个或多个空格，制表符，换行符或回车符。
`quote`	引号字符集。要完全禁用引用，请使用`quote = ""`。查看`scan`嵌入在引号中的引号的行为。引用仅作为读为字符的列来考虑，除非`colClasses`指定，否则它们全部是字符。
`dec`	文件中用于小数点的字符。
`numerals`	指示如何转换转换为双精度的数字会失去准确性的字符串，请参阅`type.convert`。可以缩写。（也适用于复数输入。）
`row.names`	行名的矢量。这可以是给出实际行名的向量，也可以是给出包含行名的表的列的单个数字，也可以是给出包含行名称的表列名称的字符串。如果有一个标题，并且第一行包含的字段数少于列数，则输入中的第一列将用于行名称。否则，如果`row.names`缺少，则行被编号。使用`row.names = NULL`强制行编号。缺少或 `NULL` `row.names`生成被认为是“自动”（并且未保留`as.matrix`）的行名称。
`col.names`	变量的可选名称的向量。默认是使用`"V"`后跟列号。
`as.is`	默认行为`read.table`是将字符变量（未转换为逻辑，数字或复数）转换为因子。该变量`as.is`控制未被其他方式指定的列的转换`colClasses`。它的值可以是逻辑的向量（如果需要，可以循环使用值），也可以是数字或字符索引的向量，用于指定哪些列不应转换为因子。注意：要禁止包括数字列在内的所有转换，请设置`colClasses = "character"`。请注意，`as.is`每列指定（而不是每个变量），因此包括行名称列（如果有）和任何要跳过的列。
`na.strings`	字符串的字符向量被解释为`NA`值。空白字段也被认为是逻辑，整数，数字和复杂字段中的缺失值。请注意，测试发生在从输入中删除空白区域之后，所以`na.strings` 值可能需要预先剥离它们自己的空白区域。
`colClasses`	字符。为列所用的类的向量。如果未命名，则根据需要进行回收。如果命名，则名称与未指定的值相匹配`NA`。可能的值是`NA`（默认，当 `type.convert`时）， `"NULL"`（当柱被跳过），原子矢量类（逻辑，整数，数字，复杂，字符，生）中的一个，或`"factor"`，`"Date"` 或`"POSIXct"`。否则，需要有一个`as` 方法（从包方法）转换`"character"`为指定的正式类。请注意，`colClasses`每列指定（而不是每个变量），因此包含行名称列（如果有）。
`nrows`	整数：要读入的最大行数。忽略负值和其他无效值。
`skip`	整数：开始读取数据前要跳过的数据文件的行数。
`check.names`	逻辑。如果`TRUE`接下来检查数据框中变量的名称以确保它们是语法上有效的变量名称。如果有必要，他们会进行调整`make.names`，以确保没有重复。
`fill`	逻辑。如果`TRUE`在行长度不相等的情况下，则隐式地添加空白字段。查看具体信息'。
`strip.white`	逻辑。仅在`sep`指定时使用，并且允许从未加引号的`character`字段中剥离前导和尾随空白（`numeric`字段总是被剥离）。请参阅`scan`详细信息（包括'空白区域'的确切含义），记住列可能包含行名称。
`blank.lines.skip`	逻辑：如果`TRUE`输入中的空白行被忽略。
`comment.char`	字符：长度为1的字符向量，包含单个字符或空字符串。使用`""`到完全关闭的意见解释。
`allowEscapes`	逻辑。如若C风格的逃逸，如 \ n处理或阅读逐字（默认值）？请注意，如果不在引号内，这些可以被解释为分隔符（但不作为注释字符）。欲了解更多详情，请参阅`scan`。
`flush`	逻辑：如果`TRUE`，`scan`会读的是最后请求的字段后刷新到行的末尾。这允许在最后一场之后放置评论。
`stringsAsFactors`	逻辑：应该将字符向量转换为因子？请注意，这被覆盖，`as.is`并且 `colClasses`这两者都允许更好的控制。
`fileEncoding`	字符串：如果非空声明文件（不是连接）上使用的编码，则可以重新编码字符数据。请参阅`file`'R数据导入/导出手册'和'注意' 的帮助中的'编码'部分。
`encoding`	对输入字符串进行编码。它用于标记字符串，如已知的Latin-1或UTF-8（请参阅`Encoding`）：它不用于重新编码输入，但允许R以其本地编码处理编码字符串（如果其中之一二）。请参阅“价值”和“注意”。
`text`	字符串：如果`file`未提供并且是，则`text`通过文本连接从数值中读取数据。请注意，可以使用文字字符串在R代码中包含（小）数据集。
`skipNul`	合乎逻辑：应该跳过nuls吗？

错误1：

逻辑错误，就是我需要读入xlsx文件，但是我用的是read.table函数，报错说

appears to contain embedded nulls

这时候要用read.xlsx函数。此外要记得加载相应的包，如readlx、xlsx。

错误2：

有时候不太注意对象的性质，到底是因子，还是向量，还是矩阵。。。。。

错误3：为什么要将长度从小到大？

一是便于观察。二是下面找频数的时，table函数统计频数得出的结果是按照长度大小由小到大。所以需要将length排序，才能对应相应的频数。

#柱状图
barplot(freq,xlab="Length",ylab="Frency")
#直方图
hist(df_need$length)

练习2 使用pear拼接数据，并提取相关信息

一、Pear的使用

用法：pear <选项>
标准（强制性）：
  -f，--forward-fastq 转发配对结束的FASTQ文件。
  -r，--reverse-fastq 反向配对结束FASTQ文件。
  -o，--output 输出文件名。
可选的：
  -p，--p-value 为统计测试指定一个p值。如果计算
                                        可能装配的p值超过指定的p值
                                        那么配对结束读取将不会被组装。有效的选项
                                        是：0.0001,0.001,0.01,0.05和1.0。设置1.0禁用
                                        考试。（默认值：0.01）
  -v，--min-overlap 指定最小重叠大小。最小重叠可能是
                                        在使用统计测试时设置为1。但是，进一步
                                        可以将最小重叠大小限制为适当的值
                                        减少误报汇编。（默认：10）
  -m，--max-assembly-length 指定组装的最大可能长度
                                        序列。将此值设置为0将禁用限制
                                        并且组装的序列可以是任意长的。（默认：0）
  -n，--min-assembly-length 指定组装的最小可能长度
                                        序列。将此值设置为0将禁用限制
                                        并且组装的序列可以是任意短的。（默认：
                                        50）
  -t，--min-trim-length 指定修剪低位后读取的最小长度
                                        质量部分（见选项-q）。（默认值：1）
  -q，--quality-threshold 指定修剪低位的质量分数阈值
                                        高质量的阅读部分。如果两个质量得分
                                        连续的碱基严格少于规定的数量
                                        阈值，其余的读数将被修剪。（默认：
                                        0）
  -u，--max-uncalled-base 指定读取中未调用碱基的最大比例。
                                        将该值设置为0将导致PEAR放弃所有读取
                                        含有未呼叫的碱。另一个极端的设置是1
                                        这导致PEAR独立处理所有读取
                                        未呼叫的基地数量。（默认值：1）
  -g，--test-method 指定统计测试的类型。有两个选项
                                        可用。（默认值：1）
                                        1：给定允许的最小重叠，使用最高测试
                                        OES。请注意，由于其独立性，通常会进行此测试
                                        对于组装的读取产生的p值低于截止值，
                                        关闭（由-p指定）。例如，将截断设置为
                                        0.05使用这个测试，组装的阅读可能有一个
                                        实际的p值为0.02。

                                        2.使用接受概率（地图）。这种测试方法
                                        计算与测试方法1相同的概率。然而，它
                                        假定最小重叠是观察到的重叠
                                        具有最高的OES，而不是由-v指定的那个。
                                        因此，这不是一个有效的统计测试和
                                        'p值'实际上是接受的最大概率
                                        大会。尽管如此，我们在实践中观察到，
                                        实际重叠尺寸的情况相对较小，测试
                                        2只能稍微正确地组装更多的读取
                                        假阳性率较高。
  -e，--empirical-freqs禁用经验基准频率。（默认：使用经验
                                        基本频率）
  -s，--score-method 指定评分方法。（默认：2）
                                        1. OES用于匹配，+1用于不匹配。
                                        2：大会评分（AS）。匹配使用+1，不匹配使用-1
                                        乘以基本质量分数。
                                        3：忽略质量分数，使用+1作为比赛，-1使用a
                                        不匹配。
  -b，--phred-base 基本PHRED质量分数。（默认：33）
  -y，--memory 指定要使用的内存量。这个数字可能是
                                        接着是表示K，M或G的字母之一
                                        千字节，兆字节和千兆字节。字节是
                                        假设没有指定字母。
  -c，--cap 指定生成的质量分数的上限。如果
                                        设置为零，禁用上限。（默认：40）
  -j，--threads 要使用的线程数
  -h，--help这个帮助屏幕。

首先要确认pear运行起来了

./pear -f /home/liuqian/biosoft/FastQC/data/QOE1801010TTAGGC_HKCCCCCXY_L6_1.fq -r /home/liuqian/biosoft/FastQC/data/QOE1801010TTAGGC_HKCCCCCXY_L6_2.fq -o TTAGGC

然后是必要的设置，-f 接输入文件，正链。-r 接输入文件，反链。-o 输出文件。

运行结束后会产生四个文件

二、对fastqc文件进行处理

下载安装bioconductor中的包

source("http://www.bioconductor.org/biocLite.R")#下载来源
biocLite("ShortRead")#相当于install.pages

读入fastq文件需要用到ShortRead包，这个包是bioconductor里面的。

安装过程中遇到的一个问题是有个包无法移动到指定目录，下载到临时文件夹中了，需要手动将文件移过去并解压缩，再进行安装。

运行语句如下：

library(ShortRead)

pear_assembled_1<-readFastq("D:/LQ/免疫/ATCACG.assembled.fastq",pattern = character(0))
writeFasta(readFastq("D:/LQ/免疫/","ATCACG.assembled.fastq"),"ATCACG.assembled.fa")

Usage:

     readFastq(dirPath, pattern=character(0), ...)
     ## S4 method for signature 'character'
     readFastq(dirPath, pattern=character(0), ..., withIds=TRUE)
     
     writeFastq(object, file, mode="w", full=FALSE, compress=TRUE, ...)
     
Arguments:

 dirPath: A character vector (or other object; see methods defined on
          this generic) giving the directory path (relative or
          absolute) or single file name of FASTQ files to be read.

 pattern: The (‘grep’-style) pattern describing file names to be read.
          The default (‘character(0)’) results in (attempted) input of
          all files in the directory.

可以?readFastq看一下参数.文件夹中就存在fasta文件格式了。一定要指明路径

然后按照fasta文件的处理。

#读入Pear拼接数据的fasta文件
ATCACG.assembled.fa_1<-readDNAStringSet("ATCACG.assembled.fa")
ATCACG_seq_name=names(ATCACG.assembled.fa_1)
ATCACG_sequence<-paste(ATCACG.assembled.fa_1)
df_ATCACG.assembled.fa_1<-data.frame(ATCACG_seq_name,ATCACG_sequence,stringsAsFactors=F)

得到结果

你可能感兴趣的:(R语言)

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
R语言笔记Day1（排序、筛选以及分类汇总））养猪场小老板
一、排序1、单变量序列排序2、数据表（矩阵）排序二、筛选三、分类汇总一、排序1、单变量序列排序rank、sort和order函数>aa[1]315#rank用来计算序列中每个元素的秩#这里的“秩”可以理解为该元素在序列中由小到大排列的次序#上面例子给出的序列[3,1,5]中，1最小，5最大，3居中#于是1的秩为1，3的秩为2，5的秩为3，(3,1,5)对应的秩的结果就是(2,1,3)>rank(a
从0开始学习R语言--Day58--竞争风险模型
在用传统生存分析方法的场景中（如Kaplan-Meier和Cox回归），假设所有事件都是独立且互斥的，但在现实中，研究对象可能面临多种互斥的终点事件（如癌症患者可能死于癌症本身，也可能死于其他原因），如果直接去分析，模型会把这种结局时间错误地纳入评估，从而提高了病症的分析。而竞争风险模型可以在考虑其他竞争风险存在的情况下，排除干扰求得某特定事件发生的概率。以下是一个例子：library(cmprs
【科研绘图系列】R语言绘制边际云雨图散点图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制边际云雨图散点图加载R包library(tidyverse)library(ggplot2)library(ggpubr)library(ggpmisc)library(gghalves)library(aplot
学习小组Day4笔记--韧韧_7e6f
R语言基础R以及Rstudio的下载和安装，操作界面和基本语言的认知。安装之前，确认电脑用户名是英文；如果是中文，请参考当Rstudio杠上中文用户名很不幸，我就是中文名，按照上述说明，我将TEMP和TMP的值均改成D:\Rtemp；而后重启。1.R的下载和安装用搜狗微信搜索：“果子学生信给自己一个全新的R语言环境”https://mirrors.tuna.tsinghua.edu.cn/CRAN
R语言-数据清洗-缺失值处理刘大帅1
当对数据库中的芯片进行id转换后有许多NA值，这时候需要将这些数据值删掉。缺失值处理包括两个步骤，即缺失数据的识别和缺失值处理。在R语言总缺失值以NA表示，可以使用函数is.na()判断缺失值是否存在，函数complete.cases()可识别样本数据是否完整从而判断缺失情况。缺失值处理常用方法有删除法、替换法、插补法。（1）删除法：可分为删除观测样本与删除变量。删除观测样本通过na.omit()
从0开始学习R语言--Day55--弹性网络 Chef_Chen r语言
通常来说，样本数据的数据个数会远大于特征数，但是当我们遇到特殊数据，比如基因数据，可能会有成百上千甚至上万地特征量，而样本个数只有几十个，此时如果直接做回归，由于特征数量很多，且有很多特征共线性较高，很容易过拟合，而能处理共线性的方法，又无法将特征的系数压缩为0，这样计算量会大大增加。用弹性网络建模，其与其他不同的是，有两个惩罚项，L1负责控制特征系数（可以为0），做初步的筛选；L2负责剔除相关性
从0开始学习R语言-Day56--空间变系数模型 Chef_Chen 学习
对于涉及到空间相关性分析的数据来说，直接对其做杜宾模型的拟合，有时候很难解释有些变量的p值或是否收敛，因为许多变量的联系以及数据特征在拟合的过程中被消化掉了。而用不同的方法和模型去一步步测试特性，不仅可以证明课题或数据有无研究下去的意义，还可以帮我们节省工作量，确定研究的方向。以下是一个例子：#加载包library(sp)library(spgwr)library(ggplot2)library(
R 语言绘制六种精美热图：转录组数据可视化实践（基于 pheatmap 包）医工交叉实验工坊信息可视化 r语言开发语言
在转录组Bulk测序数据分析中，热图是展示基因表达模式、样本聚类关系的核心可视化工具。一张高质量的热图不仅能清晰呈现数据特征，更能提升研究成果的展示效果。本文基于R语言的pheatmap包，整理了六种适用于不同场景的热图绘制方法，涵盖基础聚类、分组对比、通路注释等需求，私信即可获取全部代码，方便科研人员快速实现数据可视化。一、绘图前的数据准备热图绘制的核心是基因表达矩阵，数据格式的规范性直接影响后
【作物模型】R语言与作物模型（以DSSAT模型为例）融合应用没有梦想的咸鱼185-1037-1663 R语言 DSSAT模型生态系统 r语言开发语言数据分析
随着基于过程的作物生长模型（Process-basedCropGrowthSimulationModel）的发展，R语言在作物生长模型和数据分析、挖掘和可视化中发挥着越来越重要的作用。想要成为一名优秀的作物模型使用者与科研团队不可或缺的人才，除了掌握对作物模型相关知识之外，还要掌握模型的快速模拟和高效数据分析能力。DecisionSupportSystemsforAgrotechnologyTra
R语言的分位数回归实践技术高级应用梦想的初衷~ R语言生态农业 r语言回归
回归是科研中最常见的统计学研究方法之一，在研究变量间关系方面有着极其广泛的应用。由于其基本假设的限制，包括线性回归及广义线性回归在内的各种常见的回归方法都有三个重大缺陷：(1)对于异常值非常敏感，极少量的异常值可能导致结果产生巨大的误差；(2)对数据的分布有着较为苛刻的要求，如果数据不符合指定的分布，结果同样是不可信的；(3)只能估计因变量的条件均值，不能估计自变量对因变量分位点的不同影响。分位数
R语言基本操作易易前端 R语言基础实践 r语言开发语言
R语言基本操作为什么选择R？丰富的资源涵盖了多种行业数据分析中几乎所有的方法；良好的扩展性十分方便的编写函数和程序包，跨平台，可以胜任复杂的数据分析、绘制精美的图形；完备的帮助系统每个函数都有统一格式的帮助，运行实例；GNU软件免费、软件本身及程序包的源代码公开；R的特点：多领域的统计资源目前在R网站上约有4000个程序包，涵盖了基础统计学、社会学、经济学、生态学、空间分析、系统发育分析、生物信息
R语言使用glmnet包拟合lasso-cox回归模型（包含生存时间和结果标签）、使用lasso-cox模型进行特征筛选、使用sapply函数对特征数据进行标准化z-score statistics.insight R语言入门课机器学习人工智能 r语言数据挖掘数据分析
R语言使用glmnet包拟合lasso-cox回归模型（包含生存时间和结果标签）、使用lasso-cox模型进行特征筛选、使用sapply函数对特征数据进行标准化z-score目录R语言使用glmnet包拟合lasso-cox回归模型（包含生存时间和结果标签）、使用lasso-cox模型进行特征筛选、使用sapply函数对特征数据进行标准化z-score分类模型（classification）决策
R语言与临床模型预测——LASSO回归，单因素多因素cox，差异表达分析，Venn图，森林图，列线图，矫正曲线，ROC全套代码及解析——第九部分 lasso回归排除具有共线性的基因本专栏可免费答疑楷然教你学生信 r语言机器学习生物信息学数据挖掘 cox回归临床模型预测
1.下载数据2.匹配基因3.基因去重复4.匹配临床数据5.批量cox回归分析6.差异表达基因筛选7.取交集，选出预后相关的差异表达基因8.森林图绘制9.lasso回归进一步排除具有共线性的基因10.验证集验证，数据合并验证11.多因素cox回归建模12.列线图13.矫正曲线14.ROC曲线分析上次筛选了预后相关差异基因，下面我们开始对这些基因进行lasso-cox回归：下面数据准备：这是之前做批量
从0开始学习R语言--Day52--weibull Chef_Chen 学习
在分析带有状态变化特征的数据时（如医疗数据的结局特征，手机电池的寿命等等），我们需要分析得不只是什么时候什么时候出发结局，还要分析特征的稳定性，比如电池的续航在初期不稳定，预测里可能两个月就会坏，但用了一个月后手机稳定下来，预测可能就变成用一年都不会坏。weibull分布能帮我们捕捉这种特征，从而能够做后续的处理（比如维修计划，对病人的结局分析作进一步拆解）。以下是一个例子：#加载必要的包libr
从0开始学习R语言--Day53--AFT模型 Chef_Chen 学习
在分析医疗数据时，尽管用cox回归可以分析一切因素对风险的影响，但是有时候因素的影响是非常直接的，比如对于癌症患者的生存风险，治疗手段（如化疗），会直接让肿瘤的生长速度减半，也就相当于延长了患者的生存时间，这个时候如果还要去用cox回归去分析单位时间内风险的概率，就有点本末倒置了，直接用AFT模型分析对生存时间的影响就能得到结果，毕竟在这个背景下，我们用析的最终目的是为了得知因素的效果。以下是一个
【科研绘图系列】R语言绘制堆积图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制堆积图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(reshape)library(ggalluvial)library(ggprism
【科研绘图系列】R语言绘制棒棒图和哑铃图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据画图系统信息参考介绍【科研绘图系列】R语言绘制棒棒图和哑铃图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(RColorBrewer)library(grid)library(scales
3篇5章2节：绘制临床研究中的趋势图与ROC曲线 MD分析用R探索医药数据科学信息可视化 r语言 r语言-4.2.1 数据分析趋势变化图模型性能评估
在医学统计分析与数据科学实践中，趋势图与ROC曲线不仅是可视化的“门面担当”，更是揭示数据背后规律与诊断性能的核心工具。无论是观察血压、血糖等临床指标随时间或干预手段的变化，还是评估模型的判别能力与诊断准确性，一幅设计得当的图表，往往胜过千言万语。本文围绕R语言中两个功能强大的可视化函数展开，深入剖析它们在实际科研中的应用技巧与美化策略。通过案例演示与参数讲解，你将学会如何绘制清晰、美观、信息量丰
R语言绘制散点图 Ora_ge R语音
［转自：http://blog.sina.com.cn/s/blog_69ffa1f90101siek.html］函数。简单地说，把一些R语句（赋值、计算或其他操作步骤）包装起来并给它一个名称，这就是函数。我们前面接触过的getClass(),class(),head(),rep(),cbind(),rbind()等都是函数。显示（打印）对象也有函数print()，但R有更简单的方法：输入对象名（
【科研绘图系列】R语言绘制配对散点图连线柱状图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制配对散点图连线柱状图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr)library(patchwork)library(ggprism
【科研绘图系列】R语言绘制柱状散点连线图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制柱状散点连线图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr)library(patchwork)library(ggprism
R语言基础语法及示例路飞VS草帽 R语言 R语言
1.变量赋值在R中，可以使用5){print("x大于5")}else{print("x小于或等于5")}#输出:[1]"x大于5"8.循环使用for和while进行循环。r#for循环for(iin1:5){print(i)}#输出:#[1]1#[1]2#[1]3#[1]4#[1]5#while循环i<-1while(i<=5){print(i)i<-i+1}#输出:#[1]1#[1]2#[1]
ica算法c语言,独立成分分析(ICA)的模拟实验(R语言) weixin_39632212 ica算法c语言
本笔记是ESL14.7节图14.42的模拟过程。第一部分将以ProDenICA法为例试图介绍ICA的整个计算过程；第二部分将比较ProDenICA、FastICA以及KernelICA这种方法，试图重现图14.42。ICA的模拟过程生成数据首先我们得有一组独立(ICA的前提条件)分布的数据$S$(未知)，然后经过矩阵$A_0$混合之后得到实际的观测值$X$，即$$X=SA_0$$也可以写成$$S=
R语言金融工程：量化价值投资中的数据处理技巧量化价值投资入门到精通 r语言金融开发语言 ai
R语言金融工程：量化价值投资中的数据处理技巧关键词：R语言、金融工程、量化价值投资、数据处理、财务指标、时间序列、风险控制摘要：在量化价值投资领域，高质量的数据处理是策略有效性的核心基础。本文系统解析基于R语言的金融数据处理全流程，涵盖数据获取、清洗、特征工程、时间序列分析等关键环节。通过财务指标计算、异常值检测、缺失值处理、因子标准化等实用技巧，结合quantmod、TTR、dplyr等R包的深
GEV/POT/Markov/点过程/贝叶斯极值全解析；基于R语言的极值统计学
极值统计学就是专门研究自然界和人类社会中很少发生，然而发生之后有着巨大影响的极端现象的统计建模及分析方法；在水文、气象、环境、生态、保险和金融等领域都有着广泛的应用。专题一、独立假设下的极值统计建模主要内容包括：1.广义极值模型.2.极小值的处理.3.广义Pareto模型.4.第r大次序统计量建模.5.R语言中极值统计学包.6.实例操作1-2.(提供案例数据及代码)专题二、平稳时间序列的极值统计建
【科研绘图系列】R语言绘制分组直方图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制分组直方图加载R包library(ggplot2)library(ggpubr)rm(list=ls())options(stringsAsFactors=F)</
Copula 回归与结构方程模型：R 语言构建多变量因果关系网络
技术点目录专题一、R及Python语言及相关性研究初步专题二、二元Copula理论与实践（一）专题三、二元Copula理论与实践（二）【R语言为主】专题四、Copula函数的统计检验与选择【R语言为主】专题五、高维数据与VineCopula【R语言】专题六、正则VineCopula（一）【R语言】专题七、正则VineCopula（二）【R语言】专题八、时间序列中的Copula【R语言】专题九、Co
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
基于R语言的极值统计学及其在相关领域中的实践技术应用科研的力量语言类课程极值统计学
受到气候变化、温室效应以及人类活动等因素的影响，自然界中极端高温、极端环境污染、大洪水和大暴雨等现象的发生日益频繁；在人类社会中，股市崩溃、金融危机等极端情况也时有发生；今年的新冠疫情就是非常典型的极端现象。研究此类极端现象需要新的统计学方法，该类统计学的理论和方法都与传统的基于高斯分布的统计学模型有极大的不同。极值统计学就是专门研究自然界和人类社会中很少发生，然而发生之后有着巨大影响的极端现象的
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR