LL_2048

R语言小白学习笔记14—线性模型

笔记链接
学习笔记14—线性模型
- 14.1 简单线性回归
- 14.2 多元回归——以纽约市公开数据详细分析

笔记链接

学习笔记1—R语言基础.
学习笔记2—高级数据结构.
学习笔记3—R语言读取数据.
学习笔记4—统计图.
学习笔记5—编写R语言函数和简单的控制循环语句.
学习笔记6—分组操作.
学习笔记7—高效的分组操作：dplyr.
学习笔记8—数据迭代.
学习笔记9—数据整理.
学习笔记10—数据重构：Tidyverse.
学习笔记11—字符串操作.
学习笔记12—概率分布.
学习笔记13—基本统计.

学习笔记14—线性模型

14.1 简单线性回归

简单线性回归公式：
y=a+bx+∈

∈~Ν(0,σ^2)

以UsingR包中的father.son数据为例，将父亲的身高作为预测变量，儿子的身高作为反应变量。

例：

> data(father.son, package = 'UsingR')
> library(ggplot2)
> head(father.son)
   fheight  sheight
1 65.04851 59.77827
2 63.25094 63.21404
3 64.95532 63.34242
4 65.75250 62.79238
5 61.13723 64.28113
6 63.02254 64.24221
> ggplot(father.son, aes(x=fheight, y=sheight)) + geom_point() + 
+     geom_smooth(method = "lm") + labs(x="Fathers", y="Sons")

这里得到了一个回归图形，但我们仍需要计算回归结果，用lm函数：

> heightsLM <- lm(sheight ~ fheight, data = father.son)
> heightsLM

Call:
lm(formula = sheight ~ fheight, data = father.son)

Coefficients:
(Intercept)      fheight  
    33.8866       0.5141

用summary函数可以得到模型的完整结果：

> summary(heightsLM)

Call:
lm(formula = sheight ~ fheight, data = father.son)

Residuals:
    Min      1Q  Median      3Q     Max 
-8.8772 -1.5144 -0.0079  1.6285  8.9685 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 33.88660    1.83235   18.49   <2e-16 ***
fheight      0.51409    0.02705   19.01   <2e-16 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.437 on 1076 degrees of freedom
Multiple R-squared:  0.2513,	Adjusted R-squared:  0.2506 
F-statistic: 361.2 on 1 and 1076 DF,  p-value: < 2.2e-16

方差分析：

这里介绍另一种做方差分析检验的方法：仅用一个分类变量且无截距项来拟合一个回归

例：

> data(tips, package = "reshape2")
> head(tips)
  total_bill  tip    sex smoker day   time size
1      16.99 1.01 Female     No Sun Dinner    2
2      10.34 1.66   Male     No Sun Dinner    3
3      21.01 3.50   Male     No Sun Dinner    3
4      23.68 3.31   Male     No Sun Dinner    2
5      24.59 3.61 Female     No Sun Dinner    4
6      25.29 4.71   Male     No Sun Dinner    4
> tipsAnova <- aov(tip ~ day - 1, data = tips)
> tipsLM <- lm(tip ~ day - 1, data = tips)
> summary(tipsAnova)
           Df Sum Sq Mean Sq F value Pr(>F)    
day         4 2203.0   550.8   290.1 <2e-16 ***
Residuals 240  455.7     1.9                   
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> summary(tipsLM)

Call:
lm(formula = tip ~ day - 1, data = tips)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.2451 -0.9931 -0.2347  0.5382  7.0069 

Coefficients:
        Estimate Std. Error t value Pr(>|t|)    
dayFri    2.7347     0.3161   8.651 7.46e-16 ***
daySat    2.9931     0.1477  20.261  < 2e-16 ***
daySun    3.2551     0.1581  20.594  < 2e-16 ***
dayThur   2.7715     0.1750  15.837  < 2e-16 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.378 on 240 degrees of freedom
Multiple R-squared:  0.8286,	Adjusted R-squared:  0.8257 
F-statistic: 290.1 on 4 and 240 DF,  p-value: < 2.2e-16

14.2 多元回归——以纽约市公开数据详细分析

多元回归可以有多个预测变量。

以纽约市公开数据为例：

获取数据

> housing <- read.table("http://www.jaredlander.com/data/housing.csv",
+                       sep = ",", header = TRUE,
+                       stringsAsFactors = FALSE)

重命名

> names(housing) <- c("Neighborhood", "Class", "Units", "YearBuilt", 
+                     "SqFt", "Income", "IncomePerSqFt", "Expense",
+                     "ExpensePerSqFt", "NetIncome", "Value",
+                     "ValuePerSqFt", "Boro")
> head(housing)
  Neighborhood          Class Units YearBuilt   SqFt
1    FINANCIAL R9-CONDOMINIUM    42      1920  36500
2    FINANCIAL R4-CONDOMINIUM    78      1985 126420
3    FINANCIAL RR-CONDOMINIUM   500        NA 554174
4    FINANCIAL R4-CONDOMINIUM   282      1930 249076
5      TRIBECA R4-CONDOMINIUM   239      1985 219495
6      TRIBECA R4-CONDOMINIUM   133      1986 139719
    Income IncomePerSqFt Expense ExpensePerSqFt
1  1332615         36.51  342005           9.37
2  6633257         52.47 1762295          13.94
3 17310000         31.24 3543000           6.39
4 11776313         47.28 2784670          11.18
5 10004582         45.58 2783197          12.68
6  5127687         36.70 1497788          10.72
  NetIncome    Value ValuePerSqFt      Boro
1    990610  7300000       200.00 Manhattan
2   4870962 30690000       242.76 Manhattan
3  13767000 90970000       164.15 Manhattan
4   8991643 67556006       271.23 Manhattan
5   7221385 54320996       247.48 Manhattan
6   3629899 26737996       191.37 Manhattan

这里反应变量是每平方英尺的值，预测变量是剩下所有变量。

首先探索性地对数据进行可视化，用不同的视角看待数据

画出ValuePerSqFt的直方图。

> library(ggplot2)
> ggplot(housing, aes(x=ValuePerSqFt)) + 
+     geom_histogram(binwidth = 10) + labs(x="Value per Square Foot")

直方图的双峰特征说明有东西需要继续探索

接下来用不同的颜色代表不同Boro。并画出不同城市的直方图作对比

> ggplot(housing, aes(x=ValuePerSqFt, fill=Boro)) + 
+     geom_histogram(binwidth = 10) + labs(x="Value per Square Foot")

> ggplot(housing, aes(x=ValuePerSqFt, fill=Boro)) + 
+     geom_histogram(binwidth = 10) + labs(x="Value per Square Foot") +
+     facet_wrap(~Boro)

可以看出Brooklyn和Queens是一个模式，Manhattan是另外一个模式，其余数据不足。

现在我们看下建筑面积和单元的个数

> ggplot(housing, aes(x=SqFt)) + geom_histogram()

> ggplot(housing, aes(x=Units)) + geom_histogram()

去除单元数大于1000的数据

> ggplot(housing[housing$Units < 1000, ], aes(x=SqFt)) + geom_histogram()

> ggplot(housing[housing$Units < 1000, ], aes(x=Units)) + geom_histogram()

会发现去除超过1000单元的建筑后是一样的

那么以每平方英尺的值为纵坐标，分别以单元数和建筑面积为横坐标，画出散点图：

> ggplot(housing, aes(x=SqFt, y=ValuePerSqFt)) + geom_point()

> ggplot(housing, aes(x=Units, y=ValuePerSqFt)) + geom_point()

同样，去除超过1000单元的数据进行观察

> ggplot(housing[housing$Units < 1000, ], aes(x=SqFt, y=ValuePerSqFt)) + geom_point()

> ggplot(housing[housing$Units < 1000, ], aes(x=Units, y=ValuePerSqFt)) + geom_point()

可以看出删除这些离群值数据影响不大。所以删除后继续分析

> sum(housing$Units >= 1000)
[1] 6
> housing <- housing[housing$Units < 1000, ]

可以看出数据在Units较小时较为集中，较大时较为分散，所以作对数可能更好分析一些。

所以这里分别对SqFt和Units作对数并作图进行比较

> ggplot(housing, aes(x=SqFt, y=ValuePerSqFt)) +geom_point()
> ggplot(housing, aes(x=log(SqFt), y=ValuePerSqFt)) +geom_point()
> ggplot(housing, aes(x=SqFt, y=log(ValuePerSqFt))) +geom_point()
> ggplot(housing, aes(x=log(SqFt), y=log(ValuePerSqFt))) +geom_point()

> ggplot(housing, aes(x=Units, y=ValuePerSqFt)) +geom_point()
> ggplot(housing, aes(x=log(Units), y=ValuePerSqFt)) +geom_point()
> ggplot(housing, aes(x=Units, y=log(ValuePerSqFt))) +geom_point()
> ggplot(housing, aes(x=log(Units), y=log(ValuePerSqFt))) +geom_point()

通过这些对比可以看到对建筑面积和单元数取对数或许更有用

接下来开始进行模型的建立

用lm函数建立模型，多个预测变量用“+”隔开

> house1 <- lm(ValuePerSqFt ~ Units + SqFt + Boro, data=housing)
> summary(house1)

Call:
lm(formula = ValuePerSqFt ~ Units + SqFt + Boro, data = housing)

Residuals:
     Min       1Q   Median       3Q      Max 
-168.458  -22.680    1.493   26.290  261.761 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)
(Intercept)        4.430e+01  5.342e+00   8.293  < 2e-16
Units             -1.532e-01  2.421e-02  -6.330 2.88e-10
SqFt               2.070e-04  2.129e-05   9.723  < 2e-16
BoroBrooklyn       3.258e+01  5.561e+00   5.858 5.28e-09
BoroManhattan      1.274e+02  5.459e+00  23.343  < 2e-16
BoroQueens         3.011e+01  5.711e+00   5.272 1.46e-07
BoroStaten Island -7.114e+00  1.001e+01  -0.711    0.477
                     
(Intercept)       ***
Units             ***
SqFt              ***
BoroBrooklyn      ***
BoroManhattan     ***
BoroQueens        ***
BoroStaten Island    
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 43.2 on 2613 degrees of freedom
Multiple R-squared:  0.6034,	Adjusted R-squared:  0.6025 
F-statistic: 662.6 on 6 and 2613 DF,  p-value: < 2.2e-16

这里给出了模型的信息：包括函数的名称、残差（residuals）的分位数、系数估计、标准误差、每个变量的p值、自由度、模型的p值和F统计量的值。

模型的p值和F统计量是度量模型的拟合优度。

从模型中快速获取系数的一种方法是使用coef函数，或对模型对象使用$运算符

> house1$coefficients
      (Intercept)             Units              SqFt 
     4.430325e+01     -1.532405e-01      2.069727e-04 
     BoroBrooklyn     BoroManhattan        BoroQueens 
     3.257554e+01      1.274259e+02      3.011000e+01 
BoroStaten Island 
    -7.113688e+00 
> coef(house1)
      (Intercept)             Units              SqFt 
     4.430325e+01     -1.532405e-01      2.069727e-04 
     BoroBrooklyn     BoroManhattan        BoroQueens 
     3.257554e+01      1.274259e+02      3.011000e+01 
BoroStaten Island 
    -7.113688e+00

接下来对回归结果进行可视化

用coefplot包可以完成。

> library(coefplot)
> coefplot(house1)

其中每个系数的估计值是一个点，粗线表示一个标准误差的置信区间，细线代表两倍标准误差的置信区间。竖直的直线表示0。

一般情况下，判断在统计上是否显著的方法是看两倍置信区间是否包含0，如果不包含，则在统计上显著。

观察此图可以发现Manhattan对每英尺价值具有最大影响。但建筑中的单元数或面积对其影响不大。

这个模型只有相加项，但变量之间的相互作用也可能会有影响。

在交互变量之间使用“*”符号可以把交互项加入表达式中。
如果只包括交互项不包括单个变量用“:”。

> house2 <- lm(ValuePerSqFt ~ Units * SqFt + Boro, data=housing)
> house3 <- lm(ValuePerSqFt ~ Units : SqFt + Boro, data=housing)
> house2$coefficients
      (Intercept)             Units              SqFt 
     4.093685e+01     -1.024579e-01      2.362293e-04 
     BoroBrooklyn     BoroManhattan        BoroQueens 
     3.394544e+01      1.272102e+02      3.040115e+01 
BoroStaten Island        Units:SqFt 
    -8.419682e+00     -1.809587e-07 
> house3$coefficients
      (Intercept)      BoroBrooklyn     BoroManhattan 
     4.804972e+01      3.141208e+01      1.302084e+02 
       BoroQueens BoroStaten Island        Units:SqFt 
     2.841669e+01     -7.199902e+00      1.088059e-07 
> coefplot(house2)

> coefplot(house3)

如果3个变量有交互作用，那么回归的系数包括3个单个变量的系数、3个两两交互的系数和一个3变量交互项的系数。

> house4 <- lm(ValuePerSqFt ~ SqFt * Units * Income, housing)
> house4$coefficients
      (Intercept)              SqFt             Units 
     1.116433e+02     -1.694688e-03      7.142611e-03 
           Income        SqFt:Units       SqFt:Income 
     7.250830e-05      3.158094e-06     -5.129522e-11 
     Units:Income SqFt:Units:Income 
    -1.279236e-07      9.107312e-14

一个连续变量（如SqFt）和一个factor（如Boro）交互，结果是连续变量的个体项

> house5 <- lm(ValuePerSqFt ~ Class*Boro, housing)
> house5$coefficients
                          (Intercept) 
                            47.041481 
                  ClassR4-CONDOMINIUM 
                             4.023852 
                  ClassR9-CONDOMINIUM 
                            -2.838624 
                  ClassRR-CONDOMINIUM 
                             3.688519 
                         BoroBrooklyn 
                            27.627141 
                        BoroManhattan 
                            89.598397 
                           BoroQueens 
                            19.144780 
                    BoroStaten Island 
                            -9.203410 
     ClassR4-CONDOMINIUM:BoroBrooklyn 
                             4.117977 
     ClassR9-CONDOMINIUM:BoroBrooklyn 
                             2.660419 
     ClassRR-CONDOMINIUM:BoroBrooklyn 
                           -25.607141 
    ClassR4-CONDOMINIUM:BoroManhattan 
                            47.198900 
    ClassR9-CONDOMINIUM:BoroManhattan 
                            33.479718 
    ClassRR-CONDOMINIUM:BoroManhattan 
                            10.619231 
       ClassR4-CONDOMINIUM:BoroQueens 
                            13.588293 
       ClassR9-CONDOMINIUM:BoroQueens 
                            -9.830637 
       ClassRR-CONDOMINIUM:BoroQueens 
                            34.675220 
ClassR4-CONDOMINIUM:BoroStaten Island 
                                   NA 
ClassR9-CONDOMINIUM:BoroStaten Island 
                                   NA 
ClassRR-CONDOMINIUM:BoroStaten Island 
                                   NA

由于SqFt变量和Units变量不显著，所以我们放大进行观察

> coefplot(house1, sort='mag') + scale_x_continuous(limits = c(-.25, .1))

> coefplot(house1, sort='mag') + scale_x_continuous(limits = c(-.0005, .0005))

可以看到放大后其系数都不为0，所以可能是尺度问题。

尺度问题可以通过标准化或归一化变量解决，变量减去均值再除以标准差。

标准化可以用scale函数实现

> house.b <- lm(ValuePerSqFt ~ scale(Units) + scale(SqFt) + Boro, data=housing)
> coefplot(house.b, sort='mag')

通过和之前的图进行对比可以发现，SqFt变量有一个标准差的改变时，ValuePerSqFt变量变化约30。也可以看出Units变量有负面的影响，说明Units变量有利于建筑的Value变量。

另一种好的检验方法是将Units变量与SqFt变量的比值作为一个变量。除法必须放在I函数里边

> house6 <- lm(ValuePerSqFt ~ I(SqFt/Units) + Boro, housing)
> house6$coefficients
      (Intercept)     I(SqFt/Units)      BoroBrooklyn 
     43.754838763       0.004017039      30.774343209 
    BoroManhattan        BoroQueens BoroStaten Island 
    130.769502685      29.767922792      -6.134446417

我们已经拟合了很多模型，模型的选择之后介绍。此时可以将多个模型系数进行可视化：

> multiplot(house1, house2, house3)

回归经常用于做预测，R语言中predict函数就可以完成。

例：

> housingNew <- read.table("http://www.jaredlander.com/data/housingNew.csv", sep=",", header=TRUE, stringsAsFactors = FALSE)
> housePredict <- predict(house1, newdata=housingNew, se.fit=TRUE, interval = "prediction", level=.95)
> head(housePredict$fit)
        fit        lwr      upr
1  74.00645 -10.813887 158.8268
2  82.04988  -2.728506 166.8283
3 166.65975  81.808078 251.5114
4 169.00970  84.222648 253.7968
5  80.00129  -4.777303 164.7799
6  47.87795 -37.480170 133.2361
> head(housePredict$se.fit)
       1        2        3        4        5        6 
2.118509 1.624063 2.423006 1.737799 1.626923 5.318813

数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
C++学习笔记（lambda函数） __TAT__ C&C++c++学习笔记
C++learningnote1、lambda函数的语法2、lambda函数的几种用法1、lambda函数的语法lambda函数的一般语法如下：[capture_clause](parameters)->return_type{function_body}capture_clause：需要捕获的变量，但要求该变量必须在这个作用域中。通常的捕获方式有以下几种：[]：不捕获任何变量[&]：按引用捕获变
2018-11-18成长小组学习笔记实验中学45
因为嗓子“罢工”，我面对众人只能借“微笑”代言。在开始授课前，绣霞老师先反馈上次作业的情况，提到“接纳”需是真正发自内心的完全接纳，而不是口头上的接纳，内心却是排斥的。提到一个“问题”孩子恰恰对家爱的更加“深沉”，夫妻间的问题不能影响到孩子，对孩子更好的爱不是你为他做的更多，而是给他自由、健康成长的空间。图片发自App一、孩子：家庭的一面镜子夫妻成了彼此的“投射”，婚姻便“吵的不可开交”，婚姻便成
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Java学习笔记01 .wsy. 日常 java 学习笔记
1.1Java简介Java的前身是Oak，詹姆斯·高斯林是java之父。1.2Java体系Java是一种与平台无关的语言，其源代码可以被编译成一种结构中立的中间文件（.class，字节码文件）于Java虚拟机上运行。1.2.3专有名词JDK提供编译、运行Java程序所需要的种种工具及资源。JRE是运行Java所依赖的环境的集合。JVM是一个虚构出来的计算机，通过在实际的计算机上仿真模拟各种计算机功
【Git安装及使用学习笔记】可可西里啊零零散散的学习笔记 git 学习笔记 c++qt5
Git学习笔记Git安装Git创建本地版本库以及提交文件使用Git提交代码到码云使用Git从码云拉取代码参考博客Git安装这里参考Git详细安装教程（详解Git安装过程的每一个步骤）Git创建本地版本库以及提交文件1.查看git版本信息：git--version2.设置对应用户名与邮箱地址gitconfig--globaluser.name"your_usernamegitconfig--glob
C#学习笔记 2301_79022588 学习笔记
一、事件派发器在C#中，事件派发器通常是指事件委托和事件处理程序的组合，用于实现一种观察者设计模式。它允许对象在状态发生变化时通知其他对象，从而实现对象之间的解耦。事件派发器的基本组成部分：事件委托（EventDelegate）：事件委托是一种特殊的委托，用于封装可以被调用的方法。它定义了事件的签名，即指定了事件处理程序方法的参数和返回类型。通常，事件委托声明在事件派发器类的外部，并且使用dele
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
Java学习笔记04：Java_数组 JasonYangQ Java java
文章目录1.数组1.1数组介绍1.2数组的定义格式1.2.1第一种格式1.2.2第二种格式1.3数组的动态初始化1.3.1什么是动态初始化1.3.2动态初始化格式1.3.3动态初始化格式详解1.4数组元素访问1.4.1什么是索引1.4.2访问数组元素格式1.4.3示例代码1.5内存分配1.5.1内存概述1.5.2java中的内存分配1.9数组的静态初始化1.9.1什么是静态初始化1.9.2静态初始
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
【编译原理】一篇就够了——学习笔记与课程实验超详细整理一棵___大树编译原理学习笔记学习算法
⭐⭐⭐⭐⭐⭐Github主页https://github.com/A-BigTree更多学习笔记链接https://github.com/A-BigTree/college_assignment编译原理实验https://github.com/A-BigTree/college_assignment/compiler_Experiment如果可以，麻烦各位看官顺手点个star~如果文章对你有所帮助
Java学习笔记：atomic的实现原理？曲钟人散
在多线程的场景中，我们需要保证数据安全，就会考虑同步的方案，通常会使用synchronized或者lock来处理，使用了synchronized意味着内核态的一次切换。这是一个很重的操作。有没有一种方式，可以比较便利的实现一些简单的数据同步，比如计数器等等。concurrent包下的atomic提供我们这么一种轻量级的数据同步的选择。classMyThreadimplementsRunnable{
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
Python学习笔记07 正文01 python 学习笔记
第十三章，面向对象初识对象生活中数据的组织学校开学，要求学生填写自己的基础信息，一人发一张白纸，让学生自己填我叫林军杰，今年31岁.来自山东省，我是男的，中国人内容混乱改为登记表，打印出来让学生自行填写：姓名林军杰姓别男国籍中国籍贯山东省年龄31整洁明了程序中数据的组织在程序中简单使用变量来记录学生信息student_1={"姓名"："周杰轮"，"性别"："男"，"国籍"："中国"，"籍贯"："台
Python学习笔记03 正文01 python 学习笔记
第五章、Python函数函数介绍函数函数：是组织好的，可重复使用的，用来实现特定功能的代码段name="itheima"length=len(name)print(length)输出结果：7为什么随时都可以使用len()统计长度？因为，len()是Python内置的函数：是提前写好的可以重复使用实现统计长度这一特定功能的代码段我们使用过的：input()、print()、str()、int()等都
揭秘物联网网关，如何工作？功能及选择网关的主要考虑因素东胜物联硬件知识东胜产品物联网嵌入式硬件智能硬件智能网关
【前言】本篇为物联网硬件系列学习笔记，分享学习，欢迎评论区交流~在物联网时代，物联网网关至关重要。它充当传统通信网络和传感网络之间的桥梁。物联网网关作为M2M网关，可以实现各类感知网络之间、感知网络与通信网络之间的协议转换。同时，它能够实现广域和局域连接。此外，物联网网关还要求具备设备管理功能，以便操作人员能够管理底层传感节点，了解各节点的相关信息，实现实时显示、异常报警和远程控制。物联网网关如何
c++学习笔记（8）有趣的树人 c++学习笔记
1.C++中的strlen函数用于计算字符串的长度，直到遇到空字符（'0'）为止，但不包括这个空字符本身。strlen是C语言标准库中的一个函数，它的作用是确定一个以空字符结尾的字符数组（即C风格字符串）的长度。这个函数在头文件中定义，通常在需要知道字符串长度时使用，例如在复制或比较字符串时。关键点：函数原型：size_tstrlen(constchar*str)，其中size_t是一个无符号整数
学习笔记：TBL团队合作学习法琦0227
最近几讲陈蕾老师一直围绕着小组活动展开，先是澄清了小组活动的三种形式：对话，讨论与合作；接着给出了合作学的三种方法：TPS，四聚头法，拼图法；然后带领我们认识实施合作学习的五要素。有浅入深，让我们对小组活动的认知螺旋上升。今天这一讲TBL团队学习法。结合前面的学习，TBL与一般小组合作学习的不同之处在于：第一：TBL有固定且目的性的异质分组。一般小组合作我们常采用同桌两两一组，前后桌四人一组等比较
一文详解大数据时代与低代码开发应用快乐非自愿大数据低代码
随着信息技术的飞速发展，我们迎来了一个崭新的时代——大数据时代。在这个时代，数据成为了一种新的资源，大数据技术的应用成为了推动社会进步的关键力量。而在大数据技术的浪潮中，低代码开发应用也逐渐崭露头角，以其高效、灵活的特点，成为大数据时代的重要支撑。大数据时代的来临随着科技的飞速发展和互联网的广泛普及，我们迎来了一个被称为“大数据时代”的全新时代。这个时代，数据无处不在，无时不刻不在增长，其规模之大
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
Python学习笔记 —— 文件处理模块 miles-zh python python
Excel文件openpyxl读/写Excel文件，https://pypi.org/project/openpyxlxlwt创建Excel文件，设置单元格样式，https://pypi.org/project/xlwtxlrd读取Excel文件，https://pypi.org/project/xlrdxlutils修改Excel文件，https://pypi.org/project/xluti
Java学习笔记之Java基础语法01-变量与常量神马都会亿点点的毛毛张编程笔记编程实战 java 学习笔记
文章目录0.前言1.注释1.1注释格式1.2使用的技巧2.关键字2.1概念2.2class关键字2.3保留字3.字面量3.1字面量种类3.2常用转义字符4.变量4.1变量定义4.2数据类型1.分类2.基本数据类型(四类八种)3.变量初始化细节4.3计算机中的数据存储4.4练习练习1练习2练习34.5标识符1.硬性要求：2.命名原则A.小驼峰命名法B.大驼峰命名法C.阿里巴巴命名规范细节：0.前言本
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
web学习笔记（四十二） shan33__ 笔记前端学习笔记 javascript 开发语言
目录1.ECMAScript新特性-async和await1.1async函数1.2await函数1.3补充：2.ES6模块化2.1模块化的优点2.2ES6模块化语法2.3ES6模块暴露2.4ES6模块导入1.ECMAScript新特性-async和await1.1async函数async函数可以单数使用，但一般我们会将async函数和await函数结合使用，可以让异步代码像同步代码一样运行，也可
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
beego框架基础知识学习笔记一弓虽 beego框架学习 beego 学习
网站beegogithub地址：https://github.com/beego/beegobeego中文学习文档：http://beego.gocn.vip/beego/zh/developing/什么是beegobeego是一个快速开发go应用的HTTP框架他可以用来快速开发API、Web及后端服务等各种应用bee工具什么是beebee工具是一个为了协助快速开发beego项目而创建的项目，通过
RabbitMQ学习笔记：节点名称详解、rabbitmq-server、及rabbitmq-env.conf Bejpse java java 后端
rabbitmq-serverrabbitmq-server启动一个RabbitMQ节点1.rabbitmq-server在前端启动一个RabbitMQ节点，示例如下：[root@rabbit3rabbitmq]#rabbitmq-server####RabbitMQ3.8.1##############Copyright(c)2007-2019PivotalSoftware,Inc.######
大数据毕设图像识别-人脸识别与疲劳检测 - python opencv fawubio_A python 算法
文章目录0前言1课题背景2Dlib人脸识别2.1简介2.2Dlib优点2.3相关代码2.4人脸数据库2.5人脸录入加识别效果3疲劳检测算法3.1眼睛检测算法3.2打哈欠检测算法3.3点头检测算法4PyQt54.1简介4.2相关界面代码0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

R语言小白学习笔记14—线性模型