33 机器学习（一）:特征工程

文章目录

机器学习需要用到的包的介绍
- 机器学习做什么
- 深度学习做什么
- 常见的概念
数据介绍
- 数据类型
- 数据的来源
- 数据的构成
特征工程
- one-hot编码
- 接口集
- 特征提取
- - DictVectorizer
  - CountVectorizer
  - TfidfVectorizer
- 特征处理
- - 归一化 MinMaxScaler
  - 标准化 StandardScaler
  - 标准化和归一化的对比
  - 空值处理 SimpleImputer
- 特征选择
- - 过滤（方差阈值） VarianceThreshold
- 降维
凑字数

机器学习需要用到的包的介绍

pip3 install scikit-learn

下载之后会下载下面的两个包：

第一个包scikit-learn是用来做机器学习的包。
第二个包是用来表示稀疏矩阵的。

相对应的官网：链接

我们按照sklearn这个包大概介绍一下机器学习的流程步骤，不太完整，但胜在可以稍微理解一下流程，如果有想法了解全流程的读者，可以在看完之后去啃一下西瓜书。

机器学习做什么

我们在sklearn的官网上可以看到：

他做的大概就是上面的这些东西。

深度学习做什么

分类
回归
先略讲，到时候自然明白

常见的概念

10-折交叉验证是一种常用的交叉验证方法，用于评估机器学习模型的性能它将数据集分成10份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验1. 每次试验都会得出相应的正确率 10次的结果的正确率的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证（例如10次10折交叉验证），再求其均值，作为对算法准确性的估计。
监督式学习和非监督式学习是机器学习中的两种技术. 监督式学习是一种目的明确的训练方式，需要给数据打标签，以便训练模型。监督式学习可以分为回归分析和分类. 非监督式学习则是没有明确目的的训练方式，不需要给数据打标签. 非监督式学习可以用于聚类和关联问题.
参数和超参数：参数是模型可以根据数据自动学习出的变量，例如神经网络的权重和偏置。而超参数是模型外部的配置，需要手动设置，例如学习率、迭代次数、层数、每层神经元的个数等等，超参数和参数的区别在于，超参数是模型外部的配置，需要手动设置，而参数是模型内部的配置，需要用数据估计超参数不需要数据来驱动调整，而参数通常是有数据来驱动调整，在深度学习中，超参数的选择对模型的性能有很大影响。因此，通常需要通过试验和交叉验证来选择最佳的超参数。

数据介绍

数据类型

离散型数据：由记录不同个体得到的数据，比如点评数，点赞数等等，又称计数数据，这些数据一般都是整数，但是不能再细分，也没办法提升他们的精确度。
连续型数据:变量可以在某个范围内取任一数，即变量的取值可以是连续的，如：长度、时间、质量值等，这类整数通常是非整数，含有小数部分。

注:只要记住一点，离散型是区间内不可分，连续型是区间内可分

数据的来源

这边列三个吧：

Kaggle网址: https://www.kaggle.com/datasets
uci数据集网址: http://archive.ics.uci.edu/ml/
scikit-learn网址: https://scikit-learn.org/stable/datasets

数据的构成

这就先涉及到监督学习和无监督学习，二者的概念的差别就是数据的构成，对于监督学习就是传入的数据是包含着label的，也就是包含着输入x我们希望他得到y，而无监督学习的数据构成就全是数据。

所以数据的构成：特征值+目标值（当然如果目标值不存在那么也就是无监督学习）

特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了模型对未知数据预测的准确性。

讲人话就是特征工程干的就是数据预处理的过程。

one-hot编码

经过机器学习的长期实验，我们在很早之前就采用one-hot编码进行代替标签，当然（没有本文写的那么简单，之后讲word2vec的时候会在进行讲解，或者读者可以自行去看看transformer的序列的东西）

我们先理解one-hot的思想：

例如，假设我们有一个分类变量“颜色”，它有三个可能的值：红、绿和蓝。我们可以使用one-hot编码将这些值转换为三个二进制变量：红色=（1,0,0），绿色=（0,1,0），蓝色=（0,0,1）这样，我们就可以在机器学习算法中使用这些值，比如说小明此时输入是(0,0,1)，代表的就是他选择的是蓝色。

接口集

特征提取的部分：

sklearn.feature_extraction

特征提取

DictVectorizer

from sklearn.feature_extraction import DictVectorizer

# 准备数据
dict_data = [{'city': '北京', 'temperature': 100},
             {'city': '上海', 'temperature': 80}]

# 创建字典的向量器 默认sparse = True 也就是按照稀疏矩阵进行存储
Dic_vector1 = DictVectorizer(sparse=False)
Dic_vector2 = DictVectorizer()

# 得到数据
Dic_data1 = Dic_vector1.fit_transform(dict_data)
Dic_data2 = Dic_vector2.fit_transform(dict_data)
print(Dic_data1,end='\n\n')
print(Dic_data2)
print('-'*20)

# 这边看看其他通用的接口 
# 查看矩阵每一列储存的是什么特征  这边需要理解one-hot
print(Dic_vector1.get_feature_names_out(),end='\n\n')

# 将矩阵反转成特征 用什么向量器得到的数据 就用什么向量器反转
print(Dic_vector1.inverse_transform(Dic_data1))

输出：

[[  0.   1. 100.]
 [  1.   0.  80.]]

  (0, 1)	1.0
  (0, 2)	100.0
  (1, 0)	1.0
  (1, 2)	80.0
--------------------
['city=上海' 'city=北京' 'temperature']

[{'city=北京': 1.0, 'temperature': 100.0}, {'city=上海': 1.0, 'temperature': 80.0}]

注意：如果sparse=true的话存储按照的是稀疏矩阵的方式进行存储。

CountVectorizer

英文的分词：

from sklearn.feature_extraction.text import CountVectorizer

# max_df, min_df整数：指每个词的所有文档词频数不小于最小值，出现该词的文档数目小于等于max_df
# max_df, min_df小数：每个词的次数／所有文档数量
input_data = ["life is  short,i like python life",
              "life is too long,i dislike python",
              "life is short"]
vector1 = CountVectorizer()
vector2 = CountVectorizer(min_df=2) #这个词的词频需要到达2个即以上才会被记录
vector3 = CountVectorizer(min_df=0.2) #这个词的词频占每个词的0.2以上才会被记录

# 调用fit_transform输入并转换数据
data1 = vector1.fit_transform(input_data)
data2 = vector2.fit_transform(input_data)
data3 = vector3.fit_transform(input_data)

# 一组一组来看吧 get_feature_names_out和toarray进行查看可以看出来我们对于i是没有进行统计的，原因就是在我们看来单个字符，属于干扰词频，比如我们中文中的得，就对于文本分析一点没用，故会去掉。
print(data1)
print(vector1.get_feature_names_out())
print(data1.toarray())
print(vector1.inverse_transform(data1))
print('-'*20)

# 可以看出统计的词频是根据所有出现的词语进行统计的
print(data2)
print(vector2.get_feature_names_out())
print(data2.toarray())
print(vector2.inverse_transform(data2))
print('-'*20)

print(data3)
print(vector3.get_feature_names_out())
print(data3.toarray())
print(vector3.inverse_transform(data3))

输出：

  (0, 2)	2
  (0, 1)	1
  (0, 6)	1
  (0, 3)	1
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 4)	1
  (1, 0)	1
  (2, 2)	1
  (2, 1)	1
  (2, 6)	1
['dislike' 'is' 'life' 'like' 'long' 'python' 'short' 'too']
[[0 1 2 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]
 [0 1 1 0 0 0 1 0]]
[array(['life', 'is', 'short', 'like', 'python'], dtype='), array(['life', 'is', 'python', 'too', 'long', 'dislike'], dtype='), array(['life', 'is', 'short'], dtype=')]
--------------------
  (0, 1)	2
  (0, 0)	1
  (0, 3)	1
  (0, 2)	1
  (1, 1)	1
  (1, 0)	1
  (1, 2)	1
  (2, 1)	1
  (2, 0)	1
  (2, 3)	1
['is' 'life' 'python' 'short']
[[1 2 1 1]
 [1 1 1 0]
 [1 1 0 1]]
[array(['life', 'is', 'short', 'python'], dtype='), array(['life', 'is', 'python'], dtype='), array(['life', 'is', 'short'], dtype=')]
--------------------
  (0, 2)	2
  (0, 1)	1
  (0, 6)	1
  (0, 3)	1
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 4)	1
  (1, 0)	1
  (2, 2)	1
  (2, 1)	1
  (2, 6)	1
['dislike' 'is' 'life' 'like' 'long' 'python' 'short' 'too']
[[0 1 2 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]
 [0 1 1 0 0 0 1 0]]
[array(['life', 'is', 'short', 'like', 'python'], dtype='), array(['life', 'is', 'python', 'too', 'long', 'dislike'], dtype='), array(['life', 'is', 'short'], dtype=')]

中文的分词：

# 但是此时我们会发现我们统计的词频实际上是跟着空格来的，也就是他并不存在一个很好的机制来分词中文
# 相同的对于一个汉字并不统计

# 使用jieba进行分词
input_data1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。")
input_data2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。")
input_data3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")

# 对于jieba分词后的数据不能直接print 需要对其list化后才是一系列的文字数据
print(list(input_data1))
print('-'*20)

# 赋值加上带空格的中文
data1 = ' '.join(list(input_data1))
data2 = ' '.join(list(input_data2))
data3 = ' '.join(list(input_data3))

vector = CountVectorizer()
result = vector.fit_transform([data1, data2, data3])
print(vector.get_feature_names_out())
print(result.toarray())

# 这时候你会发现为什么我们输入的第一句的词语全都不见了，而且我们切开的词语不是也有非1个字的吗？原因就是这个函数内部自定义了一个停用表。

输出：

['今天', '很', '残酷', '，', '明天', '更', '残酷', '，', '后天', '很', '美好', '，', '但', '绝对', '大部分', '是', '死', '在', '明天', '晚上', '，', '所以', '每个', '人', '不要', '放弃', '今天', '。']
--------------------
['一种' '不会' '之前' '了解' '事物' '光是在' '几百万年' '发出' '取决于' '只用' '含义' '如何' '如果' '宇宙'
 '我们' '方式' '星系' '某样' '看到' '真正' '秘密' '联系' '过去' '这样']
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 1 0 0 1 1 1 0 0 0 0 0 1 3 0 1 0 2 0 0 0 1 1]
 [1 1 0 4 3 0 0 0 1 1 1 1 1 0 1 1 0 1 0 2 1 1 0 0]]

TfidfVectorizer

TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

计算的方式是log10(这个词在此篇文章中出现的次数/在所有文章中出现的次数)

from sklearn.feature_extraction.text import TfidfVectorizer

# tfidf 算的是比率，我们可以看到上面出现的分词的出现的是词频，而我们使用tdidf来计算词频
input_data1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。")
input_data2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。")
input_data3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")
data1 = ' '.join(list(input_data1))
data2 = ' '.join(list(input_data2))
data3 = ' '.join(list(input_data3))

vector = TfidfVectorizer()
result = vector.fit_transform([data1,data2,data3])

print(vector.get_feature_names_out())
print(result.toarray())

输出：

['一种' '不会' '不要' '之前' '了解' '事物' '今天' '光是在' '几百万年' '发出' '取决于' '只用' '后天' '含义'
 '大部分' '如何' '如果' '宇宙' '我们' '所以' '放弃' '方式' '明天' '星系' '晚上' '某样' '残酷' '每个'
 '看到' '真正' '秘密' '绝对' '美好' '联系' '过去' '这样']
[[0.         0.         0.21821789 0.         0.         0.
  0.43643578 0.         0.         0.         0.         0.
  0.21821789 0.         0.21821789 0.         0.         0.
  0.         0.21821789 0.21821789 0.         0.43643578 0.
  0.21821789 0.         0.43643578 0.21821789 0.         0.
  0.         0.21821789 0.21821789 0.         0.         0.        ]
 [0.         0.         0.         0.2410822  0.         0.
  0.         0.2410822  0.2410822  0.2410822  0.         0.
  0.         0.         0.         0.         0.         0.2410822
  0.55004769 0.         0.         0.         0.         0.2410822
  0.         0.         0.         0.         0.48216441 0.
  0.         0.         0.         0.         0.2410822  0.2410822 ]
 [0.15698297 0.15698297 0.         0.         0.62793188 0.47094891
  0.         0.         0.         0.         0.15698297 0.15698297
  0.         0.15698297 0.         0.15698297 0.15698297 0.
  0.1193896  0.         0.         0.15698297 0.         0.
  0.         0.15698297 0.         0.         0.         0.31396594
  0.15698297 0.         0.         0.15698297 0.         0.        ]]

特征处理

归一化 MinMaxScaler

归一化后就是经过左边的式子之后会让原本的数落到【0，1】之间，但如果想要让这个数落到（-3，-1）之间呢？实际上也是遵守放缩的原则，就直接在归一化后得到的数据 ×(-2) -1，但这个接口代码都帮我们实现了。

# 归一化容易受极值的影响 举个例子：比如我们要和马云进行财产归一化然后给到机器进行训练，那我们自己的财产相对于马云不值一提，就全是0，那也就是说输入的全是0给机器训练，只有马云自己有值是1，那效果肯定很不好
from sklearn.preprocessing import MinMaxScaler

# 默认归一化到0-1之间，这个需要根据合适的任务进行适当的调整
max_min = MinMaxScaler(feature_range=(0, 2))

data = max_min.fit_transform([[90, 2, 10, 40], 
                              [60, 4, 15, 45], 
                              [75, 3, 13, 46]])
print(data)

输出：

[[1.         0.         0.         0.        ]
 [0.         1.         1.         0.83333333]
 [0.5        0.5        0.6        1.        ]]

标准化 StandardScaler

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

# 标准化缩放，不是标准正太分布，只均值为0，方差为1的分布
from sklearn.preprocessing import StandardScaler

std = StandardScaler()
data = std.fit_transform([[1., -1., 3.], [2., 4., 2.], [4., 6., -1.]])
print(data)
print('-'*20)

# mean 和 var 输出不是0 和 1 原因就是这个计算的是原本数组的均值和方差var是方差 std是标准差
print(std.mean_,end='\n\n')
print(std.var_,end='\n\n')
print(std.n_samples_seen_)  # 样本数

输出：

[[-1.06904497 -1.35873244  0.98058068]
 [-0.26726124  0.33968311  0.39223227]
 [ 1.33630621  1.01904933 -1.37281295]]
--------------------
[2.33333333 3.         1.33333333]

[1.55555556 8.66666667 2.88888889]

3
3

标准化和归一化的对比

对于归一化来说:如果出现异常点，影响了最大值和最小值，那么结果显然会发生改变，对于标准化来说:如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小，但是对于归一化来说他天然的支持快速运算梯度下降。

空值处理 SimpleImputer

替换下可以填写的参数：

mean 平均值
median 中值
most_frequent 出现最多的值
constant 搭配着fill_value参数进行一起使用，即采用默认值

# 空值处理一般分为两种 替换 或 删除 删除的化直接使用np的dropna 或者 pd的dropna即可
from sklearn.impute import SimpleImputer

# NaN, nan,缺失值必须是这种形式
im = SimpleImputer(missing_values=np.nan, strategy='median')
data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6], [3, 2]])
print(data)

输出：

[[1. 2.]
 [3. 3.]
 [7. 6.]
 [3. 2.]]

特征选择

首先比较差的特征分为冗余特征和噪声特征，前者举个例子就是我们需要机器分辨出是猫还是狗这两个类别，然后我们取了两个特征进行分析，第一个特征是否有爪子，第二个特征爪子长度，那么是否有爪子和爪子长度二者之间已经互相成为了冗余特征，他们有点包含关系，而噪声特征就是分辨他们俩，我举的是是否有羽毛，这种类型的造成负面影响的特征，为了避免有这种数据，我们除了手动删除特征，还有几个需要知道的删除：

主要方法（三大武器):

Filter(过滤式):VarianceThreshold
Embedded(嵌入式):正则化、决策树（之后再进行介绍）
Wrapper(包裹式)：多次训练，不断取子集，最后得到最好的特征，效果虽好，但是耗时耗力（有时候可以作为优点）。

过滤（方差阈值） VarianceThreshold

# 方差过滤
from sklearn.feature_selection import VarianceThreshold

#默认只删除方差为0,threshold是方差阈值，删除方差这个值小的那些特征，默认是0
var = VarianceThreshold(threshold=1)

data = var.fit_transform([[0, 2, 0, 3],
                          [0, 1, 4, 3],
                          [0, 1, 1, 3]])

print(data)

# 获得剩余的特征的列编号
print('The surport is %s' % var.get_support(True))

输出：

[[0]
 [4]
 [1]]
The surport is [2]

降维

本质:是一种分析、简化数据集的技术
目的:是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息，让计算机运算的快一些，将原本的多维的特征降成比较低维度的特征。
作用:可以削减回归分析或者聚类分析中特征的数量

实际上的算法的理解，这边只给出大概的说法，不进行详细探究，以后再说，我们可以将多维的特征，当成多维空间中的一个点，然后对其做到对应低一维度的垂直距离，让所有的这些垂直距离最短的一个低一维度的空间就是我们降一维的空间，然后多次运行即可得到任意维度的降维。

# 特征降维

from sklearn.decomposition import PCA
# n_components:小数 0~1 代表就是降成原本的多少维度一般都是取0.9-0.95 然后计算机会计算出到底要降成多少维度 如果是整数，即直接降成对应的维度

pca = PCA(n_components=0.9)
data = pca.fit_transform([[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]])
print(data)

输出：

[[ 1.28620952e-15  3.82970843e+00]
 [ 5.74456265e+00 -1.91485422e+00]
 [-5.74456265e+00 -1.91485422e+00]]

相同的降维还有LDA，这边就不进行介绍，此系列主要是一个流程向的介绍，而不是多的介绍。

凑字数

最后凑到1w字吧，这边讲解一下机器学习或者深度学习到底在做什么，拿回归为例子：比如说我们先有10个的特征值（学历工作是否有房有车）+目标值（女生是否喜欢）的一串数据，我们把这些数据拿给计算机，让他进行训练，并把目标值也告诉他，最后这个模型训练好了，我们再拿一组特征值输入进去，让机器帮忙判断女生是否喜欢，得到这样子一个数。

而具体什么是监督学习什么是非监督学习呢？上面说了，但下面为了氵，就再讲一点，就是一个是否存在已经提前定好的目标值，比如对于一些点进行分类，监督学习就是我们已经给出了具体的类，然后让机器判断这些别的东西怎么分类进去，而无监督学习则是，我们没说，机器自己去分类，最后分成多少类，分成什么样子都没有办法提前知道。

然后关于分类和回归，很多人也不理解，这边也给出一个相关的区别，对于分类来说，他的值大多数都是离散的，而对于回归来说他的值大多都是连续的。

举一些例子：
监督学习

分类： k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
回归：线性回归、岭回归
标注：隐马尔可夫模型·

无监督学习

聚类： k-means

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
迎接2019 唯有杜康1994
告别2018这一年是机遇与挑战，痛苦与喜悦，失去与收获的一年一月:收获了第一份爱情，开始真正想去了解一个人三月:对工作有了更深入的认识，靠自己的力量完成晋升五月:搬家，住进了自己理想的公寓，一间属于自己的屋子。满地的书六月:外调广州，升经理，有了自己的第一个团队。七月:怀着自我否定，第一次完成了部门任务八月:第一个员工流失，痛哭不已明白无不散之筵席九月:员工陆续离开，经济是一切的根本。十月:陪员工
大学播音主持都学什么内容？播音主持专业学什么？配音新手圈
有些喜欢播音主持并且犹豫要不要报考这个大学专业的小伙伴们就会想要了解大学播音主持都学什么内容吧，毕竟如果不够了解就直接选择这个专业真的等选择完进去学习以后才知道这个专业并不是自己想要学习的东西那就来不及了。下面是小编为大家整理出来的一些播音主持专业学习的内容，请往下看吧。大学播音主持专业主要学习的课程有：播音发声、播音创作基础、广播播音主持、电视播音主持、文艺作品演播学概论、新闻学概论、新闻采编、
被隔离的日子（五）@三七会写作营三七会萍海临风
从隔离的初期，我们三人都不适应，彼此说话都还火药味十足。后随着时间的推移，到现在，我们仨人能够心平气和，幽默地对待彼此。看来，时间可真是个好东西，不仅能见证一个人的心性，还能看清自己的需求、他人的本质。今天晚上，孩子跑到厨房，告诉我她给人捐款了。我纳闷，不是给河南捐过款了么。当时，我还落后于她捐的呢。这次又捐给谁？看到我一脸狐疑，孩子说，还记得初四给她补课的那个男老师么？当让记得，当时，就因为是男
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
android 自定义曲线图,Android自定义View——贝赛尔曲线 weixin_39767513 android 自定义曲线图
个人博客：haichenyi.com。感谢关注本文针对有一定自定义View的童鞋，最好对贝赛尔曲线有辣么一丢丢了解，不了解也没关系。花5分钟看一下GcsSloop的安卓自定义View进阶-Path之贝塞尔曲线。本文的最终效果图：最终效果图.gif思路首先他是一个只有上半部分的正弦形状的水波纹，很规则。其次，他这个正弦图左右在移动。然后，就是它这个自定义View，上下也在移动，是慢慢增加的最后，优化
新网师的精神肤色（幕布笔记）悦读书香
王子老师的《极简100小妙招》收到已经几天了，之前大概的浏览了全书，今天起给自己定了一个计划，必须每天学习极简小妙招里面的一个妙招，并加以运用。一、今天要打卡什么内容因有完成每天学习极简小妙招的计划，所以今天晚饭吃的比较简单，草草吃完以后带着小宝到广场溜达一圈，急忙赶回来学习极简小妙招。再重看的时候不知道自己要学点什么，打卡哪一招，感觉哪个都简单，就看这一环节像王子老师说的“一看就会”，但做这一环
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
学习JavaEE的日子 Day32 线程池 A 北枝学习JavaEE 学习 java-ee java 线程池
Day32线程池1.引入一个线程完成一项任务所需时间为：创建线程时间-Time1线程中执行任务的时间-Time2销毁线程时间-Time32.为什么需要线程池(重要)线程池技术正是关注如何缩短或调整Time1和Time3的时间，从而提高程序的性能。项目中可以把Time1，T3分别安排在项目的启动和结束的时间段或者一些空闲的时间段线程池不仅调整Time1，Time3产生的时间段，而且它还显著减少了创建
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
为自己点滴的进步喝彩 e5633888b9f4
当听到单位需要每周一三五加班到九点的时候，内心很坦然，没有指责抱怨，想到的是：又体验一下值夜班的感觉，还能趁此机会多与大家待在一起，孩子也可以得到独立方面的锻炼，一切都不是问题，搞不好再发点加班费就更好了，把这些都看成多得的，心情美美的，自己的事全力以赴做好，别人的事选择尊重，老天的事选择臣服。只要心有了目标，方向正确，就不怕路途的遥远。我们每一个人都不是孤立存在的，祖先一代代传承将生命体传承给了
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
没有如释重负君远近
虽然只有短短的一个多月的努力复习时间，但今天的整个考试经过，还是发现了效果的，题目做的比较自如，没有慌里慌张，而且提前五分钟完成。至于考试成绩，没有实足的把握，60分都不敢保证。但绝对相信自己，比去年肯定要好！今天早早的赶到考场，见到了刘老师，谈起来学习情况，坦率的说，真的是自己不够重视。总以为会很难，没有信心。其实不是的，只要认真对待，树立足够的信心，绝对可以通过考试的。还向老师询问了，后续再报
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
C++学习笔记（lambda函数） __TAT__ C&C++c++学习笔记
C++learningnote1、lambda函数的语法2、lambda函数的几种用法1、lambda函数的语法lambda函数的一般语法如下：[capture_clause](parameters)->return_type{function_body}capture_clause：需要捕获的变量，但要求该变量必须在这个作用域中。通常的捕获方式有以下几种：[]：不捕获任何变量[&]：按引用捕获变
为千佩蓉：为家庭放弃事业的男人没出息吗？北京朵多教育
为家庭放弃事业的男人没出息吗我们在搭档的过程中会遇到一些问题，因此要做好心理准备，这样才不会陷入抱怨或双输的局面。关键不是谁比谁能力强，而是夫妻之间如何取长补短。家庭要赢需要每个人的付出和牺牲，大家一起分担和负责，这样才能享受相爱的自由、安全和归属感。我们需要做的牺牲包括自己的时间、自己的一些爱好，甚至事业发展。为千认为做好父亲是非常重要的事，所以他不仅要出席在孩子们的生活中，还要积极地参与和带领
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
心赏（2018.10.8）六一节_3928
1.上班第一天，同事彤休完产假，回来上班，给我带了酸奶和水果。她生小孩时，我给她发了一个小红包贺喜，哪知她就记在心里了。心赏这个有心的90后。2.女儿放学回来，说自己当了小组长。一边说不想当，一边得意的样子。心赏老师给了孩子这个锻炼的机会。3.老妈今天做了"蚂蚁上树"的菜，得到女儿的高度肯定。心赏老妈还在不断学习。
＜商务世界＞《第25课餐桌上的礼仪-简单的流程》 Ealser 商务世界中国餐桌礼节
第一：迎客席座一般的程序是主人给客人邀请函——日子到了，主人到门外迎客——客人到了，问候几句——带着可人到0客厅小坐一会儿，给客人茶点——带客人入席坐好！第二：入座与座次首先要请客人中长者或地位高的先入座，再按身份地位依次入座，入座时要从椅子左边进入。（正对门口的为上座，一般是根据对方的.身份地位来安排）。入座后不要动筷子，更不要弄出什么响声来，也不要起身走动。如果有什么事要向主人打招呼！（做小辈
2022-2-13晨间日记越亮也打烊
今天是什么日子起床：7:00就寝：12:08天气：晴心情：糟糕纪念日：无任务清单昨日完成的任务，最重要的三件事：寒假作业，网课，画画改进：作业时间剪短习惯养成：网课不逃～周目标·完成进度数学卷子100％学习·信息·阅读《傅雷家书》《钢铁是怎样炼成的》健康·饮食·锻炼我终于不喝饮料啦，喝茶～人际·家人·朋友邝姐姐带我吃火锅工作·思考啥时候开学，我还有几天赶完作业最美好的三件事1.卷子写完了2.我有冰
知道这些概念，你会变得越来越聪明金海波
证实性偏差我们倾向于选择那些证实了我们的预期和假设的信息，同时倾向于忽视相反的信息。证实性偏见是选择性关注的实例。比如：从前有个人，丢了一把斧子。他怀疑是邻居家的儿子偷去了，便观察那人，那人走路的样子，像是偷斧子的;看那人的脸色表情，也像是偷斧子的;听他的言谈话语，更像是偷斧子的，那人的一言一行，一举一动，无一不像偷斧子的。不久后，丢斧子的人在上山的时候发现了他的斧子，第二天又见到邻居家的儿子，就
中原焦点团队38期王芳芳坚持分享第236天，20230630总约练134次，来访113次，咨8次，观察员13次芳芳王
学习焦点的初心是想拯救孩子，孩子由于沉迷游戏，成绩下滑，在学习的过程中发现是自己的教育方式出了状况。经过半年的学习，一些焦点的基本技巧，如接纳、欣赏、倾听、同理心、尊重等都有了一定的了解。但在实际应用时仍然存在很多问题，感觉自己仍然没有放下对孩子成绩的期望，仍然把握不住对孩子管理的度。我该如何去陪伴好孩子？多用心去听课，并加强反思，多约练。去思考如何让自己快乐起来？
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
#D174-读书会作业-《财务自由之路》3 白洲笔记
最近沉迷于写作营，一直就没时间去弄读书会的作业，书的第二遍也就看了个开头，趁着日更的时间，赶紧把作业做了，这次是15到21课。【1.印象最深刻的部分】(本周所读内容中印象最深刻的部分)*活在未来，最正确的方法是什么？用正确的方法做正确的事情，判断什么是正确的？逻辑。学会思考。"作对事情"永远比“把事情作对“重要的多。”长远思考，耐心验证，小心总结提炼“证明自己正确并不是学习的任务和目标，时刻成长，
放飞自我朵朵颐
图片发自App这个图是今天我分享的视频截屏下来的，设计师的创意让人感动，看着这个设计就会想设计师的灵感来源于哪里？设计师是一个什么样的人？设计师一定是一个放飞自我的人了，我心中充满喜悦之情去欣赏这个设计，它的精彩之处是每个人都可以从自己的角度去看待这个艺术品，我觉得它像一个镜头，光圈、焦距、快门。。。中间白色的一圈是最终曝光的地方，我想创意来源于手动变焦相机。听完马云的讲话，我脑海里浮现出“放飞自
账务处理又出错？资深会计来教你，学会效率翻倍！共同学习小橘子要努力吖
作为一名会计，在实际工作中会遇到各种麻烦的账务处理问题。那么，最常用的会计处理方法都有哪些呢？今天小编为大家带来了从业二十六年的资深老会计分享的十四中会计常用的账务处理问题的解决方案，快来看看吧！一、促销品的账务处理在促销时公司经常会把一些商品按进价赠送给消费者使用二、款已付清但发票未到的账务处理三、购买材料发生不合理损耗的账务处理问题公司在购买材料时，常常会发生一些不合理的损耗，那么这种问题该怎
【真诚子】通晓鬼谷第七篇读书日记。真诚子l通晓鬼谷
今天把个人品牌，从193读到208页，书的内容质量出奇的高，尤其是这一段。对标学习法，找一个比自己强，或者你期望成为的人进行模仿性学习，对标学习，不是到处，去找人对标兵学习很多人的优点，或是学习自己认为好的方面，而是找准一个对标高手，然后全方位的学习这个人。我在做品牌咨询时就对标，学习了一个在国内很有名的行业顶尖大咖。我先找到他公司的方案，进行完全模仿，连PPT的排版都一样，而且我只参照他一个人的
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
2018-11-18成长小组学习笔记实验中学45
因为嗓子“罢工”，我面对众人只能借“微笑”代言。在开始授课前，绣霞老师先反馈上次作业的情况，提到“接纳”需是真正发自内心的完全接纳，而不是口头上的接纳，内心却是排斥的。提到一个“问题”孩子恰恰对家爱的更加“深沉”，夫妻间的问题不能影响到孩子，对孩子更好的爱不是你为他做的更多，而是给他自由、健康成长的空间。图片发自App一、孩子：家庭的一面镜子夫妻成了彼此的“投射”，婚姻便“吵的不可开交”，婚姻便成
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修