机器学习预处理：特征工程

什么是特征工程

特征是⽤于描述数据中的各种属性、变量或维度的信息，它们是模型⽤来做出预测或分类的输⼊。特征⼯程是使⽤专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作⽤的过程。良好的特征⼯程可以显著提⾼模型的性能，⽽糟糕的特征选择或构建可能导致模型性能下降。

意义：会直接影响机器学习的效果

特征⼯程的主要⽬标包括：

1. 特征选择：选择最相关的特征，以减少维度和噪声，提⾼模型的泛化能⼒。这可以通过统计⽅法、领域知识、特征重要性评估等⽅式来完成。

2. 特征构建：创建新的特征，以提供更多的信息或改善模型的性能。这可能包括将原始特征组合、进⾏数学变换、提取时间序列特征等操作。

3. 特征缩放：确保特征具有相似的尺度，以避免某些特征对模型的权重产⽣不适当的影响。常⻅的缩放⽅法包括标准化和归⼀化。

4. 处理缺失数据：处理缺失值，可以使⽤插补⽅法来填充缺失值，或者考虑是否删除包含缺失值的样本。

5. 处理分类特征：将分类特征进⾏编码，例如独热编码（One-Hot Encoding）或标签编码（Label Encoding），以使其适⽤于机器学习模型。

6. 特征交叉：将不同特征之间的关联性考虑在内，通过创建特征交叉来提供更多信息。

7. 特征选择和降维：使⽤降维技术（如主成分分析PCA）来减少特征的数量，以提⾼模型的效率和可解释性。

基本预处理

基本预处理：缺失值处理

删除属性或者删除样本：如果⼤部分样本该属性都缺失，这个属性能提供的信息有限，可以选择放弃使⽤该维属性
统计填充：对于缺失值的属性，尤其是数值类型的属性，根据所有样本关于这维属性的统计值对其进⾏填充，如使⽤平均数、中位数、众数、最⼤值、最⼩值等，具体选择哪种统计值需要具体问题具体分析。
统⼀填充：常⽤的统⼀填充值有：“空”、“0”、“正⽆穷”、“负⽆穷”等。
预测/模型填充：可以通过预测模型利⽤不存在缺失值的属性来预测缺失值，也就是先⽤预测模型把数据填充后再做进⼀步的⼯作，如统计、学习等。虽然这种⽅法⽐较复杂，但是最后得到的结果⽐较好。 pandas库： fillna sklearn库： Imputer

pandas库：fillna
sklearn库：Imputer

⽤特征⼯程处理泰坦尼克号的预数据

字段说明：

字段1	说明1	字段2	说明2
Passenge rId	乘客ID	Survived	⽣存情况，1为存活，0为死亡
Pclass	客舱等级，1为⾼级，2 为中级，3为低级	Name	乘客名字
Sex	乘客性别	Age	乘客年龄
SibSp	在船兄弟姐妹数/配偶数	Parch	在船⽗⺟数/⼦⼥数
Ticket	船票编号	Fare	船票价格
Cabin	客舱号	Embarked	登船港⼝

首先导入模块

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')  # 忽略警告,不写也不影响代码运行

导入数据，显示前5行：

df_train = pd.read_csv('train.csv')
print(df_train.head())  # 打印前5行

运行结果

PassengerId Survived Pclass ... Fare Cabin Embarked
0 1 0 3 ... 7.2500 NaN S
1 2 1 1 ... 71.2833 C85 C
2 3 1 3 ... 7.9250 NaN S
3 4 1 1 ... 53.1000 C123 S
4 5 0 3 ... 8.0500 NaN S

[5 rows x 12 columns]

显示行列数

print(df_train.shape)

运行结果：891行，12列

(891, 12)

看一下它大致有哪些字段，字段的类型

print(df_train.info())

运行结果

RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 PassengerId 891 non-null int64
1 Survived 891 non-null int64
2 Pclass 891 non-null int64
3 Name 891 non-null object
4 Sex 891 non-null object
5 Age 714 non-null float64
6 SibSp 891 non-null int64
7 Parch 891 non-null int64
8 Ticket 891 non-null object
9 Fare 891 non-null float64
10 Cabin 204 non-null object
11 Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

Non-Null Count 显示非空数据，总共891条，Age 和 Cabin 有空值。

看整体的情况：

print(df_train.describe())

运行结果

PassengerId Survived Pclass ... SibSp Parch Fare
count 891.000000 891.000000 891.000000 ... 891.000000 891.000000 891.000000
mean 446.000000 0.383838 2.308642 ... 0.523008 0.381594 32.204208
std 257.353842 0.486592 0.836071 ... 1.102743 0.806057 49.693429
min 1.000000 0.000000 1.000000 ... 0.000000 0.000000 0.000000
25% 223.500000 0.000000 2.000000 ... 0.000000 0.000000 7.910400
50% 446.000000 0.000000 3.000000 ... 0.000000 0.000000 14.454200
75% 668.500000 1.000000 3.000000 ... 1.000000 0.000000 31.000000
max 891.000000 1.000000 3.000000 ... 8.000000 6.000000 512.329200

[8 rows x 7 columns]

可以看到，中间有省略，默认显示数值列，如果不是数值列，是不能够进行显示的，如果希望显示全部，可以这样写

print(df_train.describe(include='all'))

运行结果

PassengerId Survived Pclass ... Fare Cabin Embarked
count 891.000000 891.000000 891.000000 ... 891.000000 204 889
unique NaN NaN NaN ... NaN 147 3
top NaN NaN NaN ... NaN B96 B98 S
freq NaN NaN NaN ... NaN 4 644
mean 446.000000 0.383838 2.308642 ... 32.204208 NaN NaN
std 257.353842 0.486592 0.836071 ... 49.693429 NaN NaN
min 1.000000 0.000000 1.000000 ... 0.000000 NaN NaN
25% 223.500000 0.000000 2.000000 ... 7.910400 NaN NaN
50% 446.000000 0.000000 3.000000 ... 14.454200 NaN NaN
75% 668.500000 1.000000 3.000000 ... 31.000000 NaN NaN
max 891.000000 1.000000 3.000000 ... 512.329200 NaN NaN

[11 rows x 12 columns]

我们看看哪些数据有异常情况，缺失值怎么去处理。

缺失值的处理

缺失值处理，以Age年龄为例

删除属性或者删除样本

统计补充
统⼀补充
模型预测补充

取出年龄数据

print(df_train['Age'])

运行结果

0 22.0
1 38.0
2 26.0
3 35.0
4 35.0
...
886 27.0
887 19.0
888 NaN
889 26.0
890 32.0
Name: Age, Length: 891, dtype: float64

1. 使用pandas填充

df_train['Age'].fillna(value=df_train['Age'].mean())
print(df_train['Age'])

运行结果

0 22.0
1 38.0
2 26.0
3 35.0
4 35.0
...
886 27.0
887 19.0
888 NaN
889 26.0
890 32.0
Name: Age, Length: 891, dtype: float64

没有填充成功是因为inplace默认是False

2. sklearn SimpleImputer 函数填充

from sklearn.impute import SimpleImputer  # 导入模块
imp = SimpleImputer(strategy='mean')      # 实例化对象
print(type(df_train[['Age']]))

运行结果：

通过赋值的方式用fit_transform进行转换

df_train[['Age']] = imp.fit_transform(df_train[['Age']].values)  # 注意用两层中括号表示它是dataframe格式
print(df_train.info())

运行结果

RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 PassengerId 891 non-null int64
1 Survived 891 non-null int64
2 Pclass 891 non-null int64
3 Name 891 non-null object
4 Sex 891 non-null object
5 Age 891 non-null float64
6 SibSp 891 non-null int64
7 Parch 891 non-null int64
8 Ticket 891 non-null object
9 Fare 891 non-null float64
10 Cabin 204 non-null object
11 Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

可以看到，Age列已经填充完毕

数值型特征

数值型的幅度变换：

log变换、多项式变换
幅度缩放（数据预处理）：MinMaxScaler 、 StandardScaler
统计数值： Max、Min、AVG...
四则运算：+ - * /

查看Age的唯一值

print(df_train['Age'].unique())  # 查看唯一值

运行结果

[22. 38. 26. 35. 29.69911765 54.
2. 27. 14. 4. 58. 20.
39. 55. 31. 34. 15. 28.
8. 19. 40. 66. 42. 21.
18. 3. 7. 49. 29. 65.
28.5 5. 11. 45. 17. 32.
16. 25. 0.83 30. 33. 23.
24. 46. 59. 71. 37. 47.
14.5 70.5 32.5 12. 9. 36.5
51. 55.5 40.5 44. 1. 61.
56. 50. 36. 45.5 20.5 62.
41. 52. 63. 23.5 0.92 43.
60. 10. 64. 13. 48. 0.75
53. 57. 80. 70. 24.5 6.
0.67 30.5 0.42 34.5 74. ]

可以看到，年龄从几个月到80不等。

1）对数变换

df_train['log_age'] = df_train['Age'].apply(lambda x:np.log(x))
print(df_train.head(5))

运行结果

PassengerId Survived Pclass ... Cabin Embarked log_age
0 1 0 3 ... NaN S 3.091042
1 2 1 1 ... C85 C 3.637586
2 3 1 3 ... NaN S 3.258097
3 4 1 1 ... C123 S 3.555348
4 5 0 3 ... NaN S 3.555348

[5 rows x 13 columns]

可以看到 log_age数据小了很多

2）MinMaxScaler()最大最小归一化处理

其中 min 是样本中最⼩值， max是样本中最⼤值

from sklearn.preprocessing import MinMaxScaler
# 实例化最大最小转换器
mm_scaler = MinMaxScaler()
# 用fit_transform处理船票的价格
fare_trans = mm_scaler.fit_transform(df_train['Fare'])
print(fare_trans)

运行结果如下

Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

fare_trans = mm_scaler.fit_transform(df_train[['Fare']])  # 加上一个中括号
print(fare_trans)

可以正常运行，运行结果比较多，就不展示了。最大最小归一化处理可以取得[0-1]之间的任何值，能取到0，也能取到1.

3）标准化处理

from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()
fare_std_fares = std_scaler.fit_transform(df_train[['Fare']])
print(fare_std_fares)

对数变换处理右偏或者左偏的数据使用对数变换可以让这个数据更加接近正态分布，有助于我们对模型的处理。

用的最多的是标准化处理，数据是标准的正态分布。

最大最小归一化涉及到最大值和最小值，很容易受到极值的影响。

总的来说：数据量大，要求精度的用标准化处理，数据量小，不要求精度的，可以使用最大最小归一化处理，数据如果呈现明显的左偏、右偏，用对数变换。

描述性统计分析

# 最⼤最⼩值,在电商⾥经常⽤到
max_age = df_train['Age'].max()
min_age = df_train['Age'].min()
print(max_age)
print(min_age)
# 分位数
# 1/4分位数
age_quarter_1 = df_train['Age'].quantile(0.25)
# 3/4分位数
age_quarter_3 = df_train['Age'].quantile(0.75)
print(age_quarter_1)
print(age_quarter_3)

运行结果

80.0
0.42
22.0
35.0

计算家庭总人数

df_train.loc[:,'family_size'] = df_train['SibSp']+df_train['Parch']+1
print(df_train.head())

运行结果

PassengerId Survived Pclass ... Embarked log_age family_size
0 1 0 3 ... S 3.091042 2
1 2 1 1 ... C 3.637586 2
2 3 1 3 ... S 3.258097 1
3 4 1 1 ... S 3.555348 2
4 5 0 3 ... S 3.555348 1

[5 rows x 14 columns]

⾼次特征与交叉特征

preprocessing.PolynomialFeatures

是什么:

PolynomialFeatures 变换⽤于在机器学习中创建多项式特征，它的主要⽬的是扩展特征空间，使模型能够更好地拟合⾮线性关系。这种变换通常⽤于线性回归、逻辑回归、⽀持向量机（SVM）等模型，特别是当原始特征与⽬标之间存在复杂的⾮线性关系时，多项式特征变换可以提⾼模型的性能。

怎么⽤:

对于给定的输⼊特征，例如⼀个特征向量 [x1, x2, x3]，PolynomialFeatures 将其转换为多项式的形式，包括原始特征的各种幂和交叉项。例如，对于⼆次多项式，它会⽣成 [x1, x2, x3, x1^2, x2^2, x3^2, x1x2, x1x3, x2x3]。

什么时候⽤:

1. ⾮线性关系：当你有理由相信⽬标变量与特征之间存在⾮线性关系时，多项式特征变换可以⽤来更好地捕捉这些⾮线性关系。

2. 特定特征之间的交互效应：如果你怀疑某些特征之间的交互效应对⽬标变量有影响，你可以使⽤多项式特征变换来引⼊这些交互项，以改善模型性能。

3. 特征⼯程：在⼀些情况下，多项式特征变换是特征⼯程的⼀部分，⽤于改进模型的性能。

4. ⾼次特征：如果你认为某些特征具有⾼次项的影响，例如 x^2, x^3, 等等，你可以使⽤多项式特征变换来引⼊这些⾼次项，以更好地描述数据的复杂性。

5. ⽤于⽀持向量机 (SVM)：在⽀持向量机中，多项式特征变换可以将数据映射到⾼维空间，从⽽使⽀持向量机能够更好地分隔不同类别的数据。

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2)   # 到x的二次方就截止了
print(df_train[['SibSp', 'Parch']].head())

poly_fea = poly.fit_transform(df_train[['SibSp','Parch']])
print(poly_fea)

运行结果

SibSp Parch
0 1 0
1 1 0
2 0 0
3 1 0
4 0 0
[[1. 1. 0. 1. 0. 0.]
[1. 1. 0. 1. 0. 0.]
[1. 0. 0. 0. 0. 0.]
...
[1. 1. 2. 1. 2. 4.]
[1. 0. 0. 0. 0. 0.]
[1. 0. 0. 0. 0. 0.]]

离散化

df_train.loc[:,'fare_cut'] = pd.cut(df_train['Fare'],5)
print(df_train.head())
print(df_train['fare_cut'].unique()) # 查看区间唯⼀值

运行结果

PassengerId Survived Pclass ... log_age family_size fare_cut
0 1 0 3 ... 3.091042 2 (-0.512, 102.466]
1 2 1 1 ... 3.637586 2 (-0.512, 102.466]
2 3 1 3 ... 3.258097 1 (-0.512, 102.466]
3 4 1 1 ... 3.555348 2 (-0.512, 102.466]
4 5 0 3 ... 3.555348 1 (-0.512, 102.466]

[5 rows x 15 columns]
[(-0.512, 102.466], (204.932, 307.398], (102.466, 204.932], (409.863, 512.329]]
Categories (5, interval[float64, right]): [(-0.512, 102.466] < (102.466, 204.932] <
(204.932, 307.398] < (307.398, 409.863] <
(409.863, 512.329]]

字符型特征

类别型：

pandas get_dummies/哑变量
OneHotEncoder()/独热向量编码
标签编码LabelEncoder()

get_dummies() 是 pandas 库中的⼀个函数，⽤于将分类数据转换为虚拟（⼆进制）变量

embarked = pd.get_dummies(df_train['Embarked'])
print(embarked)

运行结果

C Q S
0 False False True
1 True False False
2 False False True
3 False False True
4 False False True
.. ... ... ...
886 False False True
887 False False True
888 False False True
889 True False False
890 False True False

[891 rows x 3 columns]

参数说明：

data: 要进⾏虚拟编码的数据，可以是⼀个 DataFrame 或 Series。
columns (可选): ⼀个⽤于指定要编码的列名的列表。如果不指定，函数将尝试对数据中的所有⾮数值列进⾏编码。
prefix (可选): ⼀个字符串或字符串列表，⽤于指定⽣成的虚拟列的前缀。如果提供了多个前缀，它们将与列名⼀⼀对应。默认情况下，⽣成的虚拟列的名称将与原始分类值相同。
prefix_sep (可选): ⽤于分隔前缀和列名的字符串。默认为下划线 "_”。
drop_first (可选): 如果设置为 True，则将删除每个虚拟列中的第⼀个级别，以避免多重共线性。默认为 False。
dummy_na (可选): 如果设置为 True，将为缺失值创建虚拟列，表示原始列中的缺失值。默认为 False。
sparse (可选): 如果设置为 True，则⽣成稀疏矩阵，否则⽣成密集矩阵。稀疏矩阵在具有⼤量零值的情况下可以节省内存。默认为 False。
dtype (可选): ⽤于指定⽣成虚拟列的数据类型。默认为 None，会⾃动根据数据类型选择。

embarked_out = pd.get_dummies(df_train[['Embarked']])
print(embarked_out)

运行结果

Embarked_C Embarked_Q Embarked_S
0 False False True
1 True False False
2 False False True
3 False False True
4 False False True
.. ... ... ...
886 False False True
887 False False True
888 False False True
889 True False False
890 False True False

[891 rows x 3 columns]

小结

对于数值型的特征中，特征的属性是⽆序的，⽤独热编码/哑变量，⽐如说：性别、颜⾊、星期；
对于数值型的特征中，特征的属性是有序的，⽤标签编码(LabelEncoder)。⽐如说：公司的成⽴时间、职位；

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

机器学习预处理：特征工程

什么是特征工程

基本预处理

⽤特征⼯程处理泰坦尼克号的预数据

缺失值的处理

数值型特征

1）对数变换

2）MinMaxScaler()最大最小归一化处理

3）标准化处理

描述性统计分析

计算家庭总人数

⾼次特征与交叉特征

是什么:

怎么⽤:

什么时候⽤:

离散化

字符型特征

类别型：

小结

你可能感兴趣的:(机器学习,人工智能,深度学习)