机器学习从入门到实践：算法、特征工程与模型评估详解

摘要

1. 引言

2. 机器学习概述

2.1 什么是机器学习？

2.2 机器学习的发展历史

2.3 机器学习的应用

3. 机器学习算法分类

3.1 监督学习（Supervised Learning）

3.2 无监督学习（Unsupervised Learning）

3.3 半监督学习（Semi-Supervised Learning）

4 算法详解

4.1 分类算法详解

（1）逻辑回归（Logistic Regression）

（2）决策树（Decision Tree）

（3）随机森林（Random Forest）

4.2 回归算法详解

（1）线性回归（Linear Regression）

（2）岭回归（Ridge Regression）

4.3 聚类算法详解

（1）K-Means

（2）DBSCAN

扩展内容：模型评估与优化

交叉验证与网格搜索

特征工程管道

总结

5. 特征工程与模型评估

5.1 数据预处理

（1）缺失值处理

（2）标准化与归一化

5.2 特征选择

5.3 模型评估

（1）分类问题评估指标

（2）回归问题评估指标

6. 深度学习核心技术详解

6.1 卷积神经网络（CNN）

6.2 循环神经网络（RNN）与LSTM

6.3 模型训练与调优策略

6.4 应用场景对比

7. 关键点总结

8. 结语

摘要

本文系统介绍了机器学习的核心概念与实践方法，涵盖算法分类、特征工程和模型评估。主要内容包括：1）机器学习概述与发展历程；2）监督学习（分类/回归）、无监督学习（聚类/降维）及半监督学习的算法详解与代码示例；3）特征工程中的数据处理、特征选择技术；4）深度学习模型（CNN/RNN）原理与应用案例；5）模型评估指标与优化策略。文章通过Python代码示例（Scikit-learn/TensorFlow）演示典型任务的实现过程，为读者提供从理论到实践的完整学习路径，适用于金融、医疗、NLP等领域的数据分析需求。

1. 引言

机器学习（Machine Learning, ML）是人工智能（AI）的核心技术之一，它使计算机能够从数据中学习规律并做出预测或决策，而无需显式编程。随着大数据和计算能力的提升，机器学习在金融、医疗、自动驾驶、推荐系统等领域取得了显著成果。

本文将系统介绍机器学习的核心概念，包括：

机器学习概述（定义、发展历史、应用场景）
机器学习算法分类（监督学习、无监督学习、半监督学习）
常用算法详解（分类、回归、聚类、关联规则）
特征工程与模型评估（数据预处理、特征选择、模型优化）
深度学习简介（CNN、RNN、应用案例）
实战代码示例（Python + Scikit-learn + TensorFlow）

2. 机器学习概述

2.1 什么是机器学习？

机器学习是一种让计算机从数据中学习规律并做出预测的技术。其核心思想是：

训练数据：输入特征（X）和标签（Y）。
模型训练：算法从数据中学习规律（如 Y = f(X)）。
预测：对新数据 X_new 预测 Y_new。

2.2 机器学习的发展历史

年代	里程碑
1950s	感知机（Perceptron）提出
1980s	决策树、反向传播（Backpropagation）
1990s	支持向量机（SVM）、集成学习
2006	深度学习（Deep Learning）兴起
2010s	深度学习在CV、NLP领域突破

2.3 机器学习的应用

领域	应用
金融	信用评分、股票预测
医疗	疾病诊断、医学影像分析
自然语言处理（NLP）	机器翻译、情感分析
计算机视觉（CV）	人脸识别、自动驾驶
推荐系统	电商推荐、视频推荐

3. 机器学习算法分类

3.1 监督学习（Supervised Learning）

定义：使用带标签的数据训练模型，预测新数据的标签。
典型任务：

分类（Classification）：预测离散类别（如垃圾邮件检测）。
回归（Regression）：预测连续值（如房价预测）。

常用算法：

算法	适用场景	Python代码示例
逻辑回归	二分类问题	`from sklearn.linear_model import LogisticRegression`
决策树	可解释性强的分类	`from sklearn.tree import DecisionTreeClassifier`
随机森林	高精度分类/回归	`from sklearn.ensemble import RandomForestClassifier`
支持向量机（SVM）	小样本高维数据	`from sklearn.svm import SVC`

3.2 无监督学习（Unsupervised Learning）

定义：从无标签数据中发现隐藏模式。
典型任务：

聚类（Clustering）：将数据分组（如客户分群）。
降维（Dimensionality Reduction）：减少特征数量（如PCA）。

常用算法：

算法	适用场景	Python代码示例
K-Means	数据分群	`from sklearn.cluster import KMeans`
DBSCAN	密度聚类	`from sklearn.cluster import DBSCAN`
PCA	降维	`from sklearn.decomposition import PCA`

3.3 半监督学习（Semi-Supervised Learning）

定义：结合少量有标签数据和大量无标签数据训练模型。
适用场景：标注成本高时（如医学影像分析）。

以下是针对Scikit-learn中常用算法的详细解释与可运行代码示例，结合算法原理、适用场景和实际应用进行说明：

4 算法详解

4.1 分类算法详解

（1）逻辑回归（Logistic Regression）

原理：通过Sigmoid函数将线性回归结果映射到(0,1)区间，输出概率值。适用于二分类或多分类问题（通过OvR或Softmax扩展）。
特点：

优点：计算高效、可解释性强（系数代表特征重要性）。
缺点：假设数据线性可分，对非线性关系需依赖特征工程。

代码示例（乳腺癌数据集二分类）：

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 加载数据
data = load_breast_cancer()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型（增加L2正则化）
model = LogisticRegression(penalty='l2', C=1.0, max_iter=1000)
model.fit(X_train, y_train)

# 输出特征重要性
print("Top 5特征权重:", dict(zip(data.feature_names, model.coef_[0].round(2)))[:5])

（2）决策树（Decision Tree）

原理：通过递归分割数据，选择最优特征（信息增益/基尼系数）构建树形结构。
特点：

优点：直观易解释，支持非线性数据。
缺点：易过拟合，需通过max_depth或剪枝控制复杂度。

代码示例（可视化决策树）：

from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt

# 训练模型
model = DecisionTreeClassifier(max_depth=3, criterion='gini')
model.fit(X_train, y_train)

# 绘制决策树
plt.figure(figsize=(12, 8))
plot_tree(model, feature_names=data.feature_names, class_names=['恶性', '良性'], filled=True)
plt.show()

（3）随机森林（Random Forest）

原理：集成多棵决策树，通过投票或平均提升泛化能力（Bagging思想）。
特点：

优点：抗过拟合，支持高维数据，内置特征重要性评估。
缺点：训练耗时，模型复杂度高。

代码示例（特征重要性分析）：

from sklearn.ensemble import RandomForestClassifier

# 训练模型
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)
model.fit(X_train, y_train)

# 输出特征重要性
importances = model.feature_importances_
print("Top 5重要特征:", sorted(zip(data.feature_names, importances), key=lambda x: x[1], reverse=True)[:5])

4.2 回归算法详解

（1）线性回归（Linear Regression）

原理：最小化预测值与真实值的均方误差（MSE），求解权重向量w。
数学公式：
y=wTX+by = w^T X + by=wTX+b
代码示例（糖尿病数据集回归）：

from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes

# 加载数据
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
model = LinearRegression().fit(X, y)

# 输出系数
print("截距:", model.intercept_.round(2))
print("系数:", dict(zip(diabetes.feature_names, model.coef_.round(2))))

（2）岭回归（Ridge Regression）

原理：在线性回归损失函数中加入L2正则化项（λ∥w∥²），防止过拟合。
代码示例（正则化强度对比）：

from sklearn.linear_model import Ridge
import numpy as np

# 生成带噪声数据
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 比较不同alpha值
for alpha in [0, 0.1, 1, 10]:
    ridge = Ridge(alpha=alpha).fit(X, y)
    print(f"alpha={alpha}: 系数={ridge.coef_[0][0]:.2f}, 截距={ridge.intercept_[0]:.2f}")

4.3 聚类算法详解

（1）K-Means

原理：迭代优化簇中心，最小化样本到中心的平方误差（SSE）。
关键步骤：

随机初始化K个中心点
分配样本到最近中心
重新计算中心点
重复直至收敛。

代码示例（肘部法则确定K值）：

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成模拟数据
X, _ = make_blobs(n_samples=500, centers=3, random_state=42)

# 计算不同K值的SSE
inertias = []
for k in range(1, 8):
    kmeans = KMeans(n_clusters=k).fit(X)
    inertias.append(kmeans.inertia_)

# 绘制肘部曲线
plt.plot(range(1, 8), inertias, marker='o')
plt.xlabel('K值'); plt.ylabel('SSE'); plt.show()

（2）DBSCAN

原理：基于密度划分簇，核心点（邻域内样本数≥min_samples）扩展形成簇。
特点：

优点：无需预设K值，可识别噪声点，适应任意形状簇。
缺点：对参数eps和min_samples敏感。

代码示例（半月形数据聚类）：

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

# 生成半月形数据
X, _ = make_moons(n_samples=300, noise=0.05)
dbscan = DBSCAN(eps=0.2, min_samples=10).fit(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=dbscan.labels_)
plt.title("DBSCAN聚类结果"); plt.show()

扩展内容：模型评估与优化

交叉验证与网格搜索

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# 参数网格
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

print("最佳参数:", grid_search.best_params_)

特征工程管道

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

# 构建管道
pipeline = make_pipeline(
    StandardScaler(),
    PCA(n_components=0.95),
    RandomForestClassifier()
)
pipeline.fit(X_train, y_train)

总结

分类任务：优先尝试随机森林或梯度提升树（如XGBoost）。
回归任务：小数据用LinearRegression，大数据用SGDRegressor。
聚类任务：快速验证用K-Means，复杂形状用DBSCAN。

5. 特征工程与模型评估

5.1 数据预处理

（1）缺失值处理

方法	适用场景	代码示例
删除缺失值	缺失较少	`df.dropna()`
均值/中位数填充	数值数据	`df.fillna(df.mean())`
众数填充	分类数据	`df.fillna(df.mode()[0])`

（2）标准化与归一化

方法	公式	代码示例
Z-Score标准化	X′=σX−μ	`from sklearn.preprocessing import StandardScaler`
Min-Max归一化	X′=Xmax−XminX−Xmin	`from sklearn.preprocessing import MinMaxScaler`

5.2 特征选择

方法	适用场景	代码示例
方差阈值法	去除低方差特征	`from sklearn.feature_selection import VarianceThreshold`
卡方检验	分类问题	`from sklearn.feature_selection import SelectKBest, chi2`
L1正则化（LASSO）	回归问题	`from sklearn.linear_model import Lasso`

5.3 模型评估

（1）分类问题评估指标

指标	公式	代码示例
准确率（Accuracy）	TP+TN+FP+FNTP+TN	`from sklearn.metrics import accuracy_score`
精确率（Precision）	TP+FPTP	`from sklearn.metrics import precision_score`
召回率（Recall）	TP+FNTP	`from sklearn.metrics import recall_score`
F1-Score	Precision+Recall2×Precision×Recall	`from sklearn.metrics import f1_score`

（2）回归问题评估指标

指标	公式	代码示例
均方误差（MSE）	n1∑(yi−y^i)2	`from sklearn.metrics import mean_squared_error`
R²（决定系数）	1−∑(yi−yˉ)2∑(yi−y^i)2	`from sklearn.metrics import r2_score`

以下是对深度学习核心模型（CNN和RNN）的详细解析，包含技术原理、应用场景、代码实例及优化技巧的完整指南：

6. 深度学习核心技术详解

6.1 卷积神经网络（CNN）

技术原理
CNN通过局部连接和权值共享模拟生物视觉皮层的工作机制，其核心结构包括：

卷积层：使用滤波器（如3×3核）扫描输入图像，提取边缘、纹理等局部特征。例如，第一层可能检测水平线，第二层组合这些线条形成形状。
池化层：通过最大池化（MaxPooling）降低空间维度，增强平移不变性。例如2×2池化窗口将特征图尺寸减半。
全连接层：将高级特征映射到分类标签，末端Softmax函数输出概率分布。

代码实例（图像分类）

from tensorflow.keras import layers, models

# 构建CNN模型（CIFAR-10数据集）
model = models.Sequential([
    layers.Conv2D(32, (3,3), activation='relu', input_shape=(32,32,3)),
    layers.MaxPooling2D((2,2)),
    layers.Conv2D(64, (3,3), activation='relu'),
    layers.MaxPooling2D((2,2)),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')  # 10分类输出
])

# 编译与训练
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
history = model.fit(train_images, train_labels, 
                    epochs=20, 
                    validation_data=(test_images, test_labels))

# 可视化训练过程
plt.plot(history.history['accuracy'], label='Training Accuracy')
plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
plt.legend()
plt.show()

优化技巧

数据增强：通过旋转、翻转扩充数据集（tf.keras.preprocessing.image.ImageDataGenerator）。

迁移学习：复用预训练模型（如ResNet）的特征提取层：

base_model = tf.keras.applications.ResNet50(weights='imagenet', include_top=False)
x = layers.GlobalAveragePooling2D()(base_model.output)
outputs = layers.Dense(10, activation='softmax')(x)
model = models.Model(inputs=base_model.input, outputs=outputs)

6.2 循环神经网络（RNN）与LSTM

技术原理
RNN通过时间步循环处理序列数据，但存在梯度消失问题。LSTM引入门控机制（输入门、遗忘门、输出门）控制信息流动，可学习长期依赖：

遗忘门：决定保留多少上一时刻的记忆（Sigmoid输出0~1）。
输入门：更新细胞状态的候选值（Tanh生成新候选，Sigmoid决定更新比例）。
输出门：基于当前状态生成隐藏层输出。

代码实例（股票预测）

import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# 生成时间序列数据（正弦波+噪声）
t = np.arange(0, 1000)
x = np.sin(0.02 * t) + np.random.randn(len(t)) * 0.2

# 数据预处理：构造滑动窗口
def create_dataset(data, look_back=10):
    X, y = [], []
    for i in range(len(data)-look_back):
        X.append(data[i:(i+look_back)])
        y.append(data[i+look_back])
    return np.array(X), np.array(y)

X, y = create_dataset(x)
X = X.reshape(-1, look_back, 1)  # 转换为[samples, time_steps, features]

# 构建LSTM模型
model = Sequential([
    LSTM(50, return_sequences=True, input_shape=(10, 1)),
    LSTM(50),
    Dense(1)
])
model.compile(optimizer='adam', loss='mse')

# 训练与预测
model.fit(X_train, y_train, epochs=20, batch_size=32)
predictions = model.predict(X_test)

优化技巧

双向LSTM：同时学习正向和反向序列信息：

from tensorflow.keras.layers import Bidirectional
model.add(Bidirectional(LSTM(50)))

注意力机制：增强关键时间步的权重（tf.keras.layers.Attention）。

6.3 模型训练与调优策略

超参数优化
- 学习率：使用回调函数动态调整（ReduceLROnPlateau）。
- 批量大小：小批量（32~128）平衡内存和梯度稳定性。

正则化技术

model = Sequential([
    Conv2D(32, (3,3), kernel_regularizer='l2'),
    layers.Dropout(0.5),  # 随机丢弃50%神经元
    layers.BatchNormalization()  # 加速收敛
])

硬件加速

GPU训练：使用tf.distribute.MirroredStrategy实现多卡并行。

TPU配置（Google Colab）：

resolver = tf.distribute.cluster_resolver.TPUClusterResolver()
tf.config.experimental_connect_to_cluster(resolver)
tf.tpu.experimental.initialize_tpu_system(resolver)
strategy = tf.distribute.TPUStrategy(resolver)

6.4 应用场景对比

模型类型	典型应用	优势	局限性
CNN	图像分类、目标检测	局部特征提取能力强	对序列数据效果差
RNN/LSTM	语音识别、文本生成	处理时序依赖	训练速度慢
Transformer	机器翻译	并行计算高效	数据需求量大

通过上述代码和理论结合，读者可快速实现图像分类、时序预测等任务。建议在Kaggle或Google Colab平台实践（提供免费GPU资源）。如需更复杂案例（如GAN生成图像、Transformer翻译模型），可进一步扩展模型结构。

7. 关键点总结

数据预处理是机器学习成功的关键：缺失值处理、标准化、特征选择直接影响模型效果。
模型选择需根据问题类型：
- 分类问题：逻辑回归、决策树、SVM。
- 回归问题：线性回归、岭回归。
- 聚类问题：K-Means、DBSCAN。
深度学习在CV、NLP领域表现优异，但需要大量数据和计算资源。

8. 结语

本文系统介绍了机器学习的核心概念、算法、特征工程和模型评估方法，并提供了Python代码示例。希望读者能通过本文掌握机器学习的基本流程，并在实际项目中应用这些技术。

进一步学习资源：

书籍：《机器学习实战》《深度学习（花书）》
在线课程：Coursera《Machine Learning》（Andrew Ng）
框架文档：Scikit-learn、TensorFlow、PyTorch

欢迎在评论区交流讨论！

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
别再讲道理啦，对方听不进去的方所
我之前写过一篇叫做《你总妄想改变他人》，然后就有朋友跟我说，有一些方法可以改变他人之类的。嗯，是这样，但是任何具体的问题，都要限定好语境，描述清楚前提条件，然后再表达观点，我的这位朋友的说法就犯了一刀切的错误，这样并不能让讨论正常展开（这篇我得先给她看看，不然可能会挨揍）。好了，hhhh，谁让她不能写文章呢，我就来再说一说吧。我前面说过，我们在学到一个道理、学会一种方法之后，总是迫不及待地想要去与
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
氧惠官方邀请码333777，氧惠邀请码怎么获得？氧惠邀请码有什么套路？知行导师
问：氧惠邀请码怎么获得？答：氧惠官方邀请码333777返点高佣金高真的高。问：氧惠邀请码有什么套路？答：氧惠官方邀请码333777返点高佣金高真的高。氧惠APP汇聚各大主流电商和生活服务平台优惠，展示全网全品类商品，满足网购爱好者对品质好货与极致性价比的追求，并同时享受大平台购物权益保障。满足用户日常吃喝玩乐衣食住行的聚合APP，独特的商业模式，响应国家号召，为实现全民共富而努力奋斗。氧惠邀请码3
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
【老房翻新】92平轻奢简约风，将和谐之美融入空间！没人比我更懂装修
在客厅空间中，设计师于冷静的空间基调中选用了层次感丰富的黄蓝色作为主要跳色，搭配黑白纹理的地毯与单椅，为空间增加了时尚摩登的气息。艺术感的单品突出点亮了空间，绿植的点缀、留白的软饰则增强了空间的呼吸性。点击此处添加图片说明文字点击此处添加图片说明文字设计师力求使每一处的设立都在空间中达到相互间的呼应与制衡，将艺术的跃动之美赋于空间之上，也将空间的和谐之美融于生活之中。点击此处添加图片说明文字点击此
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

机器学习从入门到实践：算法、特征工程与模型评估详解

摘要

​1. 引言​

​2. 机器学习概述​

​2.1 什么是机器学习？​​

​2.2 机器学习的发展历史​

​2.3 机器学习的应用​

​3. 机器学习算法分类​

​3.1 监督学习（Supervised Learning）​​

​3.2 无监督学习（Unsupervised Learning）​​

​3.3 半监督学习（Semi-Supervised Learning）​​

4 算法详解

​4.1 分类算法详解​

​​（1）逻辑回归（Logistic Regression）​​

​​（2）决策树（Decision Tree）​​

​​（3）随机森林（Random Forest）​​

​4.2 回归算法详解​

​​（1）线性回归（Linear Regression）​​

​​（2）岭回归（Ridge Regression）​​

​4.3 聚类算法详解​

​​（1）K-Means​

​​（2）DBSCAN​

​扩展内容：模型评估与优化​

​交叉验证与网格搜索​

​特征工程管道​

​总结​

​5. 特征工程与模型评估​

​5.1 数据预处理​

​​（1）缺失值处理​

​​（2）标准化与归一化​

​5.2 特征选择​

​5.3 模型评估​

​​（1）分类问题评估指标​

​​（2）回归问题评估指标​

6. 深度学习核心技术详解

6.1 卷积神经网络（CNN）

6.2 循环神经网络（RNN）与LSTM

6.3 模型训练与调优策略

6.4 应用场景对比

​7. 关键点总结​

​8. 结语​

你可能感兴趣的:(机器学习从入门到实践：算法、特征工程与模型评估详解)

1. 引言

2. 机器学习概述

2.1 什么是机器学习？

2.2 机器学习的发展历史

2.3 机器学习的应用

3. 机器学习算法分类

3.1 监督学习（Supervised Learning）

3.2 无监督学习（Unsupervised Learning）

3.3 半监督学习（Semi-Supervised Learning）

4.1 分类算法详解

（1）逻辑回归（Logistic Regression）

（2）决策树（Decision Tree）

（3）随机森林（Random Forest）

4.2 回归算法详解

（1）线性回归（Linear Regression）

（2）岭回归（Ridge Regression）

4.3 聚类算法详解

（1）K-Means

（2）DBSCAN

扩展内容：模型评估与优化

交叉验证与网格搜索

特征工程管道

总结

5. 特征工程与模型评估

5.1 数据预处理

（1）缺失值处理

（2）标准化与归一化

5.2 特征选择

5.3 模型评估

（1）分类问题评估指标

（2）回归问题评估指标

7. 关键点总结

8. 结语