疯狂成瘾者

深度学习笔记

文章目录

聚类
- - 导入模块
  - 生成模拟数据
  - 建立并训练 K-Means 聚类模型
  - 创建图形
  - 绘制散点图（聚类结果）
  - 获取聚类中心
  - 可视化聚类中心
  - 设置图形标题和标签
- 输出效果
数据降维
- 一、常见的数据降维方法
- 二、Python 降维示例（用 PCA 将 3D 数据降至 2D）
- - ✅ 第1部分：导入模块
  - ✅ 第2部分：生成模拟数据
  - ✅ 第3部分：PCA降维处理
  - ✅ 第4部分：开始绘图
  - ✅ 第5部分：绘制散点图
  - ✅ 第6部分：完善图像细节并显示
- ✨ 最终效果
数据降维的作用
- ✅ 一、降维的主要作用
- - 1. **降低计算复杂度**
  - 2. **可视化高维数据**
  - 3. **去除冗余和噪声**
  - 4. **防止“维数灾难”（curse of dimensionality）**
  - 5. **提高模型性能**
- 二、常用降维方法简表
- ✅ 总结一句话：
模型性能的度量
- - ✅ 一、模型性能度量的意义（简要介绍）
  - ✅ 二、常见性能度量指标（简要分类）
  - ✅ 三、Python 示例：使用 sklearn 设置模型性能度量方法
  - - 示例代码（分类任务）
- 一、背景：鸢尾花数据集简介（Iris Dataset）
- 二、为什么做二分类？
- 三、机器学习流程（逻辑回归模型）
- - - 1️⃣ 数据预处理
  - 2️⃣ 模型训练
  - - 3️⃣ 模型预测
  - 四、模型性能评估指标（详细解释）
  - 五、完整代码示例（逻辑回归 + 二分类评估）
  - 六、输出解释
- 逐行解释代码
- - ✅ 第1步：导入必要模块
- ✅ **整体功能：**
- - 第1行：
  - ✅ 意思：创建一个逻辑回归模型对象
  - 第2行：
  - ✅ 意思：用训练数据训练模型
- 举个例子帮助理解：
- 训练完成后你可以做：
- ✅ 1. `model.predict(X_test)`
- - 功能：
  - 输入：
  - 输出：
  - 用途：
- ✅ 2. `model.predict_proba(X_test)`
- - 功能：
  - 输入：
  - 输出：
  - 用途：
- ✅ 3. `model.coef_`
- - 功能：
  - 输出：
  - 用途：
- ✅ 4. `model.score(X_test, y_test)`
- - 功能：
  - 输入：
  - 输出：
  - 用途：
- 总结表：
- ✅ 总结一句话：
- ✅ 总结一下：这段代码完成了什么？
- ✅ 一、什么是 R²（决定系数）
- - 定义：
  - 数学表达式：
- ✅ 二、Python 示例：线性回归 + R² 可视化
- ✅ 第一步：模拟带噪声的线性数据
- - 目标：
  - 示例代码：
  - 图示说明：
- ✅ 第二步：拟合线性回归模型
- - 目标：
  - 示例代码：
- ✅ 第三步：预测 + 可视化结果
- - 预测：
  - 可视化代码：
- ✅ 第四步：输出 R² 评分
- - 目标：
  - R² 含义：
- 总结：整个流程图
- ✅ 想深入？你可以进一步学习：
- ✅ 完整代码 + 逐行解释
- - 导入所需模块：
  - 设置绘图中文支持：
  - 设置随机数种子：
  - 生成模拟自变量（特征）X：
  - 构造因变量（目标值）y：
  - ✂️ 划分训练集和测试集：
  - 创建线性回归模型对象：
  - 训练模型（拟合）：
  - 进行预测：
  - 计算并输出 R² 分数：
  - 创建图像窗口：
  - 绘制散点图（测试集真实值）：
  - 绘制预测回归线：
  - ️ 添加标题：
  - 添加坐标轴标签：
  - 添加图例和网格线：
  - 显示图像窗口
- ✅ 总结流程
- ✅ 三、运行结果说明
- ✅ 四、适用场景
无监督学习与监督学习
- ✅ 一、监督学习（Supervised Learning）
- - 定义：
  - 举例：
  - 常见任务：
  - 常见算法：
- ✅ 二、无监督学习（Unsupervised Learning）
- - 定义：
  - 举例：
  - 常见任务：
  - 常见算法：
- ✅ 三、监督 vs 无监督：对比表
- ✅ 四、实际应用场景对比
- ✅ 五、延伸：半监督 & 强化学习
- ✅ 六、小结

聚类

我们用 sklearn 实现一个二维数据的 K-Means 聚类并可视化：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 1. 生成模拟数据（3个簇）
X, y_true = make_blobs(n_samples=300, centers=3, cluster_std=0.6, random_state=42)

# 2. 训练K-Means模型
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

# 3. 可视化聚类结果
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.7, marker='X', label='Centers')
plt.title("K-Means Clustering Result")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.legend()
plt.grid(True)
plt.show()

当然，下面是对前面那段 K-Means 聚类 Python 示例的逐行解释，适合初学者理解：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

导入模块

numpy：用于数值计算；
matplotlib.pyplot：用于绘图；
make_blobs：生成模拟聚类数据（内置在 sklearn.datasets）；
KMeans：K-Means 聚类模型（sklearn.cluster 模块）。

# 1. 生成模拟数据（3个簇）
X, y_true = make_blobs(n_samples=300, centers=3, cluster_std=0.6, random_state=42)

生成模拟数据

n_samples=300：共生成 300 个样本；
centers=3：将数据划分为 3 个簇；
cluster_std=0.6：每个簇内部的散布程度（标准差）；
random_state=42：确保每次运行结果一致（设置随机种子）；
X：二维数组，形状为 (300, 2)，表示 300 个二维数据点；
y_true：每个样本的真实簇标签（仅用于可视化参考，不参与训练）。

# 2. 训练K-Means模型
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

建立并训练 K-Means 聚类模型

KMeans(n_clusters=3)：告诉模型我们期望分成 3 个簇；
.fit(X)：根据数据 X 训练模型，学习出每个簇的中心；
.predict(X)：为每个点预测所属的簇编号（0、1 或 2）；
y_kmeans：模型预测的簇标签数组，形状为 (300,)。

# 3. 可视化聚类结果
plt.figure(figsize=(8, 6))

创建图形

设置画布大小为 8x6 英寸。

plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')

绘制散点图（聚类结果）

X[:, 0]：第1列（x坐标），X[:, 1]：第2列（y坐标）；
c=y_kmeans：根据聚类标签着色；
s=50：点的大小；
cmap='viridis'：颜色映射（紫→绿）。

centers = kmeans.cluster_centers_

获取聚类中心

cluster_centers_：返回每个簇的二维坐标中心点（形状为 (3, 2)）。

plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.7, marker='X', label='Centers')

可视化聚类中心

黑色大 X 点表示每个簇的中心；
s=200：点很大；
alpha=0.7：透明度；
label='Centers'：用于图例说明。

plt.title("K-Means Clustering Result")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.legend()
plt.grid(True)
plt.show()

设置图形标题和标签

title()：图标题；
xlabel() / ylabel()：轴标签；
legend()：显示图例（簇中心）；
grid(True)：添加网格线；
show()：显示图形。

输出效果

你运行这段代码后会看到一个 2D 散点图，分为三类，每类用不同颜色表示，中心点用黑色 X 表示。

数据降维

**数据降维（Dimensionality Reduction）**是将高维数据映射到低维空间的技术，同时尽可能保留原始数据的关键信息。常用于：

可视化高维数据（如二维/三维展示）
降低计算复杂度
去除噪声、冗余特征
解决“维数灾难”

一、常见的数据降维方法

方法	说明
PCA（主成分分析）	保留数据方差最大方向的投影（线性降维）
t-SNE	保留局部结构，适合可视化（非线性降维）
UMAP	比 t-SNE 更快、更能保持全局结构（非线性）
LDA	有监督降维，最大化类间差异

二、Python 降维示例（用 PCA 将 3D 数据降至 2D）

这段代码的作用是：生成一个3维、3类的模拟分类数据集，用 PCA 将其降维为2维，并用散点图可视化降维后的结果。

我们用 PCA + matplotlib 可视化：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA

# 1. 生成模拟的 3D 数据（含3个特征）
X, y = make_classification(n_samples=300, n_features=3, n_redundant=0,
                           n_informative=3, n_clusters_per_class=1, n_classes=3, random_state=42)

# 2. 使用PCA将数据从3维降到2维
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

# 3. 可视化降维后的数据
plt.figure(figsize=(8, 6))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='Set1', s=40, edgecolor='k')
plt.title("PCA: 3D data reduced to 2D")
plt.xlabel("Principal Component 1")
plt.ylabel("Principal Component 2")
plt.grid(True)
plt.show()

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA

✅ 第1部分：导入模块

numpy：用于数值计算；
matplotlib.pyplot：用于绘图；
make_classification：生成模拟分类数据；
PCA：主成分分析类，用于降维。

# 1. 生成模拟的 3D 数据（含3个特征）
X, y = make_classification(n_samples=300, n_features=3, n_redundant=0,
                           n_informative=3, n_clusters_per_class=1, n_classes=3, random_state=42)

✅ 第2部分：生成模拟数据

n_samples=300：生成 300 个样本；
n_features=3：每个样本有 3 个特征（即 3 维）；
n_informative=3：3 个特征中全是“有用的”；
n_redundant=0：没有冗余特征；
n_clusters_per_class=1：每个类别一个簇；
n_classes=3：共分为 3 个类别；
random_state=42：设置随机种子，使结果可重复；
X：特征矩阵，形状为 (300, 3)；
y：标签数组，包含每个样本所属的类别（0, 1, 2）。

# 2. 使用 PCA 将数据从 3维降到 2维
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

✅ 第3部分：PCA降维处理

PCA(n_components=2)：指定降维目标是二维；
fit_transform(X)：
- fit：分析原始数据的主成分方向（即特征协方差最大方向）；
- transform：将原始数据投影到这两个主方向上；
X_reduced：降维后的数据，形状为 (300, 2)，可以直接用于二维可视化。

# 3. 可视化降维后的数据
plt.figure(figsize=(8, 6))

✅ 第4部分：开始绘图

设置图像画布大小为 8x6 英寸。

plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='Set1', s=40, edgecolor='k')

✅ 第5部分：绘制散点图

X_reduced[:, 0]：PCA 第一个主成分坐标；
X_reduced[:, 1]：第二个主成分；
c=y：按类别着色；
cmap='Set1'：颜色方案，3类颜色清晰可分；
s=40：点的大小；
edgecolor='k'：黑色边框。

plt.title("PCA: 3D data reduced to 2D")
plt.xlabel("Principal Component 1")
plt.ylabel("Principal Component 2")
plt.grid(True)
plt.show()

✅ 第6部分：完善图像细节并显示

设置图标题和坐标轴标签；
添加网格线，增强可读性；
plt.show()：显示图像。

✨ 最终效果

数据降维的作用

降维（Dimensionality Reduction）的作用是在尽可能保留原始数据信息的前提下，将高维数据映射到低维空间。它是数据预处理、可视化和建模中非常重要的一步。

✅ 一、降维的主要作用

1. 降低计算复杂度

特征维度越高，计算量越大（特别在机器学习和深度学习中）；
降维可以加快训练速度、减少内存占用。

举例：将 1000 个特征压缩到 50 个，大大减少矩阵运算开销。

2. 可视化高维数据

人眼无法直接理解 3 维以上的数据；
通过降维（如 PCA、t-SNE）可将高维数据投影到二维或三维，方便观察数据分布、聚类结构或分类边界。

举例：PCA 把 50 维数据投影到 2D 平面图，颜色表示类别，清晰看到数据分布。

3. 去除冗余和噪声

原始数据常含有冗余特征或噪声维度；
降维可识别最重要的方向（主成分），去除对分类/聚类无用的信息。

举例：在高维基因表达数据中，仅少数基因与疾病显著相关，其它维度是噪声。

4. 防止“维数灾难”（curse of dimensionality）

在高维空间中，样本之间的距离会变得非常相似，影响模型效果；
降维能提高模型的泛化能力、稳定性。

举例：KNN、SVM 等算法在高维下常过拟合，降维后效果更好。

5. 提高模型性能

去除无关特征后，许多算法（如逻辑回归、树模型）性能会更好；
特别是在样本量远小于特征数（小样本高维）时尤为重要。

举例：在医学中，样本往往只有几百，而变量有几千个，降维后可用于稳健建模。

二、常用降维方法简表

方法	类型	特点
PCA	线性	保留最大方差方向，常用于初步降维
t-SNE	非线性	保留局部结构，适合可视化
UMAP	非线性	比 t-SNE 快，保持全局+局部结构
LDA	线性，有监督	最大化类间差异，常用于分类前处理
Autoencoder	非线性神经网络	深度学习方式的非线性降维

✅ 总结一句话：

降维的核心目标：去掉“无关冗余”，保留“有用本质”。

模型性能的度量

✅ 一、模型性能度量的意义（简要介绍）

模型性能度量是评估一个机器学习模型好坏的手段，能回答这些关键问题：

问题	意义
模型是否准确？	衡量预测与实际结果的接近程度
模型是否稳定？	衡量模型对新数据的泛化能力
模型是否偏向某类？	检查是否过拟合、欠拟合或样本不均衡问题
模型是否适合当前任务？	不同任务（分类、回归、排序）需要不同指标

✅ 二、常见性能度量指标（简要分类）

任务类型	常见指标	说明
分类任务	accuracy, precision, recall, f1-score, ROC-AUC	用于判断分类对错情况
回归任务	MSE, RMSE, MAE, R²	用于衡量预测值与实际值的差异
聚类任务	Silhouette score, Calinski-Harabasz	无监督场景中的结构评估

✅ 三、Python 示例：使用 sklearn 设置模型性能度量方法

下面以 逻辑回归模型 + 分类任务 为例，演示如何设置和使用不同的性能度量方法。

示例代码（分类任务）

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score,
    f1_score, roc_auc_score, classification_report
)

# 1. 加载数据
X, y = load_iris(return_X_y=True)

# 二分类示例（只保留前两类）
X, y = X[y != 2], y[y != 2]

# 2. 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. 建模
model = LogisticRegression()
model.fit(X_train, y_train)

# 4. 预测
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)[:, 1]  # 预测概率用于AUC

# 5. 性能度量
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1 Score:", f1_score(y_test, y_pred))
print("ROC AUC:", roc_auc_score(y_test, y_prob))
print("\nClassification Report:\n", classification_report(y_test, y_pred))

这个代码是在鸢尾花（Iris）数据集上训练一个二分类模型，并使用多种指标（准确率、精确率、召回率、F1 分数、AUC）来评估模型性能。

一、背景：鸢尾花数据集简介（Iris Dataset）

是 sklearn 自带的经典数据集，常用于分类算法练习。
包含 150 个样本，每个样本代表一朵鸢尾花，共有 3 个品种（Setosa、Versicolor、Virginica）。
每个样本有 4 个特征：
- 花萼长度（sepal length）
- 花萼宽度（sepal width）
- 花瓣长度（petal length）
- 花瓣宽度（petal width）

二、为什么做二分类？

原始是三分类任务（0, 1, 2 三个类别）；
逻辑回归模型是原生支持二分类的；
所以我们只选前两类（0 和 1），简化为二分类任务。

例如我们保留：

类别0（Setosa）
类别1（Versicolor）

问题变为：“这朵花是 Setosa 还是 Versicolor？”

三、机器学习流程（逻辑回归模型）

1️⃣ 数据预处理

使用 load_iris() 加载数据；
筛选出标签为 0 和 1 的样本；
使用 train_test_split() 划分训练集和测试集（通常 70% / 30%）。

2️⃣ 模型训练

用 LogisticRegression() 训练一个逻辑回归模型；
拟合训练数据：model.fit(X_train, y_train)。

3️⃣ 模型预测

用 model.predict() 预测测试集的类别；
用 model.predict_proba() 预测属于类别1的概率（用于 AUC）。

四、模型性能评估指标（详细解释）

指标	英文名称	说明	示例
准确率	Accuracy	所有预测中，正确的占比	正确预测了90个，总共100个 → 90%
精确率	Precision	预测为正例中，有多少是真的正例	预测为“有病”的人中，真正有病的比例
召回率	Recall	实际为正例中，有多少被预测出来	所有真正有病的人中，有多少被查出
F1 分数	F1-score	Precision 和 Recall 的调和平均数	越接近 1 越好，平衡两者的重要性
ROC AUC	Area Under Curve	基于预测概率衡量模型排序能力，0.5为随机，1为最优	AUC=0.95 表示模型预测效果非常好

这些指标一起可以全面评估模型的分类能力，特别是在数据不平衡或对某类错误更敏感的情况下。

五、完整代码示例（逻辑回归 + 二分类评估）

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score,
    f1_score, roc_auc_score, classification_report
)

# 1. 加载数据（只取前两类，变成二分类）
X, y = load_iris(return_X_y=True)
X, y = X[y != 2], y[y != 2]

# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 3. 建立逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 4. 预测标签和概率
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)[:, 1]  # 预测为类别1的概率

# 5. 模型评估
print("✅ Accuracy:", accuracy_score(y_test, y_pred))
print("✅ Precision:", precision_score(y_test, y_pred))
print("✅ Recall:", recall_score(y_test, y_pred))
print("✅ F1 Score:", f1_score(y_test, y_pred))
print("✅ ROC AUC:", roc_auc_score(y_test, y_prob))
print("\n Classification Report:\n", classification_report(y_test, y_pred))

六、输出解释

你将看到类似以下结果（示意）：

✅ Accuracy: 1.0
✅ Precision: 1.0
✅ Recall: 1.0
✅ F1 Score: 1.0
✅ ROC AUC: 1.0

 Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        16
           1       1.00      1.00      1.00        14

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

说明模型对当前任务表现极好。

逐行解释代码

当然，下面是你提到的逻辑回归 + 二分类 + 模型评估代码的逐行解释，帮助你完全理解每一步在做什么：

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score,
    f1_score, roc_auc_score, classification_report
)

✅ 第1步：导入必要模块

load_iris：加载鸢尾花（Iris）数据集；
LogisticRegression：用于训练一个逻辑回归模型；
train_test_split：划分训练集与测试集；
后面一系列 metrics 是用于评估模型性能的函数。

# 1. 加载数据（只取前两类，变成二分类）
X, y = load_iris(return_X_y=True)

加载鸢尾花数据集；
X 是特征矩阵，形状为 (150, 4)，表示150个样本，每个样本4个特征；
y 是目标变量，原始是0、1、2三类标签。

X, y = X[y != 2], y[y != 2]

为了让问题变成二分类，我们去掉了标签为 2 的样本；
y != 2 会返回一个布尔数组，表示哪些样本标签不是2；
筛选后，X 和 y 只包含类别 0 和 1 的数据。

# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

将数据集划分为训练集和测试集；
test_size=0.3 表示 30% 的样本用于测试；
random_state=42 固定随机种子，保证划分结果可复现。

# 3. 建立逻辑回归模型
model = LogisticRegression()

创建一个逻辑回归模型对象；
默认使用 L2 正则化，适合线性可分的数据。

model.fit(X_train, y_train)

用训练数据 X_train, y_train 训练逻辑回归模型；
模型学习每个特征在预测类别中的权重。

这两行代码是 逻辑回归模型的核心训练过程，它们的作用是：

✅ 整体功能：

构建一个逻辑回归模型，并用训练数据进行拟合（训练），让模型“学会”如何根据特征预测目标值。

第1行：

model = LogisticRegression()

✅ 意思：创建一个逻辑回归模型对象

LogisticRegression() 是 sklearn 提供的逻辑回归分类器；
它还没有被训练，只是定义了一个“空白模型”；
可以设置参数，比如：
- penalty='l2'：L2 正则化（默认）
- C=1.0：正则强度（越小越强）
- solver='lbfgs'：优化算法选择
- max_iter=1000：最大迭代次数

第2行：

model.fit(X_train, y_train)

✅ 意思：用训练数据训练模型

X_train 是训练特征（二维数组，形如 [样本数, 特征数]）；
y_train 是对应的训练标签（一维数组）；
这一步是 “模型学习” 的过程，它会：
- 找到最优的参数（权重和偏置）；
- 最小化分类误差（使用对数损失函数）；
- 建立特征与目标值之间的映射关系。

举个例子帮助理解：

假设我们要预测“花是 Setosa 还是 Versicolor”，我们有特征（花瓣长度、花瓣宽度等）：

model = LogisticRegression() 相当于：我们拿来一个“空的分类器”。
model.fit(X_train, y_train) 相当于：我们“喂它数据”，它根据这些数据自己去“调整参数”，最终“学会了”怎样判断花的种类。

训练完成后你可以做：

model.predict(X_test)：预测新样本；
model.predict_proba(X_test)：输出预测为每一类的概率；
model.coef_：查看学到的权重；
model.score(X_test, y_test)：计算测试集准确率。

这几个方法和属性是 sklearn 中逻辑回归模型常用的接口，我来逐一详细解释它们的作用、返回值，以及什么时候使用它们。

✅ 1. `model.predict(X_test)`

功能：

输出模型对新样本的预测类别（如 0 或 1）

输入：

X_test：测试样本的特征矩阵，形状为 (n_samples, n_features)

输出：

一个一维数组，形如 [0, 1, 1, 0, ...]，表示每个样本的预测类别

用途：

用于分类任务最终“落地”结果判断（分为哪一类）

✅ 2. `model.predict_proba(X_test)`

功能：

输出每个样本属于每个类别的概率

输入：

X_test：测试数据集

输出：

一个二维数组，形如 [[0.2, 0.8], [0.7, 0.3], ...]
- 第 i 行表示第 i 个样本属于类别 0 和 1 的概率（加起来为1）

用途：

需要评估概率相关指标时使用，如：
- ROC AUC
- 阈值优化（如设定0.6为正类而非默认0.5）
- 排序模型或概率建模

✅ 3. `model.coef_`

功能：

查看模型训练得到的权重（即每个特征的系数）

输出：

一个二维数组，形如 [[w1, w2, ..., wn]]
- 表示每个特征在分类决策中的影响力

用途：

用于解释模型（哪些特征更重要，正向还是负向）
可与 model.intercept_ 配合，组成完整的线性表达式：

$w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b$

然后再经过 sigmoid 得到概率

✅ 4. `model.score(X_test, y_test)`

功能：

评估模型的“准确率”（Accuracy）

输入：

X_test：测试集特征
y_test：测试集真实标签

输出：

一个浮点数，例如 0.93 表示预测正确率为 93%

用途：

快速衡量模型整体预测性能（但对不平衡数据不敏感）

总结表：

方法/属性	作用	返回结果类型	用于何时
`predict(X)`	分类预测（标签）	1D数组（0/1）	最终输出结果
`predict_proba(X)`	分类预测（概率）	2D数组	模型概率评估、AUC计算
`coef_`	权重系数（斜率）	2D数组	模型解释、特征影响分析
`score(X, y)`	准确率得分	浮点数	快速评估模型整体表现

✅ 总结一句话：

这两行代码完成了：

“创建模型 + 训练模型”这两个关键步骤，是整个机器学习流程的核心之一。

# 4. 预测标签和概率
y_pred = model.predict(X_test)

对测试集进行预测，返回的 y_pred 是预测的类别标签（0 或 1）。

y_prob = model.predict_proba(X_test)[:, 1]  # 预测为类别1的概率

predict_proba 返回每个类别的预测概率，形状为 (n_samples, 2)；
[:, 1] 表示我们只取预测为“类别 1”的概率；
这个用于计算 ROC AUC 分数（基于概率的排序能力）。

# 5. 模型评估
print("✅ Accuracy:", accuracy_score(y_test, y_pred))

准确率：预测正确的比例（所有对的 / 所有样本）；

print("✅ Precision:", precision_score(y_test, y_pred))

精确率：预测为正例（1）中，有多少是真的正例；
高精确率说明“误报”少。

print("✅ Recall:", recall_score(y_test, y_pred))

召回率：真正例中，有多少被模型识别为正；
高召回率说明“漏报”少。

print("✅ F1 Score:", f1_score(y_test, y_pred))

F1 分数是 Precision 和 Recall 的调和平均；
当你希望 Precision 和 Recall 之间取得平衡时，F1 是好指标。

print("✅ ROC AUC:", roc_auc_score(y_test, y_prob))

ROC AUC（Area Under Curve）是二分类中综合排序能力的指标；
范围为0.5~1，越接近1说明模型越好。

print("\n Classification Report:\n", classification_report(y_test, y_pred))

输出一个完整的分类报告表格，包括：
- 每个类的 precision、recall、f1-score；
- 每类样本数量（support）；
- 平均指标（macro、weighted、accuracy）；
一般用于快速报告模型的整体分类效果。

✅ 总结一下：这段代码完成了什么？

步骤	动作
1	加载鸢尾花数据
2	转换为二分类问题（只保留前两类）
3	划分训练集与测试集
4	用逻辑回归建模训练
5	对测试集进行预测
6	计算并输出多个评价指标：accuracy、precision、recall、f1、AUC
7	输出分类报告，查看模型在每类上的详细表现

# R平方系数

当然！我们来简要介绍一下 R²（R平方系数，决定系数） 的概念，并用 Python 例子+可视化演示它在回归模型评估中的作用。

✅ 一、什么是 R²（决定系数）

定义：

R²（R-squared）衡量回归模型对数据变异的解释程度。

它的取值范围：

一般在 0 ~ 1 之间（也可能为负）；
越接近 1，模型对数据的拟合越好；
越接近 0，说明模型几乎不能解释数据的变化；
如果为负，表示模型比“用平均值当预测”还差。

数学表达式：

$R^2 = 1 - \frac{\text{残差平方和（RSS）}}{\text{总平方和（TSS）}}$

其中：

RSS（Residual Sum of Squares）：预测误差的平方和；
TSS（Total Sum of Squares）：真实值与均值的差的平方和。

✅ 二、Python 示例：线性回归 + R² 可视化

我们使用 sklearn 的 LinearRegression 模型，并用 r2_score 计算 R²。

“模拟一组带噪声的线性数据 → 拟合线性回归模型 → 可视化预测效果 → 输出 R² 评分”

这是回归建模的标准完整流程，下面我将一步一步用图示 + 概念 + 示例来帮你理解每一部分。

✅ 第一步：模拟带噪声的线性数据

目标：

我们希望生成一组数据点，它们大致满足线性关系 y = ax + b，但加上了随机误差（噪声），更贴近真实场景。

示例代码：

import numpy as np

np.random.seed(42)
X = np.linspace(0, 10, 100).reshape(-1, 1)
noise = np.random.normal(0, 3, size=100)  # 平均值为0，标准差为3的噪声
y = 2.5 * X.flatten() + noise

图示说明：

你可以理解为：

理想线性关系：       y = 2.5x
实际观测点（模拟）： y = 2.5x + 随机噪声

如果没有噪声，你会看到一条完美直线；噪声使得点在直线附近上下浮动。

✅ 第二步：拟合线性回归模型

目标：

用 scikit-learn 的 LinearRegression 找出最优直线 ŷ = âx + b̂，使得预测值尽可能逼近真实的 y。

示例代码：

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)

.fit(X_train, y_train) 会学出两个参数：斜率和截距。
它的目标是最小化误差平方和（Ordinary Least Squares, OLS）

✅ 第三步：预测 + 可视化结果

预测：

y_pred = model.predict(X_test)

你用模型对 X_test 预测出一组 y_pred，然后跟 y_test 比较。

可视化代码：

import matplotlib.pyplot as plt

plt.scatter(X_test, y_test, color='blue', label='真实值')   # 蓝点：测试集真实数据
plt.plot(X_test, y_pred, color='red', label='预测回归线')   # 红线：模型预测线
plt.xlabel("X")
plt.ylabel("y")
plt.title("线性回归预测结果")
plt.legend()
plt.grid(True)
plt.show()

✅ 第四步：输出 R² 评分

目标：

R²（决定系数）衡量模型预测能力：

from sklearn.metrics import r2_score
r2 = r2_score(y_test, y_pred)
print(f"R²: {r2:.3f}")

R² 含义：

R² 值范围	含义
1.0	完美拟合（预测值 = 真实值）
~ 0.8 ~ 0.9	拟合很好
0.5 ~ 0.7	有一定拟合能力（数据噪声较多）
0.0	模型效果和猜测一样差
< 0.0	模型比简单平均还差（模型是错误的）

总结：整个流程图

Step 1: 模拟数据 (y = 2.5x + noise)
        ↓
Step 2: 训练线性模型 (LinearRegression)
        ↓
Step 3: 预测 y_pred 并可视化（散点 + 直线）
        ↓
Step 4: 计算并输出 R² 评估模型拟合效果

✅ 想深入？你可以进一步学习：

方向	示例
使用多变量拟合	`X = np.c_[x1, x2, x3]`
用多项式回归拟合曲线	`PolynomialFeatures()`
噪声更大时模型误差分析	增加噪声标准差
换用 Lasso、Ridge 回归	`LassoCV`, `RidgeCV`

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

# 设置支持中文的字体，并避免负号乱码
plt.rcParams['font.family'] = 'Microsoft YaHei'  # 兼容中文和常用数学符号
plt.rcParams['axes.unicode_minus'] = False

# 1. 生成模拟数据
np.random.seed(42)
X = np.linspace(0, 10, 100).reshape(-1, 1)
y = 2.5 * X.flatten() + np.random.normal(0, 3, size=100)  # 加入噪声

# 2. 拆分训练和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 建立模型并拟合
model = LinearRegression()
model.fit(X_train, y_train)

# 4. 预测
y_pred = model.predict(X_test)

# 5. 计算 R²
r2 = r2_score(y_test, y_pred)
print(f"R2 Score: {r2:.3f}")

# 6. 可视化结果
plt.figure(figsize=(8, 6))
plt.scatter(X_test, y_test, color='blue', label='真实值')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='预测回归线')
plt.title(f"线性回归预测结果\nR2 = {r2:.3f}")
plt.xlabel("X")
plt.ylabel("y")
plt.legend()
plt.grid(True)
plt.show()

当然可以！下面是你提供的线性回归 + R²可视化的完整代码，我将为你逐行详细解释其作用与原理，适合学习与理解。

✅ 完整代码 + 逐行解释

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

导入所需模块：

numpy：用于生成模拟数据（数组、数学操作）；
matplotlib.pyplot：用于绘图；
LinearRegression：sklearn中线性回归模型；
r2_score：用于计算 R²（决定系数）；
train_test_split：划分训练集和测试集。

plt.rcParams['font.family'] = 'Microsoft YaHei'
plt.rcParams['axes.unicode_minus'] = False

设置绘图中文支持：

'Microsoft YaHei'：设定图中文字的字体（支持中文）；
'axes.unicode_minus' = False：防止负号 - 显示为乱码（特别是在 Windows 上）。

np.random.seed(42)

设置随机数种子：

保证每次运行生成的随机数一致；
结果可复现，有利于调试或展示。

X = np.linspace(0, 10, 100).reshape(-1, 1)

生成模拟自变量（特征）X：

在 0 到 10 之间等间距生成 100 个值；
.reshape(-1, 1)：转换成二维列向量，形状为 (100, 1)，用于模型训练。

y = 2.5 * X.flatten() + np.random.normal(0, 3, size=100)

构造因变量（目标值）y：

2.5 * X：模拟线性关系；
+ 噪声：加入服从正态分布的随机扰动，模拟真实世界数据；
X.flatten()：将二维 X 展平为一维，便于加噪声。

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

✂️ 划分训练集和测试集：

训练集 80%，测试集 20%；
random_state=42：固定划分方式，使实验可重复。

model = LinearRegression()

创建线性回归模型对象：

model 还没有被训练，只是一个空的线性模型容器。

model.fit(X_train, y_train)

训练模型（拟合）：

用训练集的数据 X_train 和 y_train 来学习模型的参数（斜率和截距）；
最小化残差平方和。

y_pred = model.predict(X_test)

进行预测：

用训练好的模型在测试集 X_test 上进行预测；
输出是 y_pred，即模型预测的目标值。

r2 = r2_score(y_test, y_pred)
print(f"R2 Score: {r2:.3f}")

计算并输出 R² 分数：

r2_score 衡量预测值与真实值之间的拟合程度；
输出如 R2 Score: 0.906，说明模型解释了 90.6% 的数据波动。

plt.figure(figsize=(8, 6))

创建图像窗口：

设置画布大小为 8 x 6 英寸。

plt.scatter(X_test, y_test, color='blue', label='真实值')

绘制散点图（测试集真实值）：

横坐标是 X_test，纵坐标是 y_test；
使用蓝色圆点表示。

plt.plot(X_test, y_pred, color='red', linewidth=2, label='预测回归线')

绘制预测回归线：

红线表示模型预测结果；
线宽设置为 2，便于观察。

plt.title(f"线性回归预测结果\nR2 = {r2:.3f}")

️ 添加标题：

支持换行符 \n；
显示模型名称和 R² 分数；
因为字体设置为中文可用，所以中文标题可以正常显示。

plt.xlabel("X")
plt.ylabel("y")

添加坐标轴标签：

横轴是输入特征 X；
纵轴是目标变量 y。

plt.legend()
plt.grid(True)

添加图例和网格线：

图例区分“真实值”和“预测回归线”；
网格线便于读数。

plt.show()

显示图像窗口

✅ 总结流程

步骤	操作内容
数据准备	生成模拟线性数据 X, y
数据划分	划分训练集/测试集
模型训练	创建并训练 `LinearRegression()` 模型
模型预测	使用测试集进行预测
模型评估	计算并输出 R² 决定系数
可视化	画出预测直线与实际点的关系图

是否还需要我用这套代码扩展成多变量线性回归、加入残差分析、或可视化学习过程？可以继续告诉我你的需求！

✅ 三、运行结果说明

会打印出 R² 值，例如 R² Score: 0.906；
可视化中：
- 蓝点表示测试集的真实值；
- 红线表示模型拟合的直线；
- 曲线与蓝点越贴合，说明模型拟合效果越好。

✅ 四、适用场景

场景	是否适用 R²
线性/多元线性回归	✅ 非常适用
非线性回归（配合其他指标）	✅ 可参考
分类问题	❌ 不适用
时间序列预测	❓ 小心使用（不稳定）

无监督学习与监督学习

好的，下面是对 监督学习（Supervised Learning） 和 无监督学习（Unsupervised Learning） 的详细介绍，包括定义、核心区别、常见算法、应用场景与示例。

✅ 一、监督学习（Supervised Learning）

定义：

监督学习是指训练数据中包含明确的“输入 + 输出”标签，模型学习从输入到输出的映射关系。

你可以把它想象成**“有老师监督的学习”**：告诉你题目和答案，模型通过这些练习学会解题。

举例：

你给模型一张图像（输入），同时告诉它图中是“猫”还是“狗”（输出标签）。
模型通过大量样本学习图像特征与分类之间的对应关系。

常见任务：

任务类型	输入例子	输出例子
分类	一张图片、一个病人数据	标签：猫/狗，良性/恶性
回归	房屋面积、位置	房价（连续数值）

常见算法：

线性回归 / 逻辑回归
决策树 / 随机森林
KNN
支持向量机（SVM）
神经网络 / CNN / LSTM

✅ 二、无监督学习（Unsupervised Learning）

定义：

无监督学习是指训练数据只有输入，没有任何标签。模型目标是发现数据中的隐藏结构或规律。

可以理解为**“没有老师的自学”**：你拿到一堆没标签的数据，只能自己分析它们的共性、分布、内在结构。

举例：

给模型几百张图片，但不告诉它内容是什么，它需要自己发现哪些图像相似，分成不同“组”。

常见任务：

任务类型	目标
聚类	把样本分为几类，例如用户分群
降维	将高维数据压缩为二维进行可视化
关联规则	找出变量之间的关系，如购物篮分析

常见算法：

K-Means 聚类
DBSCAN
层次聚类
PCA（主成分分析）
t-SNE, UMAP（降维）
Autoencoder（自编码器）

✅ 三、监督 vs 无监督：对比表

项目	监督学习	无监督学习
是否有标签	✅ 有（有答案）	❌ 无标签（无答案）
目标	预测输出	发现隐藏结构
数据格式	(输入, 标签)	只有输入
示例	图像分类、房价预测、语音识别	用户分群、异常检测、推荐系统
常见算法	回归、SVM、神经网络	聚类、PCA、自编码器

✅ 四、实际应用场景对比

场景	属于哪类？	描述
判断邮件是否是垃圾邮件	监督学习	输入：邮件文本，输出：垃圾/正常
用户按兴趣自动分组	无监督学习	只有用户行为，无标签
图像识别（猫、狗）	监督学习	图像输入，标注输出
异常检测（信用卡欺诈）	无监督学习 / 半监督	无明显标签，通过行为识别出异常

✅ 五、延伸：半监督 & 强化学习

类型	简要说明
半监督学习	只有部分样本有标签，结合无标签数据学习
强化学习	模型通过与环境交互“试错”，获得奖励信号来学习

✅ 六、小结

监督学习：学的是输入 → 输出，适合预测问题
无监督学习：学的是结构/关系，适合数据探索与压缩
都是机器学习的核心分支

你可能感兴趣的:(深度学习,笔记,人工智能)

日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
【花了N长时间读《过犹不及》，不断练习，可以越通透】君君Love
我已经记不清花了多长时间去读《过犹不及》，读书笔记都写了42页，这算是读得特别精细的了。是一本难得的好书，虽然书中很多内容和圣经吻合，我不是基督徒，却觉得这样的文字值得细细品味，和我们的生活息息相关。我是个界线建立不牢固的人，常常愧疚，常常害怕他人的愤怒，常常不懂拒绝，还有很多时候表达不了自己真实的感受，心里在说不嘴里却在说好……这本书给我很多的启示，让我学会了怎样去建立属于自己的清晰的界限。建立
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
第八课: 写作出版你最关心的出书流程和市场分析（无戒学堂复盘）人在陌上
今天是周六，恰是圣诞节。推掉了两个需要凑腿的牌局，在一个手机，一个笔记本，一台电脑，一杯热茶的陪伴下，一个人静静地回听无戒学堂的最后一堂课。感谢这一个月，让自己的习惯开始改变，至少，可以静坐一个下午而不觉得乏味枯燥难受了，要为自己点个赞。我深知，这最后一堂课的内容，以我的资质和毅力，可能永远都用不上。但很明显，无戒学堂是用了心的，毕竟，有很多优秀学员，已经具备了写作能力，马上就要用到这堂课的内容。
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
《感官品牌》读书笔记 1 西红柿阿达
原文:最近我在东京街头闲逛时，与一位女士擦肩而过，我发现她的香水味似曾相识。“哗”的一下，记亿和情感立刻像潮水般涌了出来。这个香水味把我带回了15年前上高中的时候，我的一位亲密好友也是用这款香水。一瞬间，我呆站在那里，东京的街景逐渐淡出，取而代之的是我年少时的丹麦以及喜悦、悲伤、恐惧、困惑的记忆。我被这熟悉的香水味征服了。感想:感官是有记忆的，你所听到，看到，闻到过的有代表性的事件都会在大脑中深深
我不想再当知识的搬运工楚煜楚尧
因为学校课题研究的需要，这个暑假我依然需要完成一本书的阅读笔记。我选的是管建刚老师的《习课堂十讲》。这本书，之前我读过，所以重读的时候，感到很亲切，摘抄起来更是非常得心应手。20页，40面，抄了十天，终于在今天大功告成了。这对之前什么事都要一拖再拖的我来说，是破天荒的改变。我发现至从认识小尘老师以后，我的确发生了很大的改变。遇到必须做却总是犹豫不去做的事，我学会了按照小尘老师说的那样，在心里默默数
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
20210517坚持分享53天读书摘抄笔记非暴力沟通——爱自己 f79a6556cb19
让生命之花绽放在赫布·加德纳（HerbGardner）编写的《一千个小丑》一剧中，主人公拒绝将他12岁的外甥交给儿童福利院。他郑重地说道：“我希望他准确无误地知道他是多么特殊的生命，要不，他在成长的过程中将会忽视这一点。我希望他保持清醒，并看到各种奇妙的可能。我希望他知道，一旦有机会，排除万难给世界一点触动是值得的。我还希望他知道为什么他是一个人，而不是一张椅子。”然而，一旦负面的自我评价使我们看
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
Unity学习笔记1 zy_777
通过一个星期的简单学习，初步了解了下unity，unity的使用，以及场景的布局，UI，以及用C#做一些简单的逻辑。好记性不如烂笔头，一些关键帧还是记起来比较好，哈哈，不然可能转瞬即逝了，（PS:纯小白观点，unity大神可以直接忽略了）一：MonoBehaviour类的初始化1，Instantiate()创建GameObject2，通过Awake()和Start()来做初始化3，Update、L
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
08.学习闭环三部曲：预习、实时学习、复习 0058b195f4dc
人生就是一本效率手册，你怎样对待时间，时间就会给你同比例的回馈。单点突破法。预习，实时学习，复习。1、预习：凡事提前【计划】（1）前一晚设置三个当日目标。每周起始于每周日。（2）提前学习。预习法进行思考。预不预习效果相差20％，预习法学会提问。（3）《学会提问》。听电子书。2.实时学习（1）（10％）相应场景，思维导图，快速笔记。灵感笔记。（2）大纲，基本记录，总结篇。3.复习法则，（70％），最
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

深度学习笔记

文章目录

聚类

导入模块

生成模拟数据

建立并训练 K-Means 聚类模型

创建图形

绘制散点图（聚类结果）

获取聚类中心

可视化聚类中心

设置图形标题和标签

输出效果

数据降维

一、常见的数据降维方法

二、Python 降维示例（用 PCA 将 3D 数据降至 2D）

✅ 第1部分：导入模块

✅ 第2部分：生成模拟数据

✅ 第3部分：PCA降维处理

✅ 第4部分：开始绘图

✅ 第5部分：绘制散点图

✅ 第6部分：完善图像细节并显示

✨ 最终效果

数据降维的作用

✅ 一、降维的主要作用

1. 降低计算复杂度

2. 可视化高维数据

3. 去除冗余和噪声

4. 防止“维数灾难”（curse of dimensionality）

5. 提高模型性能

二、常用降维方法简表

✅ 总结一句话：

模型性能的度量

✅ 一、模型性能度量的意义（简要介绍）

✅ 二、常见性能度量指标（简要分类）

✅ 三、Python 示例：使用 sklearn 设置模型性能度量方法

示例代码（分类任务）

一、背景：鸢尾花数据集简介（Iris Dataset）

二、为什么做二分类？

三、机器学习流程（逻辑回归模型）

1️⃣ 数据预处理

2️⃣ 模型训练

3️⃣ 模型预测

四、模型性能评估指标（详细解释）

五、完整代码示例（逻辑回归 + 二分类评估）

六、输出解释

逐行解释代码

✅ 第1步：导入必要模块

✅ 整体功能：

第1行：

✅ 意思：创建一个逻辑回归模型对象

第2行：

✅ 意思：用训练数据训练模型

举个例子帮助理解：

训练完成后你可以做：

✅ 1. model.predict(X_test)

功能：

输入：

输出：

用途：

✅ 2. model.predict_proba(X_test)

功能：

输入：

输出：

用途：

✅ 3. model.coef_

功能：

输出：

用途：

✅ 4. model.score(X_test, y_test)

功能：

输入：

输出：

用途：

总结表：

✅ 总结一句话：

✅ 总结一下：这段代码完成了什么？

✅ 一、什么是 R²（决定系数）

定义：

数学表达式：

✅ 二、Python 示例：线性回归 + R² 可视化

✅ 1. `model.predict(X_test)`

✅ 2. `model.predict_proba(X_test)`

✅ 3. `model.coef_`

✅ 4. `model.score(X_test, y_test)`