60岁的程序猿

机器学习—逻辑回归

本内容是博主自学机器学习总结的。由于博主水平有限，内容可能有些许错误。如有错误，请发在评论区。

- 1、基础概念
- - 1.1、什么是逻辑回归
  - 1.2、逻辑回归与线性回归的区别
  - 1.3应用场景
- 2、逻辑回归模型
- - 2.1、模型定义
  - 2.2、Sigmoid函数
  - 2.3、决策边界
  - 2.4、概率解释
- 3、模型训练
- - 3.1、损失函数
  - 3.2、梯度下降法
  - 3.3、牛顿法
  - 3.4、拟牛顿法
  - 3.4、正则化
  - 3.5、总结
- 4、多分类问题
- - 4.1、一对多（One-vs-All）
  - 4.2、一对一（One-vs-One）
  - 4.3、多标签分类
- 5、数学基础
- - 5.1、概率论基础
  - 5.2、条件概率
  - 5.3、贝叶斯定理
  - 5.4、概率分布

1、基础概念

1.1、什么是逻辑回归

逻辑回归（Logistic Regression）是一种用于分类问题的统计模型。它通过建立一个逻辑函数模型来预测某个事件属于某一类的概率，通常用于二元分类问题。逻辑回归输出的是概率值，值域介于0到1之间。模型最终通过设定一个阈值（如0.5），将连续的概率值转换为离散的分类标签（如0或1）。

逻辑回归的核心在于使用Sigmoid函数（逻辑函数）来将线性组合的结果映射为一个概率值。其公式如下：

$\frac{1}{1 + e^{-(\theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n)}}$

1.2、逻辑回归与线性回归的区别

尽管逻辑回归与线性回归都属于回归模型，但它们在用途和方法上有显著区别：

输出类型不同：
- 线性回归：用于连续变量预测，其输出是一个连续值（例如房价预测）。
- 逻辑回归：用于分类问题，其输出是一个概率值，通常用于二分类（例如预测邮件是否为垃圾邮件）。
目标函数不同：
- 线性回归：目标是最小化残差平方和（Ordinary Least Squares, OLS）。
- 逻辑回归：目标是最小化对数似然函数，通过最大化似然函数估计模型参数。
模型输出的范围：
- 线性回归的预测结果可以为负数或超出常规范围。
- 逻辑回归通过Sigmoid函数将结果限制在0到1之间，作为概率值。
适用场景：
- 线性回归适用于预测连续变量（如销量、温度等）。
- 逻辑回归适用于二分类或多分类问题（如疾病诊断、信用卡欺诈检测）。

1.3应用场景

逻辑回归广泛应用于需要分类的领域，尤其是二分类问题。以下是常见应用场景：

医学领域：用于预测患者是否患某种疾病（如预测心脏病发作的风险）。
金融领域：用于信用评分、贷款违约预测、欺诈检测等场景。
市场营销：用于客户分类（如预测用户是否会购买产品）、客户流失分析等。
社交媒体：用于垃圾邮件分类、用户行为预测等。
风险管理：评估企业或个人在未来发生风险事件的可能性。

逻辑回归在这些领域因其解释性强、计算效率高、且易于实现，被广泛采用。

2、逻辑回归模型

2.1、模型定义

逻辑回归是一种用于二分类问题的统计模型，旨在预测某个事件发生的概率。模型假设因变量 $y$ 是二元的（即 $\in \{0, 1\}$ ），并通过输入变量（特征） $x$ 的线性组合来估计事件属于某一类别的概率。模型的形式为：

$\frac{1}{1 + e^{-(\theta_0 + \theta_1 x_1 + \dots + \theta_n x_n)}}$

用更简洁的符号表示为：

$\sigma(\theta^T x)$

其中：

$P (y = 1∣ x)$ 是事件 $y = 1$ 的概率。
$\theta_0,\theta_1, \dots, \theta_n$ 是需要估计的模型参数。
$x_1, x_2, \dots, x_n$ 是输入特征。
逻辑回归通过极大似然估计来估计模型参数。

2.2、Sigmoid函数

Sigmoid函数（也称为逻辑函数）是逻辑回归的核心，用来将线性回归模型的输出映射为一个0到1之间的概率。其数学表达式为：

$\sigma(z) = \frac{1}{1 + e^{-z}}$

其中， $\theta_0 + \theta_1 x_1 + \dots + \theta_n x_n$ 是输入变量的线性组合。

Sigmoid函数的输出在0到1之间，表示事件发生的概率。它具有以下特性：

当 $z$ 非常大时， $\sigma(z)$ 接近1；
当 $z$ 非常小时， $\sigma(z)$ 接近0；
当 $z = 0$ 时， $\sigma(z) = 0.5$ 。

这种性质使得Sigmoid函数非常适合用于二分类问题中的概率预测。

2.3、决策边界

决策边界是逻辑回归模型用于划分类别的阈值，通常为0.5。根据Sigmoid函数的性质，逻辑回归模型通过设定一个阈值来判断输入数据属于哪一类。

$h_\theta(x)$ 是逻辑回归模型的预测函数，它基于输入特征$ x $ 和模型参数$ \theta $ 来预测样本属于正类（例如，标签为1）的概率。在逻辑回归中，这个预测函数通常采用Sigmoid函数，其数学表达式如下：

$h_\theta(x) = \sigma(\boldsymbol{\theta}^T x) = \frac{1}{1 + e^{-\theta^T x}}$

这里， $\boldsymbol{\theta}^T x$ 表示参数向量 $\boldsymbol{\theta}$ 和特征向量 $x$ 的点积，即：

$\boldsymbol{\theta}^T x = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \ldots + \theta_n x_n$

其中， $\theta_0$ 是偏置项（bias term）， $x_1, x_2, \ldots, x_n$ 是样本的特征值。注意：特征是 $x$ ，特征值是 $x_i$ 。

Sigmoid函数将任意实数值映射到(0, 1)区间内，这使得 $h_\theta(x)$ 的输出可以被解释为样本属于正类的概率。在二分类问题中，我们通常将这个概率与一个阈值（如0.5）进行比较，以决定最终的分类结果：

如果 $h_\theta(x) > 0.5$ ，则预测样本属于正类（标签为1）。
如果 $h_\theta(x) \leq 0.5$ ，则预测样本属于负类（标签为0）。

这种基于概率的预测方法不仅提供了分类结果，还给出了分类的置信度，这在许多应用场景中是非常有用的。例如，在医学诊断中，我们可能更关心测试结果的置信度，而不仅仅是一个简单的是或否的答案。

2.4、概率解释

逻辑回归的输出是事件发生的概率，而不是直接的分类标签。输出概率可以解释为某个事件属于类1的可能性。例如：

若 $P (y = 1∣ x) = 0.8$ ，表示在给定输入特征 $x$ 的情况下，事件 $y = 1$ 发生的概率为80%。
若 $P (y = 1∣ x) = 0.2$ ，则表示事件 $y = 1$ 发生的概率为20%。

这一概率解释是逻辑回归的一个重要特点，它不仅给出一个分类结果，还提供了分类的置信度，从而能够在决策过程中提供更多信息。例如，在某些应用中，可以根据应用场景调整决策阈值，而不仅仅依赖默认的0.5阈值。

3、模型训练

3.1、损失函数

在逻辑回归中，模型通过最大化训练数据的似然函数来估计参数。由于直接最大化似然函数在数学上不方便处理，通常会最小化负的对数似然函数，也称为交叉熵损失。

对于逻辑回归，似然函数定义为给定输入特征 $x$ 和对应标签 $y$ ，模型预测所有样本的概率的乘积。假设有 $n$ 个样本，定义如下：

$L(\theta) = \prod_{i=1}^{n} P(y^i|x^i)$

其中： $P(y^i|x^i)$ 是第 $i$ 个样本的预测概率。

为了便于优化，我们通常采用负对数似然作为损失函数，公式为：

$J(\theta) = -\sum_{i=1}^{n}\left[ y^i log(h_\theta(x^i))+(1-y^i)log(1-h_\theta(x^i))\right] 公式(1)$

其中， $h_\theta(x)$ 是样本 $x^i$ 属于正类的概率。

解释：

对于每个样本，损失函数根据预测结果与实际标签之间的差距计算“损失”。如果模型预测得越接近实际标签，损失越小，反之则损失越大。
优化目标是找到参数 $\theta$ 使损失函数 $J(\theta)$ 最小。

公式推导：

公式(1)：

对于二项分布公式，可以得出： $P(y^i|x^i) =h_\theta(x^i)^{y^i}(1-h_\theta(x^i))^{1-y^i}$

所以：

$L(\theta) = \prod_{i=1}^{n} P(y^i|x^i)=\prod_{i=1}^{n}h_\theta(x^i)^{y^i}(1-h_\theta(x^i))^{1-y^i}$

对它求对数，得到对数似然函数：

$l(\theta)=log(L(\theta))=\sum_{i=1}^{n} y^i log(h_\theta(x^i))+\sum_{i=1}^{n}(1-y^i)log(1-h_\theta(x^i))$

$l(\theta)$ 可以作为逻辑回归的损失函数，但当损失函数是一个凸函数时，具备最小值。所以设定 $J(\theta)=-l(\theta)$ ，即

$J(\theta) = -\sum_{i=1}^{n}\left[ y^i log(h_\theta(x^i))+(1-y^i)log(1-h_\theta(x^i))\right]$

注：
- $L(\theta)$ 还可以写成 $L(\theta|X;Y)、L(\theta|X,Y)$ ， $l(\theta)、J(\theta)$ 与它相同
- $P(y^i|x^i)$ 还可以写成 $P(y^i|\theta;x^i)、P(y^i|\theta,x^i)$

3.2、梯度下降法

梯度下降法（Gradient Descent）是逻辑回归模型中常用的优化算法之一，用于最小化损失函数，找到能够最小化损失函数的参数值 $\beta$ 。其基本思想是沿着损失函数的负梯度方向更新模型参数，逐步接近最优解。

梯度下降法的参数更新公式为：

$\theta_j = \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}$

其中：

$\theta_j$ 是模型的第 $j$ 个参数。
$\alpha$ 是学习率（步长），控制每次更新的幅度。
$\frac{\partial J(\theta)}{\partial \theta_j}$ 是损失函数关于参数 $\theta_j$ 的偏导数，称为梯度。

每次迭代时，模型的参数根据损失函数的梯度进行调整，直到损失函数收敛到最小值。

优化过程：

计算梯度：

计算损失函数关于所有参数的梯度：

$\nabla J(\theta)=\frac{\partial J(\theta)}{\partial\theta}=\sum_{i=1}^m (h_\theta(x^i)-y^i)x^i$

将其转换成向量的形式：

$\nabla J(\theta) = \sum_{i=1}^m (h_\theta(x^i)-y^i)x^i=\begin{bmatrix}x_1 &x_2&...&x_n \end{bmatrix}\begin{bmatrix}(h_\theta(x^1)-y^1 \\(h_\theta(x^2)-y^2 \\ ...\\(h_\theta(x^m)-y^m \end{bmatrix}=X^T (h_\theta(X) - Y)$

其中：

$X$ 是包含所有样本特征的矩阵， $\boldsymbol{\theta}$ 是参数向量， $h_\theta(X)$ 是所有样本的预测概率向量， $Y$ 是所有样本的实际标签向量

因为 $\boldsymbol{\theta}$ 和 $x$ 维度相同，所以当 $x$ 有 $m$ 维的时候， $\boldsymbol{\theta}$ 同样有 $m$ 维，此时 $J(\theta)$ 的求导也变成了对 $\boldsymbol{\theta}$ 的每一个维度求导：

$\frac{\partial J(\theta)}{\partial\theta_j}=\sum_{i=1}^m (h_\theta(x^i)-y^i)x^i_j$
更新参数：

接下来，我们根据梯度和学习率 $\alpha$ 来更新每个参数。学习率是一个超参数，它控制了每次更新参数时步长的大小。参数更新的公式为：

$\theta_j = \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}$
重复迭代：

我们重复步骤1和2，直到满足某个停止条件。停止条件可以是：
- 梯度足够小，即 $\|\nabla J(\theta)\|$ 小于一个预设的阈值。
- 达到最大迭代次数。
- 损失函数的值不再显著下降。

伪代码：

# 初始化参数 
theta = np.array([0.0, 0.0, 0.0]) # 包括偏置项theta_0 

# 设置学习率和迭代次数 
alpha = 0.01 
iterations = 1000 

# 特征矩阵X和标签向量Y 
X = np.array([[1, 1, 2], [1, 2, 3], [1, 3, 4], [1, 4, 5]]) # 添加偏置项 
Y = np.array([0, 1, 1, 0]) 

# 梯度下降 
for i in range(iterations):    
	# 预测    
	predictions = 1 / (1 + np.exp(-np.dot(X, theta)))       
	#np.dot(X, theta)计算了特征矩阵X和参数向量theta的点积，得到每个样本的线性组合。然后，对这个线性组合取负值，通过np.exp计算其指数，得到一个接近0或正无穷的值。
    
    # 计算梯度    
	gradient = np.dot(X.T, (predictions - y)) / len(y)        
	#(predictions - y)计算了预测概率和实际标签之间的差异。然后，np.dot(X.T, ...)将这个差异与特征矩阵X的转置相乘，得到梯度向量
    
    # 更新参数    
	theta -= alpha * gradient 
    
# 输出最终的参数 
print(theta)

3.3、牛顿法

梯度下降法实现相对简单，但其收敛速度较慢。在较小值附近，梯度下降法会以一种曲折的慢速方式来逼近最小点，此时可以考虑采用牛顿法和拟牛顿法。

1. 牛顿法：
牛顿法通过使用二阶导数（即 Hessian 矩阵）来找到损失函数的最小值。更新公式为：

$\theta_{k+1} = \theta_k - H(\theta_k)^{-1} \nabla f(\theta_k)$

其中：

$H$ 是 Hessian 矩阵，表示损失函数的二阶导数。
$\nabla f(\theta_k)$ 是损失函数的梯度。
$\theta_k$ 表示第 $k$ 次迭代时的参数向量

牛顿法通常收敛速度更快，因为它利用了二阶信息，可以更精确地找到损失函数的最优解。然而，计算 Hessian 矩阵在高维数据上代价较高，因此牛顿法更适用于中小型数据集。

公式推导：

在泰勒展开式中，对于函数 $f (x)$ ，当 $x$ 在 $x_0$ 附近时可以使用如下展开式来逼近 $f (x)$ ：

$\frac{f''(a)}{2!}(x-a)^2 + \frac{f'''(a)}{3!}(x-a)^3 + \cdots + \frac{f^{(n)}(a)}{n!}(x-a)^n + R_n(x)$

在牛顿法中，我们使用逐步逼近的方法来求解参数 $\theta$ 。这里我们用下标 $k$ 标识在第 $k$ 步的诸标量值。例如，用 $\theta_k$ 表示第 $k$ 步的 $\theta$ 值。在第 $k$ 步，我们有当前估计 $\theta_k$ ，就可以将 $f(\theta)$ (损失函数)用在其在 $\theta_k$ 处的二阶泰勒展开式来近似：

$f(\theta) \approx f(\theta_k) + \nabla f(\theta_k)^T (\theta - \theta_k) + \frac{1}{2} (\theta - \theta_k)^T H(\theta_k) (\theta - \theta_k)$

这里：

$f(\theta_k)$ 是一个标量，表示函数在 $\theta_k$ 处的值。
$\nabla f(\theta_k)$ 是 $f$ 在 $\theta_k$ 处的梯度，是一个 $n$ 维向量。
- 它由函数 $f$ 在点 $\theta_k$ 处的偏导数构成。
- 具体来说，如果 $\theta_k = (\theta_{k1}, \theta_{k2}, \ldots, \theta_{kn})^T$ ) 是一个 $n$ 维向量，那么梯度 $\nabla f(\theta_k)$ 就是函数 $f$ 对每个变量 $\theta_{ki}$ 的偏导数组成的向量。
- 梯度向量的每个分量定义如下： $\nabla f(\theta_k) = \begin{bmatrix} \frac{\partial f}{\partial \theta_1}(\theta_k) \\ \frac{\partial f}{\partial \theta_2}(\theta_k) \\ \vdots \\ \frac{\partial f}{\partial \theta_n}(\theta_k) \end{bmatrix}$ 这里，每个分量 $\frac{\partial f}{\partial \theta_i}(\theta_k)$ 表示函数 $f$ 在点 $\theta_k$ 处对第 $i$ 个变量 $\theta_i$ 的偏导数。
$H(\theta_k)$ 是 $f$ 在 $\theta_k$ 处的黑塞矩阵，是一个 $\times n$ 矩阵。
- 它的构成基于函数 $f$ 在点 $\theta_k$ 处的二阶偏导数。
- 具体来说，如果 $f$ 是一个 $n$ 变量的函数，那么黑塞矩阵 $H(\theta_k)$ 中第 $i$ 行第 $j$ 列的元素是 $f$ 对第 $i$ 个变量和第 $j$ 个变量的二阶偏导数，即： $H(\theta_k)_{ij} = \frac{\partial^2 f}{\partial \theta_i \partial \theta_j}(\theta_k)$ 这意味着黑塞矩阵的主对角线上的元素是函数对每个变量的二阶偏导数，而非对角线元素则是混合偏导数。由于混合偏导数的等价性（克莱罗定理），黑塞矩阵是对称的，即 $H(\theta_k)_{ij} = H(\theta_k)_{ji}$ 。
$\theta$ 是我们要求解的向量。
$\theta_k$ 是当前的估计向量。
$\theta - \theta_k$ 是向量 $\theta$ 和 $\theta_k$ 之间的差，也是一个 $n$ 维向量。

在牛顿法中，我们希望找到下一个点 $\theta_{k+1}$ ，使得 $f(\theta_{k+1})$ 尽可能小。所以对 $f(\theta)$ 进行求导，并将导数置为0：

$\frac{\partial f(\theta)}{\partial \theta}=\frac{f(\theta_k) + \nabla f(\theta_k)^T (\theta - \theta_k) + \frac{1}{2} (\theta - \theta_k)^T H(\theta_k) (\theta - \theta_k)}{\partial \theta}=\nabla f(\theta_k)^T+(\theta - \theta_k) H(\theta_k)=0$

解上述方程得到：

$(\theta - \theta_k)^T H(\theta_k) = -\nabla f(\theta_k)^T$

由于 $H(\theta_k)$ 是一个方阵，我们可以将两边乘以 $H(\theta_k)$ 的逆矩阵：

$\theta - \theta_k = -H(\theta_k)^{-1} \nabla f(\theta_k)$

因此：

$\theta = \theta_k - H(\theta_k)^{-1} \nabla f(\theta_k)$

将 $\theta$ 更新为 $\theta_{k+1}$ ：

$\theta_{k+1} = \theta_k - H(\theta_k)^{-1} \nabla f(\theta_k)$

2. 逻辑回归的牛顿法求解

$\theta_{k+1} = \theta_k - H(\theta_k)^{-1} \nabla J(\theta_k)$

梯度：

$\nabla J(\theta) =X^T (h_\theta(X) - Y)$

海森矩阵：

$H(\theta) = X^T SX$

其中： $S$ 为对角矩阵，其第 $i$ 个对角元素为 $h_\theta(x_i)(1 - h_\theta(x_i))$ 。对于一个包含 $m$ 个样本的数据集， $S$ 的矩阵形式是：

$\begin{bmatrix} h_\theta(x_1)(1 - h_\theta(x_1)) & 0 & \cdots & 0 \\ 0 & h_\theta(x_2)(1 - h_\theta(x_2)) & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & h_\theta(x_m)(1 - h_\theta(x_m)) \end{bmatrix}$

牛顿法的迭代步骤

初始化参数：选择初始参数 $\theta_0$ ，通常设为 0 向量。
计算预测概率：根据当前参数 $\theta$ ，计算预测的概率 $h_\theta(x) = \sigma(\theta^Tx)$ 。
计算梯度和 Hessian：
- 计算梯度 $g(\theta) = X^T (h_\theta(x)-Y)$ 。
- 计算 Hessian 矩阵 $H(\theta) = X^T S X$ ，其中 $S$ 为对角矩阵。
更新参数：根据牛顿法的公式更新参数：

$\theta_{k+1} = \theta_{k+1} - H(\theta)^{-1} g(\theta)$

检查收敛：判断参数更新后的变化量 $\|\theta_{k+1} - \theta_{k}\|$ 是否小于设定的阈值 $\epsilon$ ，如果是，则停止迭代，否则返回步骤 2 继续迭代。
输出结果：当满足收敛条件时，输出最优的参数 $\theta$ 。

在实践中，由于黑塞矩阵 $H (θ)$ 是正定的，它的逆可以保证存在，并且这个更新公式可以有效地用于求解逻辑回归问题。然而，计算黑塞矩阵及其逆在计算上可能很昂贵，特别是对于大型数据集。因此，通常使用更高效的优化算法，如梯度下降法或拟牛顿法。

3.4、拟牛顿法

由于牛顿法需要计算海森矩阵的逆，因此计算量较大。随着未知数维度 $D$ 的增大，海森矩阵（ $D\times D$ ）也会增大，需要的存储空间增多，计算量增大，有时候甚至会大到不可计算。

拟牛顿法（Quasi-Newton Methods）是一类用于求解无约束优化问题的迭代方法，它是对经典牛顿法的改进。与牛顿法不同，**拟牛顿法不需要直接计算 Hessian 矩阵的逆，而是通过逐步构造近似 Hessian 矩阵的方式来进行优化。**这使得拟牛顿法在高维问题中更加高效，且减少了计算成本。

**BFGS（Broyden-Fletcher-Goldfarb-Shanno）**方法是拟牛顿法中的一种常用算法，用于解决无约束优化问题。它通过迭代逐步逼近目标函数的Hessian矩阵，避免了直接计算Hessian矩阵的复杂性，并保持较高的收敛效率。以下是BFGS方法的关键原理和步骤。

1.基本思想

BFGS方法的核心在于利用迭代过程中得到的梯度信息，逐步更新近似的Hessian矩阵 $B_k$ （或它的逆矩阵 $D_k = B_k^{-1}$ ），而不是显式计算目标函数的Hessian矩阵。每次迭代时，更新的近似矩阵能够反映目标函数的局部曲率，从而加速收敛。

2.BFGS算法步骤

2.1 初始条件

初始点 $\theta_0$ 。注：这里的 $\theta_0$ 不是值，是 $\theta$ 初始化时的向量
初始Hessian矩阵的逆矩阵 $D_0$ （通常选择为单位矩阵）
设定收敛容差 $\epsilon$

2.2 迭代步骤

计算搜索方向：
在每次迭代中，计算当前迭代点的搜索方向 $ p_k $：
$p_k = -D_k \nabla f(\theta_k)$
其中： $\nabla f(\theta_k)$ 是在点 $\theta_k$ 处目标函数的梯度， $D_k$ 是近似的Hessian矩阵的逆矩阵。该搜索方向通常是下降方向。
线搜索：

进行线搜索的目的是寻找合适的步长 $\alpha_k$ ，以确保在每次迭代中沿着当前的搜索方向 $p_k$ 进行更新时，目标函数 $f(\theta)$ 取得充分的下降。

$\theta_{k+1} = \theta_k + \alpha_k p_k$

其中：步长 $\alpha_k$ 不能随意选取，通常通过满足Wolfe条件或Armijo条件来确定。
更新参数：
计算两个向量：
- 梯度变化量 $y_k$ ：
  $y_k = \nabla f(\theta_{k+1}) - \nabla f(\theta_k)$
  - 位置变化量 $s_k$ ：
    $s_k = \theta_{k+1} - \theta_k$
更新近似的Hessian矩阵的逆矩阵 $D_k$ ：
根据以下更新公式更新 $D_k $：

$D_{k+1} = \left( I - \frac{s_k y_k^T}{y_k^T s_k} \right) D_k \left( I - \frac{y_k s_k^T}{y_k^T s_k} \right) + \frac{s_k s_k^T}{y_k^T s_k}$

该公式能保持 $D_{k+1}$ 的正定性和对称性，同时逐步逼近真实的Hessian矩阵。
判断收敛：
若梯度的范数 $\|\nabla f(\theta_{k+1})\|$ 小于设定的收敛容差 $\epsilon$ ，则迭代终止；否则继续进行下一次迭代。

3.L-BFGS：BFGS的改进版本

在处理大规模问题时，BFGS方法由于需要存储和更新完整的Hessian矩阵，可能会消耗过多内存。为此，引入了L-BFGS（Limited-memory BFGS）方法，它只存储少量的历史信息，用于更新Hessian矩阵的近似，显著减少了内存需求，适用于大规模优化问题。

3.4、正则化

正则化是一种防止模型过拟合的技术。过拟合是指模型在训练数据上表现良好，但在新数据上表现较差。通过在损失函数中加入正则项，可以对模型参数施加约束，避免过拟合。

L1正则化（Lasso）：
L1正则化通过在损失函数中加入模型参数的绝对值之和来约束参数。L1正则化的损失函数为：

$J(\theta) = -\sum_{i=1}^{n}\left[ y^i log(h_\theta(x^i))+(1-y^i)log(1-h_\theta(x^i))\right] + \lambda \sum_{j=1}^{m} |\theta_i|$

其中， $\lambda$ 是正则化系数，控制正则化的强度。

效果：L1正则化会将一些不重要的参数缩小到零，从而进行特征选择，使模型稀疏化。
L2正则化（Ridge）：
L2正则化通过在损失函数中加入参数平方之和来约束参数。L2正则化的损失函数为：

$J\theta) = -\sum_{i=1}^{n}\left[ y^i log(h_\theta(x^i))+(1-y^i)log(1-h_\theta(x^i))\right] + \lambda \sum_{j=1}^{m} \theta_j^2$

效果：L2正则化将较大的参数缩小，但不会将参数缩小到零，因此它有助于防止模型过度复杂化，而不会完全消除某些特征。
Elastic Net：
Elastic Net 是 L1 和 L2 正则化的组合，它结合了两者的优点，既能实现稀疏化，又能防止过拟合。其损失函数为：

$J(\theta) = -\sum_{i=1}^{n}\left[ y^i log(h_\theta(x^i))+(1-y^i)log(1-h_\theta(x^i))\right] + \lambda_1 \sum_{j=1}^{m} |\theta_j| + \lambda_2 \sum_{j=1}^{m} \theta_j^2$

其中， $\lambda_1$ 和 $\lambda_2$ 控制 L1 和 L2 正则化的强度。

3.5、总结

对数似然损失 是逻辑回归的核心损失函数，它通过最大化数据的似然来估计模型参数。
梯度下降法 是常用的优化方法，适用于大规模数据集。
牛顿法 和 拟牛顿法 提供了更快的收敛速度，适用于较小规模的数据集。
正则化 技术（L1、L2）可以防止过拟合，并帮助模型提高泛化能力。

4、多分类问题

在多分类问题中，常见的分类策略包括“一对多（One-vs-All）”、“一对一（One-vs-One）”以及多标签分类。以下是对这些策略的详细解释：

4.1、一对多（One-vs-All）

一对多策略又称为“一个对所有（One-vs-Rest）”，其基本思路是为每个类别训练一个二分类器。对于每个类别 $k$ ：

将该类别视为正类，其他所有类别视为负类。
训练 $K$ 个二分类器（其中 $K$ 是类别数量），每个分类器的输出是对其对应类别的概率。

在预测时，对于输入样本，计算所有 $K$ 个分类器的输出概率，选择概率最高的分类器作为最终的预测结果。这种方法的优点是实现简单且容易扩展到多个类别，但可能在类别不平衡时表现不佳。

4.2、一对一（One-vs-One）

一对一策略的基本思路是为每一对类别训练一个分类器。对于 $K$ 个类别，训练 $\frac{K(K-1)}{2}$ 个分类器。每个分类器只区分两个类别。例如，假设有三个类别 A、B 和 C：

训练分类器 1：区分 A 和 B
训练分类器 2：区分 A 和 C
训练分类器 3：区分 B 和 C

在预测时，所有分类器进行投票，每个分类器将其预测结果投给所区分的类别，选择获得最多投票的类别作为最终结果。这种方法通常可以提高分类的准确性，但随着类别数量的增加，分类器的数量会迅速增加，计算成本较高。

4.3、多标签分类

多标签分类问题与多分类问题不同，在多标签分类中，每个样本可以同时属于多个类别。常见的应用场景包括文本分类（例如一篇文章可以同时被标记为“科技”和“健康”）、图像标注（例如一张图片可能同时标注为“海洋”、“沙滩”、“日落”等）。

在多标签分类中，通常有以下几种处理方式：

二进制标记：为每个类别训练一个二分类器，输出每个类别的概率（类似于一对多策略）。
多标签损失函数：使用如二元交叉熵损失函数等来处理多个标签的情况，确保在训练时能够同时考虑所有标签。

5、数学基础

5.1、概率论基础

概率论是研究随机事件发生规律的数学分支。它的核心概念是“事件发生的可能性”，用概率来衡量某个事件的发生。概率的基本性质包括：

概率值的范围：对于任何事件 $A$ ，其概率 $P (A)$ 满足 $\leq P(A) \leq 1$ ，即概率介于0和1之间。
互斥事件：如果事件 $A$ 和 $B$ 互斥（即它们不能同时发生），则 $\cup B) = P(A) + P(B)$ 。
全概率：对于所有可能的事件，所有事件的概率和为1，即 $P(\Omega) = 1$ ，其中 $\Omega$ 是样本空间。

5.2、条件概率

条件概率表示在事件 $B$ 已经发生的前提下，事件 $A$ 发生的概率，记作 $P (A ∣ B)$ 。条件概率的公式为：

$\frac{P(A \cap B)}{P(B)}$

条件概率刻画了两个事件之间的关联性，是理解许多概率概念的基础。它也用于逻辑回归中的似然估计，帮助我们在已知条件下评估某一事件的概率。

5.3、贝叶斯定理

贝叶斯定理是条件概率的一个重要结果，提供了如何通过逆向思维来计算事件的概率。其公式为：

$\frac{P(B|A) \cdot P(A)}{P(B)}$

这里：

$P (A ∣ B)$ 是给定 $B$ 发生的条件下，事件 $A$ 发生的概率（后验概率）。
$P (B ∣ A)$ 是事件 $A$ 发生时，事件发 $B$ 生的概率（似然）。
$P (A)$ 是事件 $A$ 的先验概率。
$P (B)$ 是事件 $B$ 的全概率。

贝叶斯定理的重要性在于它通过已有数据和先验信息，帮助我们更新对某事件的预测。它在逻辑回归模型的解释中也常用到，特别是当我们处理具有先验概率的信息时。

5.4、概率分布

概率分布描述了随机变量取不同值的概率。对于逻辑回归，常用的分布是二项分布，它用于表示只有两个可能结果的随机事件。

二项分布描述了在 $n$ 次独立的伯努利试验（即每次试验只有两个可能结果，如“成功”或“失败”）中，成功发生 $k$ 次的概率。其概率质量函数为：

$\binom{n}{k} p^k (1 - p)^{n - k}$

其中：

$X$ 是成功次数。
$n$ 是试验的总次数。
$p$ 是单次试验成功的概率。
$\binom{n}{k}$ 是组合数，表示从 $n$ 次试验中选择 $k$ 次成功的方式数。

在逻辑回归中，目标变量通常是二元的（如0或1），因此其结果常被认为是来自二项分布。在模型拟合过程中，逻辑回归通过最大化二项分布的似然函数来找到最佳参数估计值。

你可能感兴趣的:(1024程序员节,机器学习,逻辑回归,人工智能,算法)

day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
算法刷题-动态规划之背包问题
1.背包问题之01（4.30）题目描述小明有一个容量为VV的背包。这天他去商场购物，商场一共有NN件物品，第ii件物品的体积为wiwi，价值为vivi。小明想知道在购买的物品总体积不超过VV的情况下所能获得的最大价值为多少，请你帮他算算。输入描述输入第11行包含两个正整数N,VN,V，表示商场物品的数量和小明的背包容量。第2∼N+12∼N+1行包含22个正整数w,vw,v，表示物品的体积和价值。1
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
顺时针旋转N * N 的矩阵忆杰算法 Python 矩阵 python 算法
顺时针旋转题目描述数据范围实现逻辑代码实现题目描述有一个NxN整数矩阵，请编写一个算法，将矩阵顺时针旋转90度。给定一个NxN的矩阵，和矩阵的阶数N,请返回旋转后的NxN矩阵。数据范围0852789963'''#第N列逆序后变成第N行#或者是第i行变成第N-i-1列代码实现classSolution:#列转换为行defline2Row(self,mat,n):arr=[]forlineinrang
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方