吴师兄大模型

【机器学习】揭秘异常检测：轻松揪出数据中的“害群之马” (含Scikit-learn实战)

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！
07-【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘

PyTorch系列文章目录

Python系列文章目录

机器学习系列文章目录

01-什么是机器学习？从零基础到自动驾驶案例全解析
02-从过拟合到强化学习：机器学习核心知识全解析
03-从零精通机器学习：线性回归入门
04-逻辑回归 vs. 线性回归：一文搞懂两者的区别与应用
05-决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型
06-集成学习与随机森林：从理论到实践的全面解析
07-支持向量机（SVM）：从入门到精通的机器学习利器
08-【机器学习】KNN算法入门：从零到电影推荐实战
09-【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战
10-【机器学习】聚类算法全解析：K-Means、层次聚类、DBSCAN在市场细分的应用
11-【机器学习】降维与特征选择全攻略：PCA、LDA与特征选择方法详解
12-【机器学习】手把手教你构建神经网络：从零到手写数字识别实战
13-【机器学习】从零开始学习卷积神经网络（CNN）：原理、架构与应用
14-【机器学习】RNN与LSTM全攻略：解锁序列数据的秘密
15-【机器学习】GAN从入门到实战：手把手教你实现生成对抗网络
16-【机器学习】强化学习入门：从零掌握 Agent 到 DQN 核心概念与 Gym 实战
17-【机器学习】AUC、F1分数不再迷茫：图解Scikit-Learn模型评估与选择核心技巧
18-【机器学习】Day 18: 告别盲猜！网格/随机/贝叶斯搜索带你精通超参数调优
19-【机器学习】从零精通特征工程：Kaggle金牌选手都在用的核心技术
20-【机器学习】模型性能差？90%是因为数据没洗干净！(缺失值/异常值/不平衡处理)
21-【机器学习】保姆级教程：7步带你从0到1完成泰坦尼克号生还预测项目
22-【机器学习】框架三巨头：Scikit-Learn vs TensorFlow/Keras vs PyTorch 全方位对比与实战
23-【机器学习】揭秘迁移学习：如何用 ResNet 和 BERT 加速你的 AI 项目？
24-【机器学习】NLP核心技术详解：用Scikit-learn、Gensim和Hugging Face玩转文本处理 (Day 24)
25-【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（Day 25）
26-【机器学习】万字长文：深入剖析推荐系统核心算法 (协同过滤/内容/SVD) 与Python实战
27-【机器学习】第27天：玩转时间序列预测，从 ARIMA 到 Prophet 实战指南
28-【机器学习】揭秘异常检测：轻松揪出数据中的“害群之马” (含Scikit-learn实战)

文章目录

Langchain系列文章目录
PyTorch系列文章目录
Python系列文章目录
机器学习系列文章目录
前言
一、什么是异常检测？
- 1.1 为什么异常检测如此重要？
- 1.2 异常点的类型
二、异常检测的应用场景
- 2.1 金融欺诈检测
- 2.2 工业设备故障预警
- 2.3 网络安全入侵检测
- 2.4 其他应用领域
三、基于统计的异常检测方法
- 3.1 Z-Score：基于标准差的判断
- - 3.1.1 原理详解
  - 3.1.2 优缺点与适用场景
- 3.2 IQR（四分位距）：对极端值更鲁棒
- - 3.2.1 原理详解
  - 3.2.2 优缺点与适用场景
四、基于距离/密度的异常检测方法
- 4.1 K-Means：利用聚类发现离群点
- - 4.1.1 原理概述
  - 4.1.2 应用于异常检测的思路
- 4.2 DBSCAN：基于密度的扫描
- - 4.2.1 原理概述
  - 4.2.2 异常点识别机制
- 4.3 LOF（局部异常因子）：相对密度的考量
- - 4.3.1 原理详解
  - 4.3.2 优缺点
五、基于机器学习的异常检测方法
- 5.1 孤立森林（Isolation Forest）：高效的异常检测器
- - 5.1.1 核心思想：异常点更容易被孤立
  - 5.1.2 算法流程
  - 5.1.3 Scikit-learn 实战与可视化
  - - （1）导入库与生成数据
    - （2）训练孤立森林模型
    - （3）预测异常点
    - （4）可视化结果
- 5.2 One-Class SVM：寻找数据边界
- - 5.2.1 核心思想：学习“正常”数据的分布
  - 5.2.2 原理简述
  - 5.2.3 Scikit-learn 简单示例
六、基于深度学习的异常检测方法（简介）
- 6.1 自编码器（Autoencoder）：重构误差的启示
- - 6.1.1 工作原理
  - 6.1.2 优势与挑战
七、选择合适的异常检测方法
- 7.1 考虑数据特性
- 7.2 考虑应用场景
- 7.3 常见问题与排查建议
八、总结

前言

在数据的海洋中，大部分数据都遵循着某种模式或规律。然而，总有一些数据点显得格格不入，它们或孤立、或偏离、或行为怪异，这些“异类”就是我们今天要讨论的主角——异常点（Anomalies / Outliers）。异常检测（Anomaly Detection），顾名思义，就是利用技术手段，自动地从海量数据中识别出这些罕见、不寻常的模式或个体。

想象一下，银行系统需要实时发现欺诈交易，工厂需要预测即将发生故障的设备，网络系统需要抵御未知的攻击… 这些场景的核心诉求都是快速、准确地识别异常。异常检测技术正是应对这些挑战的关键。

本文作为机器学习系列（Day 28）的一部分，将系统性地介绍异常检测的核心概念、主流方法（从经典统计到现代机器学习，乃至深度学习）及其在真实世界中的应用。无论您是刚接触数据分析的初学者，还是希望深化理解的进阶者，本文都将为您提供一个清晰、实用且包含代码实战的异常检测知识框架。

一、什么是异常检测？

异常检测，有时也称为离群点检测（Outlier Detection），其目标是识别数据集中与大多数数据显著不同的数据点或模式。这些“不同”可能意味着数据错误、罕见事件，或者恰恰是我们最感兴趣的关键信息。

1.1 为什么异常检测如此重要？

异常检测的重要性体现在多个方面：

风险防控: 及时发现金融欺诈、网络攻击、系统入侵等恶意行为，减少损失。
故障预警: 在设备或系统彻底失效前，通过检测运行参数的异常，提前预警，安排维护。
数据清洗: 识别并处理数据收集或录入过程中的错误值，提高数据质量，保障后续分析或模型训练的准确性。
发现新知识: 异常模式有时代表了未知的、有价值的现象或机会，例如医学上的罕见病症、科学研究中的意外发现等。

1.2 异常点的类型

从表现形式上看，异常点大致可分为：

点异常 (Point Anomalies): 单个数据点相对于其他所有数据点来说是异常的。例如，在一群人的年龄数据中出现一个200岁的值。
上下文异常 (Contextual Anomalies): 数据点在特定上下文中是异常的，但在其他上下文中可能是正常的。例如，夏天穿羽绒服，或者在通常低温的时段服务器CPU使用率突然飙升。
群体异常 (Collective Anomalies): 一组相互关联的数据点作为一个整体是异常的，即使单个点可能并不异常。例如，心电图（ECG）信号中一段看似平稳但实则代表心脏骤停的波形。

理解异常的类型有助于我们选择更合适的检测方法。

二、异常检测的应用场景

异常检测技术已广泛应用于各行各业，以下是一些典型的应用场景：

2.1 金融欺诈检测

这是异常检测最经典的应用之一。通过分析用户的交易行为（如交易金额、频率、地点、时间等），检测与用户正常模式显著偏离的可疑交易，从而识别信用卡盗刷、洗钱等欺诈活动。

2.2 工业设备故障预警

现代工业生产线上的传感器会持续收集设备的运行数据（如温度、压力、振动、电流等）。通过对这些时间序列数据进行异常检测，可以在设备出现严重故障导致停机前，识别出微小的异常波动，实现预测性维护。

2.3 网络安全入侵检测

网络流量、系统日志中包含了大量关于网络活动的信息。异常检测可以识别出不寻常的网络连接、异常的登录尝试、恶意软件的通信模式等，帮助发现零日攻击、内部威胁等安全事件。

2.4 其他应用领域

医疗健康: 检测心电图、脑电图等生理信号的异常模式，辅助疾病诊断；识别医疗记录中的异常值或错误。
系统监控: 检测服务器CPU/内存使用率、网站访问量、应用程序响应时间等的突变，及时发现系统性能问题或潜在故障。
视频监控: 检测公共场所异常人群聚集、遗留物等。

三、基于统计的异常检测方法

统计学方法是最早也是最基础的异常检测手段，它们通常基于数据分布的假设。

3.1 Z-Score：基于标准差的判断

Z-Score方法假设数据服从正态分布（高斯分布），它衡量的是一个数据点与数据集均值之间的距离（以标准差为单位）。

3.1.1 原理详解

对于一个数据点 $x$ ，其Z-Score计算公式为：
$\frac{x - \mu}{\sigma}$
其中， $\mu$ 是数据集的均值， $\sigma$ 是数据集的标准差。

通常，我们会设定一个阈值（如2或3），如果一个数据点的Z-Score绝对值超过这个阈值（即 $∣ Z ∣ > t h res h o l d$ ），则认为它是异常点。这基于正态分布的特性：约95%的数据落在均值左右2个标准差范围内，约99.7%的数据落在3个标准差范围内。

3.1.2 优缺点与适用场景

优点: 简单、计算速度快。
缺点: 强依赖于数据服从正态分布的假设；对异常值本身很敏感（异常值会影响均值和标准差的计算）。
适用场景: 数据分布近似正态，且异常点比例不高的情况。

3.2 IQR（四分位距）：对极端值更鲁棒

IQR (Interquartile Range) 方法是一种非参数统计方法，对数据分布没有严格要求，并且对极端值（异常点）本身具有更好的鲁棒性。

3.2.1 原理详解

将数据从小到大排序。
找到第一个四分位数（Q1，即第25百分位数）和第三个四分位数（Q3，即第75百分位数）。
计算四分位距： $I QR = Q 3 - Q 1$ 。IQR包含了数据集中间50%的数据。
定义异常值的判断边界：通常设定为 $\times IQR, Q3 + 1.5 \times IQR]$ 。
落在这个区间之外的数据点被认为是异常点。有时也会使用更严格的 $\times IQR, Q3 + 3 \times IQR]$ 边界来识别极端异常点。

3.2.2 优缺点与适用场景

优点: 不依赖数据分布假设；对异常值不敏感（鲁棒性好）。
缺点: 只能处理单变量数据；对于高维数据效果不佳。
适用场景: 单变量数据，或者对数据分布未知、可能存在极端值的情况。

四、基于距离/密度的异常检测方法

这类方法的核心思想是：正常数据点倾向于聚集在一起，而异常点通常远离它们的大部分邻居，或者位于数据空间的低密度区域。

4.1 K-Means：利用聚类发现离群点

K-Means本身是一种聚类算法，但可以间接用于异常检测。

4.1.1 原理概述

K-Means旨在将数据划分为K个簇，使得每个点都属于离它最近的簇中心（质心）。

4.1.2 应用于异常检测的思路

使用K-Means对数据进行聚类。
计算每个数据点到其所属簇中心的距离。
距离特别远的点，或者属于规模非常小的簇的点，可能被视为异常点。

这种方法的缺点是K值的选择会影响结果，且K-Means假设簇是球状的，对非球状分布的数据效果不佳。

4.2 DBSCAN：基于密度的扫描

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一种基于密度的聚类算法，它可以直接识别出噪声点（即异常点）。

4.2.1 原理概述

DBSCAN根据邻域内的点数（密度）来定义簇。它将点分为三类：

核心点 (Core Point): 在指定半径 (eps) 内拥有至少最小数目 (min_samples) 邻居的点。
边界点 (Border Point): 不是核心点，但在某个核心点的邻域内。
噪声点 (Noise Point): 既不是核心点也不是边界点。

4.2.2 异常点识别机制

DBSCAN算法自然地将那些无法归入任何簇（即密度不够高）的点识别为噪声点，这些噪声点通常就是我们寻找的异常点。

优点是不需要预先指定簇的数量K，可以发现任意形状的簇。缺点是对参数eps和min_samples的选择敏感，对密度差异大的数据集效果可能不理想。

4.3 LOF（局部异常因子）：相对密度的考量

LOF (Local Outlier Factor) 是一种更精细的基于密度的异常检测方法。它不看全局密度，而是比较一个点的局部密度与其邻居的局部密度。

4.3.1 原理详解

计算每个点的局部可达密度 (Local Reachability Density, LRD)，这反映了该点周围的密度。
计算每个点的局部异常因子 (LOF)。LOF值衡量的是一个点的LRD与其邻居们的平均LRD的比值。
- 如果一个点的LOF值接近1，说明它的局部密度与其邻居相似，可能是正常点。
- 如果一个点的LOF值显著大于1，说明它的局部密度远低于其邻居，很可能是异常点（因为它处于一个相对稀疏的区域，而它的邻居们处于更密集的区域）。

4.3.2 优缺点

优点: 能够检测出局部异常（即在一个相对密集的簇中存在的异常点），对密度不均的数据集效果较好。
缺点: 计算复杂度较高（特别是高维数据）；对参数（邻居数量K）敏感。

五、基于机器学习的异常检测方法

机器学习提供了更强大、更灵活的异常检测工具，尤其是在处理高维、复杂数据时。

5.1 孤立森林（Isolation Forest）：高效的异常检测器

孤立森林是一种基于集成学习思想的异常检测算法，尤其擅长处理高维数据，并且计算效率较高。

5.1.1 核心思想：异常点更容易被孤立

该算法基于一个直观的假设：异常点通常数量稀少且特征值与正常点差异较大，因此在随机构建的决策树（隔离树 iTree）中，它们往往更容易被孤立，即需要更少的分割次数就能从根节点到达叶节点。

5.1.2 算法流程

构建隔离树 (iTree):
- 从训练数据中随机抽样一部分样本。
- 随机选择一个特征。
- 在该特征的取值范围内随机选择一个分割点。
- 根据分割点将样本划分为左右两个子集。
- 递归地重复上述过程，直到满足停止条件（如节点只包含一个样本，或达到树的最大深度）。
构建森林: 重复步骤1多次，构建多棵隔离树，形成孤立森林。
计算异常分数: 对于一个待测样本点 $x$ ，计算它在森林中所有树的平均路径长度 $h (x)$ 。路径长度越短，表示该点越容易被孤立，异常的可能性越大。通常会将路径长度转换为一个0到1之间的异常分数，分数越接近1，异常概率越高。

5.1.3 Scikit-learn 实战与可视化

下面我们使用 scikit-learn 库来实现孤立森林，并可视化其检测结果。

（1）导入库与生成数据

import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest
from sklearn.datasets import make_blobs

# 设置随机种子以便复现结果
rng = np.random.RandomState(42)

# 生成一些正常的二维数据点 (模拟两个簇)
n_samples = 300
outliers_fraction = 0.1 # 假设异常点比例为 10%
n_inliers = int((1. - outliers_fraction) * n_samples)
n_outliers = int(outliers_fraction * n_samples)

# 生成正常点
X_inliers, _ = make_blobs(centers=[[2, 2], [-2, -2]], cluster_std=[0.5, 0.5],
                          n_samples=n_inliers, random_state=rng.randint(100))

# 生成异常点 (随机散布在较大范围内)
X_outliers = rng.uniform(low=-6, high=6, size=(n_outliers, 2))

# 合并正常点和异常点
X = np.vstack([X_inliers, X_outliers])

# 真实标签 (仅用于可视化对比，算法本身是无监督的)
y_true = np.concatenate([np.ones(n_inliers, dtype=int),
                       -np.ones(n_outliers, dtype=int)]) # 1 for inliers, -1 for outliers

（2）训练孤立森林模型

# 初始化并训练孤立森林模型
# contamination 参数表示预期的异常点比例，需要根据实际情况估计或调整
clf = IsolationForest(n_estimators=100, # 森林中树的数量
                      max_samples='auto', # 每棵树使用的样本数
                      contamination=outliers_fraction, # 异常点比例估计
                      random_state=rng)
clf.fit(X)

（3）预测异常点

孤立森林的 predict 方法会返回预测结果：1 表示正常点 (inlier)，-1 表示异常点 (outlier)。

# 进行预测
y_pred = clf.predict(X)

# 获取每个样本的异常分数 (分数越低越可能是异常点，与LOF相反)
# decision_function 返回的是与阈值的偏移量，负值表示异常
scores_pred = clf.decision_function(X)
threshold = np.percentile(scores_pred, 100 * outliers_fraction) # 根据分数找到阈值

（4）可视化结果

# 可视化
plt.figure(figsize=(10, 6))

# 绘制所有点，颜色基于模型的预测结果
# 正常点 (预测为1) 用蓝色圆圈表示
plt.scatter(X[y_pred == 1, 0], X[y_pred == 1, 1], c='blue', s=50, label='Predicted Inliers', edgecolors='k')
# 异常点 (预测为-1) 用红色X表示
plt.scatter(X[y_pred == -1, 0], X[y_pred == -1, 1], c='red', s=50, marker='x', label='Predicted Outliers')

# (可选) 用轮廓线展示异常分数的分布
xx, yy = np.meshgrid(np.linspace(-7, 7, 50), np.linspace(-7, 7, 50))
Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contour(xx, yy, Z, levels=[threshold], linewidths=2, colors='orange', linestyles='dashed', label=f'Learned Threshold ({threshold:.2f})')
plt.contourf(xx, yy, Z, levels=np.linspace(Z.min(), threshold, 7), cmap=plt.cm.Blues_r, alpha=0.4) # 填充正常区域
plt.contourf(xx, yy, Z, levels=[threshold, Z.max()], colors='red', alpha=0.4) # 填充异常区域


plt.title("Isolation Forest Anomaly Detection")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.legend()
plt.grid(True)
plt.show()

# 打印被识别为异常点的数量
print(f"Number of outliers detected: {np.sum(y_pred == -1)}")
print(f"Actual number of outliers: {n_outliers}")

这段代码会生成一个散点图，清晰地展示了孤立森林如何区分正常数据簇和散布的异常点，并通过颜色和标记区分了预测的正常点和异常点。橙色虚线大致勾勒出了模型学习到的异常边界。

5.2 One-Class SVM：寻找数据边界

One-Class SVM (支持向量机) 是一种适用于异常检测的 SVM 变种。它的目标不是像传统SVM那样找到区分两类数据的超平面，而是学习一个能够包围住大部分“正常”数据点的边界。

5.2.1 核心思想：学习“正常”数据的分布

它假设只有一类数据是已知的（即正常数据），然后试图找到一个最小的超球面（或在高维特征空间中的其他形状，通过核函数实现），将这些正常数据点包含在内。落在边界之外的点就被认为是异常点。

5.2.2 原理简述

One-Class SVM 寻找一个函数 $f (x)$ ，使得对于大部分训练样本（正常点） $x_i$ ，有 $f(x_i) \ge \rho$ ，同时最小化某种形式的边界复杂度（例如，超球面的体积）。参数 nu 控制了允许被错误分类（即落在边界外）的训练样本比例的上限，也间接影响了边界的紧凑程度。

5.2.3 Scikit-learn 简单示例

from sklearn.svm import OneClassSVM

# 初始化并训练 One-Class SVM 模型
# nu 参数类似于 contamination，大致表示异常点比例的上限
oc_svm = OneClassSVM(gamma='auto', nu=outliers_fraction)
oc_svm.fit(X_inliers) # 通常只用正常数据训练，但也可以用全部数据

# 预测
y_pred_ocsvm = oc_svm.predict(X) # 1 for inlier, -1 for outlier

# (可视化代码类似孤立森林，省略)

One-Class SVM 对参数（特别是 gamma 和 nu）比较敏感，需要仔细调优。

六、基于深度学习的异常检测方法（简介）

随着深度学习的发展，也涌现出许多基于深度神经网络的异常检测方法，尤其在处理图像、时间序列、文本等复杂高维数据方面表现出色。

6.1 自编码器（Autoencoder）：重构误差的启示

自编码器是一种无监督的神经网络，由编码器（Encoder）和解码器（Decoder）两部分组成。

6.1.1 工作原理

编码: 编码器将输入数据 $x$ 压缩成一个低维的潜在表示（latent representation） $z$ 。
解码: 解码器尝试从潜在表示 $z$ 重构出原始输入 $\hat{x}$ 。
训练: 网络的训练目标是最小化重构误差，即原始输入 $x$ 与重构输出 $\hat{x}$ 之间的差异（如均方误差 $\hat{x}||^2$ ）。

异常检测思路: 如果自编码器只用正常数据进行训练，它将学会如何有效地重构正常模式。当输入一个异常点时，由于该点不符合网络学到的正常模式，解码器通常无法很好地重构它，导致重构误差显著增大。因此，可以通过设定一个重构误差阈值来识别异常点。

6.1.2 优势与挑战

优势: 能够学习数据复杂的非线性模式；适用于高维数据（如图像、传感器序列）。
挑战: 模型结构设计和训练相对复杂；对超参数敏感；需要大量数据。

其他基于深度学习的方法还包括使用生成对抗网络（GAN）、循环神经网络（RNN/LSTM，用于序列数据）、图神经网络（GNN，用于图数据）等。

七、选择合适的异常检测方法

面对众多方法，如何选择最合适的呢？需要综合考虑以下因素：

7.1 考虑数据特性

数据维度: 低维数据可选统计方法、DBSCAN、LOF；高维数据更适合孤立森林、One-Class SVM、自编码器。
数据量: 小数据集统计方法可能足够；大数据集需要考虑算法效率（如孤立森林相对较快）。
数据类型: 时间序列数据可能需要专门的时序异常检测方法（如基于LSTM的）；图数据需要GNN。
是否了解正常数据分布: 如果大致了解（如近似正态），Z-Score可用；未知或复杂分布，选择非参数方法或机器学习/深度学习方法。

7.2 考虑应用场景

实时性要求: 需要快速响应的场景（如在线欺诈检测），要选择计算效率高的方法（如孤立森林）。
是否需要解释性: 统计方法、决策树（孤立森林的基础）相对易于解释；SVM、深度学习模型则更像“黑箱”。
异常类型: 是全局异常还是局部异常？LOF对局部异常更敏感。

7.3 常见问题与排查建议

参数选择: 很多方法（如DBSCAN的eps/min_samples, LOF的K, 孤立森林/One-Class SVM的contamination/nu, Autoencoder的结构/阈值）对参数敏感。需要通过交叉验证、领域知识或经验来调整。contamination 参数尤其重要，它代表你对数据中异常比例的先验估计。
标准化/归一化: 基于距离的方法（K-Means, DBSCAN, LOF, SVM）通常对特征尺度敏感，建议先进行数据标准化或归一化。
评估: 如何评估异常检测的效果？可以使用 Precision, Recall, F1-score（如果标签已知），或者观察异常分数的分布图、ROC/AUC曲线等。
有监督 vs. 无监督: 大部分异常检测是无监督的（不需要标签）。如果有一些已知的异常标签，可以考虑半监督或有监督的异常检测方法，或者用已知标签来评估无监督方法的效果。

方法选择建议 (简表)

方法类别	代表算法	优点	缺点	适用场景举例
统计	Z-Score, IQR	简单快速，易于理解	对分布假设敏感(Z-Score), 仅限低维(IQR)	数据质量检查，简单监控
距离/密度	K-Means, DBSCAN, LOF	无需分布假设，能处理非球状(DBSCAN, LOF)	对参数敏感，计算复杂度可能高(LOF, 高维DBSCAN)	空间数据分析，用户分群中的异常
机器学习	Isolation Forest, One-Class SVM	处理高维数据，效率较高(IF)，模型灵活(SVM)	对参数敏感，解释性相对较弱	金融欺诈，网络入侵，高维特征异常检测
深度学习	Autoencoder	学习复杂模式，处理非结构化数据	模型复杂，需大量数据，训练耗时，调参困难	图像/视频异常，复杂时间序列，文本异常

八、总结

异常检测是数据挖掘和机器学习领域一个充满挑战且极具价值的方向。本文系统地梳理了异常检测的核心知识：

核心概念: 理解了什么是异常检测、其重要性以及异常点的不同类型（点、上下文、群体）。
广泛应用: 认识到异常检测在金融、工业、网络安全、医疗等多个领域的关键作用。
方法概览:
- 统计方法 (Z-Score, IQR): 简单直观，基于数据分布假设或排序统计量。
- 距离/密度方法 (K-Means, DBSCAN, LOF): 基于数据点间的空间关系，适用于发现孤立点或低密度区域的点。
- 机器学习方法 (Isolation Forest, One-Class SVM): 利用集成学习或边界学习思想，高效处理高维数据。
- 深度学习方法 (Autoencoder): 通过学习正常数据的重构模式来识别异常，擅长处理复杂数据。
实战演示: 通过 Scikit-learn 详细演示了如何使用孤立森林进行异常检测，并可视化了结果，展示了从数据准备到模型训练、预测和可视化的完整流程。
方法选择: 强调了根据数据特性、应用场景需求来选择合适方法的重要性，并提供了常见问题的排查建议。

掌握异常检测技术，能帮助我们从看似杂乱的数据中发现隐藏的风险与机遇。希望本文能为您打开一扇通往异常检测世界的大门，并为您的学习和实践提供有力的支持。继续探索，数据中的“异类”或许正是最有价值的宝藏！

你可能感兴趣的:(0基础实现机器学习入门到精通,机器学习,scikit-learn,人工智能,数据异常检测,深度学习,pytorch,LLM)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
在线人数统计业务设计（场景八股文）
业务问题在当经的网站中，在线人数的实时统计已经是一个必不可少的模块了，并且该统计功能最好能够按不同的时间间隔做的统计，现在需要你设计一个在线人数统计的模块，你应该怎么进行设计的呢？背景一个网校下会有多个学员。目前平台大概有十个，平台对应的网校大概五十几个，平均一个网校会有5w个用户，预计总人数为200w，最该学员的在线人数在10w左右。设计思路最开始的时候，想到的就是使用mysql直接实现，但是明
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
氧惠官方邀请码333777，氧惠邀请码怎么获得？氧惠邀请码有什么套路？知行导师
问：氧惠邀请码怎么获得？答：氧惠官方邀请码333777返点高佣金高真的高。问：氧惠邀请码有什么套路？答：氧惠官方邀请码333777返点高佣金高真的高。氧惠APP汇聚各大主流电商和生活服务平台优惠，展示全网全品类商品，满足网购爱好者对品质好货与极致性价比的追求，并同时享受大平台购物权益保障。满足用户日常吃喝玩乐衣食住行的聚合APP，独特的商业模式，响应国家号召，为实现全民共富而努力奋斗。氧惠邀请码3
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
上半年居民消费榜出炉！这个城市的人最能花 BBM优选官方
上半年居民消费榜出炉哪个地方的人最能花钱？国家统计局公布的数据显示上海上半年居民人均可支配收入32612元居民人均消费支出21321元均为全国最高成为最能挣钱也最能花钱的城市1上海人均消费支出全国第一国家统计局公布的31省份居民人均消费支出数据显示，上海、北京、天津上半年居民人均消费支出排名前三。其中，上海上半年居民人均消费支出21321元，位居榜首。上海也是上半年全国仅有的居民人均消费支出突破2
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
大胆的宣传自己工匠良辰
#大胆的宣传自己原创：辉哥奇谭辉哥奇谭今天有朋友问：辉哥，发现你最近很多次宣传「知识星球」…我回答：对我自己用心做的东西有信心。我的观点是：我们每个人要把自己当成一件产品，精心的打磨，大胆的推销。如果我们一辈子都不敢面对自己这件产品，也不好意思去推销，怎样才能实现自己内心的梦想？怎样才能获得自由？怎样才能过上自己想过的生活？人生在世也许就是七八十年光景，我们最终都会败在「时光」脚下。每个人来到这世
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include