袁既望

解密垃圾邮件分类：基于SVM的数据挖掘项目

垃圾邮件（Spam）的泛滥成灾一直是电子邮件系统中的一个严峻问题。随着垃圾邮件技术的不断演变，传统的过滤方法逐渐显得力不从心。因此，本项目旨在利用支持向量机（SVM）这一强大的机器学习工具，实现对垃圾邮件的高效分类，为用户提供更清爽、高效的电子邮件体验。

一、项目目标

本项目的主要目标是构建一个基于SVM的垃圾邮件分类系统。通过对两个不同来源的数据集（trec 和 enron）进行综合分析和处理，我将展示整个数据挖掘项目的过程，包括数据的预处理、特征工程、模型训练与调优，并最终通过实验结果分析验证模型的性能。

二、数据集来源及介绍

我使用了两个不同来源的数据集，其中trec数据集已经经过处理，enron数据集需要进行清洗和整理：

trec（Emails for spam or ham classification (Trec 2007) (kaggle.com)
enron（MWiechmann/enron_spam_data: The Enron-Spam dataset preprocessed in a single, clean csv file. (github.com)

trec 数据集提供了多样的垃圾邮件和非垃圾邮件样本，而 enron 数据集则包含了来自 enron 公司的电子邮件数据。这两个数据集的结合将有助于提高模型的泛化能力。

三、数据处理与准备

在进行垃圾邮件分类项目之前，我们首先需要对数据进行准备和预处理。

3.1 trec数据集

3.1.1 数据导入与查看

pythonCopy code
trec = pd.read_csv(r"D:\\BUZZ\\\\数据挖掘\\垃圾邮件分类\\email_text.csv")
display(trec)

原因：数据一开始就是预处理过的，因此通过导入数据和查看前几行，我们可以验证数据的完整性，确保没有导入错误或缺失的信息。

3.1.2 缺失值和重复值处理

pythonCopy code
trec.isna().sum()
trec.duplicated().sum()

原因：尽管数据已经被预处理，但为了确保数据的完整性，我们仍然进行了缺失值和重复值的验证。使用isna()方法检查每一列是否存在缺失值，sum()方法得到缺失值的数量。使用duplicated()方法检查是否有重复行，sum()方法计算重复值的数量。

3.2 enron数据集

3.2.1 数据导入与查看

pythonCopy code
enron = pd.read_csv(r"D:\\BUZZ\\\\数据挖掘\\垃圾邮件分类\\enron_spam_data.csv")
display(enron)

原因： enron数据集的导入和查看步骤与trec相似。同样，通过导入数据和查看前几行，我们验证了数据的完整性。

3.2.2 缺失值和重复值处理

pythonCopy code
enron.isna().sum()
enron.duplicated().sum()
enron.dropna(inplace=True)
enron.drop_duplicates(inplace=True)

原因： 与trec不同，enron数据集是原始数据，未经过预处理。我们首先使用**isna()方法检查缺失值，sum()方法得到每列缺失值的数量。然后，使用duplicated()方法检查重复值，sum()方法计算重复值的数量。接着，使用dropna方法删除缺失值，drop_duplicates**方法删除重复值。

3.2.3 数据选择性分析与处理

pythonCopy code
pythonCopy code
# 只分析邮件正文内容，因此不需要其他列
enron.drop(['Message ID', "Subject", "Date"], axis=1, inplace=True)

# 检查缺失值
enron.isna().sum()

# 删除缺失值
enron.dropna(inplace=True)

# 检查重复值
enron.duplicated().sum()

# 删除重复值
enron.drop_duplicates(inplace=True)

# 使用 LabelEncoder 将 "ham" 替换为 0，"spam" 替换为 1
label_encoder = preprocessing.LabelEncoder()
enron['label'] = label_encoder.fit_transform(enron['Spam/Ham'])
enron.drop('Spam/Ham', axis=1, inplace=True)
enron.rename(columns={'Message': 'text'}, inplace=True)

原因： 由于我们只对邮件正文内容进行分析，因此在这一步骤中，我们删除了与正文内容无关的列。然后，我们再次检查并处理缺失值和重复值。最后，使用**LabelEncoder**将"ham"标记为0，"spam"标记为1，为模型训练做准备。

3.3 数据合并、抽样及划分

在这一步中，我首先合并了trec和enron两个数据集，再次检查了合并后的数据集是否有重复值。然后，我进行了随机抽样，保留了原始数据集的10%。最后，我使用**train_test_split**方法将数据集划分为训练集和测试集，其中20%分给测试集，80%分给训练集。这样的划分有助于我们在训练模型时验证其性能。

3.3.1 数据合并与抽样

pythonCopy code
combined = pd.concat([trec, enron], ignore_index=True)
combined.duplicated().sum()
combined = combined.sample(frac=0.1, random_state=1)

原因： 将两个数据集合并为一个可以帮助我们更方便地进行后续的分析和建模。为了减小数据规模，提高模型训练效率，我们使用了**sample**方法对合并后的数据进行了随机抽样。这也有助于避免在处理大规模数据时过度占用计算资源。

3.3.2 数据集划分

pythonCopy code
pythonCopy code
# 合并数据集
combined = pd.concat([trec, enron], ignore_index=True)

# 合并后检查重复值
combined.duplicated().sum()

# 对 combined 数据集进行随机抽样，保留原始数据集的 10%
combined = combined.sample(frac=0.1, random_state=1)
combined

# 分割数据集 （20%分给测试集，80%分给训练集）
x = combined['text']
y = combined['label']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)

将数据集划分为训练集和测试集，其中20%分给测试集，80%分给训练集。这样的划分有助于我们在训练模型时验证其性能。

注释解释：

删除缺失值的原因： 电子邮件正文缺失对垃圾邮件分类任务没有直接贡献，且数目较少，因此选择直接删除缺失值。这有助于保持数据集的质量和可用性。
删除重复值的原因：
1. 过拟合风险： 数据集中存在重复的电子邮件可能导致模型在新数据上的泛化性能下降，因为模型会过度学习这些重复的模式。
2. 样本偏好： 如果某些电子邮件出现多次，模型可能更倾向于这些样本，引入对特定电子邮件的偏好。删除重复值有助于保持数据集的平衡性。
3. 简化数据集： 删除重复值可以简化数据集，使数据更干净、易于理解，并减少对计算资源的需求。

这样的处理步骤旨在确保数据的质量，为后续建模和分析提供可靠的基础。

四、数据特征提取与向量化

在进行垃圾邮件分类的任务中，文本数据需要被转换为机器学习模型可以处理的数值型数据。这一过程通常包括文本的特征提取和向量化，而我们使用了TF-IDF（Term Frequency-Inverse Document Frequency）向量化方法。

4.1 TF-IDF向量化

pythonCopy code
vectorizer = TfidfVectorizer()
x_train_vectorized = vectorizer.fit_transform(x_train)
x_test_vectorized = vectorizer.transform(x_test)

原因： 对于支持向量机（SVM）等基于数值型数据的机器学习模型，文本数据通常需要经过适当的处理和特征提取才能用于训练和预测。TF-IDF向量化是一种常见的文本特征提取方法，它将文本数据转换为稀疏的数值向量，以便机器学习算法能够理解和处理。TF-IDF考虑了单词在文档中的重要性，降低了常见词汇的权重，增加了罕见词汇的权重。

五、模型训练与调优

5.1 初始化SVM模型

pythonCopy code
svc = SVC()

原因： 在这个项目中，我们选择使用支持向量机（SVM）作为分类模型。通过初始化一个SVM分类器，我们为后续的超参数调优和模型训练做好了准备。

5.2 使用GridSearchCV查找最佳超参数组合

pythonCopy code
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf'], 'gamma': ['scale', 'auto']}
grid_search = GridSearchCV(svc, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(x_train_vectorized, y_train)

原因： 为了提高模型的性能，我们使用了网格搜索（Grid Search）来搜索最佳的超参数组合。通过定义超参数的范围，GridSearchCV尝试了不同的组合，并使用交叉验证来评估它们的性能。在这里，我们调整了SVM模型的惩罚参数C、核函数（linear或rbf）和gamma参数。

5.3 使用最佳超参数重新训练SVM模型

pythonCopy code
best_svm_gpu = grid_search.best_estimator_
best_svm_gpu.fit(x_train_vectorized, y_train)

原因： 确定了最佳超参数组合后，我们使用这些参数重新训练了SVM模型，以便获得更好的性能。

六、实验结果分析与总结

6.1 在测试集上计算模型评估指标

为了评估模型的性能，我在测试集上计算了准确率、精确度和召回率等指标。这些指标提供了对模型在新数据上表现的全面了解。在垃圾邮件分类任务中，准确率衡量了模型正确分类的比例，精确度度量了垃圾邮件被正确分类的比例，召回率则度量了模型找到所有垃圾邮件的能力。

pythonCopy code
predictions = best_svm_gpu.predict(x_test_vectorized)
accuracy = accuracy_score(y_test, predictions)
precision = precision_score(y_test, predictions)
recall = recall_score(y_test, predictions)

print('准确率: ', accuracy)
print('精确度: ', precision)
print('召回率: ', recall)

结果：

准确率（Accuracy）：98.08%
精确度（Precision）：97.59%
召回率（Recall）：98.89%

6.2 使用自定义输入测试模型

通过输入一条新的邮件内容进行模型测试，查看模型对未见过的数据的分类预测。

pythonCopy code
new_email = '亲爱的朋友，我有一个很好的投资机会给你！'
new_email_vectorized = vectorizer.transform([new_email])
prediction = best_svm_gpu.predict(new_email_vectorized)
print('预测结果:', prediction)

结果： 模型预测结果为1，即该邮件被分类为垃圾邮件。

通过以上实验结果，我们可以得出结论：

模型在测试集上表现良好，具有高准确率（98.08%）和高召回率（98.89%）。
模型对新的、未见过的邮件数据也能做出有效的分类预测，体现了其泛化能力。
该垃圾邮件分类系统可以在实际应用中发挥作用，帮助用户过滤垃圾邮件，提升邮件处理效率。

通过对实验结果的分析，验证了模型的有效性，也为垃圾邮件分类任务提供了可靠的解决方案。在实际应用中，该模型可以作为一个自动化工具，帮助用户识别和处理大量的电子邮件数据。

你可能感兴趣的:(数据挖掘,分类,支持向量机)

数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
PaddleOCR 快速开始张欣-男 PaddlePaddle PaddleOCR OCR
1.安装1.1安装PaddlePaddle#GPUcudapipinstallpaddlepaddle-gpu#CPUpipinstallpaddlepaddle1.2安装PaddleOCRwhl包pipinstallpaddleocr2.便捷使用2.1命令行使用2.1.1中英文模型检测+方向分类器+识别全流程：–use_angle_clstrue设置使用方向分类器识别180度旋转文字，–use_
【数据分析】抓包工具的定义常见类型分类使用场景及注意事项
抓包工具的定义常见类型分类使用场景及注意事项-CSDN直播抓包工具的定义常见类型分类使用场景及注意事项抓包工具的定义常见类型分类使用场景及注意事项抓包工具概述抓包工具顾名思义是一种用于捕获并分析网络数据包的软件或硬件工具它能够在数据传输过程中截取并记录网络流量让用户能够深入理解并排查网络问题这类工具的用途广泛从网络安全测试到应用程序调试都离不开抓包工具的帮助在众多的抓包工具中WiresharkFi
java学习笔记8 幸福，你等等我学习笔记 java
一、异常处理Error：错误，程序员无法处理，如OOM内存溢出错误、内存泄漏...会导出程序崩溃1.异常：程序中一些程序自身处理不了的特殊情况2.异常类Exception3.异常的分类:（1）.检查型异常(编译异常):在编译时就会抛出的异常(代码上会报错),需要在代码中编写处理方式(和程序之外的资源访问)直接继承Exception（2）.运行时异常:在代码运行阶段可能会出现的异常,可以不用明文处理
如何学好图像处理——从小白到大神？ chentengkui 图像处理
如何学好图像处理——从小白到大神？标签：图像处理学习方法2016-02-2617:4818439人阅读评论(25)收藏举报分类：学习方法与方法论（13）版权声明：本文为博主原创文章，未经博主允许不得转载。什么是数字图像处理？历史、以及它所研究的内容。说起图像处理，你会想到什么？你是否真的了解这个领域所研究的内容。纵向来说，数字图像处理研究的历史相当悠久；横向来说，数字图像处理研究的话题相当广泛。数
【计算机网络】细说IP 问道飞鱼计算机网络计算机网络 tcp/ip 网络协议
文章目录概述IP地址的组成IP地址的分类IP地址的作用分类一、A类IP地址二、B类IP地址三、C类IP地址四、D类IP地址五、E类IP地址协议报文子网掩码一、定义与功能二、表示方法三、子网掩码与IP地址的关系四、子网掩码的设置与配置五、实例说明IPv6一、定义与背景二、地址格式与特点三、优势与功能四、过渡与部署五、应用与发展IPv6协议报文有了IPv6还需要子网掩码吗概述IP，全称Internet
中秋节快乐 Delia时之沙
今天是中国传统节日中秋节，朋友圈有一股浓浓的团聚思乡气氛。而我的中秋节是围绕着乐高开始的。暑假时给娃报了网上的积木体验课程，体验结束之后报了正式的乐高工程机械课。积木到了之后一致忙着没顾着开箱子，昨天晚上到家之后趁着放假把积木拿出来开始整理一番。乐高经典款买的是乐高最经典的10698款，里面共有790颗积木。昨天晚上光是整理就花了2个小时，将每一刻积木按照形状、大小和功能分类，幸亏当时商家送了积木
R语言笔记Day1（排序、筛选以及分类汇总））养猪场小老板
一、排序1、单变量序列排序2、数据表（矩阵）排序二、筛选三、分类汇总一、排序1、单变量序列排序rank、sort和order函数>aa[1]315#rank用来计算序列中每个元素的秩#这里的“秩”可以理解为该元素在序列中由小到大排列的次序#上面例子给出的序列[3,1,5]中，1最小，5最大，3居中#于是1的秩为1，3的秩为2，5的秩为3，(3,1,5)对应的秩的结果就是(2,1,3)>rank(a
软件测试的分类
测试阶段划分冒烟测试：在正式开始测试之前，我们会对测试版本进行冒烟测试，如果测试版本的主流程可以通过没有被阻塞或者出现宕机等重大问题就可以进行正式的测试工作了单元测试：最微小规模的测试，测试对象是某个功能或代码，一般是由程序员来做集成测试：是指一个应用系统的内部的各个部件的联合测试，以决定他们是否能在一起共同工作且没有冲突部件可以是代码块、独立的应用、网络上的客户端或服务器程序一般来说接口测试属于
基于AlexNet架构的卷积神经网络模型用于对胸部X光图像进行二分类（例如，诊断肺炎）
1.肺炎正常的胸部X线片描绘了清晰的肺部，图像中没有任何异常混浊的区域。正常的胸部X线片1.1细菌性肺炎临床表现细菌性肺炎通常由细菌引起，如肺炎链球菌、流感嗜血杆菌、肺炎克雷伯菌等。患者可能出现高热、寒战、咳嗽、咳痰（痰液可能呈脓性）、胸痛、呼吸困难等症状。影像学特征局灶性肺叶实变细菌性肺炎在影像学上常表现为肺叶或肺段的局灶性实变，即某一区域的肺组织因炎症而失去气体交换功能，呈现为高密度影。胸腔积
C#:类型定义中使用‌问号（?）曹牧 CSharp c#
在C#中，类型定义中的‌问号（?）‌主要用于控制类型的可空性，但具体行为因类型（值类型或引用类型）和C#版本而异。以下是清晰分类的说明：一、可空值类型（T?，适用于所有C#版本）‌用途‌：允许值类型（如int、DateTime等）存储null值。‌语法‌：在值类型后加?，底层由System.Nullable结构实现。‌示例‌：int?age=null;//声明可空整型DateTime?date=n
2023-10-19 如何写专利的技术交底书二秋风再起时黄叶飘落
2、撰写所属技术领域指该发明创造直接所属或直接应用的技术领域。为便于分类、检查，要简要说明所属技术领域，如“本发明设计一种阀装置，特别是设计一种xxx式水龙头”，字数100以内的简要说明。待续中······
SQL 注入攻击全面解析：分类、典型案例与防御实践阿贾克斯的黎明网络安全数据库 oracle
目录SQL注入攻击全面解析：分类、典型案例与防御实践一、SQL注入基础概念1.1什么是SQL注入（SQLInjection）二、SQL注入攻击分类与典型案例2.1基于注入位置的分类2.1.1数字型注入2.1.2字符串型注入2.2基于回显结果的分类2.2.1显式回显注入（Union-BasedInjection）2.2.2盲注（BlindSQLInjection）2.3基于攻击手法的分类2.3.1堆
一对多/多对一RIA 李健Brian
【概念/关键词名称】一对多、多对一【分类】[x]wow突破点[x]知识连接点[x]探索点【R:原文】【多对一：多模型思维】*所谓科学的方法主要体现为“可复现”。也就是说，只要定理假设的条件满足了，多模型思维就一定会比单模型思维好，不以任何外在因素而变化。这也是模型的威力所在。*【孔多赛陪审团定理】*陪审团是一种通过多数投票进行决策的方式，一般是二元决策——有罪或无罪，陪审团成员之间彼此不受影响地独
常见的Bug管理工具有哪些？（如JIRA、Bugzilla、禅道等）海姐软件测试缺陷管理 bug jira
一、主流Bug管理工具分类及特点1.商业/企业级工具JIRA（Atlassian）特点：高度可定制，支持敏捷开发，集成CI/CD（如Jenkins）、Confluence等。适用场景：中大型团队，需复杂工作流和扩展生态。费用：按用户数收费，提供云版和本地部署。MantisBT特点：开源但支持商业服务，轻量级，适合中小团队。亮点：支持邮件通知、自定义字段。部署：需自建服务器（PHP+MySQL）。T
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
【五斗米】Java中的设计模式（我终于懂设计模式了） Mxin5 不为五斗米折腰设计模式 java
目录什么是设计模式？设计模式有哪些分类？常用设计模式工厂模式（简单工厂模式）工厂方法模式抽象工厂模式模板模式（支付宝微信）代理模式【终于搞懂了】Spring中使用的是那种代理模式？适配器模式观察者模式策略模式单例模式饿汉式（饥渴型）单例模式懒汉式（懒狗）单例模式什么是设计模式？官方解释：设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总结。人话：设计模式就是软件开发人员针对
面向对象设计原则和设计模式分类阳光明媚sunny 设计模式设计模式
面向对象设计六大原则SOLID单一职责原则（SingleResponsibilityPrinciple）就一个类而言，应该仅有一个引起它变化的原因。开闭原则（OpenClosePrinciple)软件中的对象（类、模块、函数等）应该对于扩展是开放的，对于修改是封闭的。当软件需要变化时，我们应该尽量通过扩展的方式来实现变化，而不是通过修改已有的代码来实现。里氏替换原则（LiskovSubstitut
CTF-Web学习笔记：SQL注入篇编程到天明 CTF sql 网络安全
目录引言一、SQL注入的基础概念1.什么是SQL注入？2.SQL注入的成因二、CTF中常见的SQL注入类型1.按参数类型分类2.按注入方式分类3.其他进阶类型三、CTF实战技巧：从找注入点到拿Flag1.如何判断是否存在注入？2.快速确定数据库类型3.常用工具辅助4.绕过WAF（Web应用防火墙）四、CTF题目示例：一道报错注入实战题目背景解题步骤五、总结与提升引言在CTF（CaptureTheF
影刀RPA_批量添加用户至企业微信_源码解读 RPA+AI十二工作室影刀 python 开发语言影刀 rpa 企业微信自动化
一、项目简介本项目是一个基于影刀RPA（RoboticProcessAutomation）开发的自动化工具，主要功能是通过手机号码批量添加用户至企业微信。项目利用企业微信客户端自动化操作，实现了从手机号导入、去重处理到批量发送好友请求的全流程自动化。项目特点：支持通过数据表格或Excel导入手机号自动去重和格式清洗企业微信窗口自动化控制操作结果分类统计与导出二、项目结构xbot_robot/├──
数据挖掘算法：KNN、SVM、决策树详解大力出奇迹985 数据挖掘算法支持向量机
本文将详细解析数据挖掘领域中常用的三种经典算法：KNN（K近邻算法）、SVM（支持向量机）和决策树。首先分别阐述每种算法的核心原理、实现步骤，再分析它们的优缺点及适用场景，最后对这三种算法进行综合对比与总结。通过本文，读者能全面了解这三种算法的特性，为实际数据挖掘任务中算法的选择提供参考，助力提升数据处理与分析的效率和准确性。在当今信息爆炸的时代，数据挖掘技术在各行各业发挥着至关重要的作用，而算法
Mamba架构的模型（内容由deepseek辅助汇总） Jiang_Immortals 人工智能
基于Mamba架构的模型近年来在效率和性能上展现出显著突破，以下按架构类型分类列出当前表现最出色的代表模型及其核心特点：一、纯SSM架构模型FalconMamba-7B关键创新：首个通用大规模纯Mamba模型，由阿布扎比TII开发，基于Mamba-1改进，增加RMS归一化层提升训练稳定性13。性能表现：在综合基准（IFEval、BBH、MMLU-PRO等）平均得分15.04，超越Llama3.1-
京东优惠券在哪里找？京东怎么找隐形优惠券？氧惠评测
在京东购物时，寻找优惠券，包括隐形优惠券（也称为内部优惠券或隐藏优惠券），可以通过多种途径进行。以下是一些主要的寻找方法：一、京东官方渠道京东APP领券中心：打开京东APP，确保已登录自己的账号。在首页或底部导航栏中，找到“领券”或“领券中心”的入口。进入领券中心后，可以看到各种分类的优惠券，如手机、家电、服饰等。根据自己的需求浏览并选择领取相应的优惠券。商品详情页：在浏览具体商品时，进入商品详情
设计模式学习之——常见设计模式总览 Jack_abu 设计模式设计模式学习
设计模式是软件开发中用于解决常见问题和设计挑战的可复用解决方案。它们提供了一种通用的、可理解的方式来构建软件，使得代码更加健壮、灵活和易于维护。以下是常见的设计模式分类及其一些具体实例：创建型模式（CreationalPatterns）创建型模式用于创建对象，通常是为了将对象的创建过程与其使用过程分离，使得创建过程更加灵活和可配置。单例模式（SingletonPattern）：确保一个类只有一个实
阿里云账户新老用户查询指南及优惠策略详解阿里云最新优惠和活动汇总
阿里云经常推出各种优惠活动，其中不少优惠仅限新用户享受，那么，如何判断自己的阿里云账户是新用户还是老用户？新老用户之间又有何区别？下面小编根据自己的经验为您详细解答这些问题，并提供一些针对老用户的优惠策略。一、阿里云用户分类及定义在阿里云的用户体系中，主要存在以下几种用户类型：新用户、企业新用户、产品新用户和老用户。了解这些用户类型的定义，有助于我们更好地判断自己的用户身份。新用户新用户是指在阿里
【树模型与集成学习】(task6)梯度提升树GBDT+LR 山顶夕景推荐算法 #集成学习与Kaggle GBDT 推荐算法机器学习
学习总结（1）不同问题的提升树学习算法，主要区别在于使用的损失函数不同，如用平方误差损失函数的回归问题、用指数损失函数的分类问题、用一般损失函数的一般决策问题等。（2）不管是二分类问题的提升树，还是回归问题的提升树，这里的损失函数都很方便：前者是用指数损失函数，所以可以当做是Adaboost的个例，Aadaboost的流程；而后者是当使用平方误差损失时，可以直接拟合残差。而使用不同的损失函数，对应
Hbase基础语法 flyair_China hbase 数据库大数据
HBase作为分布式列式数据库，其语法和预分区策略是优化性能的关键。以下综合语法详解与预分区设计指南：一、HBase核心语法分类1.DDL操作（表结构管理）创建表语法：create'表名',{NAME⇒'列族1',VERSIONS⇒n},{NAME⇒'列族2',VERSIONS⇒n}示例：创建user表，含info（保留3版本）和data（保留1版本）列族：create'user',{NAME⇒'
普洱茶的涩，苦，鲜，甜青格格
图片发自App图片发自App图片发自App有茶友问：为什么古树普洱茶茶汤越往后泡，越能感到甘甜适口呢？常饮普洱茶的茶友都知道，普洱茶按采摘原料可分类为古树茶和台地普洱茶等，以古树茶菁为原料加工制作的普洱茶经久耐泡、香高水柔、生津强烈、甜润感明显；而台地普洱茶的耐泡度则相对较弱，甜爽感也会很快减淡茶叶中的单糖、双糖、多糖等元素是茶汤甜味的主要来源，这些元素随着高温注水析出、并与茶汤一起进入人的口腔，
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他