schdut

《数据挖掘导论》学习笔记（第1-2章）

《数据挖掘导论》学习笔记（第1-2章）

转载：《数据挖掘导论》学习笔记（第1-2章）——Wr_Ran

第1章绪论

1.1 什么是数据挖掘

KDD： Knowledge Discovery in Database
过程如下：
1.输入数据
2.数据预处理
3.数据挖掘
4.后处理
5.得到信息

其中，数据预处理包括如下几部分：

特征选择
维归约
规范化
选择数据子集

后处理包括如下及部分：

模式过滤
可视化
模式表达

1.2 数据挖掘要解决的问题

可伸缩：着眼于数据量剧烈增长的问题 - 高维性：对象拥有数量不少的属性
异种数据和复杂数据：数据来源广泛，且结构复杂（XML格式，文本格式，流格式等）
数据的所有权与分布：分布式数据处理
非传统的分析：数据挖掘要求自动产生和评估假设，并且数据挖掘数据集多是时机性样本，而非随机性样本

1.4 数据挖掘任务

数据挖掘主要有如下两大类任务：
- 预测任务：根据某些属性来预测另外一些属性的值。其中，用来做预测的属性被称为说明性属性(explanatory variable)或自变量(independent variable)，被预测的属性被称为目标变量(target variable)或因变量(dependent variable)
- 描述任务：导入数据中的潜在的模式，如相关、趋势、聚类和异常等。更详细的说，有如下几大任务：

预测建模(predictive modeling)：以自变量为因变量建立模型，从而使得因变量的预测值与实际值误差越小越好。其中，针对离散性变量的称为分类(classification)，针对连续性变量的称为回归(regression)
关联分析(association analysis)：用来发现描述数据中强相关的模式
聚类分析(cluster analysis) ：旨在发现紧密相关的对象群，使得同一簇中的对象尽可能相似，不同簇之间的对象则尽可能相异
异常检测(anomaly analysis)：识别其属性值明显不同于其他数据的对象，这样对象被称为异常值(anomaly) 或离群点(outlier)

第2章数据

2.1 数据类型

数据集通常可以看为数据对象的集合。数据对象有时也可以称为记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象由一组刻画对象基本特性的属性描述。属性又可称为变量、特性、字段、特征或者维。

2.1.1 属性和度量

我们给出如下定义：

属性(attribute)：是对象的性质或特征
测量标度(measurement scale)：将数值或符号值与对象的属性相关联的规则（函数），如清点教室中的座位数等。

属性的值往往有如下几种性质：
1. 相异性
2. 序
3. 加法
4. 乘法
根据这些性质，可将属性分为四种类型：标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)

另外根据属性的可能取值，可将属性分为离散的(discrete)，连续的(continuous)

对于非对称的属性(asymmetric attribute)，出现非零值才重要，考虑如下数据集：每个对象为一个学生，每个属性记录该学生是否选修了某项大学课程。

2.1.2 数据集的类型

一般特性：维度，稀疏性、分辨率
记录数据：事务数据或购物篮数据、数据矩阵、稀疏数据矩阵
基于图形的数据：带有对象之间联系的数据（类似图论）、具有图形对象的数据
有序数据：时序数据、序列数据、时间序列数据、空间数据
非记录数据

2.2 数据质量

数据挖掘所使用的数据往往是为其他用途收集的，或在收集时没有明确目的的。因而数据的质量往往不高。故数据处理着眼于两方面：(1)数据质量问题的检测与纠正，(2)使用可以容忍低质量数据的算法

2.2.1 测量和数据收集问题

测量误差：测量过程中的问题，如系统误差，随机误差等
噪声：测量误差的随机部分
伪像：数据的确定性失真，如：一组图像在相同的位置出现条纹
精度：（同一量的）重复测量值之间的接近程度
偏倚：测量值与被测量值之间的系统变差
准确度：测量值与实际值之间的接近程度，准确率的一个重要方面是有效数字
离群点：离群点与噪音不同，它往往是合法的值，并且可能是人们关注的重点，如：信用卡欺诈、网络进攻等
遗漏值：解决方法有 a.删除对象和属性 b.估计遗漏值 c. 在分析时忽略遗漏值
不一致的值
重复数据：去重复方法解决

2.2.2 关于应用的问题

时效性
相关性：常见问题有抽样偏倚2
关于数据的背景知识

2.3 数据预处理

数据预处理是为了改善数据挖掘的效果，减少分析时间，降低成本和提高质量。常用技术可以分为两类：(1)选择分析所需要的数据对象, (2)创建/改变属性

2.3.1 聚集

聚集(aggregation) 将两个或多个对象合并成单个对象。考虑如下数据集：一个记录一年中不同日期在不同地区的商店的日销售情况，可以用一个商店事务替换掉该商店的所有事务。

2.3.2 抽样

在数据挖掘中，抽样是因为处理所有数据的费用太高，借助抽样压缩样本量，优化数据挖掘算法的性能。
有效抽样的原理：如果样本是有代表性的，则使用样本与使用整个数据集的效果几乎一样。
常见抽样方法有简单随机抽样，包括有放回抽样、无放回抽样；分层抽样；渐进抽样3。

2.3.3 维归约

当数据集中包含大量特征（属性）时，维归约就愈加显现其好处。其主要的作用是，如果维度较低，许多数据挖掘算法的效果会更好，可以避免维灾难4；并且使得模型更易理解。
维归约的常用方法是使用线性代数技术，将数据从多维空间投影到低维空间，主要技术有主成分分析(Principal Component Analysis, PCA) 和奇异值分解(Singual Value Decomposition, SVD)。

2.3.4 特征子集选择

通过选择属性集中的部分属性的方法，达到降低维度的目的。当存在冗余特征或不相关特征时，往往并不会损失太多信息，从而也是一种有效的降维方法。由集合论可知，n个属性有2n−1个非空子集，故而穷举属性子集的方法是计算不可行的，实际中往往采用如下方法：

嵌入方法(embedded approach)：特征选择作为数据挖掘的一部分存在
过滤方法(filter approach)：使用某种独立于数据挖掘的方法，在数据挖掘算法运行之前进行特征选择
包装方法(wrapper approach)：将目标数据挖掘算法作为黑盒，使用类似穷举的方法，但通常并不枚举所有子集

特征子集选择由四部分组成：子集度量评估、控制新的特征子集产生的搜索策略、停止搜索判断和验证过程。过滤方法和包装方法不同在与子集评估度量。

另外，除了上述三种特征子集选择的方法，还可以通过特征加权来保留或删除特征。

2.3.5 特征创建

常常可以用原有的属性创建新的属性集，更有效地捕获数据集中的重要信息。与之相关的方法有：

特征提取(feature extraction)：如由相片提取人脸的特征点
映射数据到新的空间：如将时间域的变量变换到频率域，参见傅里叶变换
特征构造：由原始属性提取出易于数据挖掘的属性，如根据密度分辨木头金块
2.3.6 离散化和二元化
某些数据挖掘算法只适用于分类属性，此时就需要用到离散化(discretization)或二元化(binarization)

2.3.7 变量变换

变量变换(variable transformation) 是指用于变量的所有值的变换，包括：简单函数变换，标准化(standardization) 或规范化(normalization)

2.4相似性和相异性的度量

时间序列数据是一种特殊的时序数据，它的每一个记录都是一个时序数据，如北京地区从1982年到1994年每年的月平均气温数据。
抽象偏倚(sample bias) 是指样本包含的不同类型的对象与它们的总体中的出现情况不成比例。
合适的样本容量常常很难确定，此时就有可能使用渐进抽样(progressive sampling)，该方法从一个小样本开始，然后逐渐增加样本容量直至得到足够容量的样本。
维灾难是指随着数据维度的增加，许多数据分析变得困难，特别是随着维度增加，数据在它所占据的空间中越来越稀疏。

你可能感兴趣的:(数据挖掘,默认,数据挖掘,数据挖掘导论)

15个小技巧，让我的Windows电脑更好用了！曹元_
01.桌面及文档处理第一部分的技巧，主要是围绕桌面的一些基本操作，包括主题设置、常用文档文件快捷打开的多种方式等等。主题换色默认情况下，我们的Win界面可能就是白色的文档界面，天蓝色的图表背景，说不出哪里不好看，但是就是觉得不够高级。imageimage说到高级感，本能第一反应就会和暗色模式联想起来，如果我们将整个界面换成黑夜模式的话，它会是这样的。imageimage更改主题颜色及暗色模式，我们
C++ ：vector的模拟诚自然成 c++开发语言
目录一、vector的迭代器二、vector的构造函数默认构造函数参数构造函数迭代器范围构造函数拷贝构造函数swap:交换vector重载赋值符析构函数reserve:扩容vectorresize:调整大小push_back:添加元素empty:判空pop_back:后删获取大小与容量：size(),capacity()重载operator[]：元素访问insert：插入元素erase:删除一个元
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
ubuntu 查看防火墙相关操作三希 windows
在Ubuntu系统里，查看防火墙状态和配置主要借助ufw（UncomplicatedFirewall）工具，它是Ubuntu默认的防火墙配置界面。下面为你介绍常用的查看命令：一、查看防火墙状态要查看防火墙是否处于运行状态，可以使用以下命令：bashsudoufwstatus或者使用更详细的版本：bashsudoufwstatusverbose输出结果里，Status:active意味着防火墙正在运
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
修改CentOS的SSH登录端口(22端口) ❀͜͡傀儡师 centos ssh linux
要修改CentOS系统的SSH服务默认端口(22端口)，请按照以下步骤操作：备份SSH配置文件sudocp/etc/ssh/sshd_config/etc/ssh/sshd_config.bak编辑SSH配置文件sudovi/etc/ssh/sshd_config查找并修改端口设置找到以下行(大约在第13行左右)：#Port22取消注释并添加新端口(例如使用56001)：#Port22Port56
C++中std::variant的使用详解和实战代码示例点云SLAM C++c++开发语言 variant C++泛型编程联合体 C++类型擦除机制 C++17
std::variant是C++17引入的一个类型安全的联合体（type-safeunion），它可以在多个类型之间存储一个值，并在编译时进行类型检查。它是现代C++类型擦除与泛型编程的核心工具之一，适用于构建可变类型结构、消息传递系统、状态机等。一、基本概念#includestd::variantv;类似于联合体union，但类型安全。std::variant只能存储其中一个类型的值。默认构造时
最新二级域名分发系统网站源码可商用 huihuixxx 程序源码小鬼授权系统源码全解密源码授权代码二级域名分发系统网站源码
介绍：1.源码楼主网上买的没有后门是旧版本2.支付接口调用的是码支付来进行的3.支付接口需要登陆管理员后台安装4.支付接口必须信息正确只能装一次5.在线充值默认的充值比例是1：1【搭建教程】1.把源码上传主机并解压2.绑定根目录和域名并解析3.访问你的域名即可提示安装4.后台登陆地址：你的域名/admin5.登陆后台安装你的支付接口（需要的话）6.码支付怎么使用方法百度一下！网盘下载地址：http
全局修改GitLab14默认语言为中文
GitLab安装成功后默认语言是英语，只有登录后才能手动指定为中文，且这个配置只对自己生效，经查阅资料后，总结全局修改GitLab14默认语言为中文方法如下：0.进入容器如果你用Docker部署的GitLab，那么需要使用命令sudodockerexec-itgitlab/bin/bash进入容器1.修改rails配置文件打开/opt/gitlab/embedded/service/gitlab-
GitLab 公共仓库：coding 用到的 git 命令 summer.335 杂七杂八 -汇总栏 gitlab git
在公司的gitlab公共仓库中写代码做项目时，主要涉及以下常用git命令：一、单个命令讲解1.拉取代码（1）gitclone[仓库URL]‌克隆远程仓库到本地（需确保URL正确）‌（‌2）gitpull[远程仓库名][分支名]‌从远程仓库拉取最新代码（默认拉取origin仓库的master分支）（3）gitfetch[远程仓库名][分支名]‌仅下载远程分支更新，不自动合并2.分支操作（‌1）git
修改gitlab默认的语言 Victor刘 gitlab
文章目录网上的方法1.采用数据库触发器的方法2.登录pg库2.1查看表2.2创建function2.3创建触发器2.4修改历史数据网上的方法网上修改/opt/gitlab/embedded/service/gitlab-rails/config/application.rb的方法，我试了，没生效，没进一步研究1.采用数据库触发器的方法2.登录pg库su-gitlab-psqlpsql-h/var/
Ubuntu24安装MariaDB/MySQL后不知道root密码如何解决
Ubuntu24.04安装MariaDB后root密码未知？解决方案在此在Ubuntu24.04上新安装MariaDB后，许多用户会发现自己不知道root用户的密码，甚至在安装过程中也没有提示设置密码。这是因为在较新的MariaDB版本中，默认情况下root用户采用了unix_socket身份验证插件。这意味着您可以使用操作系统的root用户权限直接登录MariaDB，而无需输入密码。本文将为您详
Java集合遍历的几种方式 Warren98 Java java windows 开发语言后端 spring boot 硬件工程笔记
迭代器不依赖索引遍历完毕后,指针不会复位.遍历时,不能使用集合的方法进行增加或删除.只能使用一次next()方法.主要方法publicinterfaceIterator{Iteratoriterator();//返回迭代器对象,默认指向当前集合的0索引booleanhasNext();//用于判断集合中是否还有下一个元素,有的话返回trueEnext();//返回迭代器的下一个元素，并将迭代器的指
AI心理学四层架构揭秘：语言模型为何“说谎“？ TGITCIC AI-大模型的落地之道语言模型人工智能自然语言处理大模型国产大模型大模型落地
第一章神经层：代码编织的"脑电图"1.1注意力权重的量子跃迁当Claude3.5Haiku处理"达拉斯所在州的首府"这类问题时，其注意力权重图谱呈现出量子跃迁特征。研究团队通过归因图技术捕捉到：在输入"达拉斯"的瞬间，模型内部Texas节点的激活强度达到87.6%，首府概念节点同步飙升至79.3%。这种非线性激活模式与人类大脑的默认模式网络惊人相似。模型层级激活时序决策路径可解释性神经层300ms
Navicat练习与实操（第九节课内容总结见下篇）咩? android 前端 sql
MySQL练习练习题目现在有以下四张表Student学生ID学生名字学生生日学生性别s_ids_names_births_sexCourse课程ID课程名字教师IDc_idc_namet_idTeacher教师ID教师名字t_idt_nameScore学生ID课程ID学生分数s_idc_ids_score1.对以上表格分别建表(要求：id为各个表的主键、其他字段非空设置默认值为、给表以及表中字段设
ubuntu的redis反弹shell总结 chanra 萌新随笔 ubuntu redis linux
ubuntu的redis反弹shell总结ubuntu要执行有三点：1、ubuntu的默认执行命令的为/bin/dash，我们使用bash-i肯定是弹不了的。2、ubuntu计划任务运行有语法要求，redis写入的文件存在缓存数据，导致语法错误无法运行计划任务。3、文件需要是600rw权限，权限不对也不能运行，不过我直接写入貌似就是600rw。参考链接：http://www.vkxss.top/2
window 显示驱动开发-Direct3D 呈现性能改进（四）程序员王马 windows图形显示驱动开发驱动开发
调用资源创建、映射和取消映射函数的行为更改对于WDDM1.3及更高版本驱动程序实现的这些函数，Direct3D运行时为映射默认方案提供一组受限的输入值。这些受限值仅适用于支持功能级别11.1及更高版本的驱动程序。CreateResource(D3D11)函数—这些输入D3D11DDIARG_CREATERESOURCE结构成员受到限制：调用资源创建、映射和取消映射函数的行为更改对于WDDM1.3及
使用Python操作Excel，删重复数据及keep参数用法并保存的例子白帽黑客艾登 python excel 开发语言 Python编程 Python学习技能分享
01Ex按列标题删重复的数据解析：我们使用了pandas库读取Excel文件，并使用drop_duplicates()函数删除重复数据。其中，subset参数指定了删除重复数据的列（列名），keep参数指定了保留哪个重复记录（默认为第一个记录）。inplace=True参数表示在原始数据上进行操作。最后，我们使用to_excel()函数将处理后的数据，保存到一个新的Excel文件中，其中index
pod 命令你飞跃俊杰
创建默认的Podfile$podinit第一次使用安装框架$podinstall安装框架，不更新本地索引，速度快，但是不会升级本地代码库$podinstall--no-repo-update今后升级、添加、删除框架$podupdate更新框架，不更新本地索引，速度快可以安装新框架或者删除不用的框架，但是不会升级项目已经安装的框架$podupdate--no-repo-update查看哪些框架有更新
ZAP漏洞扫描系列04:手动导入请求添加站点宁儿数据安全 #安全测试安全
ZAP漏洞扫描系列04:手动导入请求添加站点通过请求器“曲线救国”添加站点，可按以下步骤操作（本质是手动发请求让ZAP识别站点）：GET请求步骤1：在请求器构造目标站点请求在请求器的“请求”编辑框，替换默认内容为：点击“发送（Send）”按钮，ZAP会向http://10.1.1.xx:8081/发请求。GEThttp://10.1.1.xx:8081/HTTP/1.1host:10.1.1.xx
Ubuntu“root“登录
Ubuntu"root"登录前言Ubuntu默认禁止root用户登录，若要设置为默认root登录，需先开启root用户登录权限，再配置自动登录，具体操作如下：‍‍开启root用户登录权限设置root用户密码：打开终端，输入命令sudopasswdroot，根据提示输入并确认root用户的密码。修改登录配置文件：使用命令sudonano/usr/share/lightdm/lightdm.conf.
Centos7防火墙会飞的灰大狼 Centos7 linux
Centos7防火墙前言：本来想在系统那里去说防火墙但防火墙要说的要很多使用单独做一章文章去讲防火墙~~‍在CentOS7中，防火墙是保障系统网络安全的核心组件，默认采用firewalld作为防火墙管理工具（替代了CentOS6的iptables服务），底层仍基于iptables内核模块实现规则控制。‍iptablesiptables命令的完整格式较为复杂，其核心结构由命令选项、表（table）、
面试宝典 phpdi
1.引用变量考点引用变量定义：用不同的名字访问同一个变量内容cow机制遍历时的引用处理unset只会取消引用，不会销毁内存空间php中对象默认是引用传递，若需要复制，则需要使用clone2.常量及数据类型define，const；php5.6以用const定义常量不支持表达式；7种false情况:0,0.0,'','0',[],null，false；精度丢失；获取客户端，服务端ip；与app交互$
linux网卡显示未知未托管,linux有线网络显示设备未托管
NetworkManagerNetworkManager是为了使网络配置尽可能简单而开发的网络管理软件包，如果使用DHCP，NetworkManager会替换默认的路由表、从DHCP服务器获取IP地址并根据情况设置域名服务器，NetworkManager的目标是使网络能够开箱即用。NetworkManager由两部分组成:一个以超级用户运行的守护进程(network-manager)；一个前端管理
MySQL新增字段DDL：锁表全解析、避坑指南与实战案例
核心思考问题：新增字段一定会锁表吗？答案：不一定！这主要取决于：MySQL版本：这是最关键的因素。ALGORITHM选项：显式或隐式指定的算法。新增字段的属性：是否允许NULL？是否有默认值？默认值类型？字段位置？表的大小和存储引擎：InnoDB的行为与MyISAM不同（本文主要讨论InnoDB）。并发负载：操作期间对表的读写压力。一、真实案例场景：血泪教训场景1：电商大促前夜，核心订单表加字段（
远程服务器windows对外开放端口,Windows Server 2008 R2开启新端口远程桌面
【要求】1、修改默认端口。2、不用关闭防火墙。【步骤】1、用PowerShell查看：(Get-ItemProperty-Path"hklm:SYSTEM\CurrentControlSet\Control\TerminalServer\Wds\rdpwd\Tds\tcp").PortNumber(Get-ItemProperty-Path"hklm:SYSTEM\CurrentControlSe
Isaac sim【3】Isaac Sim 工作界面根号00000011 具身智能 #ISAAC SIM 机器学习人工智能机器人具身智能 isaac sim
学习目标本教程介绍了IsaacSim中最常用的用户界面按钮、菜单和控件。完成本教程后，您应该更有信心在IsaacSim界面中导航和发现内容。5-10分钟教程开始先决条件在开始本教程之前，请查看什么是IsaacSim？。首先，将立方体添加到场景中。转到顶部菜单栏，然后单击创建>形状>立方体。验证Viewport的中心是否有一个Cube。Cube处于选中状态（以橙色突出显示），并且默认情况下启用Mov
【第四章自定义编辑器窗口_扩展默认的编辑器窗口_扩展Hierarchy窗口（7/11）】
4.2如何扩扩展默认的编辑器窗口4.2.1扩展Hierarchy窗口usingUnityEditor;usingUnityEngine;//自定义Hierarchy窗口扩展类publicclassCustomHierarchyWindow{//InitializeOnLoadMethod特性表示这个方法在Unity编辑器启动或重新编译后自动执行[InitializeOnLoadMethod]sta
Hutool Java工具类库-ExcelUtil 〃冷·夏ぐ Hutool java excel
目录依赖:ExcelReader（Excel读取）:1.从文件中读取Excel为ExcelReader2.从流中读取Excel为ExcelReader3.读取指定的sheet4.读取Excel中所有行和列，都用列表表示5.读取为Map列表，默认第一行为标题行，Map中的key为标题，value为标题对应的单元格值6.读取为Bean列表，Bean中的字段名为标题，字段值为标题对应的单元格值Excel
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他