我想养只猫 •͓͡•ʔ

阿里云ACP大数据分析师 | 笔记纪要

2021-9-10更新：已通过认证！！

Alibaba Cloud Certified Professional-Data Analyst 重点不完整记录

分析报告 5 大部分

目标与背景
发现与结论
推荐与建议
具体数据分析结果与阐述
附件

数据聚合时如果数据质量无控制

将会导致计算时成倍的放大或重复相关的数据

使用 MAXCompute ，处理统计模型脏数据问题

在数据项目的执行流程中属于 项目设计阶段：对承担的任务设计具体实施的方法

在信用卡公司的客户信息中，客户什么信息最敏感

在地址、年龄、性别、婚姻状况中年龄数据较为敏感

不同年龄具备不同的社会特征，也具有不同的资金需求，通过年龄分析可以更好的分开层次，不同年龄的特征更明显，所以年龄相对于其他更为敏感

大数据存储技术，最典型的三种路线

MMP 架构的新型数据库集群
- MMP 架构采用高效的分布式计算模式，具有高性能和高扩展的特点
基于 HADOOP 的技术扩展和封装
- HADOOP 平台擅长处理非结构化、半结构化数据、复杂的 ETL 流程、复杂的数据挖掘和计算模型
大数据一体机
- 大数据一体机由一组焦成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成

按照指标所反映总体现状的数量特性，可以分为：数量指标与质量指标

质量指标是反映生产效果或工作质量的总量指标

它的数值是表明事务质的属性的量

结构化、非结构化、半结构化、关系型数据

结构化数据
- 关系型数据库数据
非结构化数据
- 数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据
半结构化数据
- 在做一个信息系统设计时肯定会涉及到数据的存储，一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类，并设计相应的表，然后将对应的信息保存到相应的表中
关系型数据
- 以关系数学模型来表示的数据。关系数学模型中以二维表的形式来描述数据。

OSS 对象存储、Mysql、Hbase、MongoDB

对于存储大量图片和视频信息，OSS 对象存储显然更合适，Mysql 适合结构化数据，Hbase 适合 NoSql 多版本数据松散存储，MongoDB 适合用于 json 存储

SQL 中的 truncate 、into 、delete、drop

truncate
- 清空表数据，保留表结构，不可回滚
into
- 追加写入
delete
- 完整删除表，但可回滚
drop
- 完整删除表，不可回滚

折线图、散点图、柱状图、饼图直方图(Histogram)

折线图
- 通过折线显示数据变化趋势，可显示最时间而变化的连续数据。适合分析和显示在相对时间间隔下数据的趋势走向
散点图
- 展示数据的相关性和分布关系，是以一个变量为横纵标，另一个变量为纵坐标，表示因变量随自变量变化的大致趋势
柱状图
- 显示一段时间内数据变化或各项之间的比例
直方图(Histogram)
- 又称质量分布图
- 是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。所以可以使用直方图展示
饼图
- 展示数据中的各项大小、与各项总和的比例

机器学习不适合创造新事物

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习是建立在已有的海量数据基础上,经过不断的机器自主学习,实现机器模拟人脑、模拟算法等等,所以机器学习需要数据支持,而创造新事物是无中生有,不适合机器学习

宏代码编程

计算机科学里的宏（Macro），是一种批量批处理的称谓。用于说明某一特定输入，如何根据预定义的规则转换成对于的数据，测试出运行效果

云计算与中小型企业

中小型企业不适合购买大量的服务器并进行大量人员投入进行设备的维护工作，所以中小型企业适合购买云服务，节省服务器运维、安装等成本的投入

实现决策树的算法：ID3

决策树是一种十分常用的基于规则等有监督学习算法。ID3 是一种经典的实现决策树的算法。ID3 算法在进行特征选择时选用的优先分枝指标是：信息增益

键值存储数据库、文档型数据库、列族数据库、图形数据库

键值(Key-Value)存储数据库
- 键值数据库适用于那些频繁读写,拥有简单数据模型的应用。键值数据库中存储的值可以是简单的标量值,如整数或布尔值,也可以是结构化数据类型,比如列表和 JSON 结构
文档型数据库(document databases)
- 文档型数据库按照灵活性的标准设计。如果一个应用程序需要存储不同的属性以及大量的数据,那么文档数据库将会是一个很好的选择。
列族数据库(column family database)
- 列族数据库被设计应用于大量数据的情况,它保证了读取和写入的性能和高可用性。
图形数据库(graph database)
- 图形数据库非常适合表示网络实体连接等问题。评估图形数据库有效性的一种方法是确定实例和实例间是否存在关系

数据质量维度

完整性 bai Completeness
- 度量哪些数据丢失了或者哪些数据不可用。
规范性 Conformity
- 度量哪些数据未按统一格式存储。
一致性 Consistency
- 度量哪些数据的值在信息含义上是冲突的。
准确性 Accuracy
- 度量哪些数据和信息是不正确的,或者数据是超期的。
唯一性 Uniqueness
- 度量哪些数据是重复数据或者数据的哪些属性是重复的。
关联性 Integration
- 关联性用于度量哪些关联的数据缺失或者未建立索引。
时效性
- 数据随时间的完整变化过程数据。

Apriori、K-means、逻辑回归、线性回归算法、支持向量机

Apriori 算法

第一个关联规则挖掘算法,也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。
k 均值聚类算法(k-means clustering algorithm)

一种迭代求解的聚类分析算法,其步骤是预将数据分为 K 组,则随机选取 K 个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
逻辑回归算法

就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。主要应用于预测场景。
线性回归算法

人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,线性回归是一次函数。
支持向量机(Support Vector Machine, SVM)

一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier，其决策边界是对学习样本求解的最大边距超平面(maximum—margin hyperplane)

聚类分析、非球形聚类算法

聚类分析
- 将数据对象的集合分组为由类似的对象组成的多个类的分析过程;
非球形聚类算法
- 自动检测数据中的任意形状类。最具代表性的非球形聚类算法是 DBSCAN 算法。层次聚类,是一种很直观的算法。顾名思义就是要一层一层地进行聚类,可以从下而上地把小的 cluster 合并聚集,也可以从上而下地将大的 cluster 进行分割;
K-means
更为常用的聚类方法之一,尽管它有着很多不足,但是它有着一个很关键的优点:快，K-means 的计算复杂度只有 O(tkn)，t 是迭代次数，k 是设定的聚类数目,而 n 是数据量,相比起很多其它算法, K-means 算是比较高效的。距离公式选择有欧式距离、曼哈顿距离、海明距离、切比雪夫距离、马氏距离和余弦距离等;

每种算法只有聚类与之相适合的数据集时才能形成比较理想的聚类结果,而且聚类结果的质量很难定量评估虽然已经提出一些聚类质量评估的方法,但是这些评估方法却不能与聚类算法有机结合,并指导聚类算法进行调整和更新以产生更好的聚类结果。在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用 n 行 n 列的矩阵形式来表

RandomForest、Adaboost、gbdt、XGBoost

RandomForest

集成学习(Ensemble)思想、自助法(bootstrap)与bagging 集成学习(ensemble) 思想，是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性。

随机森林就是集成学习思想下的产物,将许多棵决策树整合成森林,并合起来用来预测最终结果。
Adaboost

一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器) 。
gbdt

全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一
XGBoost

是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。

双样本假设检验

双样本假设检验用于检验两个研究样本所属的总体是否存在显著性差异，或者检验它们是否来自同一分布总体。

检验的零假设为：在给定的显著水平上两个样本所来自的总体不存在显著性差异。

深度学习、决策树(Decision Tree)、关联分析、聚类分析

深度学习

是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。

它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。

深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
决策树(Decision Tree)

是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

由于这种决策分支画成图形很像一棵树的枝干,故称决策树。

在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

Entropy=系统的凌乱程度,使用算法 ID3, C4.5 和 C5.0 生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
关联分析

又称关联挖掘

就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
聚类分析

将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。

它是一种重要的人类行为。

外键与 RDS

在 RDS（关系型数据库）中：外键在表中必须非空且唯一

针对 MaxCompute 不成立

统计指标的构成要素

指标名称（内容）
计量单位
计算方法（常以隐匿的形式出现）
时间范围
空间范围
指标数值

程序命名常见方式

驼峰命名法
- 混合使用大小字母构成变量和函数名字
帕斯卡（pascal）命名法
- 与驼峰命名法相似，只不过首字母需要大写
匈牙利命名法
- 通过在变量名前面加上相应的小写字母的符号标识做为前缀，标识变量类型、作用域等信息。
下划线命名法
- 下划线分割小写字母方式命名

举例：01_ABC_Data_Extraction.sql

01：运行顺序

ABC：程序名称缩写

Data_Extraction：程序功能

ETL 中的数据抽取

数据抽取分为：实时抽取、批量抽取，对于历史数据无需在系统进行实时提取，可以在业务不繁忙的工作时间进行。

SMART 原则

（ S=Specific M=Measurable A=Attainable R-Relevant T=Time-bound ）

是为了利于员工更加明确高效地工作,更是为了管理者将来对员工实施绩效考核提供了考核目标和考核标准,使考核更加科学化、规范化,更能保证考核的公正、公开与公平。

绩效指标必须是具体的(Specific)
- s 代表具体(Specific),指绩效考核要切中特定的工作指标,不能笼统;
绩效指标必须是可以衡量的(Measurable)
- M 代表可度量(Measurable),指绩效指标是数量化或者行为化的,验证这些绩效指标的数据或者信息是可以获得的;
绩效指标必须是可以达到的(Attainable)
- A 代表可实现(Attainable),指绩效指标在付出努力的情况下可以实现,避免设立过高或过低的目标;
绩效指标是要与其他目标具有一定的相关性(Relevant),
- R 代表相关性(Relevant),指绩效指标是与工作的其它目标是相关联的;绩效指标是与本职工作相关联的;
绩效指标必须具有明确的截止期限(Time-bound)
- T 代表有时限(Time-bound),注重完成绩效指标的特定期限。

MacCompute 表的生命周期

MaxCompute 表的生命周期（LIFECYCLE）

指表（分区）数据从最后一次更新的时间算起，在经过指定的时间后没有变动，则此表（分区）将被 MaxCompute 自动回收。这个 指定的时间就是生命周期。

生命授权单位：days（天），只接受正整数。

项目前分析

项目前分析是全部项目评估中最重要的一个部分。

广义的项目前评估是指在项目前期决策阶阶段,从整个项目全局出发,根据国民经济和组织发展的需要对项目及其被选方案所进行的全面评估,从而辨别项目及其被选方案的可行和优劣,决定取舍。

项目前评估也可以根据评估主休的不同而分成项目业主的评估、贷款银行审查贷款项目的评价和承包商投标项目前的评估等。

总之,项目前就是在项目的投资决策之前,对项目的必要性和项目备选方案的技术、经济、运行条件和社会与环境影响等方面所进行的全面论证与评估的工作。

主要特点是:

先行性
预测性
决策性

数据分析师接受一个分析项目后

首先需要理解项目的

目标
背景
范围

然后开始设计分析步骤

项目目标确认顺序

项目情况分析
项目问题界定
确定项目目标因素
建立项目目标体系
各目标的关系确认

RDS 三范式

第一范式(INF)

无重复的列,保证每列的原子性,即每一列的各个属性值之间不能有相同部分,比如地址可以进一步拆分为国家省份城市三列,可以理解为列不可拆分;
第二范式(2NF)

属性完全依赖于主键[消除部分子函数依赖],不满足时垂直拆分为一张新表。

保证一张表只描述一件事情,即一个关系;
第三范式(3NF)

属性不依赖于其它非主属性[消除传递依赖]

大数据质量问题出现的原因

（1）国家标准中的数据质量评价指标

a. 目前为止，最权威的标准是由全国信息技术标准化技术委员会提出的数据质量评价指标（GB/T36344-2018 ICS 35.24.01），它包含以下几个方面：
- 规范性
  
  指的是数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。例如 GB/T 2261.1-2003 中定义的性别代码标准是 0 表示未知性别，1 表示男，2 表示女，9 表示未说明。GB 11643-1999 中定义的居民身份证编码规则是 6 位数字地址码，8 位数字出生日期码，三位数字顺序码，一位数字校验码。
- 完整性
  
  指的是按照数据规则要求，数据元素被赋予数值的程度。例如互联网+监管主题库中，监管对象为特种设备时，监管对象标识必须包含企业统一社会信用代码+产品品牌+设备编码，监管对象为药品时，监管对象标识必须包含药品名称+批准文号+生产批号。
- 准确性
  
  指的是数据准确表示其所描述的真实实体（实际对象）真实值的程度。例如互联网+监管行政检查行为中的行政相对人为公民时，证件类型和证件号码只能是身份证号码。
- 一致性
  
  指的是数据与其它特定上下文中使用的数据无矛盾的程度。例如许可证信息与法人基础信息是否一致，检查计划与检查记录是否匹配。
- 时效性
  
  指的是数据在时间变化中的正确程度。例如企业住址搬迁后，企业法人库中的住址是否及时更新了。营业执照已经办理，许可照办理时是否可以及时获取到营业执照信息。
- 可访问性
  
  指的是数据能被访问的程度。
b. 除此之外，还有一些业内认可的补充指标，并且在质量工作的实际开展中，可以根据数据的实际情况和业务要求进行扩展，例如：
- 唯一性
  
  描述数据是否存在重复记录（国标归在准确性中）。
- 稳定性
  
  描述数据的波动是否是稳定的，是否在其有效范围内。
- 可信性
  
  描述数据来源的权威性、数据的真实性、数据产生的时间近、鲜活度高。
（2）数据质量问题出现的原因
1. 数据质量的技术因素：
- 数据标准制定的质量问题
  
  数据输入规范不统一，不同的业务部门、不同的时间、甚至在处理相同业务的时候，由于数据输入规范不同，造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果，必然会导致数据中含有主观的偏见因素。并且，不是所有行业都有公认可信的数据标准，而组织标准制定过程中容易出现数据元描述及理解错误，代码码集定义不正确、不完整等情况。
- 数据模型设计的质量问题
  
  由于对业务理解的不到位或技术实践水平不到位，数据库表结构、数据库约束条件、数据校验规则的设计不合理，造成数据存储混乱、重复、不完整、不准确。
- 数据源本身存在质量问题
  
  在生产系统中有些数据就存在不规范、不完整、不准确、不一致等问题，而采集过程没有对这些问题做清洗加工处理，或清洗加工的程序代码不正确。
- 数据梳理过程的质量问题
  
  在数据采集之前，需要梳理组织机构、业务事项、信息系统、数据资源清单等信息，那么对业务的理解不到位，将造成梳理报告的不完整或不正确。
- 数据采集过程的质量问题
  
  采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确，数据采集接口效率低，导致的数据采集失败、数据丢失、数据映射和转换失败。
- 数据清洗加工的质量问题
  
  数据清洗规则、数据转换规则、数据装载规则配置有问题，甚至未按照数据标准开展相应的清洗加工工作，自由发挥的空间过大。并且在数据汇聚的过程中，没有及时建立数据的相关性，导致后期很难补充完善。
b. 数据质量的业务因素：
- 业务理解不到位
  
  数据的业务描述、业务规则、相关性分析不到位，导致技术无法构建出合理、正确的数据模型。
- 业务流程的变更
  
  业务流程一变，数据模型设计、数据录入、数据采集、数据传输、数据清洗、数据存储等环节都会受到影响，稍有不慎就会导致数据质量问题的发生。
- 数据输入不规范
  
  常见的数据录入问题，如：大小写、全半角、特殊字符等一不小心就会录错，甚至还会将数据输入到错误的字段中，造成“张冠李戴”。人工录入的数据质量与录数据的业务人员密切相关，录数据的人工作严谨、认真，数据质量就相对较好，反之就较差。
- 业务系统烟囱林立
  
  过去 20 年中，只要是稍大一点的企业和政府部门，都建设了一批信息化系统来解决业务问题，但也导致了如今信息化整合的痛点和困难，变先发优势为数据困境。
- 数据作假
  
  操作人员为了提高或降低考核指标，对一些数据进行处理，使得数据真实性无法保证。
c. 数据质量的管理因素：
- 人才缺乏
  
  组织以自身的业务发展的主要原则组建团队，数据建设则依赖于外部服务公司，而自身没有建立相应的管理手段和监督机制，从而无法准确判断数据项目的建设成效。
- 流程管理不完善
  
  缺乏有效的数据质量保障机制和问题处理机制，数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑，数据质量问题无法闭环。
- 成员意识不开放
  
  组织管理缺乏数据思维，没有认识到数据质量的重要性，重系统而轻数据，认为系统是万能的，数据质量差些也没关系。组织成员没有从组织战略的视角来看待数据资产，而把数据看成是创造它的部门的资产，从而导致数据冗余、数据不一致、数据割裂，从而导致数据价值难以发掘。
- 奖惩机制不明确
  
  没有明确数据归口管理部门或岗位，缺乏数据认责机制，出现数据质量问题找不到权威源头或找不到负责人。缺乏数据规划，没有明确的数据质量目标，没有制定数据质量相关的政策和制度。
（3）如何解决质量问题

a. 事前预防
- 制定质量管理机制
  
  基于数据管理的复杂性和诱因的多重性特点，解决数据质量问题仅仅依靠一个技术工具是不够的，我们需要建立长效工作机制。即根据组织特点，制定符合自身环境的工作制度，制定每个环节的工作流程，规定各个参与方的责任，确定各项数据的权威部门，制定数据质量指标，制定数据质量修复流程等等。
- 制定数据质量标准
  
  数据标准成功定义的与否，直接决定了大数据建设的成果和数据质量的高低，需要在融合国家标准、行业标准和地方标准的基础上，融合组织自身的业务特色需求。
- 制定质量监测模型
  
  数据质量模型代表的是业务需求，它是从业务需求的角度而描述出来的质量需求。
- 制定质量监测规则
  
  数据监测规则代表的具体的质量检测手段，它是从技术角度来描述数据质量要求是如何被满足的，包括规范性、完整性、准确性、致性、时效性、可访问性，等等。
b. 事中监控
- 监控原始数据质量
  
  数据采集工作从数据源头获取最原始的数据，在数据采集过程中将数据分为“好数据”“坏数据”，“好数据”入库，“坏数据”则反馈给源头修复，因为数据来源部门最懂这些数据，也最能在源头上把数据问题彻底修复掉。
- 监控数据中心质量
  
  经过各种采集、清洗、加工过程，数据被存入数据仓库中，这些数据也将被业务部门使用，所以，对于这些成果数据的质量监控和修复则犹为重要。对于这类数据问题，我们可能使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来，也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。
- 反馈数据质量问题
  
  数据质量监控过程中，会发现两类问题，一类是源头的数据质量问题，一类是数据中心的数据质量问题，数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。
- 考核数据质量考核
  
  数据质量的考核是为了能够引起各个参与部门和参与团队对数据质量的重视，需要及时统计分析各种数据质量问题，并制定出相应的应对措施。
c. 事后改善
- 修复数据质量问题
  
  发现质量问题不是最终的目标，我们仍要建立相关的流程和工具，通过手工、工单、自动化等等手段将质量问题修复掉，从而为业务创新提供可靠的数据支撑。
- 收集数据质量需求
  
  通过数据中心的建设，质量问题的修复，必然能够促进数据的应用，我们仍要建立通畅的数据质量反馈通道，让各个部门参与到数据质量的再次完善中来，从而形成建设、应用和反馈的良性循环。
- 完善质量管理制度
  
  制度和流程的建设并不是一蹴而就的，我们要在数据建设和质量完善的过程中，结合自身组织结构和业务特色，不断完善工作制度。
- 完善数据质量标准
  
  各行各业不断涌现新的业务形态，原有的业务也在不断的变化，我们要紧跟业务的变化，不断完善符合业务需求的数据标准。
- 完善质量监测模型
  
  如前所述，监测模型代表的业务需求，业务形态的变化、数据标准的变化和质量新需求的出现，同样要求监测模型能够做出相应的变化。
- 完善质量监测规则
  
  同样，如今的信息化技术发展日新月异，我们要不断引入各种新技术来更加智能地发现和修复数据质量问题。

指标体系（与 26 点 SMART 原则联系）

指标体系：是指由若干个反映社会经济现象总体数量特征的相对独立又相互联系的统计指标所组成的有机整体。

在统计研究中,如果要说明总体全貌,那么只使用一个指标往往是不够的,因为它只能反映总体某一方面的数量特征。这个时候就需要同时使用多个相关指标了,而这多个相关的又相互独立的指标所构成的统一整体,即为指标体系

双尾显著性检验

双尾显著性检验：事先对总体(随机变量)的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设(备择假设)是否合理

即判断总体的真实情况与原假设是否有显著性差异。

MapReduce 中的 Map 任务

map 处理任务的工作和作用:

读取输入文件,把每一行解析成键值对(注意键值对 key 的值,行号),每一个键值对调用一次 map 函数
对传入的键值对,覆盖 map 函数,实现自己的逻辑,处理键值对,输出新的键值对逻辑程序员自己实现,注意上下文变量),每一行产生新的键值对;
对键值对进行分区,根据键值对分区(key)(目前所有的键值对在一个区)
对不同的分区数据排序分组,把相同 key 的 value 方法放入一个集合中综上所属 map 阶段不进行聚合计算任务。

关联分析中的置信度

置信度：表示当 A 项出现时 B 项同时出现的频率，记作(A—>B。

换言之,置信度指同时包含 A 项和 B 项的交易数与包含 A 项的交易数之比。

公式表达:根据公式可知如果 A的支持度项集越高置信度不一定越高。若 A 的交易数很高，置信度恰好越低

MapReduce 中的 NameNode

NameNode主要进行执行的控制工作，不进行实际的工作，聚合操作也在 DataNode 中进行。

具体如下:

NameNode 主要功能

接受客户端的读写服务
NameNode 保存 metadata 信息
1. 文件 owership 和 permissions
2. 文件包含哪些块
3. Block 保存在那个 DataNode 上
  
  (DameNode 启动的时候主动把 block 汇报给 NameNode)。
NameNode 的 metadata 信息会在启动后加载到内存中
1. metadata 存储到磁盘文件名为“fsimage”
  
  (做持久化操作,存储文件 owership 和 permissions 和文件包含哪些块)
2. Block 的位置信息不会保存到 fimage
3. edits(日志)记录对 metadata 的操作日志中
  
  (在持久化操作的间隔中使用的)

分析报告

分析报告：根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的

现状
问题
原因
本质
规律

并得出结论,提出解决办法的一种分析应用文体。

通过对数据数据全方位的科学分析来评估其环境及发展情况

为决策者提供科学、严谨的依据,降低风险。

所以既然要出一份分析报告,分析报告中需要具备的要求是必不可少的。

目的
发现
结论
建议

数据分析师接受一个分析项目后,首先需要理解项目的目标、背景和范围,然后开始设计分析步骤

决策树拟合不足的原因

模型拟合不足的问题是因为：

训练误差和验证误差都很大,这种情况称为欠拟合。

出现欠拟合的原因是模型尚未学习到数据的真实结构。

因此,模拟在训练集和验证集上的性能都很差。

数据质量管理(Data Quality Management)

数据质量管理(Data Quality Management) 是指：

对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

方便非结构化数据检索办法

非结构化数据像图片、声音、视频等等。

这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个 BLOB 字段中,对以后检索非常麻烦。

一般的做法是：建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob) 。引用通过编号,检索通过内容描述。还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种

可视化报表需要具备的条件

可读性
精准性
客观性
统一性

将项目维度和KPI 计算相关的属性列聚合

将所有与分析项目维度和KPI 计算相关的属性列聚合到一张数据表(“分析用数据表)里方便：

不同维度的 KPI 开发
符合数据仓库架构设计

准确率与召回率

准确率

准确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,

一种就是把正类预测为正类(TP)

另一种就是把负类预测为正类(FP)
召回率

召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。

那也有两种可能,

一种是把原来的正类预测成正类(TP)

另一种就是把原来的正类预测为负类(FN)

回归模型中的最小二乘法

回归模型是一种常用的预测算法,可以使用最小二乘、梯度下降等方法来求解。

最小二乘法的原理

使用偏导数来求极，
梯度下降法的原理

通过迭代求解最优解

最小二乘法被称为最优的估计，这种最优指的是：

最优的线性估计
最优的无偏估计

连续数据离散化

连续数据离散化就是在数据的取值范围内，设定若干个离散的划分点将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。

Hadoop 核心组件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EdheA00D-1637568011693)("/images/ACPUntitled.png")]

OLAP 功能

切片和切块(Slice and Dice)

切片和切块是在维上做投影操作

**切片：**在多维数据上选定一个二维子集的操作,即在某两个维上取一定区间的维成员或全部维成员,而在其余的维上选定一个维成员的操作。

维：是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上集中观察数据。

因为人的空间想象能力毕竟有限,一般很难想象四维以上的空间结构,所以对于维数较多的多维数据空间,数据切片是十分有意义的.
钻取(Drill)

钻取有**向下钻取(Drill Down)和向上钻取(Drill up)**操作。

**向下钻取：**使用户在多层数据中展现渐增的细节层次,获得更多的细节性数据。

**向上钻取：**以渐增概括方式汇总数据(例如,从周到季度,再到年度)。
旋转(Pivoting)

通过旋转可以得到不同视角的数据旋转操作相当于在平面内将坐标轴旋转

例如：旋转可能包含了交换行和列,或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)

SQL JOIN：INNER、LEFT、RIGHT、OUTER、LEFT、RIGHT、OUTER 差异

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-125KRMM9-1637568011695)(/Users/uiu/Documents/Article/Articles/Images/ACPUntitled1.png)]

HDFS 元数据存放目录

**HDFS 的元数据(Metadata)**采用

元数据镜像文件(FSlmage)
日子文件(edits)

的备份机制

总体均值置信区间的宽度

对于一组给定的样本数据

其平均值为u，标准偏差为δ

则：

整体数据的平均值
- 100(1-α)%
置信区间
- (u-Zα/2δ , u+Zα/2δ)

标准化系数

z-score=(X-U)/STD,即标准化系数

要体现多个因素 x 对 y的影响,需要按照统一标准对数据进行标准化后 Beta 估算值才具有比较的意义。标准化只会改变回归函数里的系数,回归分析后面需要做假设检验,做标准化是为了公平的看待每个特征的贡献。

KNN 算法中 k

在 KNN 算法中k的选取非常重要,KNN 分类的准备率对 K 值很敏感。

不同的值有可能带来不同的结果。

如果K 选大了的话,可能求出来的 k 最近邻集合可能包含了太多隶属于其它类别的样本点,不具有代表性,最极端的就是 k 取训练集的大小,此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单,忽略了训练实例中大量有用信息。

如果 K选小了的话,结果对噪音样本点很敏感。在实际中,一般采用交叉验证(一部分样本做训练集,一部分做测试集)或者依靠经验的方法来选取 k 值。k 值初始时取一个比较小的数值,之后不断来调整 K 值的大小来使得样本分类最优,最优时的 K 值即为所选值。

k 值一般为奇数。

有一个经验规则:k 一般低于训练样本数的平方根

你可能感兴趣的:(人工智能,alibaba,大数据,数据分析,机器学习)

最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
Spring Boot 2整合Druid的两种方式玩代码 spring boot 后端 java Druid
一、自定义整合Druid（非Starter方式）适用于需要完全手动控制配置的场景添加依赖（pom.xml）com.alibabadruid1.2.8org.springframework.bootspring-boot-starter-jdbc创建配置类@ConfigurationpublicclassDruidConfig{@Bean@ConfigurationProperties(prefix
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
写完作业的感觉很爽乡村算卦师
今天终于一口气把一个数据分析课的作业写完了。明天还要继续写一个，写完，就可以暂时轻松一下了。想想还是很开心的，哈哈哈。刚出去跑了一圈，结果下雨了，虽然不是很大，可是没办法跑，怕下大。现在在小区门口，吹吹风，也是极好的。希望一些都变的越来越好，加油！
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Amazon广告投放：如何精准筛选并添加关键词？新置元人工智能亚马逊广告 amazon
在亚马逊广告投放领域，关键词的选择是影响广告效果的核心要素之一。一个精准的关键词策略不仅能够提升广告的曝光度，还能确保产品能够被真正的目标受众看到，从而实现更高的转化率。然而，关键词的筛选并不是一个简单的操作，它需要结合数据分析、市场趋势和消费者行为模式进行科学的规划。一、关键词筛选的必要性：为什么精准匹配如此重要？1.提升广告投放的精准度关键词的精准度决定了广告是否能够投放给真正有购买意愿的用户
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，