2021-9-10更新:已通过认证!!
Alibaba Cloud Certified Professional-Data Analyst 重点不完整记录
将会导致计算时成倍的放大或重复相关的数据
在数据项目的执行流程中属于 项目设计阶段 :对承担的任务设计具体实施的方法
在地址、年龄、性别、婚姻状况中 年龄数据较为敏感
不同年龄具备不同的社会特征,也具有不同的资金需求,通过年龄分析可以更好的分开层次,不同年龄的特征更明显,所以年龄相对于其他更为敏感
质量指标是反映生产效果或工作质量的总量指标
它的数值是表明事务质的属性的量
对于存储大量图片和视频信息,OSS 对象存储显然更合适,Mysql 适合结构化数据,Hbase 适合 NoSql 多版本数据松散存储,MongoDB 适合用于 json 存储
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是建立在已有的海量数据基础上,经过不断的机器自主学习,实现机器模拟人脑、模拟算法等等,所以机器学习需要数据支持,而创造新事物是无中生有,不适合机器学习
计算机科学里的宏(Macro),是一种批量批处理的称谓。用于说明某一特定输入,如何根据预定义的规则转换成对于的数据,测试出运行效果
中小型企业不适合购买大量的服务器并进行大量人员投入进行设备的维护工作,所以中小型企业适合购买云服务,节省服务器运维、安装等成本的投入
决策树是一种十分常用的基于规则等有监督学习算法。ID3 是一种经典的实现决策树的算法。ID3 算法在进行特征选择时选用的优先分枝指标是:信息增益
Apriori 算法
第一个关联规则挖掘算法,也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。
k 均值聚类算法(k-means clustering algorithm)
一种迭代求解的聚类分析算法,其步骤是预将数据分为 K 组,则随机选取 K 个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
逻辑回归算法
就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。主要应用于预测场景。
线性回归算法
人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,线性回归是一次函数。
支持向量机(Support Vector Machine, SVM)
一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier,其决策边界是对学习样本求解的最大边距超平面(maximum—margin hyperplane)
每种算法只有聚类与之相适合的数据集时才能形成比较理想的聚类结果,而且聚类结果的质量很难定量评估虽然已经提出一些聚类质量评估的方法,但是这些评估方法却不能与聚类算法有机结合,并指导聚类算法进行调整和更新以产生更好的聚类结果。在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用 n 行 n 列的矩阵形式来表
RandomForest
集成学习(Ensemble)思 想、自助法(bootstrap)与bagging 集成学习(ensemble) 思想,是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性。
随机森林就是集成学习思想下的产物,将许多棵决策树整合成森林,并合起来用来预测最终结果。
Adaboost
一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器) 。
gbdt
全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一
XGBoost
是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。
双样本假设检验用于检验两个研究样本所属的总体是否存在显著性差异,或者检验它们是否来自同一分布总体。
检验的零假设为:在给定的显著水平上两个样本 所来自的总体不存在显著性差异。
深度学习
是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。
它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
决策树(Decision Tree)
是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。
Entropy=系统的凌乱程度,使用算法 ID3, C4.5 和 C5.0 生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
关联分析
又称关联挖掘
就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
聚类分析
将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
它是一种重要的人类行为。
在 RDS(关系型数据库)中:外键在表中必须非空且唯一
针对 MaxCompute 不成立
举例:01_ABC_Data_Extraction.sql
01:运行顺序
ABC:程序名称缩写
Data_Extraction:程序功能
数据抽取分为:实时抽取、批量抽取,对于历史数据无需在系统进行实时提取,可以在业务不繁忙的工作时间进行。
( S=Specific M=Measurable A=Attainable R-Relevant T=Time-bound )
是为了利 于员工更加明确高效地工作,更是为了管理者将来对员工实施绩效考核提供了考核目标和考核标准,使考核更加科学化、规范化,更能保证考核的公正、公开与公平。
MaxCompute 表的生命周期(LIFECYCLE)
指表(分区)数据从最后一次更新的时间算起,在经过指定的时 间后没有变动,则此表(分区)将被 MaxCompute 自动回收。这个 指定的时间 就是生命周期。
生命授权单位:days(天),只接受正整数。
项目前分析是全部项目评估中最重要的一个部分。
广义的项目前评估是指在项目前期决策阶阶段,从整个项目全局出发,根据国民经济和组织发展的需要对项目及其被选方案所进行的全面评估,从而辨别项目及其被选方案的可行和优劣,决定取舍。
项目前评估也可以根据评估主休的不同而分成项目业主的评估、贷款银行审查贷款项目的评价和承包商投标项目前的评估等。
总之,项目前就是在项目的投资决策之前,对项目的必要性和项目备选方案的技术、经济、运行条件和社会与环境影响等方面所进行的全面论证与评估的工作。
主要特点是:
数据分析师接受一个分析项目后
首先需要理解项目的
然后开始设计分析步骤
第一范式(INF)
无重复的列,保证每列的原子性,即每一列的各个属性值之间不能有相同部分,比如地址可以进一步拆分为国家省份城市三列,可以理解为列不可拆分;
第二范式(2NF)
属性完全依赖于主键[消除部分子函数依赖],不满足时垂直拆分为一张新表。
保证一张表只描述一件事情,即一个关系;
第三范式(3NF)
属性不依赖于其它非主属性[消除传递依赖]
(1)国家标准中的数据质量评价指标
a. 目前为止,最权威的标准是由全国信息技术标准化技术委员会提出的数据质量评价指标(GB/T36344-2018 ICS 35.24.01),它包含以下几个方面:
规范性
指的是数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。例如 GB/T 2261.1-2003 中定义的性别代码标准是 0 表示未知性别,1 表示男,2 表示女,9 表示未说明。GB 11643-1999 中定义的居民身份证编码规则是 6 位数字地址码,8 位数字出生日期码,三位数字顺序码,一位数字校验码。
完整性
指的是按照数据规则要求,数据元素被赋予数值的程度。例如互联网+监管主题库中,监管对象为特种设备时,监管对象标识必须包含企业统一社会信用代码+产品品牌+设备编码,监管对象为药品时,监管对象标识必须包含药品名称+批准文号+生产批号。
准确性
指的是数据准确表示其所描述的真实实体(实际对象)真实值的程度。例如互联网+监管行政检查行为中的行政相对人为公民时,证件类型和证件号码只能是身份证号码。
一致性
指的是数据与其它特定上下文中使用的数据无矛盾的程度。例如许可证信息与法人基础信息是否一致,检查计划与检查记录是否匹配。
时效性
指的是数据在时间变化中的正确程度。例如企业住址搬迁后,企业法人库中的住址是否及时更新了。营业执照已经办理,许可照办理时是否可以及时获取到营业执照信息。
可访问性
指的是数据能被访问的程度。
b. 除此之外,还有一些业内认可的补充指标,并且在质量工作的实际开展中,可以根据数据的实际情况和业务要求进行扩展,例如:
唯一性
描述数据是否存在重复记录(国标归在准确性中)。
稳定性
描述数据的波动是否是稳定的,是否在其有效范围内。
可信性
描述数据来源的权威性、数据的真实性、数据产生的时间近、鲜活度高。
(2)数据质量问题出现的原因
数据标准制定的质量问题
数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。
数据模型设计的质量问题
由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。
数据源本身存在质量问题
在生产系统中有些数据就存在不规范、不完整、不准确、不一致等问题,而采集过程没有对这些问题做清洗加工处理,或清洗加工的程序代码不正确。
数据梳理过程的质量问题
在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,那么对业务的理解不到位,将造成梳理报告的不完整或不正确。
数据采集过程的质量问题
采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。
数据清洗加工的质量问题
数据清洗规则、数据转换规则、数据装载规则配置有问题,甚至未按照数据标准开展相应的清洗加工工作,自由发挥的空间过大。并且在数据汇聚的过程中,没有及时建立数据的相关性,导致后期很难补充完善。
b. 数据质量的业务因素:
业务理解不到位
数据的业务描述、业务规则、相关性分析不到位,导致技术无法构建出合理、正确的数据模型。
业务流程的变更
业务流程一变,数据模型设计、数据录入、数据采集、数据传输、数据清洗、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。
数据输入不规范
常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错,甚至还会将数据输入到错误的字段中,造成“张冠李戴”。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。
业务系统烟囱林立
过去 20 年中,只要是稍大一点的企业和政府部门,都建设了一批信息化系统来解决业务问题,但也导致了如今信息化整合的痛点和困难,变先发优势为数据困境。
数据作假
操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。
c. 数据质量的管理因素:
人才缺乏
组织以自身的业务发展的主要原则组建团队,数据建设则依赖于外部服务公司,而自身没有建立相应的管理手段和监督机制,从而无法准确判断数据项目的建设成效。
流程管理不完善
缺乏有效的数据质量保障机制和问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。
成员意识不开放
组织管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。组织成员没有从组织战略的视角来看待数据资产,而把数据看成是创造它的部门的资产,从而导致数据冗余、数据不一致、数据割裂,从而导致数据价值难以发掘。
奖惩机制不明确
没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到权威源头或找不到负责人。缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。
(3)如何解决质量问题
a. 事前预防
制定质量管理机制
基于数据管理的复杂性和诱因的多重性特点,解决数据质量问题仅仅依靠一个技术工具是不够的,我们需要建立长效工作机制。即根据组织特点,制定符合自身环境的工作制度,制定每个环节的工作流程,规定各个参与方的责任,确定各项数据的权威部门,制定数据质量指标,制定数据质量修复流程等等。
制定数据质量标准
数据标准成功定义的与否,直接决定了大数据建设的成果和数据质量的高低,需要在融合国家标准、行业标准和地方标准的基础上,融合组织自身的业务特色需求。
制定质量监测模型
数据质量模型代表的是业务需求,它是从业务需求的角度而描述出来的质量需求。
制定质量监测规则
数据监测规则代表的具体的质量检测手段,它是从技术角度来描述数据质量要求是如何被满足的,包括规范性、完整性、准确性、致性、时效性、可访问性,等等。
b. 事中监控
监控原始数据质量
数据采集工作从数据源头获取最原始的数据,在数据采集过程中将数据分为“好数据”“坏数据”,“好数据”入库,“坏数据”则反馈给源头修复,因为数据来源部门最懂这些数据,也最能在源头上把数据问题彻底修复掉。
监控数据中心质量
经过各种采集、清洗、加工过程,数据被存入数据仓库中,这些数据也将被业务部门使用,所以,对于这些成果数据的质量监控和修复则犹为重要。对于这类数据问题,我们可能使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来,也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。
反馈数据质量问题
数据质量监控过程中,会发现两类问题,一类是源头的数据质量问题,一类是数据中心的数据质量问题,数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。
考核数据质量考核
数据质量的考核是为了能够引起各个参与部门和参与团队对数据质量的重视,需要及时统计分析各种数据质量问题,并制定出相应的应对措施。
c. 事后改善
修复数据质量问题
发现质量问题不是最终的目标,我们仍要建立相关的流程和工具,通过手工、工单、自动化等等手段将质量问题修复掉,从而为业务创新提供可靠的数据支撑。
收集数据质量需求
通过数据中心的建设,质量问题的修复,必然能够促进数据的应用,我们仍要建立通畅的数据质量反馈通道,让各个部门参与到数据质量的再次完善中来,从而形成建设、应用和反馈的良性循环。
完善质量管理制度
制度和流程的建设并不是一蹴而就的,我们要在数据建设和质量完善的过程中,结合自身组织结构和业务特色,不断完善工作制度。
完善数据质量标准
各行各业不断涌现新的业务形态,原有的业务也在不断的变化,我们要紧跟业务的变化,不断完善符合业务需求的数据标准。
完善质量监测模型
如前所述,监测模型代表的业务需求,业务形态的变化、数据标准的变化和质量新需求的出现,同样要求监测模型能够做出相应的变化。
完善质量监测规则
同样,如今的信息化技术发展日新月异,我们要不断引入各种新技术来更加智能地发现和修复数据质量问题。
指标体系:是指由若干个反映社会经济现象总体数量特征的相对独立又相互联系的统计指标所组成的有机整体。
在统计研究中,如果要说明总体全貌,那么只使用一个指标往往是不够的,因为它只能反映总体某一方面的数量特征。这个时候就需要同时使用多个相关指标了,而这多个相关的又相互独立的指标所构成的统一整体,即为指标体系
双尾显著性检验:事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理
即判断总体的真实情况与原假设是否有显著性差异。
map 处理任务的工作和作用:
置信度:表示当 A 项出现时 B 项同时出现的频率,记作(A—>B。
换言之,置信度指同时包含 A 项和 B 项的交易数与包含 A 项的交易数之比。
公式表达:根据公式可知如果 A的支持度项集越高置信度不一定越高。若 A 的交易数很高,置信度恰好越低
NameNode主要进行执行的控制工作,不进行实际的工作,聚合操作也在 DataNode 中进行。
具体如下:
NameNode 主要功能
接受客户端的读写服务
NameNode 保存 metadata 信息
文件 owership 和 permissions
文件包含哪些块
Block 保存在那个 DataNode 上
(DameNode 启动的时候主动把 block 汇报给 NameNode)。
NameNode 的 metadata 信息会在启动后加载到内存中
metadata 存储到磁盘文件名为“fsimage”
(做持久化操作,存储文件 owership 和 permissions 和文件包含哪些块)
Block 的位置信息不会保存到 fimage
edits(日志)记录对 metadata 的操作日志中
(在持久化操作的间隔中使用的)
分析报告:根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的
并得出结论,提出解决办法的一种分析应用文体。
通过对数据数据全方位的科学分析来评估其环境及发展情况
为决策者提供科学、严谨的依据,降低风险。
所以既然要出一份分析报告,分析报告中需要具备的要求是必不可少的。
数据分析师接受一个分析项目后,首先需要理解项目的目标、背景和范围,然后开始设计分析步骤
模型拟合不足的问题是因为:
训练误差和验证误差都很大,这种情况称为欠拟合。
出现欠拟合的原因是模型尚未学习到数据的真实结构。
因此,模拟在训练集和验证集上的性能都很差。
数据质量管理(Data Quality Management) 是指:
对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
非结构化数据像图片、声音、视频等等。
这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个 BLOB 字段中,对以后检索非常麻烦。
一般的做法是:建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob) 。引用通过编号,检索通过内容描述。还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种
将所有与分析项目维度和KPI 计算相关的属性列聚合到一张数据表(“分析用数据表)里方便:
准确率
准确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,
一种就是把正类预测为正类(TP)
另一种就是把负类预测为正类(FP)
召回率
召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。
那也有两种可能,
一种是把原来的正类预测成正类(TP)
另一种就是把原来的正类预测为负类(FN)
回归模型是一种常用的预测算法,可以使用最小二乘、梯度下降等方法来求解。
最小二乘法的原理
使用偏导数来求极,
梯度下降法的原理
通过迭代求解最优解
最小二乘法被称为最优的估计,这种最优指的是:
连续数据离散化就是在数据的取值范围内,设定若干个离散的划分点将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EdheA00D-1637568011693)("/images/ACPUntitled.png")]
切片和切块(Slice and Dice)
切片和切块是在维上做投影操作
**切片:**在多维数据上选定一个二维子集的操作,即在某两个维上取一定区间的维成员或全部维成员,而在其余的维上选定一个维成员的操作。
维:是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上集中观察数据。
因为人的空间想象能力毕竟有限,一般很难想象四维以上的空间结构,所以对于维数较多的多维数据空间,数据切片是十分有意义的.
钻取(Drill)
钻取有**向下钻取(Drill Down)和向上钻取(Drill up)**操作。
**向下钻取:**使用户在多层数据中展现渐增的细节层次,获得更多的细节性数据。
**向上钻取:**以渐增概括方式汇总数据(例如,从周到季度,再到年度)。
旋转(Pivoting)
通过旋转可以得到不同视角的数据旋转操作相当于在平面内将坐标轴旋转
例如:旋转可能包含了交换行和列,或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-125KRMM9-1637568011695)(/Users/uiu/Documents/Article/Articles/Images/ACPUntitled1.png)]
**HDFS 的元数据(Metadata)**采用
的备份机制
对于一组给定的样本数据
其平均值为u,标准偏差为δ
则:
z-score=(X-U)/STD,即标准化系数
要体现多个因素 x 对 y的影响,需要按照统一标准对数据进行标准化后 Beta 估算值才具有比较的意义。标准化只会改变回归函数里的系数,回归分析后面需要做假设检验,做标准化是为了公平的看待每个特征的贡献。
在 KNN 算法中k的选取非常重要,KNN 分类的准备率对 K 值很敏感。
不同的值有可能带来不同的结果。
如果K 选大了的话,可能求出来的 k 最近邻集合可能包含了太多隶属于其它类别的样本点,不具有代表性,最极端的就是 k 取训练集的大小,此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单,忽略了训练实例中大量有用信息。
如果 K选小了的话,结果对噪音样本点很敏感。在实际中,一般采用交叉验证(一部分样本做训练集,一部分做测试集)或者依靠经验的方法来选取 k 值。k 值初始时取一个比较小的数值,之后不断来调整 K 值的大小来使得样本分类最优,最优时的 K 值即为所选值。
k 值一般为奇数。
有一个经验规则:k 一般低于训练样本数的平方根