数据分析常用方法&思路&算法

目录

分析方法论

SWOT

4P:产品、价格、促销、渠道

PEST

SMART

5W2H

用户使用行为

AARRR

思路

趋势分析

多维分解

用户分群

漏斗分析

留存分析

A/B 测试

对比分析

交叉分析

算法

回归算法

线性回归Linear Regression

二元logistic回归Logistic Regression

分类算法

决策树

随机森林

adaboost

xgboost

KNN

朴素贝叶斯

SVM

聚类算法

k-means

FCM

GMM

DBSCAN

Mean-Shift

凝聚式层次聚类HAC


分析方法论

SWOT

数据分析常用方法&思路&算法_第1张图片

数据分析常用方法&思路&算法_第2张图片

 

4P:产品、价格、促销、渠道

数据分析常用方法&思路&算法_第3张图片

 

PEST

数据分析常用方法&思路&算法_第4张图片

数据分析常用方法&思路&算法_第5张图片

 

SMART

数据分析常用方法&思路&算法_第6张图片

 

5W2H

数据分析常用方法&思路&算法_第7张图片

数据分析常用方法&思路&算法_第8张图片

 

用户使用行为

数据分析常用方法&思路&算法_第9张图片

 

AARRR

每个环节分别对应生命周期的5个重要过程,即从获取用户,到提升活跃度,提升留存率,并获取收入,直至最后形成病毒式传播。

数据分析常用方法&思路&算法_第10张图片

 

思路

https://www.jianshu.com/p/986ca2b0a717

趋势分析

一般用于核心指标的长期跟踪,比如点击率、GMV、活跃用户数。

可以看出数据有哪些趋势上的变化,有没有周期性,有没有拐点等,继而分析原因。

 

多维分解

通过不同的维度对于数据进行分解,以获取更加精细的数据洞察。

举个例子,对网站维护进行数据分析,可以拆分出地区、访问来源、设备、浏览器等等维度。

 

用户分群

针对符合某种特定行为或背景信息的用户,进行特定的优化和分析,将多维度和多指标作为分群条件,有针对性地优化供应链,提升供应链稳定性。

 

漏斗分析

按照已知的转化路径,借助漏斗模型分析总体和每一步的转化情况。

例如将漏斗图用于网站关键路径的转化率分析,不仅能显示用户的最终转化率,同时还可以展示每一节点的转化率。

 

留存分析

留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。

衡量留存的常见指标有次日留存率、7日留存率、30日留存率等。

 

A/B 测试

A/B测试是为了达到一个目标,采取了两套方案,通过实验观察两组方案的数据效果,判断两组方案的好坏,需要选择合理的分组样本、监测数据指标、事后数据分析和不同方案评估。

 

对比分析

分为横向对比(跟自己比)和纵向对比(跟别人比),常见的对比应用有A/B test,A/B test的关键就是保证两组中只有一个单一变量,其他条件保持一致。

 

交叉分析

交叉分析法就是将对比分析从多个维度进行交叉展现,进行多角度的结合分析,从中发现最为相关的维度来探索数据变化的原因。

 

算法

回归算法

线性回归Linear Regression

y=a+bx+e

其中a表示截距,b表示直线的斜率,e是误差项。这个方程可以根据给定的预测变量(s)来预测目标变量的值

https://blog.csdn.net/jiangzhali1623/article/details/103307166

 

二元logistic回归Logistic Regression

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。

https://blog.csdn.net/weixin_41792682/article/details/89639993

https://www.cnblogs.com/SweetZxl/p/11227692.html

 

分类算法

决策树

树状结构 分类判断

决策树可以分为ID3算法,C4.5算法,和CART算法。ID3算法,C4.5算法可以生成二叉树或者多叉树,CART只支持二叉树,既可支持分类树,又可以作为回归树。

数据分析常用方法&思路&算法_第11张图片

https://www.cnblogs.com/pythonzwd/p/10561566.html

https://blog.csdn.net/lilu916/article/details/73438071

https://www.cnblogs.com/pythonzwd/p/10578106.html

 

随机森林

bagging放回抽样 多个决策树 输出众数

https://blog.csdn.net/Tw6cy6uKyDea86Z/article/details/84801175

 

adaboost

boosting 多个弱分类器组合成强分类器 调整权重

如果某个样本已经被准确地分类,那么在构造下一个训练集中,它的权重就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。同时,得到弱分类器对应的话语权。然后,更新权值后的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。

误差率低的弱分类器在最终分类器中占的比例较大,反之较小。

Bagging和Boosting的区别

http://blog.sina.com.cn/s/blog_ab12a33f0102x468.html

https://blog.csdn.net/kalath_aiur/article/details/105234675

 

xgboost

CART树 不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。

https://www.jianshu.com/p/2e07e4186cfe

https://blog.csdn.net/u012535605/article/details/80078903

https://www.sohu.com/a/226265476_609569

 

KNN

1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。

https://www.cnblogs.com/xiaotan-code/p/6680438.html

 

朴素贝叶斯

https://www.cnblogs.com/caiyishuai/p/9316917.html

https://blog.csdn.net/sinat_34072381/article/details/84571451

 

SVM

将每一个数据项作为一个点在n维空间中(其中n是拥有的特征数)作为一个点,每一个特征值都是一个特定坐标的值。然后,通过查找区分这两个类的超平面来进行分类。

其学习方法是把数据映射到一个高维空间上,使数据变稀疏,比较容易找到一个分割面来将数据分类,而这个高维的分割面就是超平面。而SVM做的就是找到这样一个超平面使得数据点离这个超平面尽可能的远。

https://blog.csdn.net/comway_Li/article/details/81137651

https://blog.csdn.net/u010665216/article/details/78382984

https://blog.csdn.net/woaidapaopao/article/details/52664833

 

聚类算法

层次聚类 划分聚类(kmeans PCM) 密度聚类(DBSCAN) 网格聚类 模型聚类

https://www.cnblogs.com/newdate/p/10199006.html

 

k-means

KNN与K-MEANS的区别

数据分析常用方法&思路&算法_第12张图片

step1:选定要聚类的类别数目k(如上例的k=3类),选择k个中心点。

step2:针对每个样本点,找到距离其最近的中心点(寻找组织),距离同一中心点最近的点为一个类,这样完成了一次聚类。

step3:判断聚类前后的样本点的类别情况是否相同,如果相同,则算法终止,否则进入step4。

step4:针对每个类别中的样本点,计算这些样本点的中心点,当做该类的新的中心点,继续step2。
https://www.cnblogs.com/pinard/p/6164214.html

https://blog.csdn.net/Dhane/article/details/86661208

 

FCM

模糊C均值算法

基于划分的聚类算法,思想是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。

https://blog.csdn.net/on2way/article/details/47087201

https://www.cnblogs.com/sddai/p/6259553.html

 

GMM

Gaussian Mixture Model高斯混合聚类

用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型

https://blog.csdn.net/weixin_45488228/article/details/102463264

https://zhuanlan.zhihu.com/p/60672386

k-means、GMM聚类、KNN原理概述

 

DBSCAN

基于高密度连通区域的、基于密度的聚类算法,能够将具有足够高密度的区域划分为簇,并在具有噪声的数据中发现任意形状的簇。

基于距离测量(通常为欧几里德距离)和最小点数将彼此接近的点组合在一起。

https://blog.csdn.net/zhangbaoanhadoop/article/details/82377554

https://www.jianshu.com/p/e8dd62bec026

https://cloud.tencent.com/developer/article/1447824

https://blog.csdn.net/j2IaYU7Y/article/details/80060996

 

Mean-Shift均值漂移算法

对于Mean Shift算法,是一个迭代的步骤,即先算出当前点的偏移均值,将该点移动到此偏移均值,然后以此为新的起始点,继续移动,直到满足最终的条件。

https://www.cnblogs.com/liqizhou/archive/2012/05/12/2497220.html

https://www.cnblogs.com/developerdaily/p/9284093.html

 

凝聚式层次聚类HAC

把数据自顶向下分裂成或者自底向上合并成一棵树

凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足

分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。

https://blog.csdn.net/resourse_sharing/article/details/44175983

https://blog.csdn.net/sinat_31337047/article/details/52777669

https://blog.csdn.net/zhangyonggang886/article/details/53510767

https://blog.csdn.net/weixin_45488228/article/details/102493562

https://zhuanlan.zhihu.com/p/27659767

 

你可能感兴趣的:(数据分析)