你拍脑袋做的策略对吗？用统计学检验决策可信率

避免极端错误的决策发生

决策的制定是基于因果关系的调整，在制定决策前需要明确洞察因果关系。这时需要统计性假设检验的思维方式，帮助判断特定区间内的因果关系可信的概率。

统计性假设检验在做假设时不考虑0或1，这种全称性命题，也不考虑我们已经预判的结果的假设。而是要考察一个完全颠覆自己认为的结果的一个假设。

如果能够证明这个颠覆自己主张假设成立的概率微弱，就可以证明自己原有主张很可能是正确的。最后用p值衡量假设所描述的情况的概率。

简单理解就是做一个相反的假设，然后证明它不太可能发生。

为啥反着证呢，因为正着的时候一般数据量都很大，我们往往不能收集到那么多数据。比如“乌鸦都是黑的”，我们不能把所有乌鸦都抓过来看看颜色。那这样，我们反着假设“天下乌鸦黑色和非黑色各一半”，或者“天下乌鸦九成是黑的”，如果能够证明“乌鸦只有九成是黑的”不太可能成立，那八成，七层就更不可能了，同时也说明了“九成以上的乌鸦是黑的”是非常可能是成立的。

J·内曼把表示“不可能的原假设”和“无法否定的原假设”到底处于何种范围，定义为置信区间。

无论是何种类型的假设，我们都可以说明“该假设在哪种范围以外”是可以推翻的，“在哪种范围之内”是可信的。

统计学上，把“明明不存在差异却认为存在”的错误称为α错误，把“明明存在差异却没有发现”的错误称为β错误。可以理解α错误是过分激进的错误，β错误是过于保守的错误。（统计功效=1-β）

通过统计性假设检验让我们找到这些过分激进或者过分保守的错误，帮助决策者更好的洞察业务。

用z检验来避免过分激进的错误（比例）

利用数据量很大（数百至数千）时比例或平均值之差服从正态分布的性质，检验该差距是否因数据分散而偶然产生，这种假设检验的方法称为z检验。

看下图一组数据，如果不了解统计学，就很可能激进的得出结论。从交叉表中得出“参加过体育社团的人中成功人士较多”的结论，从占比图中得出“参加过体育社团的人更容易成功”的结论。

上面两个结论都太激进了，不能单纯从数量上就判定因果关系。我们通过统计性假设检验的思维方式来寻找因果关系。

假设：两者的升任率没有差别

步骤一：确定范围

我们要分析的范围，一定是我们所能收集数据的范围，否则得出的结论就会被以数据不完整为由轻易推翻。

先给自己画个圈，圈外的没有数据，也不能证明，以后都在圈里说事

步骤二：计算标准误差

这样就可以得出参加过体育社团并升任主任的概率在（21%±2×2.35%），即16.3%~25.7%之间。

同样的方法可以计算未参加过体育社团并升任主任的概率在（18.5%±2×2.75%），即13.0%~24.0%之间。

可见是否参加体育社团，在升任主任方面结合标准误差后看到有很大重合区域。在这种程度的误差下，两者比例之差到底是不是偶然的是难以判断的。

根据置信区间的思考方法，在5%显著性水平下，参加体育社团升任主任占比16.3%~25.7%，没参加的升任占比13%~24%，是无法否定的。

步骤三：比例之差的标准误差

我们的检验不是为了得到各组的升任率如何，而是为了知道哪组更容易升任主任。当两者升任率没有差别时，比例之差应该为0，接下来我们验证一下假设。

在多次抽取时，因为只要是从分散数据中算出的某个值，数据的比例或者平均值之差是服从正态分布的。就一定存在相对这个值的标准误差。因此，比例之差的标准误差也是存在的。

是否参加体育社团中主任占比二者的差是21%-18.5%=2.5%

根据置信区间的思考方法，在双侧5%的显著性水平下，参加过体育社团升任主人的占比高于未参加者9.8%（2.5%+2×3.65%），和参加过体育社团升任主人的占比低于于未参加者4.8%（2.5%-2×3.65%），都是无法否定的。结论是无法确定哪一方更高。

步骤四：计算假设成立的p值

我们假设“两者的成功率没有差别”，那么就意味着二者占比之差应该是0。

实际上求得的差是2.5%，标准误差是3.65%。计算得到2.5%偏离正太分布中心0.685（2.5%÷3.65%）个标准差。正态分布中偏离0.685个标准差的概率是25%（excel中用“=1-normsdist（0.685）”计算可得）。那在双侧检验的思考方式下就可以得出“两方差距大于0.685个标准差的概率”是50%。

也就是说，在“两者的成功率没有差别”这一原假设下，两组之间出现现在这种（2.5%或更大）的升任率之差“的概率是50%。

这个结果我们不能判断两组是否具有显著性差异。

为了进一步验证需要扩大数据范围，如果随着数据范围的扩大，升任率之差在增大，则说明某一方确实对升任有优势；如果随着数据范围扩大，升任率趋之差趋近于0，则说明我们看到的差真的是由偶然产生的。

用z检验来避免过分激进的错误（平均值）

平均值和比例是本质是相同的，z检验也可以用于考察平均值之差。看下面例子：

数据中可以发现，参加社团的人平均奖金比未参加社团的平均奖金高2W，我们用z检验来验证这个2W的差距是不是偶然产生的。

假设：是否参加社团奖金没有差别

步骤一二：是否参加体育社团奖金平均值之差是2W。

步骤三：是否参加体育社团奖金平均值之差的标准误差是9900

这样若以平均值±2SE的95%置信区间来表示这一结果，可以大致认为参加体育社团奖金高出0.02W（2W-2×9900）到3.98W（2W+2×9900）是不可否认的。

步骤四：计算假设成立的p值

计算得到奖金平均值之差2W，偏离正太分布中心2.02倍标准误差

计算可得出现的概率p=0.043（excel中用“=1-normsdist（2.02）”计算可得），这一数值低于显著性水平5%，表明 “平均奖金没有差别” 的原假设是十分不可能的。

商务中运用假设检验

对于商务人士来说，机遇和风险并存，需要通过已知的有限信息数据制定决策，承担风险，把握商机。基于数据的分析是有限的，市场的变化是无限的，“以有涯随无涯，殆已！”。

假设检验的p值和置信区间能告诉决策者，自己的判断是否很激进。但是，更需要决策者灵活运用它们，结合自己的经验和直觉制定策略。

你拍脑袋做的策略对吗？用统计学检验决策可信率

避免极端错误的决策发生

用z检验来避免过分激进的错误（比例）

用z检验来避免过分激进的错误（平均值）

商务中运用假设检验

你可能感兴趣的:(你拍脑袋做的策略对吗？用统计学检验决策可信率)