【字节跳动】数据挖掘面试题0010:解释全国人均收入下降,各省份人均收入增加的现象,属于辛普森悖论(开放性问题)

文章大纲

      • 一、辛普森悖论的核心定义
      • 二、现象成因:加权平均中的“权重偏移”
      • 三、数学逻辑与案例说明
        • 1. 数学表达式
        • 2. 具体案例
      • 四、辛普森悖论的本质:忽略“混杂因素”的影响
      • 五、生活中常见的辛普森悖论案例及应对策略
        • 1. 医疗疗法效果评估
        • 2. 大学录取率的性别偏差
        • 3. 篮球运动员投篮效率
        • 4. 公司员工绩效与部门规模
        • 如何利用辛普森悖论?(数据分析中的价值)
      • 六、总结

全国人均收入下降而各省份人均收入增加的现象,确实属于 辛普森悖论(Simpson’s Paradox)。以下从辛普森悖论的定义、现象成因、数学逻辑及具体案例展开解释:

一、辛普森悖论的核心定义

辛普森悖论指当数据按不同分组分析时,每组呈现一致的趋势,但整体汇总后趋势反转的现象。

其本质是分组数据的权重(如人口比例、样本量等)变化,导致整体统计结果与分组结果矛盾

二、现象成因:加权平均中的“权重偏移”

全国人均收入是各省份人均收入的加权平均值,权重为各省份人口占全国总人口的比例。
若各省份人均收入增加,但全国人均收入下降,核心原因是:

  • 高收入省份的人口占比下降,或低收入省份的人口占比上升导致加权平均的“权重”向低收入群体倾斜,最终使整体均值被拉低

三、数学逻辑与案例说明

1. 数学表达式

设全国有 ( n ) 个省份,第 ( i ) 个省份的人均收入为 x i x_i xi,人口为 p i p_i pi ,全国总人口为 P = ∑ p i P = \sum p_i P=pi

  • 各省人均收入增长率 x i ′ = x i × ( 1 + r i ) ( r i > 0 ,即各省收入均增长)。 x_i' = x_i \times (1 + r_i) ( r_i > 0 ,即各省收入均增长)。 xi=xi×(1+ri)ri>0,即各省收入均增长)。
  • 全国人均收入 X ˉ = ∑ x i p i P ,增长后为 X ˉ ′ = ∑ x i ′ ( p i + Δ p i ) P + Δ P ( Δ p i 为各省人口变化量)。 \bar{X} = \frac{\sum x_i p_i}{P} , 增长后为 \bar{X}' = \frac{\sum x_i'(p_i + \Delta p_i)}{P + \Delta P} ( \Delta p_i 为各省人口变化量)。 Xˉ=Pxipi,增长后为Xˉ=P+ΔPxi(pi+Δpi)Δpi为各省人口变化量)。
    • 若高收入省份的 Δ p i 为负(人口减少),低收入省份的 Δ p i 为正(人口增加),可能导致: X ˉ ′ < X ˉ 若高收入省份的 \Delta p_i 为负(人口减少),低收入省份的 \Delta p_i 为正(人口增加),可能导致: \bar{X}' < \bar{X} 若高收入省份的Δpi为负(人口减少),低收入省份的Δpi为正(人口增加),可能导致:Xˉ<Xˉ
2. 具体案例

假设全国仅有两省:

  • A省(高收入):原人均收入10万元,人口100万,占全国50%;
    • 增长后人均收入11万元(+10%),人口减少至80万(占比40%)。
  • B省(低收入):原人均收入5万元,人口100万,占全国50%;
    • 增长后人均收入5.5万元(+10%),人口增加至120万(占比60%)。

分组结果

  • A省人均收入从10万→11万(↑10%),
  • B省人均收入从5万→5.5万(↑10%),
    各省均增长

全国整体结果

  • 原全国人均收入: 10 × 100 + 5 × 100 200 = 7.5 万元, \frac{10 \times 100 + 5 \times 100}{200} = 7.5 万元, 20010×100+5×100=7.5万元,
  • 增长后全国人均收入: 11 × 80 + 5.5 × 120 200 = 880 + 660 200 = 7.7 万元 \frac{11 \times 80 + 5.5 \times 120}{200} = \frac{880 + 660}{200} = 7.7 万元 20011×80+5.5×120=200880+660=7.7万元
    • (此处假设人口变化后全国总人口仍为 200 万,若 B 省人口增加更多,例如 A 省人口减至 50 万, B 省增至 150 万,则: (此处假设人口变化后全国总人口仍为200万,若B省人口增加更多,例如A省人口减至50万,B省增至150万,则: (此处假设人口变化后全国总人口仍为200万,若B省人口增加更多,例如A省人口减至50万,B省增至150万,则:
      • 11 × 50 + 5.5 × 150 200 = 550 + 825 200 = 6.875 万元 < 7.5 万元,此时全国人均收入下降,而各省均增长,矛盾出现。) \frac{11 \times 50 + 5.5 \times 150}{200} = \frac{550 + 825}{200} = 6.875 \text{万元} < 7.5 \text{万元}, 此时全国人均收入下降,而各省均增长,矛盾出现。) 20011×50+5.5×150=200550+825=6.875万元<7.5万元,此时全国人均收入下降,而各省均增长,矛盾出现。)

四、辛普森悖论的本质:忽略“混杂因素”的影响

上述案例中,“人口结构变化”是被忽略的混杂因素

  • 各省人均收入的“增长”是组内趋势
  • 全国人均收入的“下降”是由于组间权重(人口比例)向低收入群体偏移
    二者不矛盾,而是整体统计未控制分组权重变化导致的结果。

五、生活中常见的辛普森悖论案例及应对策略

1. 医疗疗法效果评估

背景:某药物在临床试验中,整体数据显示治愈率低于安慰剂,但按病情严重程度分组后,轻症和重症患者的治愈率均高于安慰剂。
数据示例

分组 药物组治愈数/人数 安慰剂治愈数/人数 治愈率
轻症患者 90/100 80/100 90% > 80%
重症患者 30/100 20/100 30% > 20%
整体 120/200 100/200 60% < 50%
悖论原因重症患者占比高,拉低了药物组整体治愈率(混杂因素:病情严重程度)。
2. 大学录取率的性别偏差

背景:某大学整体录取率显示女生低于男生,但按专业分组后,多数专业女生录取率高于男生。
数据示例

专业 女生申请/录取 男生申请/录取 录取率
理工科 100/20 500/100 20% < 20%
文科 500/300 100/50 60% > 50%
整体 600/320 600/150 53.3% < 25%
悖论原因女生更多申请竞争激烈的文科专业(混杂因素:专业选择偏好)。
3. 篮球运动员投篮效率

背景:球员A赛季整体投篮命中率高于球员B,但分主客场看,球员B在主场和客场的命中率均高于球员A。
数据示例

场地 球员A命中/出手 球员B命中/出手 命中率
主场 80/200 50/100 40% < 50%
客场 30/100 40/100 30% < 40%
整体 110/300 90/200 36.7% > 45%
悖论原因:球员A客场出手次数更多(低命中率场景占比高),拉低了整体命中率。
4. 公司员工绩效与部门规模

背景:某公司整体员工绩效评分随工龄增长而降低,但按部门规模分组后,各部门内工龄越长的员工评分越高。
数据示例

部门规模 短工龄评分/人数 长工龄评分/人数 平均分
小型部门 80分/10人 85分/5人 80 < 85
大型部门 70分/50人 75分/10人 70 < 75
整体 72分/60人 76分/15人 72 > 76
悖论原因长工龄员工更多集中在大型部门(评分普遍较低),导致整体趋势反转
如何利用辛普森悖论?(数据分析中的价值)
    1. 发现隐藏的因果关系
    • 通过分组分析揭露混杂因素(如病情、专业、场地)对结果的影响,避免被整体数据误导。
    • 例:在推荐算法AB测试中,按用户活跃度分组分析,可能发现新算法在高活跃用户中效果显著,但被低活跃用户拉低整体指标
    1. 优化决策逻辑
    • 当整体与分组结论矛盾时,需明确决策目标:若关注细分群体(如重症患者),则以分组数据为准;若关注整体人群,需控制混杂变量后再分析。
    1. 增强模型解释性
    • 在机器学习中,通过分层评估(如按地域、年龄分层)定位模型在不同群体中的表现差异,辅助模型优化

六、总结

该现象符合辛普森悖论的核心特征:分组数据的正向趋势(各省收入增长)被整体数据的负向趋势(全国收入下降)掩盖

  • 根本原因是全国人均收入作为加权平均值,其结果同时受“各组数值变化”和“各组权重变化”影响。
  • 当权重向低值组倾斜时,即使各组数值均增长,整体仍可能下降。

你可能感兴趣的:(数据挖掘常见面试题,辛普森悖论,局部与整体分析差异归因,数据分析,面试题)