Python抓取某相亲网站用户大数据分析【女】

【郑重声明】本文章统计数据均来自XX网用户数据,未通过任何非公开及违法渠道获取广大用户的个人隐私信息!
【技术参考】Python、selenium、pyecharts(自编自写的python脚本抓取的XX网公开信息)

摘要

喜逢春日佳节之际,受到新型冠状病毒肺炎的影响,窝在家里实在难受,为了防止屁股坐的生疮,闲来无事爬了爬XX网,本文统计的实际新县网城缘女性用户为176位,VIP用户未统计在列(原谅本人懒,VIP用户数据抓取较费功夫),预估计VIP用户在20人左右,统计的数据具备一定的真实可靠性

婚姻状况

  • 在所有的统计中,未婚女性占比在76%,说明离异或丧偶的 用户占据相当一部分比例Python抓取某相亲网站用户大数据分析【女】_第1张图片

学历状况

  • 通过实际的分布图可以看出,女生的学历分布相对比较均匀,各个阶段的比重都很大,但是高学历的女生比较少,初中及以下的学历比重也很大

收入状况

  • 从饼图统计的数据来看,广大女性群众的收入都集中在1万元以下,八千以下占据绝大多数,说明女同学的收入相比男士还是有所欠缺的,男性通知要想在收入上比的过女生,月收入要达到1万以上较为合适,另外在统计的用户中还存在一个月收入在3万以上的,有数据造假之嫌疑
    Python抓取某相亲网站用户大数据分析【女】_第2张图片

年龄分布

  • 统计的柱状图中,女性用户均匀集中在24-30岁的年龄段之间,这个时间段正是谈婚论嫁的适宜时机,不过比较令人吃惊的是,有相当一部分大龄女青年还没有实现自己找到另一半的诉求
    Python抓取某相亲网站用户大数据分析【女】_第3张图片

身高统计

  • 女生的身高大都集中在160-165CM之间,男性用户在匹配帅选用户的时候不要标准太高,不然找不到合适的目标==
    Python抓取某相亲网站用户大数据分析【女】_第4张图片

地域分布

  • 从地图上统计的数据来看,在省外工作的 男同胞可就惨了,在XX本地工作的男同胞比较有福了,毕竟200个左右的女性用户,居然有124个用户在自己的家乡,在家的男同学们请抓住机会吧 !
    Python抓取某相亲网站用户大数据分析【女】_第5张图片

工作种类分布

  • 从词云的分布上我们可以看到,在这些用户中,其他职业所占比重非常多,所谓的其他职业,换个字面意思可能是非固定的职业,另外可以看出,女生从事的行业居多都是教师、行政、销售等一类的职业,像互联网、通信一类的技术行业,能遇到同乡知音的概率几乎为0
    Python抓取某相亲网站用户大数据分析【女】_第6张图片

女生爱好

  • 此处抓取的数据不多,如下统计的数据仅做参考,想讨好女生的,赶紧挑一种臭味相投吧…
    Python抓取某相亲网站用户大数据分析【女】_第7张图片

开源参考

  • 现公布部分开源代码,感兴趣的同行者可以借鉴下
    def drawPie(self):
        pie=(
              Pie()
              .add(
                      "",
                     #[list(z) for z in zip(Faker.choose(), Faker.values())],
                     [list(z) for z in zip(self.xueli, self.xueli_value)],
                     radius=["0%", "75%"],
                 )
                 .set_global_opts(
                     title_opts=opts.TitleOpts(title="学历分布"),
                     #==========================================================
                     # legend_opts=opts.LegendOpts(
                     #     orient="vertical", pos_top="15%", pos_left="2%"
                     # ),
                     #==========================================================
                 )
                 .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
             )
          
        pie.render('pie.html')
    def drawMap(self):
        c = (
            Geo()
            .add_schema(maptype="china")
            .add("geo", 
                 [list(z) for z in zip(self.place, self.place_value)],
                 #type_=ChartType.HEATMAP,
                 )
            .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
            .set_global_opts(
                visualmap_opts=opts.VisualMapOpts(is_piecewise=True),
                title_opts=opts.TitleOpts(title="工作地域分布"),
            )
        )
        c.render('map.html')
        return c    
    def drawLine(self):
        c = (
            Bar()
            .add_xaxis(self.height)
            .add_yaxis("身高", self.height_value)
            .set_global_opts(title_opts=opts.TitleOpts(title="身高分布", subtitle=""))
        )
        c.render('line.html')
        return c   

你可能感兴趣的:(Python)