MySQL-每周练习(2017-10-20)

MySQL
每周练习

本周我们来一道数据处理的练习题。

数据背景

不知道大家学会爬虫了没,拉勾网的数据大家会爬取了吗?这道题和拉勾网有关哦。
假设你已经学会爬取数据了,可以将数据爬取下来,数据可能是这个样子(demo库中的tm_lagou_data表):

CREATE TABLE `tm_lagou_data` (
  `city` varchar(20) DEFAULT NULL COMMENT '城市',
  `company_short_name` varchar(100) DEFAULT NULL COMMENT '公司简称',
  `company_full_name` varchar(200) DEFAULT NULL COMMENT '公司全称',
  `company_industry` varchar(100) DEFAULT NULL COMMENT '所属行业',
  `company_location` varchar(100) DEFAULT NULL COMMENT '工作地点',
  `position_advantage` varchar(100) DEFAULT NULL COMMENT '岗位特点',
  `position_salary` varchar(20) DEFAULT NULL COMMENT '薪资',
  `position_workyear` varchar(20) DEFAULT NULL COMMENT '工作经验',
  `position_name` varchar(50) DEFAULT NULL COMMENT '职位名称',
  `position_first_type` varchar(100) DEFAULT NULL COMMENT '岗位类型-大类',
  `position_second_type` varchar(100) DEFAULT NULL COMMENT '岗位类型-小类',
  `position_lables` varchar(100) DEFAULT NULL COMMENT '岗位标签',
  `position_id` varchar(20) DEFAULT NULL COMMENT '岗位ID',
  `create_time` datetime DEFAULT NULL COMMENT '发布时间',
  `job_desc` text comment '岗位描述'
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='拉勾网-数据分析数据';

在Python中,我们没有过多的处理,数据是这个样子的


MySQL-每周练习(2017-10-20)_第1张图片

这一次呢,我们只需要关注一个字段即可company_industry,这是公司所属行业
这个行业呢,一般会有多个,像上海的这个挖财网,就是互联网+金融,有2个标签,中间是逗号分隔符

MySQL-每周练习(2017-10-20)_第2张图片

问题描述

原始数据:

tm_lagou_data表中,company_industry(所属行业)字段可能会有多个值,并用逗号分隔


MySQL-每周练习(2017-10-20)_第3张图片

我们的目的是把这个字段拆分,变成下面这样的数据

处理后数据:

MySQL-每周练习(2017-10-20)_第4张图片

知识点

为了解决上面的问题,我们需要掌握的知识点如下:

  • 多表关联:
    MySQL-关联查询
    Mysql 连接的使用

  • 字符串函数: https://dev.mysql.com/doc/refman/5.7/en/string-functions.html

有了拆分后的数据,我们就可以看数据分析师的行业分布,哪个行业招的数据分析师最多,哪个行业招的最少了。


MySQL-每周练习(2017-10-20)_第5张图片

你可能感兴趣的:(MySQL-每周练习(2017-10-20))