【十五】SparkSQL访问日志分析:数据清洗、数据分析(分组、排序、窗口函数)、入库(MySQL)、性能优化
概述:1.第一次数据清洗:从原始日志中抽取出需要的列的数据,按照需要的格式。2.第二步数据清洗:解析第一步清洗后的数据,处理时间,提出URL中的产品编号、得到产品类型,由IP得到城市信息(用到开源社区的解析代码,该部分具体介绍:ipdatabase解析出IP地址所属城市),按照天分区进行存储(用parquet格式)。3.统计分析(分组、排序、窗口函数)。4.结果写入MySQL。5.性能优化:代码中