《SparkSQL 1》--SparkSQL简介、RDD与DataFrame、搭建SparkSQL环境、创建DF、DataFrame常用操作、DataSet、SparkSQL的执行计划和执行流程
引言:给定一个包含用户基本信息(如姓名、年龄等)的数据集,请统计相同姓名的用户的平均年龄?SparkRDD实现:valdata=sc.textFile("/data/input.txt").split("\t")data.map(x=>(x(0),(x(1).toInt,1))).reduceByKey((a,b)=>a._1+b._1,a._2+b._2).map(x._1,x._2._1/x.