Spark大数据处理讲课笔记4.8 Spark SQL典型案例

文章目录

  • 零、本讲学习目标
  • 一、使用Spark SQL实现词频统计
    • (一)提出任务
    • (二)实现任务
      • 1、准备数据文件
      • 2、创建Maven项目
      • 3、修改源程序目录
      • 4、添加依赖和设置源程序目录
      • 5、创建日志属性文件
      • 6、创建HDFS配置文件
      • 7、创建词频统计单例对象
      • 8、启动程序,查看结果
      • 9、词频统计数据转化流程图
  • 二、使用Spark SQL计算总分与平均分
    • (一)提出任务
    • (二)完成任务
      • 1、准备数据文件
      • 2、新建Maven项目
      • 3、修改源程序目录
      • 4、添加相关依赖和设置源程序目录
      • 5、创建日志属性文件
      • 6、创建HDFS配置文件
      • 7、创建计算总分平均分单例对象
      • 8、运行程序,查看结果
  • 三、使用Spark SQL实现分组排行榜
    • (一)提出任务
    • (二)涉及知识点
      • 1、数据集与数据帧
      • 2、开窗函数
        • (1)开窗函数概述
        • (2)开窗函数格式
    • (三)完成任务
      • 1、准备数据文件
      • 2、新建Maven项目
      • 3、修改源程序目录
      • 4、添加相关依赖和设置源程序目录
      • 5、创建日志属性文件
      • 6、创建HDFS配置文件
      • 7、创建分组排行榜单例对象
      • 8、运行程序,查看结果
  • 四、使用SparkSQL统计每日新增用户
    • (一)提出任务
    • (二)实现思路
    • (三)完成任务
      • 1、准备数据文件
      • 2、新建Maven项目
      • 4、添加相关依赖和设置源程序目录
      • 5、创建日志属性文件
      • 6、创建HDFS配置文件
      • 7、创建统计新增用户单例对象
      • 8、运行程序,查看结果
      • 9、在Spark Shell里运行代码

零、本讲学习目标

  1. 使用Spark SQL实现词频统计
  2. 使用Spark SQL计算总分与平均分
  3. 使用Spark SQL实现分组排行榜
  4. 使用Spark SQL统计每日新增用户

一、使用Spark SQL实现词频统计

(一)提出任务

  • 词频统计是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现词频统计。本次任务,要求利用SparkSQL来实现词频统计。
  • 单词文件
hello scala world
hello spark world
scala is very concise
spark is very powerful
let us learn scala and spark
we can learn them well
  • 词频统计结果
    Spark大数据处理讲课笔记4.8 Spark SQL典型案例_第1张图片

(二)实现任务

1、准备数据文件

你可能感兴趣的:(#,Spark基础学习笔记(1),spark,笔记,sql)