sparkSQL 第50页

Spark SQL 教程

一、什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。

Zebul博·2020-07-15 15:00

Spark系列--SparkSQL(三)执行SparkSQL查询

前言SparkSession在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询，

淡淡的倔强·2020-07-15 15:28

SPARK SQL一些坑

现在的sparksql编程通常使用scalaapi以及javaapi的方式，相比于直接使用sparksql语句，sparkapi灵活很多，毕竟可以基于dataset以及rdd两种方式进行操作，不过sparksql

waaaaht·2020-07-15 15:28

sparksql读取hive中的数据保存到hdfs中

packagewondersgroup_0905_Testimportorg.apache.spark.sql.SparkSessionobjectsparkHive{defmain(args:Array[String]):Unit={//数据库名称valdatabase="hivetest"//表名称valtable="tb_his_zy_fee_detail"//hivewarehouse在h

zhaokunpeng1593·2020-07-15 15:56

编程的两种方式执行Spark SQL查询（方式一）

现在我们来实现在自定义程序中编写SparkSQL查询程序。实现查询的方式有两种：方式一：通过反射推断schema。方式二：通过structtype直接指定schema。我们先用方式一来实现自定义查询。

Allen-Gao·2020-07-15 15:03

编程的两种方式执行Spark SQL查询（方式二）

现在我们来实现在自定义程序中编写SparkSQL查询程序。实现查询的方式有两种：方式一：通过反射推断schema。方式二：通过structtype直接指定schema。

Allen-Gao·2020-07-15 15:52

Spark SQL入门用法与原理分析

sparkSQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的，开发人员只需要写一句SQL语句或者调用API，就能生成（翻译成）对应的SparkJob代码并去执行，开发变得更简洁注意：本文全部基于

写代码的可可·2020-07-15 15:45

【SparkSQL笔记】SparkSQL的入门实践教程（一）

1.SparkSQL概述SparkSQL是用于处理结构化数据的模块。

sdut菜鸟·2020-07-15 15:57

Spark SQL实战查询网页数据分析

blog.csdn.net/qq_25948717/article/details/80758713https://blog.csdn.net/qq_25948717/article/details/81054411使用SparkSQL

大鱼-瓶邪·2020-07-15 14:02

Spark SQL 客户端查询

还可以用spark-shell，那它们有什么区别呢，spark-sql仅仅类似于hive客户端，只是支持sql查询，spark-shell不仅可以支持sql查询，还可以执行RDD的一些操作，包括RDD和SparkSQL

one111a·2020-07-15 14:24

Spark Sql教程(3）———DataFrame执行Sql查询

sparksql教程SparkSql教程(1)————创建sparkSessionSparkSql教程(2）———DataFrame基本操作SparkSql教程(3）———DataFrame执行Sql查询

辜智强 -buaa·2020-07-15 14:52

Spark入门实战指南——Spark SQL入门

一、SparkSQL运行架构SparkSQL对SQL语句的处理，首先会将SQL语句进行解析（Parse），然后形成一个Tree，在后续的如绑定、优化等处理过程都是对Tree的操作，而操作的方法是采用Rule

江湖小小虾·2020-07-15 14:56

Spark SQL:运行原理

SparkSQL的运行过程SQL在Spark执行要经历以下几步：用户提交SQL文本解析器将SQL文本解析成逻辑计划分析器结合Catalog对逻辑计划做进一步分析，验证表是否存在，操作是否支持等优化器对分析器分析的逻辑计划做进一步优化

焦焦^_^·2020-07-15 14:20

一个SparkSQL作业的一生

而SparkSQL则是Spark之上搭建的SQL解决方案，主打交互查询场景。

白乔·2020-07-15 14:12

SparSql（详细）

1．SparkSQL概述1.1．SparkSQL的前世今生Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。

大大怪啊·2020-07-15 13:22

Spark SQL入门基础

SparkSQL简介###从Shark说起Shark即hiveonSpark,为了实现与Hive兼容，Shark在HiveQL方面重用了Hive中HiveQL的解析、逻辑执行计划、翻译执行计划优化等逻辑

zxc123e·2020-07-15 13:36

Spark SQL简介及以编程方式实现SQL查询

SparkSQL官网1.什么是SparkSQL？SparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

wlk_328909605·2020-07-15 13:28

元数据与数据治理｜Spark SQL结构化数据分析（第六篇）

在Spark1.3.0以SparkSQL原有的SchemaRDD为蓝本，引入了SparkDataFrameAPI，不仅为Scala、Python、Java三种语言环境提供了形如R和Pandas的API，

十年呵护·2020-07-15 13:50

sparkSQL自定义聚合函数（UDAF）实现bitmap函数

创建测试表使用phoenix在HBase中创建测试表，字段使用VARBINARY类型CREATETABLEIFNOTEXISTStest_binary(dateVARCHARNOTNULL,dist_memVARBINARYCONSTRAINTtest_binary_pkPRIMARYKEY(date))SALT_BUCKETS=6;创建完成后使用RoaringBitmap序列化数据存入数据库：实

玉羽凌风·2020-07-15 12:00

pyspark之DataFrame操作大全

SparkSQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。

zhengzaifeidelushang·2020-07-15 12:46

spark如何读取hive里面的数据

首先，将hive-site.xmlcopy到spark/conf目录下sparkshell和sparksql：指定mysql驱动包位置，--jars只会在executor端读取到，driver-class-path

yoohhwz·2020-07-15 11:53

Spark读取数据及保存数据

文章目录创建SparkSession读取数据jdbcjsoncsvparquet保存数据创建SparkSessionsparkSQl可以读取不同数据源的数据，比如jdbc,json,csv,parquet

yjgithub·2020-07-15 11:30

[Spark 基础] 如何安装Spark和使用spark-shell

背景ApacheSpark是一个快速的、分布式的通用计算引擎，支持Java、Scala、Python和R多种语言，同时在计算引擎之上提供了多种工具，比如处理SQL和结构化数据的SparkSQL，用于机器学习的

大数据学徒·2020-07-15 04:37

Spark 3.0 中七个必须知道的 SQL 性能优化

PPT请关注过往记忆大数据并后台回复sparksql3获取。Spark3.0正式版在上个月已经发布了，其中更新了很多功能，

过往记忆·2020-07-15 02:03

Spark开发实例（SequoiaDB）

实验1搭建Spark实例应用开发环境程序中会创建JDBC连接，并通过JDBC在SparkSQL中创建jdbc_sample集合的映射表，向映射表中插入一条记录后查询jdbc_sample记录打印到控制台

alwaysStudy1998·2020-07-15 01:35

StructuredStreaming官方文档翻译

基于spark2.1的官方文档翻译而来Overviewstructuredstreaming是一种基于SparkSQL引擎构建的可扩展且容错的流处理引擎。

无尴尬不青春·2020-07-14 22:54

SparkSQL 自定义函数UDF与UDAF

自定义函数分类UDF输入一行，输出一行UDAF输入多行，输出一行UDTF输入一样，输出多行UDF//导包importorg.apache.spark.sql.SparkSession//编写代码//1.实例SparkSessionvalspark=SparkSession.builder().master("local[*]").appName("udf").getOrCreate()//2.根据

lhh学bg·2020-07-14 21:55

SparkSQL实现wordCount与资源转换

SparkSQL完成WrodCount//导包importorg.apache.spark.sql.SparkSession//编写代码//1.定义SparkSessionvalspark=SparkSession.builder

lhh学bg·2020-07-14 21:55

SparkSQL介绍并实现开窗函数

1.开窗函数聚合函数和开窗函数聚合函数是将多行变成一行开窗函数是将一行变成多行开窗函数分类聚合开窗函数：聚合函数over这里的选择可以是partitionby子句，但不可以是orderby子句排序开窗函数：排序函数over这里的选项可以是orderby子句，可以是over(partitionby子句orderby子句)，但不可以是partitionby子句。2.准备工作//导包importorg.

lhh学bg·2020-07-14 21:55

SparkSQL使用IDEA快速入门DataFrame与DataSet

1.使用IDEA开发SparkSQL1.1创建DataFrame/DataSet1、指定列名添加Schema2、通过StrucType指定Schema3、编写样例类，利用反射机制推断Schema1.1.1

lhh学bg·2020-07-14 21:25

SparkSQL查询风格SQL与DSL介绍及使用

1.两种查询风格1.1准备工作//1.读取文件并将文件按照空格切分varlineRDD=sc.textFile("file:///opt/person.txt").map(_.split(""))//2.定义class单例对象用来保存数据caseclassPerson(id:Int,name:String,age:Int)//3.将数据转化为Person类型RDDvarpersonRDD=line

lhh学bg·2020-07-14 21:25

DataFrame与Dataset 的区别

DataFrame与Dataset的关系DataFrame与Dataset一般与sparkml同时使用DataFrame与Dataset均支持sparksql的操作，比如select，groupby之类

亮大兵·2020-07-14 21:40

Spark编程

综述Scala语言写成的一套分布式内存计算系统，核心抽象模型是RDD（弹性分布式数据集）在Spark之上还有一些工具：支持用Sql查询的SparkSQL、支持流式计算的SparkStreaming、机器学习库

Yuanhui·2020-07-14 19:21

近期读书计划（2018.9.11～）

买了几本书，其实大多我都有电子版的，只是这几本书都算得上经典（特别是那两本O’Reilly，其实好多时候学了好多东西，编程细节经常容易遗忘，实际开发中还是手边有个几本知识比较系统的手册书翻查一下合适）《SparkSQL

BBlue-Sky·2020-07-14 18:15

Structured Streaming 编程指南

概述StructuredStreaming是一个基于SparkSQL引擎的、可扩展的且支持容错的流处理引擎。你可以像表达静态数据上的批处理计算一样表达流计算。

我终于有blog了·2020-07-14 17:21

SparkSQL DSL语法大全

objectDataSetDemo1{defmain(args:Array[String]):Unit={valsession=SparkSession.builder().master("local").appName(this.getClass.getSimpleName).getOrCreate()importsession.implicits._valdataSet:Dataset[Str

不会吐丝的蜘蛛侠。·2020-07-14 15:32

[一起学Hive]之二–Hive函数大全-完整版

文章同步自[lxw的大数据田地]Hive函数大全–完整版现在虽然有很多SQLONHadoop的解决方案，像SparkSQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台

lxw1234_com·2020-07-14 14:25

Spark Maven项目打包后找不到主类

java和scala项目，写完代码本地运行没有问题，打包后，java程序没有问题，scala程序总是找不到主类java.lang.ClassNotFoundException:cn.spark.sql.SparkSQLDemoatjava.net.URLClassLoader.fi

htfenght·2020-07-14 14:51

Hadoop大数据常用组件简介

ApplicationMaster3）NodeManager4）Container3.分布式协调服务ZooKeeper4.数据仓库工具Hive1）HiveServer25.分布式计算框架Spark1）SparkSQL2

花花呼呼·2020-07-14 13:34

SparkSQL整合Hive时org.apache.spark.sql.AnalysisException: Table or view not found:

报错信息org.apache.spark.sql.AnalysisException:Tableorviewnotfound:解决方法第一步加配置文件在IDEA中resource目录中添加三个配置文件从(从自己的安装的集群上拷贝下来)第二步代码的配置importorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.types.{Fl

喜欢许静敏·2020-07-14 12:29

深入浅出Spark机器学习实战（用户行为分析）_spark机器学习

机器学习实战（用户行为分析）课程观看地址：http://www.xuetuwuyou.com/course/144课程出自学途无忧网：http://www.xuetuwuyou.com一、课程目标熟练掌握SparkSQL

chuowu1995·2020-07-14 09:43

美团1万台 Hadoop 集群 YARN 的调优之路

离线业务主要运行的是HiveonMapReduce，SparkSQL为主的数据仓库作业。实时业务主要运行SparkStreaming，Flink为主的实时流计算作业。

会飞的火轮·2020-07-14 08:36

A brief introduction to Spark Authorizer

SparkAuthorizerSparkAuthorizerprovidesyouwithSQLStandardBasedAuthorizationforApacheSparklikeSQLStandardBasedHiveAuthorization.WhileyouareusingSparkSQLorDataset

Kent_Yao·2020-07-14 08:41

SparkSQL实现类似flatmap

RDD中flatmap可以将多信息化的列拍平，那么SparkSQL如何实现这个功能？

清霄·2020-07-14 08:08

sparksql与mysql（含源码）

Demo一：在mysql数据库中有员工表和部门表表结构以及数据如下：createtabledept(deptnoint,dnamevarchar(14),locvarchar(13));createtableemp(enoint,enamevarchar(10),jobvarchar(9),mgrint,hirdatedate,salint,commint,deptnointnotnull);IN

北山璎珞·2020-07-14 08:43

Spark结构式流编程指南

Spark结构式流编程指南概览StructuredStreaming是一个可拓展，容错的，基于SparkSQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。

alice368517·2020-07-14 07:07

SparkSQL优化之输入小文件是否需要合并?

Note:spark版本2.3.1HiveSQL优化时,输入分片需要开启参数进行合并,否则会产生很多分片.那么SparkSQL是如何应对大量输入小文件的呢?

MichaelZhu·2020-07-14 07:11

Using Catalyst in Spark SQL

在SparkSQL中,把一条SQL语句转化成对应的RDD任务,完成这一过程(后续用"解析SQL到RDD"过程代替这一过程)全部在Catalyst框架实现."

MichaelZhu·2020-07-14 07:38

python-sparksql 报错java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST

环境Pythonversion2.7.5sparkversion2.2.1报错打算使用python调用pyspark包执行sparksql首先使用pipinstallpyspark安装pyspark包，

PingChangYu·2020-07-14 05:37

sqoop定时增量导入mysql数据到hdfs(hive)

张大的mysql表，量级分别是1亿和4.5亿（太大了，DBA的同学正在考虑分表），而且数据是增量的，需要写spark任务做处理，直接读取mysql有点吃力，想通过sqoop定时增量直接导入hive，然后sparksql

击水三千里·2020-07-14 04:31

推荐频道

sparkSQL

Spark SQL 教程

Spark系列--SparkSQL(三)执行SparkSQL查询

SPARK SQL一些坑

sparksql读取hive中的数据保存到hdfs中

编程的两种方式执行Spark SQL查询（方式一）

编程的两种方式执行Spark SQL查询（方式二）

Spark SQL入门用法与原理分析

【SparkSQL笔记】SparkSQL的入门实践教程（一）

Spark SQL实战查询网页数据分析

Spark SQL 客户端查询

Spark Sql教程(3）———DataFrame执行Sql查询

Spark入门实战指南——Spark SQL入门

Spark SQL:运行原理

一个SparkSQL作业的一生

SparSql（详细）

Spark SQL入门基础

Spark SQL简介及以编程方式实现SQL查询

元数据与数据治理｜Spark SQL结构化数据分析（第六篇）

sparkSQL自定义聚合函数（UDAF）实现bitmap函数

pyspark之DataFrame操作大全

spark如何读取hive里面的数据

Spark读取数据及保存数据

[Spark 基础] 如何安装Spark和使用spark-shell

Spark 3.0 中七个必须知道的 SQL 性能优化

Spark开发实例（SequoiaDB）

StructuredStreaming官方文档翻译

SparkSQL 自定义函数UDF与UDAF

SparkSQL实现wordCount与资源转换

SparkSQL介绍并实现开窗函数

SparkSQL使用IDEA快速入门DataFrame与DataSet

SparkSQL查询风格SQL与DSL介绍及使用

DataFrame与Dataset 的区别

Spark编程

近期读书计划（2018.9.11～）

Structured Streaming 编程指南

SparkSQL DSL语法大全

[一起学Hive]之二–Hive函数大全-完整版

Spark Maven项目打包后找不到主类

Hadoop大数据常用组件简介

SparkSQL整合Hive时org.apache.spark.sql.AnalysisException: Table or view not found:

深入浅出Spark机器学习实战（用户行为分析）_spark机器学习

美团1万台 Hadoop 集群 YARN 的调优之路

A brief introduction to Spark Authorizer

SparkSQL实现类似flatmap

sparksql与mysql（含源码）

Spark结构式流编程指南

SparkSQL优化之输入小文件是否需要合并?

Using Catalyst in Spark SQL

python-sparksql 报错java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST

sqoop定时增量导入mysql数据到hdfs(hive)