sparkSQL 第57页

基于SparkSQL的网站日志分析实战

基于SparkSQL的网站日志分析实战用户行为日志概述用户行为日志：用户每次访问网站时所有的行为数据（访问、浏览、搜索、点击...）用户行为轨迹、流量日志为什么要记录用户访问行为日志网站页面的访问量网站的黏性推荐

zghgchao·2020-06-25 01:25

spark学习-SparkSQL--07-SparkContext类和SparkConf类

任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Sparkshell会自动初始化一个SparkContext,在编程中的具体实现为：valconf=newSparkConf().se

九师兄·2020-06-25 01:21

SparkSql执行select查询

packagecn.itcast.spark.testimportjava.sql.{Connection,Date,DriverManager,PreparedStatement}importjava.util.Propertiesimportorg.apache.spark.sql.{DataFrame,SQLContext}importorg.apache.spark.{SparkConf,

qq_16563637·2020-06-24 23:10

Spark SQL 集成ElasticSearch的案例实战

SparkSQL集成ElasticSearch的案例实战ElasticSearch概念回顾ElasticSearch是一个基于Lucene的搜索服务器。

张章章Sam·2020-06-24 23:01

Spark-SQL处理小文件问题

一、小文件产生的原因1、在使用sparksql处理数据的过程中，如果有shuffle产生，依赖于spark.sql.shuffle.partitions配置信息，默认为200，当处理的数据量比较大时，通常会把该值调大

九指码农·2020-06-24 23:25

Spark-SQL adaptive 自适应框架

一、自适应框架能解决什么问题1、目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200)，一个作业一旦设置了该参数，它运行过程中的所有阶段的

九指码农·2020-06-24 23:25

spark 读取 es 的es查询语法

exists_:oidANDopeType:(-GetBluetoothKey-DbToDoBizListQuery-GenToken-GetMenuData)";DataFrameesDF=JavaEsSparkSQL.esDF

狗剩和翠花·2020-06-24 22:33

Spark将RDD转换成DataFrame的两种方式

scala2.10中最大支持22个字段的caseclass,这点需要注意2.是通过spark内部的StructType方式，将普通的RDD转换成DataFrame装换成DataFrame后，就可以使用SparkSQL

zhao_rock_2016·2020-06-24 21:46

Spark DataFrame、Spark SQL、Spark Streaming入门教程

文章目录前言1、RDD、SparkDataFrame、SparkSQL、SparkStreaming2、SparkDataFrame2.1创建基本的SparkDataFrame2.2从各类数据源创建SparkDataFrame2.3SparkDataFrame

yield-bytes·2020-06-24 20:51

Spark SQL快速离线数据分析

1.SparkSQL概述1）SparkSQL是Spark核心功能的一部分，是在2014年4月份Spark1.0版本时发布的。

努力的凹凸曼·2020-06-24 20:39

Spark SQL电影分析案例

pofengliuming·2020-06-24 20:43

spark-sql测试总结

http://colobu.com/2014/12/11/spark-sql-quick-start/SparkSQL初探：使用大数据分析2000万数据##############不要问我数据怎么下载的

富兰克林008·2020-06-24 18:13

Spark架构和原理

Spark包含了多种计算库，有SparkSQL、SparkStreaming、MLlib、GraphX4、

小学僧丶Monk·2020-06-24 15:44

《Spark上的等值连接优化》学习笔记

（这种情况使得Spark不能通过数据预划分来改进等值连接操作）在SparkSQL中使用最多的是BroadcastJoin和Reparti

Tanglement·2020-06-24 15:00

spark操作phoenix

spark第八篇：与Phoenix整合sparksql可以与hbase交互，比如说通过jdbc，但是实际使用时，一般是利用phoenix操作hbase。

何星平·2020-06-24 12:57

SparkSql------RDD、DataFrame、DataSet

RDDRDD是一个懒执行的不可变的可以支持Functional(函数式编程)的并行数据集合。RDD的最大好处就是简单，API的人性化程度很高。RDD的劣势是性能限制，它是一个JVM驻内存对象，这也就决定了存在GC的限制和数据增加时Java序列化成本的升高。DataFrame简单来说DataFrame是RDD+Schema的集合什么是Schema?之前我们学习过MySQL数据库,在数据库中schem

luoyunfan6·2020-06-24 10:01

SparkSql------自定义函数UDF和UDAF

UDF测试数据{"name":"aaa","age":20}{"name":"bbb","age":30,"facevalue":80}{"name":"ccc","age":28,"facevalue":80}{"name":"ddd","age":28,"facevalue":90}案例（scala语言）importorg.apache.spark.SparkConfimportorg.apa

luoyunfan6·2020-06-24 10:29

SparkSql------RDD、DataFrame、DataSet之间的相互转化

在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询，SparkSession是Spark

luoyunfan6·2020-06-24 10:29

Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)

1.数据框：机器学习接口使用来自SparkSQL的数据框形式数据作为数据集，它可以处理多种数据类型。比如，一个数据框可以有不同的列存储文本、特征向量、标签值

liulingyuan6·2020-06-24 06:24

大数据架构师技能图谱

MahoutSparkMlibTensorFlow(Google系)AmazonMachineLearningDMTK(微软分布式机器学习工具)五、数据分析/数据仓库(SQL类)PigHivekylinSparkSQL

lipc_·2020-06-24 05:26

Spark ML机器学习：SQLTransformer

它支持SparkSql中的所有select选择语句,sum(),count(),groupby,orderby等等都可以用！形如”SELECT…FROM__THIS__”。’

linweidong·2020-06-24 05:47

实战spark core数据读取&存储

前言sparksql[spark1.0.0]出现之前，数据的读取是通过sparkContext得到的是RDD，数据的存储是通过不同类型RDD的saveXXX方法存储的，Spark的整个生态系统与Hadoop

小白数据猿·2020-06-24 04:04

Hadoop Parquet File 文件的读取

产生parquet数据这里通过SparkSQL来从CSV文件中读取数据，然后把这些数据存到parquet文件去。

leishenop·2020-06-24 03:41

SparkSQL自定义外部数据源源码分析及案例实现

通过查看JDBC方式源代码入口分析：源码分析//继承BaseRelation的类必须能够以`StructType`的形式产生其数据模式。具体的实现应继承自后代Scan类之一abstractclassBaseRelation{defsqlContext:SQLContextdefschema:StructTypedefsizeInBytes:Long=sqlContext.conf.defaultS

冬瓜螺旋雪碧·2020-06-24 02:55

大数据系列第二课：scala基础

第一阶段：Sparkstreaming、sparksql、kafka、spark内核原理（必须有一个大型项目经验）；第二阶段：spark运行的各种环境，各种故障的解决，性能优化（精通spark内核、运行原理

kxr0502·2020-06-24 01:05

大数据系列第一课：scala基础

第一阶段：Sparkstreaming、sparksql、kafka、spark内核原理（必须有一个大型项目经验）；第二阶段：spark运行的各种环境，各种故障的解决，性能优化（精通spark内核、运行原理

kxr0502·2020-06-24 01:04

各种bi工具支持的数据源

Superset1Mmetabase10Mredash10Mcboard4Kdavinci10kpentaho10kcboard4k国产1.国产cboard2.finebi支持excel,mysql,hive,spark,impala3.superset支持druid,mysql,impala,clickhouse,sparksql

我的海_·2020-06-24 01:59

10.1 spark-sql 10亿级数据交互式秒级查询可行性

当前版本:saprk2.4cdh数据演示为10亿,41列sparksql提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org

我的海_·2020-06-24 01:28

Spark SQL运行原理

文章内容摘自>详细内容请参考书中原文一、简介介绍SparkSQL，就不得不提Hive和Shark。Hive是Shark的前身，Shark是SparkSQL的前身。

代码不会写·2020-06-23 23:19

优化spark sql读取 kudu数据

1.背景2.实战3.实战1.背景通过sparksql读取kudu数据，由于kudu表只有6个tablet，所以spark默认只能启动6个task，读取kudu数据，通过界面可以看到kudu的scan维持在

shengjk1·2020-06-23 23:29

Hadoop学习路线

,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,sparksql

jiang_hadoop·2020-06-23 21:11

SparkSQL

1、Schema的定义通过StructType和StructField等API来定义Schema。StructType的构造器：newStructType(fields:Seq[StructField])StructField的构造器：newStructField(name:String,dataType:DataType,nullable:Boolean)其中StructType继承DataTy

红袖者·2020-06-23 20:55

Spark自带例子研究

假设我们的master是一台名为"Y40"的机器，我们在集群中任何一台机器上，运行自带的SparkSQLExample，只需要在Spark所在目录下执行.

见丰·2020-06-23 16:28

从零搭建企业大数据分析和机器学习平台-技术栈介绍（三）

数据传输工具Flume日志收集工具Kafka分布式消息队列数据存储Hbase分布式Nosql数据库Hdfs分布式文件系统大数据处理HadoopSpark数据查询分析工具ApacheHivePig、Impala和SparkSQL

有理想的coder·2020-06-23 15:43

ClassNotFoundException: org.codehaus.janino.InternalCompilerException

SparkSQL创建DF时出现异常异常信息Driverstacktrace:atorg.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler

hlp4207·2020-06-23 14:30

94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战

与SparkSQL结合使用SparkStreaming最强大的地方在于，可以与SparkCore、SparkSQL整合使用，之前已经通过transform、foreachRDD等算子看到，如何将DStream

ZFH__ZJ·2020-06-23 14:18

Kylin的概述

于是各式各样的“SQLonHadoop”技术应运而生，其中以Hive为代表，Impala、Presto、Phoenix、Drill、SparkSQL等紧随其后。

gao123456789amy·2020-06-23 09:39

HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat解决方法

用SparkSQL写入hive-hbase表报错java.lang.ClassCastException:org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormatcannotbecasttoorg.apache.hadoop.hive.ql.io.HiveOutputFormatatorg.apache.spark.sql.hive.Spark

futhead·2020-06-23 09:34

Structured Streaming

StructuredStreaming是一个scalable和fault-tolerant流处理引擎，该引擎是构建SparkSQL之上。可以使得用户以静态批处理的方式计算流数据。

fql123455·2020-06-23 08:52

elasticsearch使用spark sql来实现join

这里提供sparksql来实现join的一种思路。spark是一个通用的分布式处理框架，包括但不限于数据的读

flowaters·2020-06-23 08:00

SparkSQL的3种Join实现

SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在SparkSQL中对于Join，常见的3种实现。

狗叔·2020-06-23 05:14

Spark SQL中的聚合（Aggregate）实现

SparkSQL中的聚合（Aggregate）实现SortBasedAggregate首先来说说实现比较简单（但实际执行起来却不简单）的SortBasedAggregate。

狗叔·2020-06-23 05:14

SparkSQL中的Sort实现（一）

引言Sort操作也是SQL中常用的操作，一般来说，Sort操作在SQL语句中有两种体现，即Sortby和Orderby。这两种的区别是前者是针对分区内排序，而后者是对全表进行一个排序。那有的人问了，全表排序可以理解，那分区排序针对于什么场景呢？通常是在SQL语句中搭配distributedby一起使用，先将表按照某些字段进行分区，然后在分区内进行排序，能够很好的看清分区内的数据分布。Sortby和

狗叔·2020-06-23 05:14

sparkSQL flinkSQL hiveSQL性能对比

听说flink挺快的，那么flinkSQL和sparkSQL到底哪个快呢？

dianfuwo9488·2020-06-23 04:32

零基础学Flink：UDF

在上一篇文章中我们介绍了一些FlinkSQL的基础内容，以及与SparkSQL对比，有兴趣的小伙伴可以点连接进去看看。

麒思妙想·2020-06-23 02:26

Flink SQL vs Spark SQL

我们今天会SparkSQL和FlinkSQL的执行流程进行一个梳理。并提供2个简单的例子，以供参考。

麒思妙想·2020-06-23 02:26

spark周边

Spark1.0版本开始，推出了SparkSQL。其实最早使用的，都是Hadoop自己的Hive查询引擎；但是后来Spark提供了Shark；再后来Shark被淘汰，推出了SparkSQL。

bingoabin·2020-06-22 18:05

OopsOutOfMemory盛利的博客

SparkSQL源码分析系列文章从决定写SparkSQL源码分析的文章，到现在一个月的时间里，陆陆续续差不多快完成了，这里也做一个整合和索引，方便大家阅读，这里给出阅读顺序：）第一篇SparkSQL源码分析之核心流程第二篇

Albert陈凯·2020-06-22 18:40

大数据不就是写SQL吗?

SparkSQL、Hive、Phoenix、Drill、Impala、Presto、Druid、Kylin（这

aydnwba6940·2020-06-22 15:54

实验5 Spark SQL编程初级实践

今天做实验【SparkSQL编程初级实践】，虽然网上有答案，但在自己的环境下并不能够顺利进行在第二题中，要求编程实现将RDD转换为DataFrame。

aoaoshuai11111·2020-06-22 14:26

推荐频道

sparkSQL

基于SparkSQL的网站日志分析实战

spark学习-SparkSQL--07-SparkContext类和SparkConf类

SparkSql执行select查询

Spark SQL 集成ElasticSearch的案例实战

Spark-SQL处理小文件问题

Spark-SQL adaptive 自适应框架

spark 读取 es 的es查询语法

Spark将RDD转换成DataFrame的两种方式

Spark DataFrame、Spark SQL、Spark Streaming入门教程

Spark SQL快速离线数据分析

Spark SQL电影分析案例

spark-sql测试总结

Spark架构和原理

《Spark上的等值连接优化》学习笔记

spark操作phoenix

SparkSql------RDD、DataFrame、DataSet

SparkSql------自定义函数UDF和UDAF

SparkSql------RDD、DataFrame、DataSet之间的相互转化

Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)

大数据架构师技能图谱

Spark ML机器学习：SQLTransformer

实战spark core数据读取&存储

Hadoop Parquet File 文件的读取

SparkSQL自定义外部数据源源码分析及案例实现

大数据系列第二课：scala基础

大数据系列第一课：scala基础

各种bi工具支持的数据源

10.1 spark-sql 10亿级数据交互式秒级查询可行性

Spark SQL运行原理

优化spark sql读取 kudu数据

Hadoop学习路线

SparkSQL

Spark自带例子研究

从零搭建企业大数据分析和机器学习平台-技术栈介绍（三）

ClassNotFoundException: org.codehaus.janino.InternalCompilerException

94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战

Kylin的概述

HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat解决方法

Structured Streaming

elasticsearch使用spark sql来实现join

SparkSQL的3种Join实现

Spark SQL中的聚合（Aggregate）实现

SparkSQL中的Sort实现（一）

sparkSQL flinkSQL hiveSQL性能对比

零基础学Flink：UDF

Flink SQL vs Spark SQL

spark周边

OopsOutOfMemory盛利的博客

大数据不就是写SQL吗?

实验5 Spark SQL编程初级实践