sparkSQL 第35页

Spark SQL部分简单使用详解

SparkSQL简介SparkSQL是Spark处理数据的一个模块，跟基本的SparkRDD的API不同，SparkSQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。

万事于足下·2020-09-11 05:48

Spark SQL 操作 Hive 表数据

只是记得使用如下格式spark.sql("xxxxxx").show即可如果嫌麻烦，还可以直接使用spark-sql进行查询，直接写sql即可操作hive，如下结果为：编程方式操作Hive代码如下objectSparkSQLHiveDemo

路飞DD·2020-09-11 05:47

hive使用spark引擎的几种情况

使用spark引擎查询hive有以下几种方式：1>使用spark-sql(sparksqlcli)2>使用spark-thrift提交查询sql3>使用hiveonspark(即hive本身设置执行引擎为

weixin_30275415·2020-09-11 04:26

Spark SQL & Spark Hive编程开发，并和Hive执行效率对比

SparkSQL也公布了很久，今天写了个程序来看下SparkSQL、SparkHive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。

wbj0110·2020-09-11 04:46

关于所使用的spark版本中的spark sql不支持exists和in等子查询语句的解决方案记录

stackoverflow上一篇很好的问题解答解决方法：SparkSQLdoesn'tcurrentlyhaveEXISTS&IN."

Janvn·2020-09-11 04:37

sparksql性能调优

性能优化参数代码实例importjava.util.List;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.sql.api.java.JavaSQLContext;importorg.apache.spark.sql.api.java.

岸芷汀兰whu·2020-09-11 04:56

Spark SQL与Hive On MapReduce速度比较

今天就拿基于Spark的SparkSQL和基于MR的Hive比较一下，因为SparkSQL也兼容了HiveQL，我们就可以通过运行相同的HiveQL语句，比较直观的看出到底快多少了。

mishidemudong·2020-09-11 04:51

SparkSQL_Spark2+ 的SparkSQL 性能调优

参考文章：1.Spark2+的sql性能调优https://www.cnblogs.com/yyy-blog/p/10260988.html更多参考官方文档！！！http://spark.apache.org/docs/latest/sql-performance-tuning.html重要的要点在内存中缓存数据性能优化相关参数广播分区数据的调控文件与分区文件格式1、在内存中缓存数据性能调优主要是

高达一号·2020-09-11 04:14

Spark on hive 与 Hive on spark 的区别

读了百度上的一些关于Sparkonhive与HiveonSpark的区别的文章，感觉理解太复杂，自己总结一下SparkonHive：数据源是：hiveSpark获取hive中的数据，然后进行SparkSQL

适合不合适·2020-09-11 03:49

【备忘】年薪50万2018年最新Spark2.0从入门到精通教程

Spark从入门到精通（Scala编程，案例实战，高级特性，Spark内核源码剖析，Hadoop高端）用到技术：Scala，Spark，SparkSQL，SparkStreaming涉及项目：每日uv和销售额统计

风一样的男人_·2020-09-11 02:30

总结：Hive，Hive on Spark和SparkSQL区别 - MrLevo520的博客 - CSDN博客

https://blog.csdn.net/MrLevo520/article/details/76696073

hdyrz·2020-09-11 01:46

Spark SQL实战：使用Spark SQL 连接hive ，将统计结果存储到 mysql中

1.需求：使用SparkSQL连接hive，读取数据，将统计结果存储到mysql中2.将写好的代码打包上传的集群，然后提交spark运行，前提是hive，HDFS已经启动3.代码：(1)pom.xmlorg.apache.sparkspark-core

Movle·2020-09-11 00:45

Spark学习笔记

交流学习加群460570824DataSource->Kafka->SparkStreaming->Parquet->SparkSQL(SparkSQL可以结合ML、GraphX等)->Parquet-

专业大数据·2020-09-11 00:36

SparkSQL 中的 hint

SparkSQL2.2增加了HintFramework的支持，允许在查询中加入注释，让查询优化器优化逻辑计划。

stone-zhu·2020-09-11 00:06

spark sql操作hive sql 和mysql

sparksql访问hive和mysql（不断更新）一，准备工作：1，添加mysql的驱动jar包。

唐伯虎怒点秋香·2020-09-10 23:14

Hive on Spark 与Spark SQL比较

HiveonSpark与SparkSQL比较背景HiveonSpark是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive

吉阿·2020-09-10 23:14

Spark SQL性能调优(Spark2.3.2)

1.在内存中缓存数据SparkSQL可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()使用内存中的列式格式来缓存表。

西贝木土·2020-09-10 22:16

Spark SQL快速入门系列之Hive

目录一.hive和sparksql的集成方式(面试可能会问到)二.spark_shell和spark_sql操作spark_shellspark_sql使用hiveserver2+beeline三.脚本使用

大数据技术与架构·2020-09-10 18:26

IDEA开发SparkSQL程序

SparkSession常用函数与方法方法说明builder创建一个sparkSession实例version返回当前spark的版本implicits引入隐式转化emptyDataset[T]创建一个空DataSetrange创建一个DataSet[Long]sql执行sql查询（返回一个dataFrame）udf自定义udf（自定义函数）table从表中创建DataFramecatalog访问

寒暄·2020-09-10 16:16

dataFrame操作

packagesparkSQLimportorg.apache.spark.sql.{DataFrame,SparkSession}/***Createdbysicongon2017/3/9.

思cong·2020-09-10 15:34

Zeppelin组件配置和使用：连接Spark

Spark的核心分析栈包括SparkCore、SparkSQL、SparkStreaming、MLlib、GraphX等，面向批处理、流处理、图计算、机器学习等场景，实现了生态融合统一，基于相同的数据结构

机器熊技术大杂烩·2020-09-10 15:14

3.Spark基础学习三（Spark_SQL）

什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。

做个合格的大厂程序员·2020-09-02 16:03

Hive安装与简单使用并集成SparkSQL

Hive环境搭建hive下载：http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwgethttp://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压tar-zxvfhive-1.1.0-cdh5.7.0.tar.g

留歌_36·2020-08-26 23:27

SparkSQl的使用

SparkSql现在有两个版本，方式如下：方式一:使用sql版本//提交的这个程序可以连接到spark集群中valconf=newSparkConf().setAppName("SaparkDemo1"

不愿透露姓名的李某某·2020-08-26 23:14

第1章初探大数据

主站最受欢迎的TopN课程按流量统计imocc主站最受欢迎的TopN课程大数据的到来任职要求.熟悉Linux操作系统，熟悉Linuxshell编程.熟悉Java或者scala语言，具有一年以上实际开发经验.熟悉sparksql

weixin_SAG·2020-08-26 09:10

Kafka+Spark Streaming+Redis实时系统实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像SparkStreaming、SparkSQL、MLlib、GraphX，这些内建库都提供了高级抽象

ljtyxl·2020-08-26 09:29

Kafka+Spark Streaming+Redis实时系统实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像SparkStreaming、SparkSQL、MLlib、GraphX，这些内建库都提供了高级抽象

javastart·2020-08-26 09:56

demo2 Kafka+Spark Streaming+Redis实时计算整合实践 foreachRDD输出到redis

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像SparkStreaming、SparkSQL、MLlib、GraphX，这些内建库都提供了高级抽象

weixin_34416754·2020-08-26 09:16

SparkSQL 中group by、grouping sets、rollup和cube方法详解

在平时的工作中，经常有按照不同维度筛选和统计数据的需求。拿视频会员订单数据来说吧，运营人员要查看深圳市的成功下单数或则深圳市某一种产品的成功下单数或者某一种产品的所有成功下单数时，每天的订单数又很大，现查的话按照不同的维度去查询又很慢。此时本篇文章或许会帮助到你。groupby：主要用来对查询的结果进行分组，相同组合的分组条件在结果集中只显示一行记录。可以添加聚合函数。groupingsets：对

腾飞的大象·2020-08-26 09:48

Hadoop YARN：调度性能优化实践

离线业务主要运行的是HiveonMapReduce，SparkSQL为主的数据仓库作业。实时业务主要运行SparkStreaming，Flink为主的实时流计算作业。

美团技术团队·2020-08-26 08:20

Spark基础

为其它场景提供了底层的服务SparkSQL:是Spark处理结构化数据的库，就像HiveSQL,Mysql一样。

班得瑞的猫·2020-08-25 17:11

如何计算留存率（Hive Sql or Spark sql）

看下面这个例子：如上示例所示，我们如何通过HiveSql或者SparkSql解决

沙漏遗失了年华·2020-08-25 17:21

用sparkSql计算留存用户

测试数据channel1appkey12018-12-0316:47:38:0006.6.6android1startAppmsgssssssssspage3154235805800015423580580001channel1appkey12018-12-0316:47:38:0006.6.6android2startAppmsgssssssssspage31542358058000154235

妖果yaoyao·2020-08-25 15:49

MongoDB on SparkSql的读取和写入操作(Python版本)

MongoDBonSparkSql的读取和写入操作(Python版本)1.1读取mongodb数据python方式需要使用pyspark或者spark-submit的方式进行提交。

加码帝国·2020-08-25 12:35

IDEA 开发环境中调试Spark SQL及遇到问题解决办法

IDEA开发环境中调试SparkSQL及遇到问题解决办法1.问题java.lang.OutOfMemoryError:PermGenspacejava.lang.OutOfMemoryError:Javaheapspace7

勤奋等于工资·2020-08-25 11:51

SparkSQL操作外部数据源

parquet数据hive表数据mysql表数据hive与mysql结合1.处理parquet数据启动spark-shell:spark-shell--masterlocal[2]--jars~/software/mysql-connector-java-5.1.27-bin.jar在spark-shell模式下，执行标准的加载方法:valpath="file:///home/hadoop/app

sparkle123·2020-08-25 11:19

二十Spark1和Spark2的区别

mllib-collaborative-filtering.html1开始去spark官网下载源码2安装步骤3运行Spark自带的例子4根据业务来5了解RDD原理MASTER，WORKER6了解Spark的各个组件，sparksql

张金玉·2020-08-25 05:18

What Is the Role of Machine Learning in Databases?

机器学习来改善SparkSQL的优化器？欲知效果如何，请读附送的paper，里面的实验结果是基于Spark2.3。

smilegator·2020-08-25 01:46

自己下载导入的spark sql包引起的IDEA编译任何程序都报错

交代下前因后果：学习SparkSQL过程中：在pom.xml中配置这段话，maven仓库并没有下载，只是提示找不到这个依赖；遂去到这个网址http://mvnrepository.com是maven仓库的国内镜像地址

zhikanjiani·2020-08-24 18:25

SparkSQL执行时的优化参数

近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力.发现根本原因在于sparkSQL配置有诸多问题,解决后总结出来就当抛砖引玉了.具体现象内存CPU比例失调一个

掌控自己就能掌控世界·2020-08-24 17:50

SparkStreaming（1）入门

参考于：https://blog.csdn.net/qq_23660243/article/details/514814071、Hadoop的MapReduce及SparkSQL等只能进行离线计算，无法满足实时性要求较高的业务需求

joli_1034498274·2020-08-24 17:37

Spark 学习（九） SparkSQL 函数自定义和数据源

一，简介二，SparkSQL的函数自定义2.1函数定义2.2函数注册2.3示例三，spark的数据源读取3.1JSON3.2JDBC3.3ParQuet3.4CSV正文一，简介很多时候sql中的内置函数无法满足我们的日常开发需求

Angela㐅cc·2020-08-24 17:11

自定义SparkSql语法的一般步骤

SparkSql提供了对Hive的结构化查询语言，在某些业务场景下，我们可能需要对sql语法进行扩展，在此以自定义merge语法说明其一般步骤。

RacingHeart·2020-08-24 16:46

Spark OLAP高阶分析函数总结

我们经常困惑在数据挖掘和报表分析场景中sql不会写，或者因为sql太长以至于可读性降低;今天我为大家总结了一些SparkSQL中的高阶函数，它们将会对你的业务形成助力，百倍提升你的工作效率GROUPING

易企秀工程师·2020-08-24 15:35

EMR Spark Runtime Filter性能优化

目前在SparkSQL中有Filter下推优化，包括两个维度:生成FilterSparkSQL会

阿里云云栖号·2020-08-24 15:21

sparksql报错

执行时报错：org.apache.spark.sql.AnalysisException:Unabletogenerateanencoderforinnerclass`cn.itcast.spark.sql.Intro$Person`withoutaccesstothescopethatthisclasswasdefinedin.Trymovingthisclassoutofitsparentcl

dengmanzhou3124·2020-08-24 14:29

Update：sparksql：第1节 SparkSQL_使用场景_优化器_Dataset

目标SparkSQL是什么SparkSQL如何使用TableofContents1.SparkSQL是什么1.1.SparkSQL的出现契机1.2.SparkSQL的适用场景2.SparkSQL初体验2.3

dengmanzhou3124·2020-08-24 14:29

采用 SPARK SQL自定义数据源访问 HBASE--数据读取篇

参考BLOGShttps://www.cnblogs.com/niutao/p/10801259.html列减枝+谓词下推自定义sparkSQL数据源的过程中，需要对sparkSQL表的schema和Hbase

csdn1981·2020-08-24 13:31

Spark-sql 读hbase

SparkSQL是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME

chenla5762·2020-08-24 13:28

Spark Structured Streaming + Kafka使用笔记

这篇博客将会记录StructuredStreaming+Kafka的一些基本使用(Java版)spark2.3.01.概述StructuredStreaming（结构化流）是一种基于SparkSQL引擎构建的可扩展且容错的

小鹅鹅·2020-08-24 13:08

推荐频道

sparkSQL

Spark SQL部分简单使用详解

Spark SQL 操作 Hive 表数据

hive使用spark引擎的几种情况

Spark SQL & Spark Hive编程开发， 并和Hive执行效率对比

关于所使用的spark版本中的spark sql不支持exists和in等子查询语句的解决方案记录

sparksql性能调优

Spark SQL与Hive On MapReduce速度比较

SparkSQL_Spark2+ 的SparkSQL 性能调优

Spark on hive 与 Hive on spark 的区别

【备忘】年薪50万2018年最新Spark2.0从入门到精通教程

总结：Hive，Hive on Spark和SparkSQL区别 - MrLevo520的博客 - CSDN博客

Spark SQL实战：使用Spark SQL 连接hive ，将统计结果存储到 mysql中

Spark学习笔记

SparkSQL 中的 hint

spark sql操作hive sql 和mysql

Hive on Spark 与Spark SQL比较

Spark SQL性能调优(Spark2.3.2)

Spark SQL快速入门系列之Hive

IDEA开发SparkSQL程序

dataFrame操作

Zeppelin组件配置和使用：连接Spark

3.Spark基础学习三（Spark_SQL）

Hive安装与简单使用并集成SparkSQL

SparkSQl的使用

第1章 初探大数据

Kafka+Spark Streaming+Redis实时系统实践

Kafka+Spark Streaming+Redis实时系统实践

demo2 Kafka+Spark Streaming+Redis实时计算整合实践 foreachRDD输出到redis

SparkSQL 中group by、grouping sets、rollup和cube方法详解

Hadoop YARN：调度性能优化实践

Spark基础

如何计算留存率（Hive Sql or Spark sql）

用sparkSql计算留存用户

MongoDB on SparkSql的读取和写入操作(Python版本)

IDEA 开发环境中 调试Spark SQL及遇到问题解决办法

SparkSQL操作外部数据源

二十Spark1和Spark2的区别

What Is the Role of Machine Learning in Databases?

自己下载导入的spark sql包引起的IDEA编译任何程序都报错

SparkSQL执行时的优化参数

SparkStreaming（1）入门

Spark 学习（九） SparkSQL 函数自定义和数据源

自定义SparkSql语法的一般步骤

Spark OLAP高阶分析函数总结

EMR Spark Runtime Filter性能优化

sparksql报错

Update：sparksql：第1节 SparkSQL_使用场景_优化器_Dataset

采用 SPARK SQL自定义 数据源 访问 HBASE--数据读取篇

Spark-sql 读hbase

Spark Structured Streaming + Kafka使用笔记

Spark SQL & Spark Hive编程开发，并和Hive执行效率对比

第1章初探大数据

IDEA 开发环境中调试Spark SQL及遇到问题解决办法

采用 SPARK SQL自定义数据源访问 HBASE--数据读取篇