sparkSQL 第76页

Spark SQL操作JSON字段的小技巧

前言介绍SparkSQL的JSON支持，这是我们在Databricks中开发的一个功能，可以在Spark中更容易查询和创建JSON数据。

祝威廉·2018-04-25 11:07

Spark性能优化：数据倾斜调优

预处理数据解决方案二：过滤少数导致倾斜的key解决方案三：提高shuffle操作的并行度解决方案四：两阶段聚合（局部聚合+全局聚合）方案适用场景：对RDD执行reduceByKey等聚合类shuffle算子或者在SparkSQL

FisherWang_CN·2018-04-24 16:24

spark sql 的介绍

SparkSQL允许Spark执行用SQL,HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。

Se_cure·2018-04-22 19:02

Apache Kudu集群安装

可以通过PythonAPI、JavaAPI、SparkAPI、SQL(如SparkSQL、Impala)等读写Kudu。

wangpei1949·2018-04-21 20:19

在spark中将数据插入到hive、parquet表中及用户定义函数

spark.createDataFrame(RDD,schema)这种方法创建的2.将数据集的dataFrame格式映射到临时表使用createOrReplaceTempView来创建，这个函数在SQLcontext中3.用sparkSQL

G_scsd·2018-04-21 16:19

SparkSql基础实战

SparkSql基础实战：1.importorg.apache.spark.sql.

LittleLawson·2018-04-19 18:16

如何将 DataFrame 中查询出来的对应字段的值获取出来并转换成 String

/*需求：在MySQL中有一张表：id，sqltext，state主要是本表中存在一个sql语句，现在需要SparkSQL去执行本SQL*///构建SparkConfvalconf=newSparkConf.setAppName

Han_Lin_·2018-04-18 16:22

Hadoop（四）—— Saprk笔记

sparkcore-->sparkrdd,spark核心编程，MapReducesparksql-->hivesparkstreaming-->storm,流式实时计算sparkmllib-->机器学习

Yatpif·2018-04-16 08:34

IDEA中使用Spark SQL 连接Hive

IDEA中使用SparkSQL连接HiveSparkSQL命令行模式是可以直接连接Hive的，Hive的安装和mysql作为metastore配置可以参考文章。

agent_x·2018-04-15 19:38

2018年又传喜报！热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》畅销书籍出版上市!

热烈祝贺王家林大师大数据经典著作《SparkSQL大数据实例开发教程》畅销书籍出版上市!

段智华·2018-04-15 08:29

来，我教你spark

spark是All-in-one，集成了流式计算（sparkStreaming），即席查询（sparkSQL）,机器学习（MLlib),图处理（GraphX）于一身？

一个程序员的自我修炼·2018-04-12 13:10

SparkSQL和dataFrame简介和用法

SparkSQL1.Spark中原生的RDD是没有数据结构的2.对RDD的变换和操作不能采用传统的SQL方法3.SparkSQL应运而生并并建立在shark上，伯克利实验室spark生态环境的组件之一4

G_scsd·2018-04-10 16:46

spark2.x- spark sql语句可使用的内置函数

sparksql语句可使用的内置函数//Note:Wheneverweaddanewentryhere,makesurewealsoupdateExpressionToSQLSuitevalexpressions

小蜗牛也有梦想·2018-04-08 10:15

通过StructType直接指定Schema

SparkSQL能够将含Row对象的RDD转换成DataFrame，并推断数据类型。通过将一个键值对（key/value）列表作为kwargs传给Row类来构造Rows。

田野里的秋刀鱼仔·2018-04-07 17:20

sparkSQL 访问mysql数据

1、如果使用spark-shell操作，需要修改spark-defaults.conf配置spark.executor.extraClassPath=/opt/software/hive/lib/mysql-connector-java-5.1.45-bin.jarspark.driver.extraClassPath=/opt/software/hive/lib/mysql-connector-

qq_26369213·2018-04-04 22:42

spark介绍及RDD操作

功能跟RDD有关的API都出自sparkcoreSparkSQL：spark中用于结构化数据处理的软件包。

G_scsd·2018-04-04 21:08

大数据学习步骤

Yarn）04.HBase（JavaAPI操作+Phoenix）05.Hive(Hql基本操作和原理理解）06.Kafka07.Storm08.Scala需要09.Python10.Spark(Core+sparksql

qq_28858093·2018-04-04 09:49

maven-assembly-plugin的使用，打包SparkSQL项目到生产环境

请附上本文链接谢谢（づ￣3￣）づ╭❤～https://blog.csdn.net/xiaoduan_/article/details/79809188maven-assembly-plugin的使用，打包SparkSQL

段渣渣·2018-04-03 21:40

Spark SQL入门

1、SQL结合spark有两条线：SparkSQL和HiveonSpark（还在开发状态，不稳定，暂时不建议使用）。

Mr_249·2018-03-31 20:50

记录oracle转sparksql的问题

oracle转sparksql中遇到某些函数转换问题1.listagg行转列函数LISTAGG(Item_Category_Name‘,’)WITHINGROUP(ORDERBYItem_Category_Name

deepthinkers·2018-03-29 17:12

Spark SQL整合Hive使用

SparkSQL整合Hive的使用步骤：将$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf下整合之后启动spark-shell：$>.

疯狂呼呼呼·2018-03-28 22:30

Spark SQL整合Hive使用

SparkSQL整合Hive的使用步骤：将$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf下整合之后启动spark-shell：$>.

疯狂呼呼呼·2018-03-28 22:30

Spark SQL 函数全集

title:SparkSQL函数全集date:2018-03-2309:07:24tags:Summaryorg.apache.spark.sql.functions是一个Object，提供了约两百多个函数

liam08·2018-03-23 09:01

Spark SQL Dataset API 全集

简介org.apache.spark.sql.Dataset是SparkSQL中核心的类，定义如下：classDataset[T]extendsSerializableDataFrame是Dataset

liam08·2018-03-22 23:50

Spark开窗函数之ROW_NUMBER()

一、row_number函数的用法：（1）Spark1.5.x版本以后，在SparkSQL和DataFrame中引入了开窗函数,其中比较常用的开窗函数就是row_number 该函数的作用是根据表中字段进行分组

bokzmm·2018-03-22 20:09

elasticsearch+hadoop项目

系统核心架构设计1、数据首先存入HDFS,可以通过SparkSQL直接导入到ES中，HDFS中的数据量与ES中数据量大致相当。

pQ561017_·2018-03-20 12:30

SparkSQLExample.scala官方范例学习

$bin/spark-shell--masterlocal[4]scala>spark.baseRelationToDataFrameconfemptyDataFrameimplicitsrangesparkContextstoptimecatalogcreateDataFrameemptyDatasetlistenerManagerreadsqlstreamsudfclosecreateData

hashFusion·2018-03-19 16:13

Spark SQL的简单java api应用

1、创建IDEA的Maven工程2、引入依赖4.0.0com.motoonSparkSql_Demo1.01.71.7UTF-82.10.62.10org.scala-langscala-library

songrj1·2018-03-19 16:25

使用Spark sql的shell转换Oracle sql的例子

使用Sparksql的shell转换Oracle的例子//1.创建表createtableAUTO_PAID_CASE_TMP_01(branch_company_codeVARCHAR(25),policy_noVARCHAR

deepthinkers·2018-03-14 00:00

以慕课网日志分析为例-进入大数据Spark SQL的世界

普通用户名·2018-03-13 09:00

以慕课网日志分析为例-进入大数据Spark SQL的世界

普通用户名·2018-03-13 09:00

21 sparkSQL

sparkSQL服务架构image.pngsparkSQL与Hive集成1需要配置的项目1、拷贝hive的配置文件Hive-site.xml到spark的conf目录删掉hive和hbase配置项hbase.zookeeper.quorumbigdata-pro01

6cc89d7ec09f·2018-03-12 23:50

SparkSql将数据写入到MySQL

SparkSql将数据写入到MySQL1、通过IDEA编写SparkSql代码packagecn.cheng.sqlimportjava.util.Propertiesimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql

Running_Tiger·2018-03-11 13:39

使用SparkSQL 读取Phoenix4.5.2出现下面的问题

使用SparkSQL读取Phoenix4.5.2出现下面的问题18/03/0915:07:43INFODAGScheduler:Submitting1missingtasksfromResultStage0

XiaoGuang-Xu·2018-03-09 16:29

sparkSQL 中将DF数据集存储到mysql数据库与读取过程

从mysql中读取数据//读取数据库中的数据valjdbcDF=spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.jdbc.Driver").option("dbtable","student").option("user","hive").o

一触即发886·2018-03-08 20:38

SparkSQL简单使用

==>什么是SparkSQL？

菜鸟的征程·2018-03-07 11:04

SparkSQL如何实现聚合下推

简介在之前性能分析的文章中，我们用火焰图看到了程序的一个瓶颈点，Spark的聚合操作执行，其中GeneratedIterator#agg_doAggregateWithKeys是使用CodeGeneration技术生成的代码，生成的代码可参考这里，或者这样来看，scala>valpairsDF=Seq((1,1),(2,2),(3,3)).toDF("a","b")pairsDF:org.apac

kisimple·2018-03-05 13:47

SparkSQL性能分析与优化及相关工具小结

简介前段时间的工作是将内部一个OLAP系统Hxxx作为一个数据源接入到SparkSQL并进行优化。

kisimple·2018-03-02 21:38

sparkSQL脚本更改问题

相应的pom依赖文件org.apache.stormstorm-core0.9.2-incubatingprovided-->org.scala-langscala-library2.11.0org.scala-langscala-compiler2.11.0org.scala-langscala-reflect2.11.0org.apache.sparkspark-hive_2.112.0.0o

erererer·2018-02-25 16:00

HiveContext和SQLContext

使用SparkSQL时注意HiveContext和SQLContext的关系：见源码：classHiveContext(sc:org.apache.spark.SparkContext)extendsorg.apache.spark.sql.SQLContextwithorg.apache.spark.Logging

leebhing·2018-02-25 10:31

SparkSQL+Hbase+HDFS实现SQL完全封装(一)

2.平台环境Spark:spark-2.2.1-bin-hadoop2.73.具体思路：通过读取HDFS上的SQL脚本文件[可以直接放到Linux上面]，解析SQL脚本获取SparkSQL需要的原表、目标表

少半个西瓜·2018-02-23 16:09

Spark 2.2.1 SQL UDAF用户自定义函数案例

例如：UDF会被SparkSQL中的Catalyst封装成为Expression，最终会通过eval方法来计算输入的数据Row。UDAF有大量的Aggregation之类的操作，对数据进行分组

段智华·2018-02-21 17:00

Spark 2.2.1 集成Hive数据仓库的案例与解读

SparkSQL提供了分布式SQL引擎，支持直接运行SQL查询的接口，不用写任何代码。运行的集群环境说明：在新建的集群上运行，部署Spark2.2.1版本和Hadoop2.6.0版本，Hive版本为a

段智华·2018-02-20 21:09

Spark 2.2.1 + Hive 案例之不使用现有的Hive环境；使用现有的Hive数据仓库；UDF自定义函数

Spark2.2.1+Hive案例之不使用现有的Hive环境；使用现有的Hive数据仓库；UDF自定义函数SparkSQL支持读写存储在ApacheHive中的数据。

段智华·2018-02-18 21:10

Spark 2.2.1 JSON 数据集操作的案例与解读

Spark2.2.1JSON数据集操作的案例与解读SparkSQL可以自动推导出一个JSON数据集的Schema并加载构建一个DataFrame/DataSet，可以通过以下方法实现：使用spark.read.json

段智华·2018-02-18 12:38

ERROR Executor: Exception in task 0.0 in stage 91.0

遇到下面这种Executor报错的情况，多半是sparkRDD或者DataFrame定义的时候出了问题，因为sparkSql程序执行的机制是：transformation端不是真正的执行，只有action

gamedevv·2018-02-14 11:41

不使用Sqoop流程，利用CacheManager直接完成SparkSQL数据流直接回写Oracle

以前都是使用Sqoop来完成数据从生成的hdfs数据存储上来抽取至oracle的数据库：sqoop抽取语句：sqoopexport--connect"jdbc:oracle:thin:@ip:port:sid"--username用户名--password密码--tablesid.表名--export-dirhdfs://nameservice1/user/XXX(hdfs地址)--fields-

Rawirm·2018-02-11 14:53

Parquet性能测试之项目实践中应用测试

因为从事大数据方面的工作，经常在操作过程中数据存储占空间过大，读取速率过慢等问题，我开始对parquet格式存储进行了研究，下面是自己的一些见解（使用的表都是项目中的，大家理解为宽表即可）：一、SparkSql

Rawirm·2018-02-11 09:02

【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用

一、前述SparkSQL中的UDF相当于是1进1出，UDAF相当于是多进一出，类似于聚合函数。开窗函数一般分组取topn时常用。

L先生AI课堂·2018-02-09 16:35

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式

一、前述1、SparkSQL介绍Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。SparkSQL支持查询原生的RDD。

L先生AI课堂·2018-02-09 16:59

推荐频道

sparkSQL

Spark SQL操作JSON字段的小技巧

Spark性能优化：数据倾斜调优

spark sql 的介绍

Apache Kudu集群安装

在spark中将数据插入到hive、parquet表中及用户定义函数

SparkSql基础实战

如何将 DataFrame 中查询出来的对应字段的值获取出来并转换成 String

Hadoop（四）—— Saprk笔记

IDEA中使用Spark SQL 连接Hive

2018年又传喜报！热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》 畅销书籍 出版上市!

来，我教你spark

SparkSQL和dataFrame简介和用法

spark2.x- spark sql语句可使用的内置函数

通过StructType直接指定Schema

sparkSQL 访问mysql数据

spark介绍及RDD操作

大数据学习步骤

maven-assembly-plugin的使用，打包SparkSQL项目到生产环境

Spark SQL入门

记录oracle转sparksql的问题

Spark SQL整合Hive使用

Spark SQL整合Hive使用

Spark SQL 函数全集

Spark SQL Dataset API 全集

Spark开窗函数之ROW_NUMBER()

elasticsearch+hadoop项目

SparkSQLExample.scala官方范例学习

Spark SQL的简单java api应用

使用Spark sql的shell转换Oracle sql的例子

以慕课网日志分析为例-进入大数据Spark SQL的世界

以慕课网日志分析为例-进入大数据Spark SQL的世界

21 sparkSQL

SparkSql将数据写入到MySQL

使用SparkSQL 读取Phoenix4.5.2出现下面的问题

sparkSQL 中将DF数据集存储到mysql数据库与读取过程

SparkSQL简单使用

SparkSQL如何实现聚合下推

SparkSQL性能分析与优化及相关工具小结

sparkSQL脚本更改问题

HiveContext和SQLContext

SparkSQL+Hbase+HDFS实现SQL完全封装(一)

Spark 2.2.1 SQL UDAF用户自定义函数案例

Spark 2.2.1 集成Hive数据仓库的案例与解读

Spark 2.2.1 + Hive 案例之不使用现有的Hive环境；使用现有的Hive数据仓库；UDF自定义函数

Spark 2.2.1 JSON 数据集操作的案例与解读

ERROR Executor: Exception in task 0.0 in stage 91.0

不使用Sqoop流程，利用CacheManager直接完成SparkSQL数据流直接回写Oracle

Parquet性能测试之项目实践中应用测试

【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式

2018年又传喜报！热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》畅销书籍出版上市!