E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark SQL操作JSON字段的小技巧
前言介绍
SparkSQL
的JSON支持,这是我们在Databricks中开发的一个功能,可以在Spark中更容易查询和创建JSON数据。
祝威廉
·
2018-04-25 11:07
Spark性能优化:数据倾斜调优
预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+全局聚合)方案适用场景:对RDD执行reduceByKey等聚合类shuffle算子或者在
SparkSQL
FisherWang_CN
·
2018-04-24 16:24
spark sql 的介绍
SparkSQL
允许Spark执行用SQL,HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。
Se_cure
·
2018-04-22 19:02
大数据
Apache Kudu集群安装
可以通过PythonAPI、JavaAPI、SparkAPI、SQL(如
SparkSQL
、Impala)等读写Kudu。
wangpei1949
·
2018-04-21 20:19
Kudu
在spark中将数据插入到hive、parquet表中及用户定义函数
spark.createDataFrame(RDD,schema)这种方法创建的2.将数据集的dataFrame格式映射到临时表使用createOrReplaceTempView来创建,这个函数在SQLcontext中3.用
sparkSQL
G_scsd
·
2018-04-21 16:19
Hive
SparkSql
基础实战
SparkSql
基础实战:1.importorg.apache.spark.sql.
LittleLawson
·
2018-04-19 18:16
Spark
如何将 DataFrame 中查询出来的对应字段的值获取出来并转换成 String
/*需求:在MySQL中有一张表:id,sqltext,state主要是本表中存在一个sql语句,现在需要
SparkSQL
去执行本SQL*///构建SparkConfvalconf=newSparkConf.setAppName
Han_Lin_
·
2018-04-18 16:22
Spark
Hadoop(四)—— Saprk笔记
sparkcore-->sparkrdd,spark核心编程,MapReduce
sparksql
-->hivesparkstreaming-->storm,流式实时计算sparkmllib-->机器学习
Yatpif
·
2018-04-16 08:34
Hadoop
IDEA中使用Spark SQL 连接Hive
IDEA中使用
SparkSQL
连接Hive
SparkSQL
命令行模式是可以直接连接Hive的,Hive的安装和mysql作为metastore配置可以参考文章。
agent_x
·
2018-04-15 19:38
Spark-SQL
Hive
IDEA
大数据
hive
spark
2018年又传喜报!热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》 畅销书籍 出版上市!
热烈祝贺王家林大师大数据经典著作《
SparkSQL
大数据实例开发教程》畅销书籍出版上市!
段智华
·
2018-04-15 08:29
出版书籍
AI
&
Big
Data案例实战课程
来,我教你spark
spark是All-in-one,集成了流式计算(sparkStreaming),即席查询(
sparkSQL
),机器学习(MLlib),图处理(GraphX)于一身?
一个程序员的自我修炼
·
2018-04-12 13:10
Spark
SparkSQL
和dataFrame简介和用法
SparkSQL
1.Spark中原生的RDD是没有数据结构的2.对RDD的变换和操作不能采用传统的SQL方法3.
SparkSQL
应运而生并并建立在shark上,伯克利实验室spark生态环境的组件之一4
G_scsd
·
2018-04-10 16:46
spark
python
spark2.x- spark sql语句可使用的内置函数
sparksql
语句可使用的内置函数//Note:Wheneverweaddanewentryhere,makesurewealsoupdateExpressionToSQLSuitevalexpressions
小蜗牛也有梦想
·
2018-04-08 10:15
spark
通过StructType直接指定Schema
SparkSQL
能够将含Row对象的RDD转换成DataFrame,并推断数据类型。通过将一个键值对(key/value)列表作为kwargs传给Row类来构造Rows。
田野里的秋刀鱼仔
·
2018-04-07 17:20
spark
mysql
Spark
sparkSQL
访问mysql数据
1、如果使用spark-shell操作,需要修改spark-defaults.conf配置spark.executor.extraClassPath=/opt/software/hive/lib/mysql-connector-java-5.1.45-bin.jarspark.driver.extraClassPath=/opt/software/hive/lib/mysql-connector-
qq_26369213
·
2018-04-04 22:42
spark
spark介绍及RDD操作
功能跟RDD有关的API都出自sparkcore
SparkSQL
:spark中用于结构化数据处理的软件包。
G_scsd
·
2018-04-04 21:08
spark
python
大数据学习步骤
Yarn)04.HBase(JavaAPI操作+Phoenix)05.Hive(Hql基本操作和原理理解)06.Kafka07.Storm08.Scala需要09.Python10.Spark(Core+
sparksql
qq_28858093
·
2018-04-04 09:49
大数据
maven-assembly-plugin的使用,打包
SparkSQL
项目到生产环境
请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~https://blog.csdn.net/xiaoduan_/article/details/79809188maven-assembly-plugin的使用,打包
SparkSQL
段渣渣
·
2018-04-03 21:40
Maven
Spark SQL入门
1、SQL结合spark有两条线:
SparkSQL
和HiveonSpark(还在开发状态,不稳定,暂时不建议使用)。
Mr_249
·
2018-03-31 20:50
记录oracle转
sparksql
的问题
oracle转
sparksql
中遇到某些函数转换问题1.listagg行转列函数LISTAGG(Item_Category_Name‘,’)WITHINGROUP(ORDERBYItem_Category_Name
deepthinkers
·
2018-03-29 17:12
spark
hive
Spark SQL整合Hive使用
SparkSQL
整合Hive的使用步骤:将$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf下整合之后启动spark-shell:$>.
疯狂呼呼呼
·
2018-03-28 22:30
Spark
Spark SQL整合Hive使用
SparkSQL
整合Hive的使用步骤:将$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf下整合之后启动spark-shell:$>.
疯狂呼呼呼
·
2018-03-28 22:30
Spark
Spark SQL 函数全集
title:
SparkSQL
函数全集date:2018-03-2309:07:24tags:Summaryorg.apache.spark.sql.functions是一个Object,提供了约两百多个函数
liam08
·
2018-03-23 09:01
Spark
Spark SQL Dataset API 全集
简介org.apache.spark.sql.Dataset是
SparkSQL
中核心的类,定义如下:classDataset[T]extendsSerializableDataFrame是Dataset
liam08
·
2018-03-22 23:50
Spark
Spark开窗函数之ROW_NUMBER()
一、row_number函数的用法:(1)Spark1.5.x版本以后,在
SparkSQL
和DataFrame中引入了开窗函数,其中比较常用的开窗函数就是row_number 该函数的作用是根据表中字段进行分组
bokzmm
·
2018-03-22 20:09
spark
elasticsearch+hadoop项目
系统核心架构设计1、数据首先存入HDFS,可以通过
SparkSQL
直接导入到ES中,HDFS中的数据量与ES中数据量大致相当。
pQ561017_
·
2018-03-20 12:30
es+hadoop项目
SparkSQL
Example.scala官方范例学习
$bin/spark-shell--masterlocal[4]scala>spark.baseRelationToDataFrameconfemptyDataFrameimplicitsrangesparkContextstoptimecatalogcreateDataFrameemptyDatasetlistenerManagerreadsqlstreamsudfclosecreateData
hashFusion
·
2018-03-19 16:13
spark
Spark SQL的简单java api应用
1、创建IDEA的Maven工程2、引入依赖4.0.0com.motoon
SparkSql
_Demo1.01.71.7UTF-82.10.62.10org.scala-langscala-library
songrj1
·
2018-03-19 16:25
Hadoop
使用Spark sql的shell转换Oracle sql的例子
使用
Sparksql
的shell转换Oracle的例子//1.创建表createtableAUTO_PAID_CASE_TMP_01(branch_company_codeVARCHAR(25),policy_noVARCHAR
deepthinkers
·
2018-03-14 00:00
spark
以慕课网日志分析为例-进入大数据Spark SQL的世界
阅读更多以慕课网日志分析为例-进入大数据
SparkSQL
的世界网盘地址:https://pan.baidu.com/s/1hxBE-6TxANmllIEUIKiBBg密码:9xjn备用地址(腾讯微云):
普通用户名
·
2018-03-13 09:00
sql
hadoop
以慕课网日志分析为例-进入大数据Spark SQL的世界
阅读更多以慕课网日志分析为例-进入大数据
SparkSQL
的世界网盘地址:https://pan.baidu.com/s/1hxBE-6TxANmllIEUIKiBBg密码:9xjn备用地址(腾讯微云):
普通用户名
·
2018-03-13 09:00
sql
hadoop
21
sparkSQL
sparkSQL
服务架构image.png
sparkSQL
与Hive集成1需要配置的项目1、拷贝hive的配置文件Hive-site.xml到spark的conf目录删掉hive和hbase配置项hbase.zookeeper.quorumbigdata-pro01
6cc89d7ec09f
·
2018-03-12 23:50
SparkSql
将数据写入到MySQL
SparkSql
将数据写入到MySQL1、通过IDEA编写
SparkSql
代码packagecn.cheng.sqlimportjava.util.Propertiesimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql
Running_Tiger
·
2018-03-11 13:39
spark
使用
SparkSQL
读取Phoenix4.5.2出现下面的问题
使用
SparkSQL
读取Phoenix4.5.2出现下面的问题18/03/0915:07:43INFODAGScheduler:Submitting1missingtasksfromResultStage0
XiaoGuang-Xu
·
2018-03-09 16:29
Phoenix
sparkSQL
中将DF数据集存储到mysql数据库与读取过程
从mysql中读取数据//读取数据库中的数据valjdbcDF=spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.jdbc.Driver").option("dbtable","student").option("user","hive").o
一触即发886
·
2018-03-08 20:38
大数据方向
数据库
SparkSQL
简单使用
==>什么是
SparkSQL
?
菜鸟的征程
·
2018-03-07 11:04
Datasets
Data
Frames
Spark
SparkSQL
如何实现聚合下推
简介在之前性能分析的文章中,我们用火焰图看到了程序的一个瓶颈点,Spark的聚合操作执行,其中GeneratedIterator#agg_doAggregateWithKeys是使用CodeGeneration技术生成的代码,生成的代码可参考这里,或者这样来看,scala>valpairsDF=Seq((1,1),(2,2),(3,3)).toDF("a","b")pairsDF:org.apac
kisimple
·
2018-03-05 13:47
#WriteYourself
SparkSQL
性能分析与优化及相关工具小结
简介前段时间的工作是将内部一个OLAP系统Hxxx作为一个数据源接入到
SparkSQL
并进行优化。
kisimple
·
2018-03-02 21:38
sparkSQL
脚本更改问题
相应的pom依赖文件org.apache.stormstorm-core0.9.2-incubatingprovided-->org.scala-langscala-library2.11.0org.scala-langscala-compiler2.11.0org.scala-langscala-reflect2.11.0org.apache.sparkspark-hive_2.112.0.0o
erererer
·
2018-02-25 16:00
HiveContext和SQLContext
使用
SparkSQL
时注意HiveContext和SQLContext的关系:见源码:classHiveContext(sc:org.apache.spark.SparkContext)extendsorg.apache.spark.sql.SQLContextwithorg.apache.spark.Logging
leebhing
·
2018-02-25 10:31
spark
SparkSQL
+Hbase+HDFS实现SQL完全封装(一)
2.平台环境Spark:spark-2.2.1-bin-hadoop2.73.具体思路:通过读取HDFS上的SQL脚本文件[可以直接放到Linux上面],解析SQL脚本获取
SparkSQL
需要的原表、目标表
少半个西瓜
·
2018-02-23 16:09
SparkSQL
Spark 2.2.1 SQL UDAF用户自定义函数案例
例如:UDF会被
SparkSQL
中的Catalyst封装成为Expression,最终会通过eval方法来计算输入的数据Row。UDAF有大量的Aggregation之类的操作,对数据进行分组
段智华
·
2018-02-21 17:00
AI
&
Big
Data案例实战课程
Spark 2.2.1 集成Hive数据仓库的案例与解读
SparkSQL
提供了分布式SQL引擎,支持直接运行SQL查询的接口,不用写任何代码。运行的集群环境说明:在新建的集群上运行,部署Spark2.2.1版本和Hadoop2.6.0版本,Hive版本为a
段智华
·
2018-02-20 21:09
AI
&
Big
Data案例实战课程
Spark 2.2.1 + Hive 案例之不使用现有的Hive环境;使用现有的Hive数据仓库;UDF自定义函数
Spark2.2.1+Hive案例之不使用现有的Hive环境;使用现有的Hive数据仓库;UDF自定义函数
SparkSQL
支持读写存储在ApacheHive中的数据。
段智华
·
2018-02-18 21:10
AI
&
Big
Data案例实战课程
Spark 2.2.1 JSON 数据集操作的案例与解读
Spark2.2.1JSON数据集操作的案例与解读
SparkSQL
可以自动推导出一个JSON数据集的Schema并加载构建一个DataFrame/DataSet,可以通过以下方法实现:使用spark.read.json
段智华
·
2018-02-18 12:38
AI
&
Big
Data案例实战课程
ERROR Executor: Exception in task 0.0 in stage 91.0
遇到下面这种Executor报错的情况,多半是sparkRDD或者DataFrame定义的时候出了问题,因为
sparkSql
程序执行的机制是:transformation端不是真正的执行,只有action
gamedevv
·
2018-02-14 11:41
【大数据】➣
Spark
不使用Sqoop流程,利用CacheManager直接完成
SparkSQL
数据流直接回写Oracle
以前都是使用Sqoop来完成数据从生成的hdfs数据存储上来抽取至oracle的数据库:sqoop抽取语句:sqoopexport--connect"jdbc:oracle:thin:@ip:port:sid"--username用户名--password密码--tablesid.表名--export-dirhdfs://nameservice1/user/XXX(hdfs地址)--fields-
Rawirm
·
2018-02-11 14:53
hive
sparksql
sqoop
Parquet性能测试之项目实践中应用测试
因为从事大数据方面的工作,经常在操作过程中数据存储占空间过大,读取速率过慢等问题,我开始对parquet格式存储进行了研究,下面是自己的一些见解(使用的表都是项目中的,大家理解为宽表即可):一、
SparkSql
Rawirm
·
2018-02-11 09:02
Parquet
sparksql
【Spark篇】---
SparkSQL
中自定义UDF和UDAF,开窗函数的应用
一、前述
SparkSQL
中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数。开窗函数一般分组取topn时常用。
L先生AI课堂
·
2018-02-09 16:35
Spark汇总
【Spark篇】---
SparkSQL
初始和创建DataFrame的几种方式
一、前述1、
SparkSQL
介绍Hive是Shark的前身,Shark是
SparkSQL
的前身,
SparkSQL
产生的根本原因是其完全脱离了Hive的限制。
SparkSQL
支持查询原生的RDD。
L先生AI课堂
·
2018-02-09 16:59
Spark汇总
上一页
72
73
74
75
76
77
78
79
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他