E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkSQL
实现自定义Spark优化规则
Catalystoptimizer实战编写一个优化规则编写优化规则注册优化规则测试结果添加钩子和扩展点功能编写自定义优化规则和扩展点配置并启用自定义Spark扩展测试优化规则参考文档Catalystoptimizer
SparkSQL
wankunde
·
2020-07-28 15:58
spark
Spark学习(1)——初识spark
Spark包含了大数据领域常见的各种计算框架;比如SparkCore勇于离线计算,
SparkSQL
用于交互式查询,SparkStreaming用于实时流式计算,SparkMLlib用于机器学习,SparkGraphX
Mbappe
·
2020-07-28 15:25
spark学习系列
Spark SQL集合数据类型array\map的取值方式
SparkSQL
集合数据类型array\map的取值方式版权声明:本文为博主原创文章,未经博主允许不得转载。
海角Q
·
2020-07-28 15:53
Spark
SQL
Spark
scala
Spark
SQL使用笔记
SparkSQL
使用之如何使用UDF
使用Java开发一个helloworld级别UDF,打包成udf.jar,存放在/home/Hadoop/lib下,代码如下:packagecom.luogankun.udf;importorg.apache.hadoop.hive.ql.exec.UDF;publicclassHelloUDFextendsUDF{publicStringevaluate(Stringstr){try{retur
快乐与忧郁的码农
·
2020-07-28 15:33
spark
Spark-ThriftServer源码分析
Spark1.1之后的版本引入了ThriftServer和CLI,使得Hive用户和RDBMS用户可以直接通过JDBC方式提交SQL至Spark运行而无需编写
sparksql
代码,下面对spark-thriftserver
RacingHeart
·
2020-07-28 14:30
SparkSQL
DataFrame与MySQL增删改查那些事儿
在使用Spark中通过各种算子计算完后各种指标后,一般都需要将计算好的结果数据存放到关系型数据库,比如MySQL和PostgreSQL等,随后配置到展示平台进行展现,花花绿绿的图表就生成了。下面我讲解一下,在Spark中如何通过c3p0连接池的方式对MySQL进行增加改查(CRUD),增加(Create),读取查询(Retrieve),更新(Update)和删除(Delete)。项目github地
腾飞的大象
·
2020-07-28 13:17
Spark
spark sql 内置配置(V2.2)
最近整理了一下
sparkSQL
内置配。加粗配置项是对
sparkSQL
调优性能影响比较大的项,小伙伴们按需酌情配置。后续会挑出一些通用调优配置,共大家参考。有不正确的地方,欢迎大家在留言区留言讨论。
sunkl_
·
2020-07-28 13:24
大数据
spark
sql
内置配置
SparkSQL
(3):开启ThriftServer服务
一、实现功能
SparkSQL
的ThriftServer服务其实就是Hive的hiveServer2服务,只是将底层的执行改成spark,同时在spark上启动。
RayBreslin
·
2020-07-28 13:39
大数据开发
Spark
SparkSQL
Spark概述、Spark特点
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、SparkStream
to.to
·
2020-07-28 12:09
#
Spark(大数据分析引擎)
TaskSetManager: Lost task 0.0 in stage 9.0 (TID 18, localhost, executor driver): java.lang.NoSuchMet
环境window10,idea,scala-2.11,spark-2.2.0问题:本地运行
sparksql
代码报错//5.从外部数据源获取数据valfileDogDF=spark.read.json(s"data
struggling_rong
·
2020-07-28 11:33
问题解决整理
spark sql 无法访问 hive metastore问题解决
SparkSQL
onHive是Shark的一个分支,是HIVE执行分析引擎的一个重要利器。
sparkexpert
·
2020-07-28 11:10
大数据管理
Spark
Spark DataFrame列的合并与拆分
SparkDataFrame列的合并与拆分版本说明:Spark-2.3.0使用
SparkSQL
在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。
sinat_36121406
·
2020-07-28 11:13
Spark DataFrame列的合并和拆分
SparkDataFrame列的合并与拆分版本说明:Spark-2.3.0使用
SparkSQL
在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。
shirukai
·
2020-07-28 11:34
Spark
pySpark 关于SparkContext和SQLContext等模块
1.pyspark.sql模块是
SparkSQL
andDataFrames重要的类。
rosefunR
·
2020-07-28 10:23
Spark
SparkSQL
利用HDFS的权限控制表的读权限
Spark内置的thrift-server(连接hive)的对权限管理支持得并不是很好,只支持了create/drop权限的控制,但是任意用户都可以读任意库/表,委实是一个问题。为了解决这个问题,可以用HDFS的文件权限控制来对表的读权限进行控制。1.新建用户由于Hive,HDFS都是用系统用户来做权限控制的,所以需要新建一个系统用户。比如新建一个mytest用户,如下图所示:2.给hive表默认
rongyongfeikai2
·
2020-07-28 10:21
BIGDATA
sparksql
调优之第一弹
1,jvm调优这个是扯不断,理还乱。建议能加内存就加内存,没事调啥JVM,你都不了解JVM和你的任务数据。spark调优系列之内存和GC调优2,内存调优缓存表spark2.+采用:spark.catalog.cacheTable("tableName")缓存表,spark.catalog.uncacheTable("tableName")解除缓存。spark1.+采用:采用sqlContext.c
大数据星球-浪尖
·
2020-07-28 10:37
spark sql 任务失败------Container killed on request. Exit code is 137
问题
sparksql
执行多表join,executor退出,报错Containerkilledonrequest.Exitcodeis137。
道友,且慢
·
2020-07-28 10:20
spark
sql
thriftserver与spark application的区别
一.ThriftServer介绍ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问
SparkSQL
的数据。
亮大兵
·
2020-07-28 09:16
SparkSession的三种创建方式
/***创建SparkSession方式1*/valsparkSession1=SparkSession.builder().appName("
SparkSQL
Demo").master("local"
少心
·
2020-07-28 08:49
大数据
Spark
Scala
SparkSQL
DataFrame进阶篇
SparkSQL
DataFrame基础篇
SparkSQL
DataFrame进阶篇1.创建SparkSession【2.0】和SQLContext实例【1.x】1.创建SparkSession【2.0】/
ihoge
·
2020-07-28 08:48
spark
SparkSQL
核心笔记(一)----(DataSet 和 DataFrame 剖析、DataFrameWriter 与 DataFrameReader 访问 Hive、mySQL,缺失值处理)
目录一、
SparkSQL
是什么1.1.
SparkSQL
的出现契机数据分析的方式1.2.
SparkSQL
的适用场景二、
SparkSQL
初体验2.1.RDD版本的WordCount2.2.命令式API的入门案例
开着拖拉机回家
·
2020-07-28 07:31
#
【===
Spark
SQL
===】
Spark
sparksql
常用内置函数
聚合函数:approxCountDistinct,avg,count,countDistinct,first,last,max,mean,min,sum,sumDistinct集合函数:array_contains,explode,size,sort_array日期时间转换unix_timestamp,from_unixtime,to_date,quarter,day,dayofyear,week
酱g
·
2020-07-28 06:11
spark
Spark Sql用户权限异常记录
使用
SparkSql
存Hive数据报错如下19/09/1114:53:10ERRORmetadata.Hive:MetaException(message:UserappuserdoesnothaveprivilegesforALTERTABLE_ADDPARTS
lishengping_max
·
2020-07-28 05:35
Spark
SparkSQL
集成sentry权限认证
0、
SparkSQL
要集成sentry权限认证要解决下面几个问题:1、从hive认证hook中找到sentry认证方法,并将认证代码提取出来2、从
sparksql
的逻辑计划中提取sentry认证方法所需的参数
星星木有夜
·
2020-07-28 05:30
Spark
SQl
Apache Zeppelin简介
ipythonnotebook,可以直接在浏览器中写代码、笔记并共享)多用途笔记本可实现你所需要的:-数据采集-数据发现-数据分析-数据可视化和协作支持多种语言,默认是scala(背后是sparkshell),
SparkSQL
sanfendi
·
2020-07-28 04:20
spark
Spark SQL函数
SparkSQL
函数一、概述1、来源:本文总结自spark2.3.1API文档org.apache.spark.sql:objectfunctions;2、使用:org.apache.spark.sql.functions
简之
·
2020-07-28 04:55
大数据
spark查orc格式hive数据报错NullPointerException
sparkSQL
读取hive表数据时候报如下错误我的语句很简单如下:valdf:DataFrame=sqlContext.sql("selectvipId,brandId,dtfrompro60050.
逃跑的沙丁鱼
·
2020-07-28 03:26
学习爱好
【Spark SQL】两个DataFrame full join之后字段选择问题解决
最近工作上用到
SparkSQL
来处理数据。但是期间遇到两个表fulljoin的问题,网上比较少关于
sparkSQL
fulljoin的资料,后面Google了一番找到了问题的核心。
geekingLi
·
2020-07-28 03:22
Spark
SQL
Spark学习笔记:Spark进阶
目录Spark进阶一.在Sparkshell中使用不同的数据源1.通用Load/Save函数2.掌握Parquet文件3.
SparkSQL
JDBC4.HiveOnSpark二.
SparkSQL
开发三.
SparkSQL
SetsunaMeow
·
2020-07-28 02:29
Spark
一.
SparkSQL
中thriftserver和beeline的使用
使用的前提是你已经安装好了spark,在这里我使用的版本是spark-2.0.2-bin-hadoop2.7,建议使用该版本,因为试了几个版本都不理想,最后找到了这个版本感觉挺好的,学习
SparkSQL
飞翔的小宇宙
·
2020-07-28 02:20
Spark
SQL
这么简单的SQL怎么也会数据倾斜
秦奋一边写着
SparkSQL
的任务,心里边一边嘀咕着“组长为什么总是交给我一些这么简单的工作,我希望做一些更有挑战的工作”……在日常的工作中,作为下属,我们有时候会接到leader安排的工作,我们都希望那些工作富有挑战
bugcoder321
·
2020-07-28 01:49
大数据生态
SparkSession的初始化
本篇博客主要是
sparksql
从初始开发注意的一些基本点以及力所能及的可优化部分的介绍:所使用spark版本:2.0.0scala版本:2.11.81.SparkSession的初始化:1valsparkSession
li123128
·
2020-07-28 01:14
spark学习笔记4
SparkSQL
,DataFramesandDatasetsGuideOverviewSQLDatasetsandDataFramesGettingStartedStartingPoint:SparkSessionCreatingDataFramesUntypedDatasetOperations
keny风清扬
·
2020-07-28 01:32
spark
#
性能测试
#
性能测试ngrinder
spark-shell 数据文件 读成 表 的两种方式!!! 相对路径!!hdfs dfs -ls
parkSQL应用SparkShell启动后,就可以用
SparkSQL
API执行数据分析查询。在第一个示例中,我们将从文本文件中加载用户数据并从数据集中创建一个DataFrame对象。
hzdxw
·
2020-07-27 23:04
scala
spark
学习
sparksql
遇到的异常问题
问题描述:启动spark和zookeeper,在客户端以spark-shell--masterlocal[2]方式启动1.vallineRDD=sc.textFile("/person.txt").map(_.split(""))读取hdfs上的文件将RDD转换成DataFrame执行rdd.toDF方法报错执行lineRDD.collect方法仍然报错才发现hadoop集群没启动,然后启动had
yala说
·
2020-07-27 21:20
大数据学习
spark与hadoop的关联和区别,以及spark为什么那么快
SparkSQL
比HadoopHive快,是有一定条件的,而且不是
SparkSQL
的引擎比Hive的引擎快,相反,Hive的HQL引擎还比
SparkSQL
的引擎更快。
小爷欣欣
·
2020-07-27 20:16
大数据
spark2.4.3
sparkSQL
用户自定义函数笔记
1、简介从Spark2.0以上的版本开始,spark是使用全新的SparkSession接口代替Spark1.6中的SQLcontext和HiveContext来实现对数据的加载、转换、处理等工作,并且实现了SQLcontext和HiveContext的所有功能。我们在新版本中并不需要之前那么繁琐的创建很多对象,只需要创建一个SparkSession对象即可。SparkSession支持从不同的数
cqi024442
·
2020-07-27 20:21
修改Antlr4解析
SparkSQL
的SqlBase.g4报错
/**LicensedundertheApacheLicense,Version2.0(the"License");*youmaynotusethisfileexceptincompliancewiththeLicense.*YoumayobtainacopyoftheLicenseat**http://www.apache.org/licenses/LICENSE-2.0**Unlessrequ
ciqingloveless
·
2020-07-27 20:26
Spark
Spark2.x学习笔记:14、Spark SQL程序设计
Spark2.x学习笔记:14、
SparkSQL
程序设计14.1RDD的局限性RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。RDD需要用户自己优化程序,对程序员要求较高。
程裕强
·
2020-07-27 20:12
Spark2.x学习笔记
Spark2.x学习笔记
spark中dataframe,dataset,
sparksql
中的各种用法
packageorg.apache.spark.examplesimportDsFilter.Studentimportorg.apache.spark.{HashPartitioner,Partitioner}importorg.apache.spark.broadcast.Broadcastimportorg.apache.spark.rdd.RDDimportorg.apache.spark
cclovezbf
·
2020-07-27 20:09
spark
由 cannot resolve ‘`a.stuID`‘ given input columns: [a.stuID, a.zhuanID, b.stuID, b.zhuanID]错误引发的思考
利用
sparksql
对两张表进行join,报错:检查表中字段:发现两张表内都存在stuID。折腾了好久也没弄好,后来不甘心,将数据转为txt格式,没想到同样的代码***跑通了***。
楓尘林间
·
2020-07-27 19:25
Scala
Spark
DateFrame
sparksql
操作hive
的版本是1.6.xhttp://spark.apache.org/docs/1.6.1/sql-programming-guide.html#hive-tables查看hive和spark版本对应情况
SparkSQL
afei2530
·
2020-07-27 18:12
Spark进阶(二)
SparkMLlib
SparkSQL
1.MapReduce计算过程大量的磁盘落地消耗了大量的io,降低运行效率。此时shark应运而生,同期的还有Impala和Drill。
a_victory
·
2020-07-27 18:23
Spark
PySpark---
SparkSQL
中的DataFrame(四)
1.replace(to_replace,value=_NoValue,subset=None)"""Returnsanew:class:`DataFrame`replacingavaluewithanothervalue.:func:`DataFrame.replace`and:func:`DataFrameNaFunctions.replace`arealiasesofeachother.Va
XiaodunLP
·
2020-07-27 17:50
PySpark
Spark
[2.6]Spark SQL 操作各种数据源笔记
参考spark官网DT大数据梦工厂
sparksql
操作各种数据源的数据流转:各种数据源的输入=>RDD(lines)=>RDD(Rows)=>DataFrame(注册临时表)=>分析与过滤(各种sql操作
彭宇成
·
2020-07-27 16:35
Spark
Spark SQL DataFrame新增一列的四种方法
SparkSQL
DataFrame新增一列的四种方法方法一:利用createDataFrame方法,新增列的过程包含在构建rdd和schema中方法二:利用withColumn方法,新增列的过程包含在udf
爱是与世界平行
·
2020-07-27 14:38
▷大数据
#
➹➹➹⑤Spark
实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作
供稿|eBayADI-CarmelTeam作者|金澜涛编辑|顾欣怡本文7309字,预计阅读时间22分钟导读本文介绍eBayCarmel团队利用DeltaLake,使
SparkSQL
支持Teradata的
weixin_45906054
·
2020-07-27 14:51
sparksql
集成sentry遇到的问题
sparksql
本身并不提供安全认证机制,当前集群的安全认证主要包括sentry和ranger两大块,在通过
sparksql
执行建表时,sentry的权限报错'org.apache.hadoop.hive.metastore.api.MetaException
RacingHeart
·
2020-07-27 13:55
[Spark进阶]-- Spark Dataframe操作
参考:https://github.com/rklick-solutions/spark-tutorial/wiki/Spark-SQL#introductionSkiptoco
SparkSQL
isacomponentontopofSparkCorethatintroducesanewdataabstractioncalledSchemaRDD
highfei2011
·
2020-07-27 12:43
Spark
解决
sparksql
两个DataFrame合并后出现两列相同的情况
我们经常使用spark时会对表合并importspark.implicits._valdata1=Seq(|("1","ming","hlj"),|("2","tian","jl"),|("3","wang","ln"),|("4","qi","bj"),|("5","sun","tj")|).toDF("useid","name","live")valdata2=Seq(|("1","ming"
楓尘林间
·
2020-07-27 11:36
Spark
SQL
DateFrame
上一页
43
44
45
46
47
48
49
50
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他