E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SPARK-SQL
spark-sql
on yarn 、spark-shell on yarn 详解
有时候在做开发测试的时候,需要使用spark-shell和
spark-sql
命令行,除了Local和Sparkstandalone模式,spark-shell和
spark-sql
也可以运行在yarn上,
wang2leee
·
2020-09-14 01:16
容器
spark
yarn
spark-sql
Spark-Sql
启动报错:Error creating transactional connection factory
/bin/
spark-sql
报错Errorcreatingtr
午后的红茶meton
·
2020-09-13 20:09
Spark使用
实现CDH支持Spark SQL功能
CDH内嵌spark版本不支持
spark-sql
,可能是因为cloudera在推自己的impala;如果上线spark却不能使用sql这种结构化语言,对于大部分分析人员其实是很不爽的!
sunyang098
·
2020-09-13 18:22
spark
spark:报错com.esotericsoftware.kryo.KryoException: Buffer underflow.
场景
spark-sql
跑一个较大的任务(几亿条数据),数据落盘时报错:com.esotericsoftware.kryo.KryoException:Bufferunderflow.探索查看抛出这个报错的源码
x950913
·
2020-09-13 10:41
spark
spark-sql
子查询的字段名在父查询中无法解析
场景:多表join、union时,发生如下报错:Errorinquery:Resolvedattribute(s)complex_flag_code#6549,quantity#6551L,pay_time_date#6547,sales_price#6553,oms_code#6548,retail_price#6550,promotion_sku_code#6552missingfromret
x950913
·
2020-09-13 10:11
hive
spark
spark
大数据
hive
大数据:缓慢变化维
因为HDFS的不可修改数据的特性,hive和
spark-sql
不能像传统数据库一样使用update修改数据的。通常对于变化
x950913
·
2020-09-13 10:11
spark
spark-sql
读取不到parquet格式的hive表
当向Hivemetastore中读写Parquet表时,SparkSQL将使用SparkSQL自带的ParquetSerDe(SerDe:Serialize/Deserilize的简称,目的是用于序列化和反序列化),而不是用Hive的SerDe,SparkSQL自带的SerDe拥有更好的性能。这个优化的配置参数为spark.sql.hive.convertMetastoreParquet,默认值为
x950913
·
2020-09-13 10:10
spark
spark-SQL
综合练习每日关键字的UV统计-scala
spark-SQL
综合练习每日关键字的UV统计-scala1.开发环境说明2.运行环境说明3.实现的需求如下4.实现代码如下5.分步输出的结果如下6.。。。。。。
xuanwenchao
·
2020-09-11 11:26
Spark
spark-sql
关联问题
spark-sql
使用不等关联不出数据,的解决办法2017-10-20计划
spark-sql
取出join后另外一个字段匹配不上的记录select*fromap1ajoinap2bona.id=b.idanda.name
per_time
·
2020-09-11 06:05
spark
Spark SQL 操作 Hive 表数据
方式操作Hiveshowtablesselect*fromempjoin操作总结:和HQL语法一毛一样,只是记得使用如下格式spark.sql("xxxxxx").show即可如果嫌麻烦,还可以直接使用
spark-sql
路飞DD
·
2020-09-11 05:47
SparkSQL
Spark
大数据
Hive
Hadoop
Spark
SparkSQL
操作
Hive
SparkSQL
保存
parquet
到
hdfs
SparkSession
操作
Hive
SparkSession
hive使用spark引擎的几种情况
使用spark引擎查询hive有以下几种方式:1>使用
spark-sql
(sparksqlcli)2>使用spark-thrift提交查询sql3>使用hiveonspark(即hive本身设置执行引擎为
weixin_30275415
·
2020-09-11 04:26
在Zeppelin上运行Spark程序
前言不得不说,Spark在Zeppelin上的使用还是比较方便的,比你在终端启动一个spark-shell或者
spark-sql
强太多了。闲话少说,我们一起来看一看吧!
AaronLwx
·
2020-09-10 21:25
Spark SQL快速入门系列之Hive
.hive和sparksql的集成方式(面试可能会问到)二.spark_shell和spark_sql操作spark_shellspark_sql使用hiveserver2+beeline三.脚本使用
spark-sql
大数据技术与架构
·
2020-09-10 18:26
Spark-sql
读hbase
SparkSQL是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下,清单如下:在ambari上配置Spark节点的$SPARK_HOME/conf/spark-env.sh,将上面的jar包添加到SPARK_CLASSPATH,如下
chenla5762
·
2020-08-24 13:28
Spark-SQL
之自定义数据源的构建
自定义数据源的构建常见的trait下面是interfaces.scala中常见的一些接口:下面各种类、方法,在源码里面都有详细的注释。//BaseRelation是Spark提供的一个标准的接口//由于是抽象类,如果要实现自己的外部数据源,必须要实现它里面的一些方法//这个里面是含有schema的元组集合(字段:字段类型)//继承了BaseRelation的类,必须以StructType这个形式产
Try Everything、
·
2020-08-24 12:59
Spark
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-23 00:25
sparkSQL1.1入门之七:ThriftServer和CLI
1:令人惊讶的CLI刚部署好spark1.1就迫不及待地先测试CLI(bin/
spark-sql
),对于习
mmicky20110730
·
2020-08-22 21:06
spark1.1.0
spark学习路线
Spark SQL/Hive 同一列的多行记录合并为一行
(第一列用户id,第二列商店id,第三列地区id,第四列日期)
spark-sql
>select*fromtest;10277654822172201510281027765482217220151026881482482217220151129102776
光于前裕于后
·
2020-08-22 20:14
大数据动物园
Spark
Hive
Spark-sql
结果保存指定位置
//1.读取数据,将每一行的数据使用列分隔符分割vallineRDD=sc.textFile("hdfs://node1.itcast.cn:9000/person.txt",1).map(_.split(""))//2.定义caseclass(相当于表的schema)caseclassPerson(id:Int,name:String,age:Int)//3.导入隐式转换,在当前版本中可以不用导
绛门人
·
2020-08-22 19:42
spark
【运行
spark-sql
报错】:java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 解决办法
scala版本对不上所以着重对这方面的检查.直到我看到pom.xml文件得配置.....大概就知道是什么原因了org.apache.sparkspark-sql_2.112.3.0显然我Maven里面配置的
spark-sql
佩奇配骑
·
2020-08-22 19:00
环境
spark1.4版本与CDH5.1.3版本hive整合
场景介绍:在
spark-sql
中,读取hive的数据配置步骤如下:1、找到hive的hive-site.xml文件和hive-log4j.properties文件放入spark的conf目录下。
重拾梦想
·
2020-08-22 17:16
hadoop
spark
hive
sparkstreaming的参数解读
1:spark.default.parallelism设置sparkstreaming程序的并行度:2:spark.sql.shuffle.partitions设置
spark-sql
程序的并行度3:spark.scheduler.listenerbus.eventqueue.size
csy_666
·
2020-08-22 16:33
spark
sparksql两种方式的执行效率
方式一:/**使用
spark-sql
实现的*/defrhVisitor(ss:SparkSession,dt:String,per_hour:String,merchant:String):Unit={
ZH519080
·
2020-08-22 16:54
spark
解决spark driver端cpu使用率超过3000%问题
我们一部分批处理任务用的是
spark-sql
,默认只有yarnclient模式,使用yarnclient模式时driver端会成为瓶颈,有时候晚上跑批的时候大量etl任务同时跑,cpu负载过高导致机器告警
L13763338360
·
2020-08-22 16:23
spark
spark-sql
:自定义UDF函数进行敏感字段加密解密
需求一些用户数据中包含诸如用户手机号等信息,直接暴露出来的话,是违法的。。。需要对数据进行脱敏,如果单纯的将手机号替换为***号,那么就意味着丢失用户的手机号数据了,因为无法再将***变回手机号。所以需要自定义UDF函数,实现敏感数据的加密解密。这里实现了两个UDF函数,一个用于加密,一个用于解密。使用Java自带的crypto模块实现AES加密。在代码中将两个UDF函数中的SecureRando
x950913
·
2020-08-22 15:39
spark
2018-11-28
针对
spark-sql
操作hive生成分区表,结果文件目录包含_success空文件,可以设置参数:mapreduce.fileoutputcommitter.marksuccessfuljobs因此可以在程序中设置
宇智波_佐助
·
2020-08-21 16:42
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-21 15:41
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-21 14:21
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-21 12:11
spark错误记录:Container on host: was preempted(没有彻底解决,只是理解这个问题)
(作者:陈玓玏data-master)
spark-sql
任务跑着跑着,碰到一个bug:Containeronhost:waspreempted又是一个新鲜的bug呢!!
小白白白又白cdllp
·
2020-08-20 19:11
大数据
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-20 17:20
spark-sql
使用
spark-sqlspark-sql在cli端的操作使用
spark-sql
编程需要配置jar包通过反射推断schema通过structtype指定schema通过spark-shell从mysql中加载数据将数据保存到
metooman
·
2020-08-20 17:15
大数据
Spark-SQL
之DataFrame操作大全
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、hive表,以及通过JDB
SunnyMore
·
2020-08-20 14:35
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-08-19 21:28
streamsets自定义插件部署方案
2.部署步骤2.1cm界面操作2.2上传驱动包2.3上传插件2.4选择pipeline2.5pipeline配置3.启动界面1.背景简介由于sdc缺少由kudu到mysql的upsert操作,前期通过
spark-sql
tianjun2012
·
2020-08-18 22:54
数据采集
同一个sql 在Hive和
spark-sql
跑出结果不一样记录
表Schemahive>descgdm.dim_category;namestring分类名称org_codestring分类codehive>selectname,org_codefromgdm.dim_categorylimit2;OK鞋_8_鞋/男_8_21_hive>descgdm.dim_product_brand;brand_idbigint品牌IDch_namestring品牌中文名
阿武z
·
2020-08-18 12:25
Hive
大数据开发之Spark篇----idea上使用SparkSQL对Hive上的数据
SparkSQL连接到Hive上将hive-site.xml存储到项目上的resources目录上既然我们要在idea上使用spark来访问Hive上的数据,那我们也要有元数据地址才行嘛,所以这和使用
spark-sql
豆豆总
·
2020-08-18 12:55
HDP3.1中spark2.3无法读取Hive3.0数据
通过Ambari2.7安装好HDP3.1后,发现在
spark-sql
中无法读到hive命令行创建的数据库和表。
MiniCoder丨
·
2020-08-18 12:45
spark
hive
Spark-SQL
应用解析
文章目录一、概述DataFrameDataSet二、数据转换1.RDDDataFrameRDD->DataFrameDataFrame->RDD2.RDDDataSetRDD->DataSetDataSet->RDD3.DataFrameDataSetDataFrame->DataSetDataSet->DataFrame三、SparkSQL简单操作四、SQL的执行模式DSL模式SQL模式五、自定
2NaCl
·
2020-08-18 11:05
Spark
Spark-SQL
在IDEA中创建SparkSQL程序|DF风格编程|RDD转换为DF
POMorg.apache.sparkspark-core_2.112.1.1org.apache.sparkspark-sql_2.112.1.1SparkCoreTestnet.alchim31.mavenscala-maven-plugin3.3.2compiletestCompileDF风格编程代码实现//1.创建SparkSession对象valspark:SparkSession=Sp
SmallScorpion
·
2020-08-18 11:55
Spark
零
spark-sql
2.3.1版本的,集群上的hive连接不上,求解
Exceptioninthread"main"java.lang.ClassNotFoundException:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/CanUnbufferwhencreatingHiveclientusingclasspath:file:/E:/development/Java/jre/lib/charsets.j
qq_36687028
·
2020-08-18 11:08
2.2、配置
Spark-sql
(连接Hive)
一、复制Hadoop目录下的hdfs-site.xml和Hive目录下的hive-site.xml到/usr/spark/spark-2.1.0/conf目录下二、cpspark-env.sh.templatespark-env.sh,编辑spark-env.sh文件添加如下内容:exportJAVA_HOME=/usr/java/jdk1.8.0_102exportCLASSPATH=CLASS
恶魔的步伐
·
2020-08-18 11:55
Spark总结
Spark-Sql
版本升级对应的新特性汇总
Spark-Sql
版本升级对应的新特性汇总SparkSQL的前身是Shark。由于Shark自身的不完善,2014年6月1日ReynoldXin宣布:停止对Shark的开发。
kwu_ganymede
·
2020-08-18 11:24
Spark
Spark 电商分析
Spark-sql
统计各区域热门商品统计 需求、设计、数据库
一、需求分析1、根据用户指定的日期范围,统计各个区域下的最热门的top3商品区域信在哪里?各个城市信息不怎么变化,存储在mysql中hive用户行为数据,hive和mysql城市信息join(Hive和mysql异构数据源使用,技术点1)关联之后是RDD,RDD转换成DataFrame,注册临时表,第二个技术点各个区域下各个商品的点击量,保留每个区域的城市列表数据?自定义UDAF函数,group_
chixushuchu
·
2020-08-18 11:00
实战
spark
Spark-streaming 和
spark-sql
基本概念
Spark-streaming和
spark-sql
基本概念spark-streaming是spark体系中一个流式处理的框架spark-core是核心的计算引擎,streaming是其中一个功能streaming
000000_cy
·
2020-08-18 10:28
spark
Spark通过Dataframe操作hive
1.1、创建一个SQLContext,SQLContext(及其子类,如本节的HiveContext)是SparkSQL所有功能的入口SqlContext:应该是对应
spark-sql
这个project
chbxw
·
2020-08-18 10:39
#
spark
SPARK-SQL
- DataFrame创建方式汇总
创建DataFrame的方式从JavaRDD与类类型中创建从List与类类型中创建从JavaRDD与schema中创建从List与schema中创建从外部数据源中创建如spark.read().json等importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg
小哇666
·
2020-08-18 10:37
#
spark
Spark问题记录
问题1问题描述项目中使用CDH5.8,在测试环境上使用
spark-sql
将数据写到Mysql时,一直报错如下java.lang.ClassNotFoundException:com.mysql.jdbc.Driver
灰灰鲁伊
·
2020-08-16 07:07
大数据
spark
大数据
Mac单机Hadoop2.7下安装Spark2.2+配置SparkSQL查询Hive表+
spark-sql
CLI 查询
下面简单记录mac单机spark安装测试的过程已安装好单机的伪分布式Hadoop,见Mac单机Hadoop安装备忘已安装好单机的hive,见Mac-单机Hive安装与测试单机Mac安装spark并做简单yarn模式shell测试配置SparkSQL查询Hivespark-sqlCLI查询Hive一、安装Spark1-下载安装scalahttps://www.scala-lang.org/downl
hjw199089
·
2020-08-11 21:11
[3]Spark
SPARK-SQL
基础应用入门1-sparkSession,Dataset,DataFrame,select,groupBy等
相关的测试数据和pojo类,查看博文https://blog.csdn.net/qq_41712271/article/details/107812188//导入相关的包importstaticorg.apache.spark.sql.functions.col;publicstaticvoidmain(String[]args){//0:sparksql程序入口SparkSessionspark
小哇666
·
2020-08-11 05:56
#
spark
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他