E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark-SQL
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki5
·
2020-04-06 21:15
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-04-06 10:35
使用
spark-sql
报错 “Metastore contains multiple versions”
1、背景:进入spark集群,cd/spark,执bin/
spark-sql
,报错image.png2、解决方法2.1、是hive元数据的问题,进入spark/conf/hive-site.xml,找到
wendy0101
·
2020-04-02 15:03
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
kikiki4
·
2020-03-31 04:54
Spark on Hive-derby数据库-thriftserver-多客户端使用
--sparkonhive:是spark通过
spark-sql
使用hive语句操作hive,底层运行的还是sparkrdd。
铁虫_bcde
·
2020-03-26 10:05
spark-streaming中使用
spark-sql
做关联查询
实现:首先基于topic,创建出kafka的DStream流valsparkConf=newSparkConf().setAppName(appParams.appName)valsc=newSparkContext(sparkConf)valstreamingContext=newStreamingContext(sc,Seconds(appParams.batchProcInterval))v
lsnl8480
·
2020-03-24 04:19
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2020-03-23 14:33
Hadoop、hive、spark、
spark-sql
基本操作
本教程适用于已经安装好hadoop,spark集群,需要利用的集群做简单的sql数据分析的用户。终端显示快捷ctrl+alt+t#启动hadoop后,查看Hadoop的网站http://localhost:50070/dfshealth.html#查看磁盘容量df-l#截图软件安装sudoapt-getinstallshutter1#任务管理器gnome-system-monitorimage.p
至极L
·
2020-03-19 03:43
Spark-SQL
之DataFrame基本操作
这篇文章将带大家一起学习Spark中DataFrame的基本操作。1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample").enableHiveSupport()//.config("spark.some.config.optio
文哥的学习日记
·
2020-03-14 21:00
Spark 之 Spark-SQL-HBASE Error java.lang.IllegalStateException: unread block data
最近遇到这样一个业务场景:业务数据存储于Hbase中,并在Hive表中建立了HBASE映射表,已实现在Hive及Impala中可查,现想通过
Spark-SQL
进行查询,其中Spark集群基于Yarn。
步闲
·
2020-03-08 04:49
spark word count环境搭建(scala)
build.sbtname:="ScalaHelloWorld"version:="1.0"scalaVersion:="2.12.2"libraryDependencies+="org.apache.spark"%%"
spark-sql
null0007
·
2020-03-07 08:51
8.Spark SQL
弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming原文链接:http://blogxinxiucan.sh1.newtouch.com/2017/07/23/
Spark-SQL
全能程序猿
·
2020-03-03 11:42
spark-sql
是 cbo 的吗?
spark-sql
的优化器是cost-based的吗?这是一个很有意思的问题。
liprails
·
2020-02-26 09:20
MySQL+关联(上)
飞谷云MySQL第3讲MySQL+表连接课程概要:回顾第二讲表关联文件关联把数据导入
Spark-SQL
(DataFrame)一、回顾第二讲1、数据库基本内容表列主键索引行2、数据导入(出)mysqlsql
LuCh1Monster
·
2020-02-23 12:05
Oozie Kerberos环境下提交
Spark-Sql
任务
spark-sqlOozie暂时没有像hiveAction那样调用HiveCli实现类似的原生Action,sparkAction实现的是基于spark-submit提交自定义的Jar包,实现
Spark-Sql
拔刺的少年
·
2020-02-22 09:26
Hive优化的十大原则
Hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。
liuzx32
·
2020-02-11 13:17
【ElasticSearch】使用
Spark-SQL
进行ElasticSearch数据探查
目前针对SQLonElasticSearch已经有了比较好的解决方案:elasticsearch-sql,其实
Spark-SQL
也可以满足一些基本的ES数据探查的需求,实现起来也相对简单。
PowerMe
·
2020-02-08 09:35
Hive优化的十大方法
Hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。
王知无
·
2020-02-06 06:26
spark-sql
spark-sql
伪分布式的的安装:在安装之前先确保Hadoop能够运行,有hive,有mysql-connect-Java-jar这个包。
数据时代的下的程序猿
·
2020-02-06 00:42
寒假第九天
交互式编程更加了解和RDD以及对于编写独立应用程序sbt的打包编程去重也有了了解之前安装完sbt后对于后面的打包需要下载一些文件一直失败,后来我把在网上查询解决方案,找了很久终于教程里spark-core换成了
spark-sql
张利杰j
·
2020-02-03 12:00
spark-sql
简单使用
最近迷上了spark,写一些博客,记录一下自己的所得。先学一下sparkdocument上的样例。代码:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)caseclassPerson(name:String,age:Long)valpeople=sc.textFile("examples/src/main/resources/people.t
lsnl8480
·
2020-02-01 23:41
Spark-SQL
面试准备 2
SparkKnowledgeNO.211.RDD缓存:Spark可以使用persist和cache方法将任意RDD缓存到内存、磁盘文件系统中。缓存是容错的,如果一个RDD分片丢失,可以通过构建它的transformation自动重构。被缓存的RDD被使用的时,存取速度会被大大加速。一般的executor内存60%做cache,剩下的40%做task。Spark中,RDD类可以使用cache()和p
金戈拉斯
·
2020-01-20 14:48
SparkSQL
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。使用方法csvspark.sql("select*fromcsv.
大猪大猪
·
2020-01-06 16:36
Spark SQL中Kryo反序列化问题分析
1问题描述当使用
Spark-sql
执行HiveUDF时会发生NullPointerException(NPE),从而导致作业异常终止。
荒湖
·
2020-01-01 02:57
spark-sql
thriftserver 方式使用hive udf函数
1、在hive中注册udf函数addjarhdfs://hdp-hdfs01/apps/udf.jar;--添加jar,jar存放在hdfs上createfunctionyour_udf_nameas'com.alibaba.udf.UDFgetuuid';--创建函数2、在start-thriftserver.sh中添加jarsstart-thriftserver.sh--jars/apps/u
赵简书
·
2019-12-30 04:41
Spark - SQL查询文件数据
那么我们可以利用
spark-sql
直接操作文件的特性处理这类的需求,姐姐再也不用担心我不会spark了,因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.
kikiki4
·
2019-12-27 02:54
无标题文章
最近失业在家,搞点好玩的,于是看看能不能给apachespark做个ruby的api,毕竟python都有了,ruby应该也能做,何况还有JRuby.因为用
spark-sql
比较多,就先试试
spark-sql
liprails
·
2019-11-04 20:04
Spark kyro Serialization
spark-sql
中默认使用的是kyro的序
breeze_lsw
·
2019-11-01 08:17
Spark 系列(九)—— Spark SQL 之 Structured API
示例如下:valspark=SparkSession.builder().appName("
Spark-SQL
").master(
heibaiying
·
2019-09-23 08:36
Spark
Spark
记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程
:ContainerkilledbyYARNforexceedingmemorylimits使用spark命令:/opt/software/spark-2.2.0-bin-hadoop2.6/bin/
spark-sql
微步229
·
2019-09-16 10:55
Container
killed
by
YARN
for
e
Spark
Spark
生产案例
8.推荐系统之Spark Streaming
一.sparkStreaming概述1.1SparkStreaming它是一个可扩展,高吞吐具有容错性的流式计算框架吞吐量:单位时间内成功传输数据的数量之前学习过的spark-core和
spark-sql
Sssssss_A
·
2019-08-27 11:39
推荐系统
hive优化
hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。
ChinaJoeEE
·
2019-08-13 10:12
hadoop
hive优化
hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、
spark-sql
等替代品。今天不谈其它,就来说说关于hive,个人的一点心得。
ChinaJoeEE
·
2019-08-13 10:12
hadoop
Spark 系列(九)—— Spark SQL 之 Structured API
示例如下:valspark=SparkSession.builder().appName("
Spark-SQL
").master(
黑白影
·
2019-08-13 07:00
Spark-SQL-Python编程
使用Pycharm来实现
Spark-SQL
。
dlphay
·
2019-08-11 16:28
大数据
pyspark
SQL
SQL-DQL
我们在MySQL和
Spark-SQL
使用过程中,常用的DQL如下。
dlphay
·
2019-08-09 16:13
大数据
SQL
【2019-07-29】spark 1.5不支持函数replace
问题描述spark1.5中,使用
spark-sql
无法使用replace函数问题原因目前版本兼容性问题解决措施spark不支持replace函数。使用regexp_replace替代。
学师大术
·
2019-07-30 10:11
【scala报错】报错Error:scalac: missing or invalid dependency detected while loading class file '**.class'
在idea里写好scala,
spark-sql
的脚本,运行时报这个错是说maven配依赖时下载那个Dataset.class文件时出错,
spark-sql
在1.6版本及之后就是Dataset,那就是关键的函数包没下载好了
Jacquelin_1
·
2019-06-03 17:33
scala
Spark-SQL
性能优化
性能优化1、设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时,尽量给出明确的列名,比如selectnamefromstudents。不要写select*的方式。4
S_Running_snail
·
2019-04-13 14:43
spark
Spark-SQL
之JDBC数据源
JDBC数据源SparkSQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用SparkCore提供的各种算子进行处理。创建方式:查询时连接Mysql:用SparkSQL处理JDBC中的数据是非常有用的。比如说,你的MySQL业务数据库中,有大量的数据,比如1000万,然后,你现在需要编写一个程序,对线上的脏数据某种复杂业务逻辑
S_Running_snail
·
2019-04-13 13:56
spark
Spark-SQL
之RDD转换为DataFrame
案例:(最下面)一、以编程方式动态指定元数据,将RDD转换为DataFrame-->>RDD2DataFrameProgrammatically二、使用反射的方式将RDD->>DataFrame-->>RDD2DataFrameReflectRDD转换为DataFrame之后的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用SparkSQL进行SQL查询了。这个功能是无比强大的。这
S_Running_snail
·
2019-04-13 13:04
spark
史上最简单的spark教程第九章-SparkSQL编程Java案例实践(一)斗图王来辣
Spark-SQL
的Java实践案例史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch(提前声明:文章由作者
李时珍皮啊
·
2019-03-27 18:52
#
spark
#
大数据
拥抱大数据
CHD的impala实现hive和hbase数据查询
cdh版本安装
spark-sql
比较复杂,cdh主推impala,可以方便进行查询启动命令:impala-shell可以直接进行hive操作。
jin6872115
·
2019-03-01 10:14
Hbase
hive
集群小文件太多问题(
spark-sql
优化)
hive外部分区表,每个分区下有200个小文件某张表有三个分区字段(partition_brand,partition_date,partition_rssc)则生成小文件个数:2*26*8*200=83,200这个表还算一般,如果按照年月日进行分区的话,小文件就太多了先查看集群动态资源配置:再查看执行spark程序配置资源:--driver-memory30g\--executor-memory
lhxsir
·
2019-02-22 17:26
spark
Spark-Sql
一行变多行explode使用
原数据如下:+--------------+------------+----------+|from_city_name|to_city_name|search_num|+--------------+------------+----------+|无锡市|漯河市|3||南部县|库尔勒市|3||石家庄市|开封市|2||深圳市|成都市|55||贵阳市|丽水市|7||东营市|淄博市|1||南充市|
小白鸽
·
2019-01-30 11:49
Spark
org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:
举个例子:用
spark-sql
读取hive和hbase相互映射的表,如果不一步步排查,那么就会抱着个错,可以选择什么都不做,直接select*fromtablename
Mr_Peter_c
·
2019-01-24 11:09
Linux
spark-sql
的进阶案例
(1)骨灰级案例--UDTF求wordcount数据格式:每一行都是字符串并且以空格分开。代码实现:objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.s
原生zzy
·
2019-01-05 23:41
spark
sql
实战
spark
spark-sql
自定义函数
(1)自定义UDFobjectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogg
原生zzy
·
2019-01-05 22:14
spark
sql
自定义
spark
Spark-SQL
的具体编程场景
入门案例:objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogger("
原生zzy
·
2019-01-05 20:30
Spark
SQL
编程
spark
spark-sql
的概述以及编程模型的介绍
1、sparksql的概述(1)sparksql的介绍: SparkSQL是Spark用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通过RDD获取)的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使用Catalyst优化器来对SQL进行优
原生zzy
·
2019-01-05 12:09
spark
sql
spark
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他