E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SPARK-SQL
Spark(四):
Spark-sql
读hbase
SparkSQL是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler,具体配置参见:Hive(五):hive与hbase整合目录:SparkSql访问hbase配置测试验证SparkSql访问hbase配置:拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下,清单如下:guava-1
SunWuKong_Hadoop
·
2016-12-30 10:35
spark
Spark
Spark-SQL
和Hive on Spark, SqlContext和HiveContext
HiveonSpark和SparkSQL是不同的东西HiveonSpark:是除了DataBricks之外的其他几个公司搞的,想让Hive跑在Spark上;SparkSQL:Shark的后继产品,解除了不少Hive的依赖,且让SQL更加抽象通用化,支持json,parquet等格式;关于Catelog和SchemaCatelog是目录的意思,从数据库方向说,相当于就是所有数据库的集合;Schema
美伊小公主的奶爸
·
2016-12-22 15:53
spark
基于spark2.0整合
spark-sql
+ mysql + parquet + HDFS
一、概述spark2.0做出的改变大家可以参考官网以及其他资料,这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession,故而利用spark-shell客户端操作会有些许不同,具体如下文所述二、spark额外配置1.正常配置不再赘述,这里如果需要读取MySQL数据,则需要在当前用户下的环境变量里额外加上JDBC的驱动jar包例如我的是:mysql-
CaramelCapucchino
·
2016-11-22 12:11
大数据架构
构建Scala的Maven项目
spark的scala项目Maven构建和使用一、使用
spark-sql
使用spark-sql--masteryarn--num-executors30--executor-memory12g二、建立项目
风行者之倾覆天下
·
2016-11-18 14:25
Scala
Maven
Spark
spark-sql
读取hive
Spark-1.3.1与Hive整合实现查询分析操作步骤1.我们可以通过指定SPARK_CLASSPATH变量,将需要访问Hive的元数据存储MySQL的驱动包加入进去,然后直接启动SparkSQLShell即可。SPARK_CLASSPATH="$SPARK_CLASSPATH:/app/apache-hive-1.2.1-bin/lib/mysql-connector-java-5.1.38-
csdncjh
·
2016-11-16 15:31
spark
Spark-sql
Join优化=>(cache+BroadCast)
Spark-sqlJoin优化背景
spark-sql
或者hive-sql很多业务场景都会有表关联的的操作,在hive中有mapsidejoin优化,对应的在
spark-sql
中也有mapsidejoin
ChaosJ
·
2016-10-29 14:05
spark
spark-thrift-server 执行
spark-sql
的OOM GC异常.
场景: 在前端页面提交一个
spark-sql
,然后通过spark-thrift-server调用来执行.sql逻辑很简单,就是使用join关联两表(一个大表90G,一个小表3G)查询,前台界面执行出错
Andree
·
2016-10-19 10:03
spark
spark-sql
性能测试
select*fromtw_stock_dwheret_date='20160810'2.08secondsselect*fromtw_stock_dwheret_date='20160623'2secondsselect*fromtw_stock_dwheret_date='20160810'unionallselect*fromtw_stock_dwheret_date='20160623'3
燃烧的岁月_
·
2016-10-19 03:37
spark
Yarn application has already exited with state FINISHED
如果在运行
spark-sql
时遇到如下这样的错误,可能是因为yarn-site.xml中的配置项yarn.nodemanager.vmem-pmem-ratio值偏小,它的默认值为2.1,可以尝试改大一点再试
一见
·
2016-10-13 11:48
HADOOP
spark
Spark-SQL
之DataFrame操作大全
一、DataFrame对象的生成
Spark-SQL
可以以其他RDD对象、parquet文件、json文件、hive表,以及通过JDBC连接到
dabokele
·
2016-10-12 23:35
Spark
文档
sql
Spark-Sql
源码解析之八 Codegen
Codegen,动态字节码技术,那么什么是动态字节码技术呢?先看来一段代码,假设SparkPlan为SortcaseclassSort(sortOrder:Seq[SortOrder],global:Boolean,child:SparkPlan)extendsUnaryNode{overridedefrequiredChildDistribution:Seq[Distribution]=if(g
亮亮-AC米兰
·
2016-08-12 13:58
源码解析
Spark
Spark
SQL
1.4.1
详解
实现CDH支持Spark SQL功能
CDH内嵌spark版本不支持
spark-sql
,可能是因为cloudera在推自己的impala;如果上线spark却不能使用sql这种结构化语言,对于大部分分析人员其实是很不爽的!
a822631129
·
2016-08-11 13:00
sql
spark
server
cdh
Cloudera
Thirft
在IDEA中调试运行Spark SQL
昨晚想通过调试的方式阅读一下SparkSQL的源码,用
spark-sql
命令行需要跨进程调试,太麻烦,于是尝试了一下在IDEA中运行和调试.结果不出所料,虽然最终可以在IDEA中成功运行了,不过中间还是遇到了不少问题
美伊小公主的奶爸
·
2016-08-04 11:35
spark
SQL
spark MetaException(message:Version information not found in metastore. )
将相关配置完毕以后,启动
spark-sql
的过程中,出现了以下错误:16/07/2517:19:08WARNmetadata.Hive:Failedtoaccessmetastore.Thisclassshouldnotaccessedinruntime.org.apache.hadoop.hive.ql.metadata.HiveException
bitcarmanlee
·
2016-07-25 17:01
spark
Spark-Sql
创建多数据源Join实例——涉及关系库数据源
Spark-Sql
创建多数据源Join实例——涉及关系库数据源1、
Spark-Sql
数据来源有多种,Hive,Kakfa,RDD及关系库等。
kwu_ganymede
·
2016-05-26 16:55
Spark
Spark-Sql
创建多数据源Join实例——涉及关系库数据源
Spark-Sql
创建多数据源Join实例——涉及关系库数据源1、
Spark-Sql
数据来源有多种,Hive,Kakfa,RDD及关系库等。
kwu_ganymede
·
2016-05-26 16:00
spark
Spark SQL/Hive 同一列的多行记录合并为一行
(第一列用户id,第二列商店id,第三列地区id,第四列日期)
spark-sql
>select*fromtest;10277654822172201510281027765482217220151026881482482217220151129102776
光于前裕于后
·
2016-05-26 16:21
Spark
大数据动物园
Hive
Spark On Yarn中spark.yarn.jar属性的使用
SparkOnYarn中spark.yarn.jar属性的使用http://www.cnblogs.com/luogankun/p/4191796.html今天在测试
spark-sql
运行在yarn上的过程中
SIMONE
·
2016-05-26 14:00
Spark中文手册7:
Spark-sql
由入门到精通【续】
问题导读1.sqlContext.cacheTable("tableName")与sqlContext.uncacheTable("tableName")它们的作用是什么?2.SparkSQLCLI的作用是什么?3.SparkSQL数据类型有哪些。如何访问它们?性能调优对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据SparkSQL可以通过调用sqlCo
wanmeilingdu
·
2016-05-09 21:00
spark
Spark中文手册6:
Spark-sql
由入门到精通
问题导读1、什么是SparkContext?2、如何配置Parquet?3、如何高效的从ApacheHive中读出和写入数据?(一)开始Spark中所有相关功能的入口点是SQLContext类或者它的子类,创建一个SQLContext的所有需要仅仅是一个SparkContext。valsc:SparkContext//AnexistingSparkContext.valsqlContext=new
wanmeilingdu
·
2016-05-09 21:00
spark
Spark-Sql
之DataFrame实战详解
在Spark-1.3新加的最重要的新特性之一DataFrame的引入,很类似在R语言中的DataFrame的操作,使得
Spark-Sql
更稳定高效。
kwu_ganymede
·
2016-05-07 15:00
sql
spark
dataFrame
spark读取oracle的
刚开始使用
spark-sql
,首先看了一部分的源码。然后开始着手程序的编写。
九指码农
·
2016-05-05 15:18
spark-sql
spark及问题解决
spark读取oracle的
刚开始使用
spark-sql
,首先看了一部分的源码。然后开始着手程序的编写。
qq_14950717
·
2016-05-05 15:00
oracle
jdbc
spark
spark-sql
spark学习系列1
spark-sql
的运行速度是hive的10到100倍,spark的前身是shark,是来自伯克利实验室。
u013676711
·
2016-04-14 18:00
spark-sql
部署实现与Hive交互
spark-sql
部署版本Hadoop-2.5.0-cdh5.3.2 Hive-0.13.1-cdh5.3.2Spark-1.5.1以CNSH001节点为例sparkmaster在CNSH001上:spark
vfgbv
·
2016-04-11 15:00
[置顶]
Spark-Sql
版本升级对应的新特性汇总
Spark-Sql
版本升级对应的新特性汇总SparkSQL的前身是Shark。由于Shark自身的不完善,2014年6月1日ReynoldXin宣布:停止对Shark的开发。
kwu_ganymede
·
2016-04-01 17:00
spark
禁止MAC Chrome更新
禁止MACChrome更新SPARK1.4后可以支持看
spark-sql
的DagVisualization,但是Chrome升级到48以后,就傻掉了,图什么的都出不来,经过很多个浏览器测试确定是chrome
leanken_lin
·
2016-04-01 14:09
其它
HIVE和SPARKSQL计算引擎在TEXT导入PARQUET格式的HIVE存储引擎分片数量机制
insertintoXXXXXXX201512select*fromXXXXXXX20151231;以上的insert,3000万的数据,一般是6、7分钟的样子,,一个表到总表产生的分片数是40多个,之后查询一张表大概1秒左右别用
Spark-SQL
feiweihy
·
2016-03-25 15:33
SQL
SPARK
HIVE
大数据(研究)
Spark kyro Serialization
spark-sql
中默认使用的是kyro的序
lsshlsw
·
2016-03-11 16:00
spark
kryo
Spark-SQL
与hive整合【版本spark1.6.0+hive0.14】--Standalone模式
在进行离线大数据处理工程中,使用hive进行运算出现了瓶颈,由于文件太大,集群的block块采用的是默认128M没有进行调整,而且集群规模比较小,只有4个节点,机器配置:2台32core,内存14.5G 1台32core,内存30.3G 1台32core,内存46.1G 在进行分析过程中,有大量的leftjion和groupby 以及sumcountHQL各种嵌套[主要是当初设计的不合理,下边的没
bbaiggey
·
2016-03-10 11:00
spark-sql
应用
一.序言 这里介绍一下我们对
spark-sql
的一些简单应用。
greemranqq
·
2016-03-04 08:37
spark-sql
saprk
spark-sql
应用
一.序言这里介绍一下我们对
spark-sql
的一些简单应用。
犀利的蛙
·
2016-03-03 21:39
spark
spark-sql
应用
阅读更多一.序言这里介绍一下我们对
spark-sql
的一些简单应用。
greemranqq
·
2016-03-03 21:00
saprk
spark-sql
Spark - ERROR Executor: Exception in tjava.lang.OutOfMemoryError: unable to create new native thread
Exceptionintaskxxxinstagexxx java.lang.OutOfMemoryError:unabletocreatenewnativethread 那么可能性非常大的原因是你当前通过spark-submit或
spark-sql
bluishglc
·
2016-02-20 16:00
thread
spark
oom
native
outofmemor
在Yarn上运行spark-shell和
spark-sql
命令行
转载自:http://lxw1234.com/archives/2015/08/448.htm如果你已经有一个正常运行的HadoopYarn环境,那么只需要下载相应版本的Spark,解压之后做为Spark客户端即可。需要配置Yarn的配置文件目录,exportHADOOP_CONF_DIR=/etc/hadoop/conf这个可以配置在spark-env.sh中。运行命令:cd$SPARK_HOM
ggz631047367
·
2016-01-01 21:00
yarn
spark-sql
spark-shel
Spark-SQL
优化案例---股票点击实时排行
Spark-SQL
优化案例---股票点击实时排行,需求每天股票点击统计排列统计、每小时股票统计排列统计,及天与小时的环比变化。
kwu_ganymede
·
2015-12-23 15:00
优化
排行
spark-sql
crontab shell调用
spark-sql
,实现周期性动态SQL批量自动执行
对于熟悉Scala开发的人来说,对于
spark-sql
的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。
富兰克林008
·
2015-12-18 13:39
spark
ETL
Hive
Spark-SQL
介绍及优化策略
目前我们在使用SQL引擎时,月级的、天级的、小时级的查询都转到了
Spark-SQL
,速度及稳定性都有较好的表现。
kwu_ganymede
·
2015-12-14 14:44
Spark
Spark-SQL
介绍及优化策略
目前我们在使用SQL引擎时,月级的、天级的、小时级的查询都转到了
Spark-SQL
,速度及稳定性都有较好的表现。
kwu_ganymede
·
2015-12-14 14:00
sql
spark
shark
Parquet表在spark与Impala间兼容性测试
针对sqlonhadoop类的组件,hive/Impala/
spark-sql
/presto,接触过一点,也做过部分的验证,结论暂时与客户所期望的有点出入,因此目前有点小纠结。
fishhunter
·
2015-12-10 13:56
impala
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据
Spark-Streaming与
Spark-Sql
整合实现实时股票排行---通过kafka列队数据,前端数据通过kafka队列传递,外层还有flume的实时收集。
kwu_ganymede
·
2015-12-03 14:00
spark-sql
部署实现与Hive交互
spark-sql
部署版本Hadoop-2.5.0-cdh5.3.2 Hive-0.13.1-cdh5.3.2Spark-1.5.1以CNSH001节点为例sparkmaster在CNSH001上:spark
developerinit
·
2015-11-25 09:00
hive
spark
spark
on
spark-sql
Hadoop运维记录系列(十七)
上个月通过email,帮朋友的朋友解决了一个Cloudera的
Spark-SQL
无法访问HBase做数据分析的问题,记录一下。
Slaytanic
·
2015-11-13 19:35
hadoop
hive
spark
hbase
运维
Hadoop运维记录系列(十七)
上个月通过email,帮朋友的朋友解决了一个Cloudera的
Spark-SQL
无法访问HBase做数据分析的问题,记录一下。
Slaytanic
·
2015-11-13 19:35
hadoop
spark
hive
hbase
运维
Hadoop运维记录系列(十七)
上个月通过email,帮朋友的朋友解决了一个Cloudera的
Spark-SQL
无法访问HBase做数据分析的问题,记录一下。
Slaytanic
·
2015-11-13 19:35
运维
hadoop
spark
hadoop
Spark脚本调用
Spark提供了多个脚本来作为程序的入口,其中最常用的是交互脚本spark-shell,pyspark,还有sparksql的客户端
spark-sql
。
代码浮生
·
2015-11-13 11:00
spark1.2.0版本SparkSQL使用parquet类型注意事项
Spark1.2.0版本中是用parquet存储类型时注意事项: sql语句: select * from order_created_dynamic_partition_parquet; 在
spark-sql
·
2015-11-12 23:51
spark
spark-sql
启动后在监控页面中显示的Application Name为SparkSQL::xxxx的疑问
启动
spark-sql
执行sql时,在监控页面中看到该Application的Name是SparkSQL:hadoop000(其中hadoop000是测试机器的hostname),就有个想法,修改下该application
·
2015-11-12 23:50
application
Spark On Yarn中spark.yarn.jar属性的使用
今天在测试
spark-sql
运行在yarn上的过程中,无意间从日志中发现了一个问题:
spark-sql
--master yarn 14/12/29 15:23:17 INFO Client
·
2015-11-12 21:16
spark
Spark读写和Lost Excutor错误的分析和解决过程
一、概述 上篇blog记录了些在用
spark-sql
时遇到的一些问题,今天继续记录
yanhan_huang
·
2015-11-02 10:00
spark
数据
hdfs
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他