E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark SQL兼容Hive及扩展
前言相比于Shark对Hive的过渡依赖,
SparkSQL
在Hive兼容层面仅依赖HQLParser、HiveMetastore和HiveSerDes。
代码不会写
·
2017-11-28 14:22
spark学习
spark
spark-sql
hive on spark 动态解决小文件太多的办法
但是随之而来的是用
sparksql
往hive表中插入数据时,会产生很多小文件。用hive时,可以通
Yano阳
·
2017-11-27 15:01
spark
Spark SQL在100TB上的自适应执行实践(转载)
原文链接:https://yq.aliyun.com/articles/570048
SparkSQL
是ApacheSpark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践
weixin_33739523
·
2017-11-24 11:00
Spark SQL 整合Hive的使用
官网地址点击进入
SparkSQL
官方释义
SparkSQL
isApacheSpark'smoduleforworkingwithstructureddata.一、使用
SparkSQL
访问Hive需要将$HIVE_HOME
A_ChunUnique
·
2017-11-22 20:48
Spark
Hive/
sparkSQL
( NOT IN ) 语句优化 ---- bigger than spark.driver.maxResultSize (1.0 GB)
之前设置的6g,还是不够,报错如下:[Stage5:===========================>(47+50)/97]17/11/2215:46:01ERRORscheduler.TaskSetManager:Totalsizeofserializedresultsof52tasks(6.1GB)isbiggerthanspark.driver.maxResultSize(6.0GB)
Raini.闭雨哲
·
2017-11-22 16:24
hive
SparkSQL
SparkSQL
的数据源
1.数据源
SparkSQL
的数据源:结构化的文件(json,parquet),或者是Hive的表,或者是外部的数据库(mysql),也或者是已经存在的RDD。
CatherineHuangTT
·
2017-11-22 11:16
Spark学习随笔
RDD转化为DataFrames的两种创建方式
1.通过反射的方式Scala的接口为
SparkSQL
提供了RDD通过转换成样例类,然后自动的转换成DataFrame,样例类定义了表的模式,使用反射读取case类参数的名称,并成为列的名称。
CatherineHuangTT
·
2017-11-22 11:27
Spark学习随笔
『 Spark 』14. 一次 Spark SQL 性能提升10倍的经历 | Taotao's Zone
『Spark』14.一次
SparkSQL
性能提升10倍的经历2016-12-13最后更新时间:写在前面本系列是综合了自己在学习spark过程中的理解记录+对参考文章中的一些理解+个人实践spark过程中的一些心得而来
·
2017-11-18 12:00
走进Spark生态圈:环境的安装与配置
,从而达到快速的大数据计算与分析Spark的优缺点优点快:基于内存的处理方式易用性:可以使用多种编程语言进行开发,例如:Scala,Java,Python通用性:适用于不同的处理场景1.交互式查询=>
SparkSQL
2
非白即黑
·
2017-11-17 16:30
spark
大数据
Spark
sparksql
从oracle读取数据然后整合到elasticsearch
pom.xm4.0.0com.ftms.sparkftms1.0-SNAPSHOT1.71.7UTF-82.11.82.0.02.7.3org.scala-langscala-library${scala.version}-->com.databricks-->spark-csv_2.10-->1.0.3-->-->org.scala-langscala-xml2.11.0-M4org.slf4j
Jaming_Jaming
·
2017-11-16 14:45
spark
hadoop,
sparksql
学习过程中遇到的报错及解决方法
四五个月之前学习了hadoop,
sparksql
,在学习过程中遇到了许多问题,陆续地总结到了word文档中,现在把这些东西放到博客里,虽然都是些基础的问题,但是相信也能够帮助到和我一样刚刚入门的小伙伴们
BornZhu
·
2017-11-14 15:21
Hadoop
Spark
Kylin知识整理与归纳
目前市面上主流的OLAP引擎,包括spark,impala,
sparksql
,d
哎哟喂喽
·
2017-11-10 11:34
Kylin知识整理与归纳
目前市面上主流的OLAP引擎,包括spark,impala,
sparksql
,d
哎哟喂喽
·
2017-11-10 11:34
SparkSQL
简单测试
其中注册表的方法都在另一篇记配置文件的文章中所示的代码里/***CreatedbyDravenon2017/11/1.*
[email protected]
*/objectCassandraSqlExampleextendsApp{valss=getSparkSessionimportss.implicits._ss.read.format(CASSANDRA_FORMAT).options(ca
draven1122
·
2017-11-02 15:51
Spark
SparkSql
本地化测试的maven POM
4.0.0com.draven.sparkDemosparkDemo1.0-SNAPSHOTcom.qiandw.spark.examplespark-helloworld1.0.0mysqlmysql-connector-java5.1.38net.alchim31.mavenscala-maven-plugin3.2.2compiletestCompile父类POM4.0.0com.qiand
draven1122
·
2017-11-02 15:22
Spark
Spark SQL
当数据符合这样的条件时,
SparkSQL
就会使得针对这些数据的读取和查询变得更加简单高效。
zhexiao27
·
2017-11-02 15:53
Bigdata
Spark SQL 个人总结
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用什么是DataFrames??
长胖的wo一定特美
·
2017-10-26 20:57
Spark-SQL
基于Hive+
sparkSQL
的人力资源系统实例
1.功能介绍:2.数据源介绍:2.1employee职工信息:职工姓名,职工id,职工性别,职工年龄,入职年份,职位,部门idMichael,1,male,37,2001,developer,2Andy,2,female,33,2003,manager,1Justin,3,female,23,2013,specialist,3John,4,male,22,2014,developer,2Herry
祗要习惯就好
·
2017-10-26 18:28
spark
SparkSQL
读取HBase数据,通过自定义外部数据源(hbase的Hive外关联表)
关键字:
SparkSQL
读取HBase、
SparkSQL
自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。
挖矿的小强
·
2017-10-26 10:16
spark
sparksql
正则匹配总结
这里对sql常用的一些正则匹配作一些匹配,都是来源别人博客,此处稍作整理和总结。mark一下1、sql中有like和rlike,具体区别like:%:匹配零个及多个任意字符_:与任意单字符匹配[]:匹配一个范围[^]:排除一个范围ESCAPE关键字定义转义符WHEREColumnALIKE'%5/%%'ESCAPE'/'like不是正则,而是通配符rlike:rlike是正则,正则的写法与java
lvdan86546853
·
2017-10-25 13:54
spark
spark报错
1.
sparksql
执行创建表的时候报错org.apache.spark.sql.execution.QueryExecutionException:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException
a280966503
·
2017-10-23 23:58
Spark组件介绍
的设计理念交互式和迭代式在集群多点内存中运行的分布式计算容错数据集合同时Spark还支持使用不同的语言编程(Java,Scala,R,Python)可以从不同的数据源获取数据(HDFS,Cassandra,HBase)实现不同的功能SparkCore,
SparkSQL
C_FuL
·
2017-10-23 10:16
Spark
spark-sql调优
sparksql
性能调优性能优化参数在spark中,
SparkSQL
性能调优只要是通过下面的一些选项进行优化的:1spark.sql.codegen默认值为false,当它设置为true时,
SparkSQL
ZhaoYingChao88
·
2017-10-21 19:41
spark-sql
Spark Parquet使用
SparkSQL
下的Parquet使用最佳实践和代码实战分类:spark-sql(1)一、
SparkSQL
下的Parquet使用最佳实践1)过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式
ZhaoYingChao88
·
2017-10-18 15:26
spark
DMP用户画像系统(SparkGraphX SparkCore
SparkSQL
)
DMP用户画像系统(SparkGraphXSparkCore
SparkSQL
)课程观看地址:http://www.xuetuwuyou.com/course/221课程出自学途无忧网:http://www.xuetuwuyou.comDMP
含笑三步
·
2017-10-18 09:35
DMP
Spark加载和保存数据
支持的格式文件系统:比如NFS,HDFS,S3,TEXT,JSON等使用
SparkSQL
处理结构化数据:比如Json,APACHEHIVE等键值对的数据库:比如CASSANDRA,HBASE,ELASTICSEARCH
zhexiao27
·
2017-10-12 14:35
Bigdata
大数据之Spark
同时支持丰富的高级工具集,如处理SQL和结构化数据的
SparkSQL
,机器学习MLlib,图处理的GraphX,和SparkStreaming。
aloneload
·
2017-09-27 20:22
大数据
Spark SQL原理与DataFrame、DataSet相关API操作以及代码介绍
SparkSQL
andDataFrame、DataSet1.课程目标1.1.掌握
SparkSQL
的原理1.2.掌握DataFrame数据结构和使用方式1.3.熟练使用
SparkSQL
完成计算任务2.
SparkSQL
2.1
晓晓白熊
·
2017-09-27 14:10
大数据spark
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
SparkSQL
,DataFramesandDatasetsGuideOverviewSQLDatasetsandDataFrames开始入门起始点:SparkSession创建DataFrames无类型的
Joyyx
·
2017-09-27 10:48
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
SparkSQL
,DataFramesandDatasetsGuideOverviewSQLDatasetsandDataFrames开始入门起始点:SparkSession创建DataFrames无类型的
ApacheCN_Xy
·
2017-09-26 16:50
Apache
Spark2.2.0
Apache-spark
ApacheCN
Spark
Spark中文文档
读写parquet格式文件的几种方式
woloqun/article/details/76068147摘要本文将介绍常用parquet文件读写的几种方式1.用spark的hadoopFileapi读取hive中的parquet格式文件2.用
sparkSql
卡奥斯道
·
2017-09-25 18:49
spark
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
SparkSQL
,DataFramesandDatasetsGuideOverviewSQLDatasetsandDataFrames开始入门起始点:SparkSession创建DataFrames无类型的
片刻_ApacheCN
·
2017-09-25 11:57
【Spark系列8】Spark Shuffle FetchFailedException报错解决方案
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
SparkSQL
shuffle
江南小白龙
·
2017-09-24 15:21
Spark
Spark踩坑
Sparksql
以elasticSearch为数据源,访问数据,问题记录表:问题1:java.lang.RuntimeException:java.io.InvalidClassException:org.apache.spark.rpc.netty.RequestMessage
李小耀
·
2017-09-22 08:48
Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN
它提供了Java,Scala,Python和R的高级API,以及一个支持通用的执行图计算的优化过的引擎.它还支持一组丰富的高级工具,包括使用SQL处理结构化数据处理的
SparkSQL
,用于机器学习的MLlib
ApacheCN_Xy
·
2017-09-20 14:52
Apache中文网
ApacheCN
Apache-spark
spark
Spark中文文档
Apache
Spark源码分析之
SparkSql
的Analyzer,Optimizer
在上一篇博文中,我们深入的了解了
SparkSql
中的sql语句经过DDLParser、
SparkSQL
Parser和SqlParser处理后得到了一个树结构的UnresolvedLogicalPlan,
yzgyjyw
·
2017-09-20 10:53
spark
通过Thrift Server使用JDBC来运行Spark SQL
通过ThriftServer使用JDBC来运行
SparkSQL
标签(空格分隔):thriftserverjdbc
sparkSQL
更新记录初始发布:2017-09-19第一次更新:xxx简介ThriftJDBC
子安
·
2017-09-19 15:47
Spark
Spark源码解析之
SparkSql
首先我们回顾一下使用
SparkSql
的一般步骤:1.从数据源或者RDD读取数据,构造出一个DataFrame2.使用DataFrame的registerTempTable方法根据刚才读取的数据创建一个临时表
yzgyjyw
·
2017-09-18 16:24
spark
SequoiaDB+
SparkSQL
与 SmartBI 整合教程
1前言在现代的企业运营中,除了是和竞争对手比拼产品的功能、市场的推广能力外,还需要和竞争对手比拼业务数据的挖掘能力,所以现在越来越多的企业对业务数据的重视程度越来越高,并且在数据分析和数据挖掘方面投入更多的资源,希望能够在此领域领先于竞争对手,从而占据商业竞争中更加有利的地位。而在数据分析、数据挖掘领域,数据量的积累往往是最基础的条件,要想从数据分析中得出更加符合实际的业务价值,或者是更加准确的市
sequoiadb_official
·
2017-09-14 09:25
Spark SQL 中 dataFrame 学习总结
DataFrame提供了详细的结构信息,可以让
sparkSQL
清楚的知道数据集中包含哪些列,列的名称和类型各是什么?RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。
ChinaUnicom110
·
2017-09-13 14:15
SQL
dataSet
spark
spark
CDH5.7.6支持
SparkSQL
ThriftServer
我的场景:社区免费版CDH5.7.6、Spark要onYarn;CDH从5.5开始Sparkdistro不带ThriftServer分布式SQL引擎、以及spark-sql脚本。ThriftServer是Spark异构数据大融合愿景重要入口之一,spark-sql脚本是测试SQL利器,但CDH优先推自家impala:whyandwhentousewhichengine(Hive,Impala,an
DeepLearningZ
·
2017-09-12 18:59
spark2.2.0源码学习过程记录:Day8
1、《apachespark源码剖析》浏览第六、七、八、九章后面的几章中只准备学习其中的
sparksql
部分,所以首先全部浏览了一下,再回过头来看第七章2、读《apachespark源码剖析》第七章第1
猫耳山大王
·
2017-09-09 18:45
spark2.2.0源码学习
sparkSQL
语句总结
验证hive支持的语句,以下语句也被
sparkSQL
支持: 2; INSERT OVERWRITE TABLE t1 VALUES(1,'Smith'),(13,'Joy'),(104,'Jack
cvv54
·
2017-09-08 11:38
SQL
spark
【Spark 2.0官方文档】Spark SQL、DataFrames以及Datasets指南
文档说明本文是基于《Spark官方文档》
SparkSQL
,DataFrames以及Datasets编程指南这篇文章翻译而来。原文中关于R语言的部分本文档全都省略。
BBlue-Sky
·
2017-09-06 08:35
云计算
spark
api
文档
sql
基于java的
sparkSQL
从mysql中读取数据
发现网上基于java的写法很少,这里就做个记录,两种从mysql中读取数据的方法。第一种:Stringsql="(selectu.user_name_zh,r.organ_namefromuser_group_organr,userasu"+"wherer.user_id=u.user_idlimit1,5)asuser_organ";SQLContextsqlContext=SQLContext
渭水飞熊
·
2017-09-02 21:04
spark
spark-sql like查询
当时遇到使用两个表,需要用到like的时候,建议使用mapsidejoin或者使用
sparksql
的broadcastjoinsqlContext.sql("""|select*fromleftA,rightBwhereA.urllikecontact
九指码农
·
2017-08-27 14:47
大数据
SparkSQL
读取Hive数据插入Redis
考虑使用
SparkSQL
读取数据插入Redis。(2)优化思路步骤1)首先使用collection_list批量处理每个字段。测试的时候报错,数据量到达上限的时候,会OOM或者报连接Redis失败。
FxData
·
2017-08-27 14:05
spark学习-18-Spark的Core理解
有一次我要跑一个任务,spark-submit提交的任务,但是它总是处于ACCEPED等待接受的状态,以前遇到这个问题,这个是内存不够引起的Spark学习-
SparkSQL
–05-
SparkSQL
CLIApplicationreportforapplication
九师兄-梁川川
·
2017-08-23 16:35
大数据-spark
spark学习-17-Java版
SparkSQL
程序读取Hbase表注册成表SQL查询
参考:spark学习-
SparkSQL
–11-scala版写的
SparkSQL
程序读取Hbase表注册成表SQL查询http://blog.csdn.net/qq_21383435/article/details
九师兄-梁川川
·
2017-08-22 16:40
大数据-spark
spark学习-
SparkSQL
--14-JavaRDD注册成表然后用
SparkSQL
查询
1.先看正确的例子packagecom.lcc.spark.rdd.test;importjava.io.Serializable;publicclassPersonimplementsSerializable{/****/privatestaticfinallongserialVersionUID=1L;privateStringid;privateStringname;publicString
九师兄-梁川川
·
2017-08-20 14:11
大数据-spark
上一页
74
75
76
77
78
79
80
81
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他