E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
【Spark篇】---
SparkSQL
on Hive的配置和使用
一、前述SparkonHive:Hive只作为储存角色,Spark负责sql解析优化,执行。二、具体配置1、在Spark客户端配置HiveOnSpark在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml:配置hive的metastore路径hive.metastore.uristhrift://node1:90832、启动Hive的metastore服务
L先生AI课堂
·
2020-08-18 10:06
Spark(四)————
SparkSQL
和SparkStreaming
1、什么是
SparkSQL
SparkSQL
模块能构建在Spark上运行sql语句,主要有DataFrame(数据框、表),它类似于构建在hadoop上的hive以及构建在hbase上的pheonix用于进行
Jorocco
·
2020-08-18 10:34
大数据
Spark
Spark通过Dataframe操作hive
1.1、创建一个SQLContext,SQLContext(及其子类,如本节的HiveContext)是
SparkSQL
所有功能的入口SqlContext:应该是对应spark-sql这个project
chbxw
·
2020-08-18 10:39
#
spark
Spark:实时数据微批处理(4.Spark sql及项目实战)
文章目录1.
SparkSQL
概述1.1什么是
SparkSQL
?
卖女孩的小火柴Jaffe
·
2020-08-18 10:05
bigdata
SparkSQL
如何实现多数据源交互?这篇博客或许能告诉你答案!
写在前面:博主是一名软件工程系大数据应用开发专业大二的学生,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/,博客主页:https://ali
Alice菌
·
2020-08-18 10:34
#
Spark
Spark SQL之Hive数据源实战
目录一:HiveContext与SQLContext的区别二:使用
SparkSQL
操作Hive三:DataFrame的saveAsTable命令四:查询分数大于80分的学生的完整信息一:HiveContext
威少SOS
·
2020-08-18 10:29
#
Spark
SQL
Spark
SQL之Hive数据源实战
Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark SQL案例实战(一)...
作者:周志湖放假了,终于能抽出时间更新博客了…….1.获取数据本文通过将github上的Spark项目git日志作为数据,对
SparkSQL
的内容进行详细介绍数据获取命令如下:[root@masterspark
weixin_34226182
·
2020-08-18 10:28
spark2.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过
sparksql
与hive结合实现数据分析将成为一种最佳实践。
weixin_33967071
·
2020-08-18 10:25
SparkSql
详细概述
什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。
大数据小同学
·
2020-08-18 10:19
#
SparkSql
数据库
java
大数据
hive
python
【
SparkSQL
】
SparkSQL
与多数据源交互的操作
目录介绍写数据读数据总结介绍
SparkSQL
可以与多种数据源交互,如普通文本、json、parquet、csv、MySQL等1.写入不同数据源2.读取不同数据源写数据//创建SparkSessionvalspark
没去过埃及的法老
·
2020-08-18 10:37
Sprak
Spark Streaming篇2:Spark Streaming 更新update数据到mysql
SparkStreaming篇2:SparkStreaming更新update数据到mysql目前有很多方式写入mysql,你可以在streaming中创建DataFrame,用
sparksql
写入mysql
叮咚菜鸟许某人
·
2020-08-18 10:36
Spark
Streaming
mysql
spark
spark篇1:Spark和
SparkSql
UDF数据倾斜之随机数前缀
spark篇1:Spark和
SparkSql
UDF数据倾斜之随机数前缀废话不多说,直接上干货1sparkrdd思路:先加前缀一次聚会,再去前缀二次聚合packageRDDDFDSimportRDDDFDS
叮咚菜鸟许某人
·
2020-08-18 10:36
spark
sparksql
udf
大数据系列之
SparkSql
应用解析(三)
文章目录第1章
SparkSQL
概述1.1什么是
SparkSQL
1.2RDDvsDataFramesvsDataSet1.2.1RDD1.2.2Dataframe1.2.3Dataset1.2.4三者的共性
开封程序员阿强
·
2020-08-18 10:34
大数据系列学习笔记
22 ,
sparkSql
: 数据源,内置格式,读数据,存数据,运行 sql文件上,spark on hive
一,数据源:1,默认数据源:Parquet格式修改默认格式:spark.sql.sources.default例子:packageday05_
sparkSql
importorg.apache.spark.sql.SparkSessionobjectDemo03Parqut
孙砚秋
·
2020-08-18 10:02
使用Spark SQL读取Hive上的数据
SparkSQL
主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet、Hive、Json等)。
qq_duhai
·
2020-08-18 10:29
yarn
#
spark
sql
spark
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析小结
2、SparkStreaming能够和SparkCore、
SparkSQL
来进行混合编程。3、SparkStreaming我们主要关注: (1)SparkStreaming能接受什么数据?kafka
aodawu2891
·
2020-08-18 10:39
94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战
与
SparkSQL
结合使用SparkStreaming最强大的地方在于,可以与SparkCore、
SparkSQL
整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream
ZFH__ZJ
·
2020-08-18 10:07
Spark入坑
PySpark---
SparkSQL
中的DataFrame(一)
DataFrame是按照列名来组织数据的分布式数据集,是
SparkSQL
最重要的抽象。
XiaodunLP
·
2020-08-18 10:07
Spark
PySpark
Python
大数据
HDFS+MapReduce+Yarn)HBase(JavaAPI操作+Phoenix)Hive(Hql基本操作和原理理解)KafkaStorm/JStormScalaPythonSpark(Core+
sparksql
物流大师
·
2020-08-18 10:57
机器学习
Spark SQL 快速入门系列(7) |
SparkSQL
如何实现与多数据源交互
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客主页:https://buwenb
不温卜火
·
2020-08-18 10:51
Spark
spark
大数据
SparkSql
中生成DataFrame的四种方式
SparkSql
中生成DataFrame的四种方式:方式一:定义一个caseclass类,将其作为RDD中的存储类型,然后导包importspark.implicts.
StudyEverydayForward
·
2020-08-18 10:18
SparkSql
spark
org.apache.commons.codec.binary.Base64与sun.misc.BASE64Encoder等效
SparkSQL
自定义函数遇见这个问题importorg.apache.commons.codec.binary.Base64;privatestaticvoidtest1()throwsException
bigdata-余建新
·
2020-08-18 10:33
Java
当前京东数据平台用到spark 的五种方式
当前京东数据平台用到spark的五种方式1.
sparksql
数据从Hive同步到ES用python包装命令,使用spark-submit提交,run_shell_cmd(spark-submit)具体案例可以参考另外的博文
秉寒CHO
·
2020-08-17 22:30
Spark
BigData————hdfs
大数据数据量很大需要用到的技术:hadoop(是一个生态圈)hdfssparksparkcoresparkStreaming
sparksql
hdfs产生背景数据存储:方案一:纵向扩展在一台服务器上进行硬件的扩展
cool_cool_coo1
·
2020-08-17 20:06
hdfs
datanode
namenode
Spark学习笔记(三)——
SparkSQL
(DataSet、DataFrame、hive集成、连接mysql)
SparkSQL
SparkSQL
精华及与Hive的集成一、
SparkSQL
简介1、SQLonHadoop2、
SparkSQL
前身3、
SparkSQL
架构4、
SparkSQL
运行原理5、Catalyst优化器二
throws-Exception
·
2020-08-17 09:31
Spark
#
Spark学习笔记
大数据
SparkSQL
/DataFrame /Spark RDD谁快?
NO如题所示,
SparkSQL
/DataFrame/SparkRDD谁快?
品途旅游
·
2020-08-16 23:13
编程语言
.Net
shell - 循环执行
sparkSql
程序
shell循环执行
sparkSql
程序[hadoop@slave106test]$catstart.sh#拿到random所有文件名,写入random.txthdfsdfs-ls/yk/data/random
YK_324504836
·
2020-08-16 20:15
linux
30天搞定spark源码系列-RDD番外篇-shuffledRDD
典型的shuffle类算子sparkshuffle在实战中的优化方向shuffledRDD的基本流程和代码框架是什么1、sparkshuffle相信对于使用过spark的童鞋来说,不管是
sparksql
枫叶的落寞
·
2020-08-16 15:06
spark
spark采坑集锦之
sparksql
操作hive
sparksql
如果想操作hive,用sql命令在hive中操作表一、需要在spark安装目录的conf文件夹准备好以下三个文件hadoop安装目录中conf文件夹下的配置文件core-site.xmlhdfs-site.xmlhive
方兵兵
·
2020-08-16 08:35
spark采坑集锦
spark操作hive(可解决绝大部分的问题)、
sparksql
操作hive
目标:想要完成使用spark在windows的idea下操作hive(对hive中的表查询等)最终代码(java):importorg.apache.spark.sql.SparkSession;importjava.io.Serializable;/***CreatedbyAdministratoron2017/4/3.*/publicclassSQLHiveJava{publicstaticv
LaZY_apple
·
2020-08-16 05:49
大数据
排错
大数据_hive和
sparksql
的对比
sparksql
可以使用hive里面的表,并做操作,并且会很快但是需要做如下配置1.hive-site.xmlhive的元数据配置文件要拷贝到spark的conf路径下2.spark的启动要加上--jarsmysql
Smile_dip
·
2020-08-15 22:51
SparkSQL
/DataFrame /Spark RDD谁快?
如题所示,
SparkSQL
/DataFrame/SparkRDD谁快?
凝望远处的天鹅
·
2020-08-15 21:00
SparkSQL
/DataFrame /Spark RDD谁快?
如题所示,
SparkSQL
/DataFrame/SparkRDD谁快?
凝望远处的天鹅
·
2020-08-15 21:00
大数据系统-Spark生态系统
其核心框架是Spark,同时涵盖支持结构化数据SQL查询与分析的查询引擎
SparkSQL
,提供机器学习功能的系统MLBase及底层的分布式机器学习库MLlib,并行图计算框架GraphX,流计算框架SparkStreaming
gao8658
·
2020-08-15 07:09
基础架构
【Kylin】(一)初识 Apache Kylin
目前已经出现了很多优秀的SQLonHadoop引擎,包括Hive、Impala及
SparkSQL
等,这些技术的出现和应用极大地降低了用
云 祁
·
2020-08-15 05:58
#
----
Kylin
大数据
OLAP
Apache
Kylin
kylin
通过一条SQL分析
SparkSQL
执行过程(三)
目录一、
SparkSql
解析步骤二、Spark的实现过程详解2.1)解析器2.2)分析器2.3)优化器2.4)Planner一、
SparkSql
解析步骤对于下面一段SQLSELECTa.uid,b.name
北京小辉
·
2020-08-15 03:23
Spark SQL(9)-Spark SQL JOIN操作源码总结
SparkSQL
(9)-
SparkSQL
JOIN操作源码总结本文主要总结下
sparksql
join操作的实现,本文会根据
sparksql
的源码来总结其具体的实现;大体流程还是从sql语句到逻辑算子树再到
刘姥爷观园子
·
2020-08-15 01:00
简单总结spark中executer的个数设置
1.standlone模式下公式:execuoterNum=spark.cores.max/spark.executor.cores相关参数在启动具体应用时指定例如启动基于standlone模式的
sparksql
AI_skynet
·
2020-08-14 22:55
spark
Spark学习-
SparkSQL
--04-
SparkSQL
CLI 单节点运行与yarn集群运行
executor-memory40g--total-executor-cores50--confspark.sql.warehouse.dir=hdfs://bigdata01.hzjs.co:8020/user/
sparksql
九师兄
·
2020-08-14 18:35
大数据-spark
Intel李锐:Hive on Spark解析
相较于其他诸如Impala、Shark(
SparkSQL
的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。
layne_liang
·
2020-08-14 18:00
Spark
十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示
SparkSQL
学习有一段时间了,因此花了一些时间写了一个日志清洗的项目,项目已经上传到github上了,项目地址感兴趣的可以拉下来看看。
飞翔的小宇宙
·
2020-08-14 17:58
Spark
SQL
从0开始学习spark(3)Spark Core 核心知识
零基础入门第三课1.Spark作业调度方式1.1cluster和client的区别2.spark核心功能介绍:2.1SparkContext2.2存储体系2.3计算引擎2.4部署模式3.Spark扩展功能3.1
SparkSQL
3.2SparkStreaming3.3SparkGraphX3.4SparkMLlib4
蛋蛋淡淡定
·
2020-08-14 11:29
spark
SparkSQL
读取CSV文件
一、核心代码valspark=SparkSession.builder().master("local[2]").appName("app").getOrCreate()//读取文件valsrcDF=spark.read.format("csv").option("header","true").option("multiLine",true).load("file:///C:\\1.csv")s
忘川三途
·
2020-08-14 11:14
大数据
SparkSQL
pyspark sql使用总结
py
sparksql
使用总结将多列合并为一列去除重复项string转为date格式将多列合并为一列concat函数,将多列合并为一列。
weixin_44053979
·
2020-08-13 22:20
pyspark
pyspark
sql
spark中将数据输出到json文件的两种方式
通常的案例就是,给我们一个普通文件,然后我们用sparkcore或者
sparkSQL
,遍历文件内容后,按照需求将再将遍历后得到的数据写入json文件中。
物物相连
·
2020-08-13 22:52
大数据
spark:
sparksql
:jdbc测试(mysql)
/***数据源:JDBC*@paramspark*/deftestJDBC(spark:SparkSession):Unit={//从机器1的mysql读取数据println("========================第一种读取mysql方式================================")//默认partation为1valurl1:String="jdbc:mysql
花和尚也有春天
·
2020-08-13 21:21
sparkSQL
spark sql 的catalyst优化器
需求:根据datalog解析出各个表、列名、以及根据表的join次数评选出热点表排名实现解析:
sparksql
的catalyst优化器过程解析:
sparksql
的执行经历了以下几个阶段1.parse(解析
一只考考拉
·
2020-08-13 21:20
spark
Spark SQL之External DataSource外部数据源(二)源代码分析
/**
SparkSQL
源代码分析系列文章*/(Ps:ExternalDataSource使用篇地址:
SparkSQL
之ExternalDataSource外部数据源(一)演示样例http://blog.csdn.net
weixin_34375251
·
2020-08-13 21:05
sparkSql
catalyst优化器
2019独角兽企业重金招聘Python工程师标准>>>相关概念AST树SQL语法树是编译后被解析的树状结构,树包括很多对象,每个节点都有特定的数据类型,同事有孩子节点(TreeNode对象)。规则等价规则转化将规则用于语法树。任何一个SQL优化器中,都会定义大量的Rule,SQL优化器遍历所有节点。匹配所有给定规则,如果匹配成功进行相应转换;失败则继续遍历下一个节点。Catalyst工作流程Par
weixin_34349320
·
2020-08-13 21:29
深入研究Spark SQL的Catalyst优化器(原创翻译)
SparkSQL
是Spark最新和技术最为复杂的组件之一。它支持SQL查询和新的DataFrameAPI。
weixin_34281477
·
2020-08-13 21:15
上一页
36
37
38
39
40
41
42
43
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他