E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
SQL on Hadoop 之查询效率分析
本文选择了一句比较有代表性的查询语句,分别用不同的执行引擎执行,hiveonmr用时278s,hiveontez用时44s,
sparkSQL
用时24s,而presto只要18s。
群演_
·
2021-06-22 03:22
Spark--SparkCore面试知识点总结
如果说HDFS是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式实时首选标准;速度更快:从使用
sparksql
操作普通文件CSV和parquet文件速度对比上看,绝大多数情况会比使用
李小李的路
·
2021-06-21 17:07
Spark学习(1)-架构原理
它擅长批量数据处理,处理流工作负载,交互式查询,机器学习等;它可以通过standalone模式,yarn-client或者yarn-cluster等模式在hadoop集群中运行;而依托在spark数据处理之上的有
SparkSql
技术蜗牛
·
2021-06-21 07:26
SparkSQL
执行update操作修改mysql数据
//user表样例类caseclassUser1(id:Long,name:String,password:String,imgUrl:String,update_date:String)object
SparkSQL
UpdateMySQLOfJDBC
·
2021-06-18 21:35
mysqlsparkscala
快乐大数据第10课
SparkSQL
i:10010#
SparkSQL
概述及原理提供了两种操作数据的方式?SQL查询?DataFrame和DataSetAPI1提供了非常丰富的数据源API?
快乐大数据
·
2021-06-15 08:46
2/2)
SparkSQL
– 从0到1认识Catalyst
SparkSQL
–从0到1认识Catalyst–有态度的HBase/Spark/BigDatahttp://hbasefly.com/2017/03/01/
sparksql
-catalyst/最近想来,
葡萄喃喃呓语
·
2021-06-14 11:55
sparkSQL
中UDF的使用
在spark中使用sql时一些功能需要自定义方法实现,这时候就可以使用UDF功能来实现多参数支持UDF不支持参数*的方式输入多个参数,例如String*,不过可以使用array来解决这个问题。定义udf方法,此处功能是将多个字段合并为一个字段defallInOne(seq:Seq[Any],sep:String):String=seq.mkString(sep)在sql中使用sqlContext.
breeze_lsw
·
2021-06-12 01:34
Hudi 0.6.0 源码阅读(数据写入)
源码阅读(数据写入)Hoodie
SparkSql
Writer.write(){//数据写入checkWriteStatus(){//提交数据client.commit(commitTime,writeStatuses
海南中剑
·
2021-06-10 23:44
spark中DataFrame的使用方法
2020/07/08-引言《LearningSpark》中使用的spark版本还是比较低的,所以对于DataFrame部分基本上没有涉及,虽然在
sparkSql
中提到了schemaRDD这个内容。
VChao
·
2021-06-10 19:05
大量数据量下,很实用的共享变量
最近在负责SparkStreaming结合
SparkSql
的相关项目,语言是Java,留下一些笔记,也供大家参考,如有错误,请指教!
jason__huang
·
2021-06-10 14:40
SparkSQL
的shell命令
进入
SparkSQL
:spark-sql--masteryarn--driver-cores1--driver-java-options"-Dspark.driver.port=4050"--confspark.sql.warehouse.dir
汤圆毛毛
·
2021-06-10 05:50
如何基于 Pulsar 和 Spark 进行批流一体的弹性数据处理?
2017年7月,Spark2.2.0版本正式推出的Sparkstructuredstreaming将
SparkSQL
作为流处理、批处理底层统一的执
StreamNative
·
2021-06-09 21:13
SparkSQL
数据源之Hive数据库
ApacheHive是Hadoop上的SQL引擎,
SparkSQL
编译时可以包含Hive支持,也可以不包含。
大数据小同学
·
2021-06-09 08:06
SparkSQL
实战
数据说明数据集是货品交易数据集image.png每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价加载数据tbStock:scala>caseclasstbStock(ordernumber:String,locationid:String,dateid:String)extendsSerializabledefinedclasstbStockscala>valtbStoc
大数据小同学
·
2021-06-08 19:05
SparkSQL
数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC
手动指定选项
SparkSQL
的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。
大数据小同学
·
2021-06-08 11:44
中文文档 pyspark.sql.DataFrame
一个DataFrame相当于在
SparkSQL
中一个相关的表,可在SQLContext使用各种方法创建,2.1agg(*exprs)没有组的情况下聚集整个DataFrame(df.groupBy.agg
cassie_xs
·
2021-06-08 02:46
通过扩展 Spark SQL ,打造自己的大数据分析引擎
SparkSQL
的Catalyst,这部分真的很有意思,值得去仔细研究一番,今天先来说说Spark的一些扩展机制吧,上一次写Spark,对其SQL的解析进行了一定的魔改,今天我们按套路来,使用砖厂为我们提供的机制
麒思妙想
·
2021-06-06 18:00
数据库
大数据
spark
hive
kubernetes
[新星计划]通过扩展 Spark SQL ,打造自己的大数据分析引擎
SparkSQL
的Catalyst,这部分真的很有意思,值得去仔细研究一番,今天先来说说Spark的一些扩展机制吧,上一次写Spark,对其SQL的解析进行了一定的魔改,今天我们按套路来,使用砖厂为我们提供的机制
麒思妙想
·
2021-06-06 14:34
流计算
大数据
spark
scala
新星计划
Spark sql实现自定义函数
Sparksql
实现自定义函数文章目录一、为什么要自定义function?二、实现自定义的函数三、测试效果总结一、为什么要自定义function?
郭朝阳@
·
2021-06-05 15:02
Spark
spark
机器学习
DataSkew —— 数据倾斜问题解析及解决方案实践总结小记
DateSkewSpark为何会出现DateSkew数据倾斜的原因:数据分区的策略:定位数据倾斜问题查看数据倾斜的key的分布情况:数据倾斜产生的原理产生数据倾斜的操作不同情形倾斜数据处理方案Hql和
SparkSql
扫地增
·
2021-06-05 12:31
spark
hive
大数据
数据倾斜
DatasSkew
hive
spark
Spark Streaming入门
概述Hadoop的MapReduce及
SparkSQL
等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐,实时网站性能分析等,流式计算可以解决这些问题,sparkStreaming就是现在常用的流式计算框架
董二弯
·
2021-06-04 20:03
高级大数据研发工程师面试题总结
1.Spark处理数据流程、并行度决定机制2.
SparkSQL
解析SQL的详细流程、hash广播底层实现3.Sparkshuffle、shuffle文件4.groupByKey、reduceByKey、
大数据学习与分享
·
2021-06-04 09:03
笔试题
工作
面试
大数据
高级大数据研发工程师面试
大数据面试
求职
工作
Hive 元数据表结构详解_豪猪的博客-CSDN博客_hive元数据表结构
本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、
SparkSQL
、Hive等
·
2021-06-01 17:00
org.apache.spark.sql.catalyst.catalog.ExternalCatalog as super class
一、报错在进行
SparkSql
代码调试时,代码确认无误执行报如下错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:classorg.apache.spark.sql.hive.HiveExternalCataloghasinterfaceorg.apache.spark.sql.catalyst.catalog.Ext
扎西的德勒
·
2021-05-26 14:37
2021年大数据基础(四):大数据业务分析基本步骤
目录大数据业务分析基本步骤明确分析目的和思路数据收集flumesqoopkettle数据处理-ETLMapReduceSpark数据分析HiveSQL
SparkSQL
数据展现报告撰写部门组织结构大数据业务分析基本步骤典型的大数据分析包含以下几个步骤
Lansonli
·
2021-05-22 21:35
大数据
大数据业务分析基本步骤
Spark基础知识
提供了内存计算和基于DAG的任务调度执行机制,减少了迭代计算时的I/O开销;Spark的设计遵循“一个软件栈满足不同应用场景”的理念,形成了一套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即席查询(
SparkSQL
冰科技
·
2021-05-19 19:53
hadoop
hadoop
spark
flink
Spark job server使用调研
“SparkasService”:针对job和contexts的各个方面提供了REST风格的api接口进行管理支持
SparkSQL
、Hive、StreamingConte
寻找的脚步
·
2021-05-19 10:11
2021年大数据Spark(五十四):扩展阅读
SparkSQL
底层如何执行
目录扩展阅读
SparkSQL
底层如何执行RDD和
SparkSQL
运行时的区别Catalyst扩展阅读
SparkSQL
底层如何执行RDD和
SparkSQL
运行时的区别RDD的运行流程大致运行步骤先将RDD
Lansonli
·
2021-05-18 23:52
#
Spark
SparkSQL底层如何执行
Spark SQL,DataFrame以及 Datasets 编程指南 - For 2.0
撰写本文时Spark的最新版本为2.0.0概述
SparkSQL
是Spark用来处理结构化数据的一个模块。与基础的SparkRDDAPI不同,
SparkSQL
提供了更多数据与要执行的计算的信息。
牛肉圆粉不加葱
·
2021-05-17 10:06
22list『DT_Spark 』第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)
第114课:SparkStreaming+Kafka+
SparkSQL
+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)-段智华的博客-博客频道-CSDN.NEThttp
葡萄喃喃呓语
·
2021-05-16 12:49
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki5
·
2021-05-14 15:58
spark从入门到放弃三十七:Spark Sql(10)自定义sql函数
文章地址:http://www.haha174.top/article/details/257703自定义
SparkSql
的函数下面给出一个示例注册一个'strLen'的函数求某个字段的长度sqlContext.udf.register
意浅离殇
·
2021-05-14 09:50
FLINK1.12.2 使用问题记录 (持续更新)
StreamExecutionEnvironment创建StreamTableEnvironment写hive报错2.在IDE中无法写入hive3.flink使用catalog写入hive报错没有权限(相同问题在
sparksql
arwenlin
·
2021-05-13 15:46
FLINK
1.12.2
学习实践记录
java
hadoop
hive
flink
海量数据分流处理-------一致性哈希算法
到现在也为止也做过不少工程项目,掌握了不少我只认为是工具的东西,比如Hadoop中的HDFS、Mapreduce、Yarn、HBase、Hive、Sqoop、Flume、Mahout、Pig、Zookeeper等和Spark中的
SparkSQL
狼牙战士
·
2021-05-12 16:04
Spark Sql源码详细分析
SparkSql
源码分析文章目录
SparkSql
源码分析一、
SparkSQL
架构设计二、代码分析1、Demo2、Catalyst执行过程三、执行计划分析1、sql解析阶段Parser2、绑定逻辑计划Analyzer3
郭朝阳@
·
2021-05-09 18:01
大数据
机器学习
SparkSQL
温习笔记-1
一、介绍Shark是
SparkSQL
(其完全脱离了Hive的限制)的前身,Shark的性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用
Hive_何伟
·
2021-05-09 17:57
Spark Sql JDBC实现 聚合、union、同数据源Join等下推
SparkSql
JDBC实现聚合、union、同数据源Join等下推简单熟悉下
SparkSql
处理JDBC数据源数据
sparkSql
处理JDBC数据源的代码比较简单,大家可以自行阅读官网使用demo。
郭朝阳@
·
2021-05-09 16:31
大数据
数据挖掘
Spark的那些事(一)
一Spark生态:1111.png支持
SparkSql
用于sql和结构化数据查询处理;支持MLlib用于机器学习;支持GraphX用于图形处理;支持SparkStreaming和StructuredSql
假文艺的真码农
·
2021-05-09 06:46
Structured Streaming概述
简介StructuredStreaming(结构化流)是一种基于
SparkSQL
引擎构建的可扩展且容错的流处理引擎。您可以以静态数据表示批量计算的方式来表达流式计算。
盗梦者_56f2
·
2021-05-07 22:28
SparkSql
读取文件/读取hdfs文件
SparkSql
读取文件/读取hdfs文件读取本地:imagevalspark=SparkSession.builder().appName("SQL-JSON").master("local[4]")
Mr_Alfred
·
2021-05-07 06:56
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2021-05-06 17:00
Spark SQL学习
SparkSQL
1.
SparkSQL
概述从Spark1.0开始,正式成为生态系统的一员专门处理结构化数据的Spark重要组件提供了两种操作数据的方式SQL查询DataFrame和DataSetAPI
SparkSQL
溯水心生
·
2021-05-05 21:48
SparkSQL
常用操作
1、从json文件创建dataFramevaldf:DataFrame=sqlContext.read.json("hdfs://master:9000/user/spark/data/people.json")valpeople=df.registerTempTable("person")valteenegers:DataFrame=sqlContext.sql("selectname,agef
BIGUFO
·
2021-05-03 12:20
Kyuubi服务源码解析:KyuubiServer
Kyuubi服务与HiveServer2服务非常相似,在Kyuubi中很多类的设计和代码逻辑都参照了HiveServer2(
SparkSQL
ThriftServer也是同样的道理)。
此间少年仍犹在
·
2021-05-02 15:33
Spark-DataSet学习
Dataset是Spark1.6开始新引入的一个接口,它结合了RDDAPI的很多优点(包括强类型,支持lambda表达式等),以及
SparkSQL
的优点(优化后的执行引擎)。
不圆的石头
·
2021-05-02 14:30
Spark Sql 运行原理
SparkSQL
原理和运行机制Catalyst执行优化器Catalyst是
SparkSQL
执行优化器的代号,所有
SparkSQL
语句最终都能通过它来解析、优化,最终生成可以执行的Java字节码。
jason__huang
·
2021-05-02 09:46
SparkSql
学习一
1简介
SparkSql
可以从各种结构化数据源读取数据(JSONHiveParquet等)中读取数据。而且
SparkSql
还可以通过JDBC去读去数据。
kason_zhang
·
2021-05-01 12:51
让Spark成为你的瑞士军刀
很感慨Spark用好了,真的是大数据的瑞士军刀依托于SparkStreaming/
SparkSQL
,封装了一套通过配置和SQL就能完成批处理和流式处理的引擎,这样可以很好的完成复杂的ETL处理过程,实现了数据的流转和变换
祝威廉
·
2021-05-01 06:04
Spark的简单的自定义函数
package
Sparksql
02importjava.langimportorg.apache.spark.sql.expressions.
不愿透露姓名的李某某
·
2021-04-29 15:11
Spark学习_01_概述
Spark一、spark概述1.spark·spark是一种由Scala语言开发的快速、通用、可拓展的大数据分析引擎·sparkcore中提供了spark最基础与最核心的功能·
sparkSQL
是spark
?CaMKII
·
2021-04-23 19:28
Hadoop
Spark
大数据
上一页
25
26
27
28
29
30
31
32
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他