E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
用Apache Spark进行大数据处理
from:http://www.infoq.com/cn/articles/apache-spark-sql
SparkSQL
,作为ApacheSpark大数据框架的一部分,主要用于结构化数据处理和对Spark
iteye_13851
·
2020-07-02 04:30
Spark篇
解决Spark窗口统计函数rank()、row_number()、percent_rank()的OOM问题
窗口函数功能介绍一个简单的例子一个复杂的例子2.数据量过大时的OOM问题问题及原因解决方法1:用SQL处理解决方法2:转为rdd进行处理解决方法3:将数据量过多的分组进行随机打散,从而近似排序1.窗口函数功能介绍在利用
SparkSQL
英国老鼠_
·
2020-07-02 03:35
大数据Spark/SQL/MR
SparkSQL
自适应执行优化引擎
SparkSQL
自适应执行优化引擎背景AdaptiveExecution将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。
github_28583061
·
2020-07-02 01:07
Flink+Druid构建实时OLAP的探索
方案实时入库SQL支持度Spark+CarbonData支持
SparkSQL
语法丰富Kylin不支持支持joinFlink+Druid支持0.15以前
banmeng3487
·
2020-07-01 18:13
(3)Flink学习- Table API & SQL编程
模型类比:MapReduce==>HiveSQLSpark==>
SparkSQL
Flink==>SQL2、依赖结构所有TableAPI和SQL组件都捆绑在flink-tableMaven工件中。
^果然好^
·
2020-07-01 17:44
#
Flink
【
SparkSQL
】partitionColumn, lowerBound, upperBound, numPartitions如何加速数据库抽取(oracle)
在
SparkSQL
中,读取数据的时候可以分块读取。例如下面这样,指定了partitionColumn,lowerBound,upperBound,numPartitions等读取数据的参数。
大胖头leo
·
2020-07-01 15:29
PySpark学习日志
SparkSQL
性能调优参数
1,spark.hadoopRDD.ignoreEmptySplits默认是false,如果是true,则会忽略那些空的splits,减小task的数量。2,spark.hadoop.mapreduce.input.fileinputformat.split.minsize是用于聚合input的小文件,用于控制每个mapTask的输入文件,防止小文件过多时候,产生太多的task。3,spark.s
stone-zhu
·
2020-07-01 15:30
BigData
spark
spark
sql
[2.5]详解spark sql用户自定义函数:UDF与UDAF
参考Spark官网王家林DT大数据梦工厂场景UDAF=USERDEFINEDAGGREGATIONFUNCTION上一篇文章已经介绍了
sparksql
的窗口函数,并知道
sparksql
提供了丰富的内置函数供猿友们使用
彭宇成
·
2020-07-01 12:45
Spark
2019年新年计划
以下是我的新年目标:一、主要:学习目标:在不准备的情况下能讲清楚每个组件的原理架构、优化方案(知道优劣才懂取舍),并操作熟练(hdfs、yarn、mapreduce、hbase、hive、sparkcore、
sparksql
吾芯向Young
·
2020-07-01 06:29
规划类
基于 Scala 的产品开发实践 | 掘金技术征文
基于目前的应用场景,主要使用了
SparkSQL
,目前使用的版本为Spark1.5.0。我们有计划去同步升级Spa
weixin_34087503
·
2020-07-01 05:07
SparkSQL
的自适应执行---Adaptive Execution
1背景本文介绍的AdaptiveExecution将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。核心在于两点执行计划可动态调整调整的依据是中间结果的精确统计信息2动态设置ShufflePartition2.1SparkShuffle原理如上图所示,该Shuffle总共有2个Mapper与5个Reducer。每个Mapper会按相同的规则(由Partitioner定义)将自己的数
diaoxie5099
·
2020-07-01 02:32
spark从入门到放弃三十二:Spark Sql(5)hive sql 简述
文章地址:http://www.haha174.top/article/details/2566881简述
SparkSql
支持对Hive中存储的数据进行读写。
意浅离殇
·
2020-06-30 22:00
Spark 3.0 - AQE浅析 (Adaptive Query Execution)
1、前言近些年来,在对
SparkSQL
优化上,CBO是最成功的一个特性之一。CBO会计算一些和业务数据相关的统计数据,来优化查询,例如行数、去重后的行数、空值、最大最小值等。
Deegue
·
2020-06-30 20:59
spark
hadoop
Spark
AQE
Spark基本架构及运行原理
SparkSQL
:Spark处理结构化数据的库,就像HiveSQL,Mysql一样,企业中用来做报表统计。SparkStreaming:实时数据流处理组件,类似Storm。SparkStrea
zxc123e
·
2020-06-30 20:51
Spark
Spark入门必读:核心概念介绍及常用RDD操作
Spark内部提供了丰富的开发库,集成了数据分析引擎
SparkSQL
、图计算框架GraphX、机器学习库MLlib、流计算引擎SparkStreaming。
大数据v
·
2020-06-30 19:54
Spark(
SparkSql
) 写数据到 MySQL中(Spark读取TCP socket/文件)
日萌社人工智能AI:KerasPyTorchMXNetTensorFlowPaddlePaddle深度学习实战(不定时更新)Impala操作/读写Kudu,使用druid连接池Kudu原理、API使用、代码KuduJavaAPI条件查询spark读取kudu表导出数据为parquet文件(sparkkuduparquet)kudu导入/导出数据Kudu分页查询的两种方式map、flatMap(流的
あずにゃん
·
2020-06-30 17:19
spark
scala
大数据
sparksql
的agg函数,作用:在整体DataFrame不分组聚合
1、agg(expers:column*)返回dataframe类型,同数学计算求值df.agg(max("age"),avg("salary"))df.groupBy().agg(max("age"),avg("salary"))2、agg(exprs:Map[String,String])返回dataframe类型,同数学计算求值map类型的df.agg(Map("age"->"max","s
zhuiqiuuuu
·
2020-06-30 17:44
spark
SparkSql
--Datafram
1.合并inner,cross,outer,full,full_outer,left,left_outer,right,right_outerfrompyspark.sqlimportRowfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName(‘my_app_name’).enableHiveSupport().ge
Catherine_In_Data
·
2020-06-30 16:14
spark
Spark SQL中实现Hive MapJoin
在
SparkSQL
中,目前还不支持自动或者手动使用MapJoin。变通的
刘光华_zhou
·
2020-06-30 16:57
spark
大数据工程师,需要学习哪些基本技能?
Yarn)04.HBase(JavaAPI操作+Phoenix)05.Hive(Hql基本操作和原理理解)06.Kafka07.Storm08.Scala需要09.Python10.Spark(Core+
sparksql
人工智能爱好者
·
2020-06-30 16:32
大数据
spark解决org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow
使用
sparksql
的thriftjdbc接口查询数据时报这个错误Exceptioninthread"main"java.sql.SQLException:org.apache.spark.SparkException
就问你吃不吃药
·
2020-06-30 14:44
Spark
SQL
Apache-DolphinScheduler-1.2.1 源码: 编译
其主要目标如下:以DAG图的方式将Task按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态支持丰富的任务类型:Shell、MR、Spark、SQL(mysql、postgresql、hive、
sparksql
张伯毅
·
2020-06-30 14:31
spark基础之spark sql运行原理和架构
一
SparkSQL
运行架构
SparkSQL
对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。
happy19870612
·
2020-06-30 14:44
大数据/spark
spark 将dataframe数据写入Hive分区表
从spark1.2到spark1.3,
sparkSQL
中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API。
明星it
·
2020-06-30 13:59
spark
spark
SparkSql
项目实战
第1章准备数据我们这次Spark-sql操作中所有的数据均来自Hive.首先在Hive中创建表,并导入数据.一共有3张表:1张用户行为表,1张城市表,1张产品表CREATETABLE`user_visit_action`(`date`string,`user_id`bigint,`session_id`string,`page_id`bigint,`action_time`string,`sear
zfq-0314
·
2020-06-30 13:44
SparkSQL
大数据
OLAP OLTP presto、druid、
sparkSQL
、kylin的对比分析,如性能、架构等,有什么异同?
https://www.zhihu.com/question/41541395?sort=createdhttps://www.cnblogs.com/andy6/p/6011959.htmlOLTP和OLAP的区别联机事务处理OLTP(on-linetransactionprocessing)主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。O
OkidoGreen
·
2020-06-30 12:20
大数据-概述
spark-sql中视图关联表结果不匹配问题
在
sparkSQL
中将计算结果保存为视图,关联其他表后出现结果匹配错误,通过分析发现,是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行,真正执行的时候是需要触发
脆皮软心
·
2020-06-30 10:00
spark-sql中视图关联表结果不匹配问题
在
sparkSQL
中将计算结果保存为视图,关联其他表后出现结果匹配错误,通过分析发现,是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行,真正执行的时候是需要触发
菩提本无树,明镜亦非台
·
2020-06-30 10:00
Parquet与ORC:高性能列式存储格式
越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、
SparkSQL
教练_我要踢球
·
2020-06-30 09:52
大数据
OLAP
Spark--Spark SQL
Spark-Sql介绍及使用
SparkSql
概述
Sparksql
的前世今生什么是
SparkSql
为什么要学习
SparkSQL
DataFrame什么是DataFrameDataFrame与RDD的区别DataFrame
youAreRidiculous
·
2020-06-30 08:28
详解
代码实现
SparkSQL
---开窗函数(java)
packagecom.spark.
sparksql
.save;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext
Star-Technology
·
2020-06-30 08:27
Big
Data
SparkSQL
---UDF(java)
packagecom.spark.
sparksql
.udfimportorg.apache.spark.sql.types.
Star-Technology
·
2020-06-30 08:27
SparkStreaming项目实战系列——1.实时流概述
官网关于Spark2.2.0需要以下条件:maven3.3.9+Java8+Spark2.2.01.初识实时流处理1.1业务现状分析需求:统计主站每个(制定)课程访问的客户端、地域信息分布地域:ip转换
SparkSQL
陈府才俊
·
2020-06-30 08:58
spark
大数据组件Presto,Spark SQL,Hive相互关系
大数据组件Presto,
SparkSQL
,Hive相互关系工作上经常写SQL,有时候会在Presto上查表,或者会Prestoweb页面上写SQL语句。
奥卡姆的剃刀
·
2020-06-30 07:51
SQL
大数据
Spark
Hive
hive常用函数
1、数据介绍首先我们产生我们的数据,使用
sparksql
来产生吧:valdata=Seq[(String,String)](("{\"userid\":\"1\",\"action\":\"0#222\
RangeYan2012
·
2020-06-30 06:19
数据仓库
Hive
大数据
spark解决 org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow
使用
sparksql
的thriftjdbc接口查询数据时报这个错误Exceptioninthread"main"java.sql.SQLException:org.apache.spark.SparkException
AI_skynet
·
2020-06-30 02:23
spark
大数据-spark概述
目前,Spark生态系统已经包含多个子项目的集合,其中包含
SparkSQL
、SparkStreaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。
xiaoqiang17
·
2020-06-30 00:00
大数据-spark
大数据
spark
wordcount
sparkSQL
读取hive分区表的问题追踪
示例读取的table格式为parqut格式,spark每次读取会扫描table根目录下所有的目录和文件信息,然后生成file的FakeFileStatus信息,用于生成table的schema信息,并且每次查询table都会判断该table的schema的信息是否有变化,如果有变化则从parquet的meta文件、data文件的footeer(如果meta文件不存在),再次生成schame信息,但
xiaolinzi007
·
2020-06-30 00:37
spark
详解spark sql用户自定义函数:UDF与UDAF
场景UDAF=USERDEFINEDAGGREGATIONFUNCTION11上一篇文章已经介绍了
sparksql
的窗口函数,并知道
Sparksql
提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢
打怪的蚂蚁
·
2020-06-29 23:42
Spark
Spark复习 Day03:
SparkSQL
Spark复习Day03:
SparkSQL
1.什么是
SparkSQL
------------------------------------------------
SparkSQL
是Spark用来处理结构化
葛红富
·
2020-06-29 23:15
大数据
Spark
Spark深入解析(十九):
SparkSQL
之Spark SQL概述
目录
SparkSQL
官方介绍什么是
SparkSQL
SparkSQL
的特点
SparkSQL
的优缺点Hive和
SparkSQL
SparkSQL
数据抽象什么是DataFrame什么是DataSetRDD、DataFrame
老王的小知识
·
2020-06-29 22:07
【大数据】Spark
Spark深入解析:博文大纲
目录一、Spark基础解析二、SparkScore三、
SparkSql
四、SparkStreaming五、StructuredStreaming一、Spark基础解析Spark深入解析(一):Spark
老王的小知识
·
2020-06-29 22:36
【大数据】Spark
SparkSql
读取elasticsearch 表数据
SparkSql
读取elasticsearch表数据1版本Spark2.3.2,elasticsearch5.3.3,scala2.112Pom.xml部分依赖 org.elasticsearch
羞羞的铁脚
·
2020-06-29 22:46
编程
Spark SQL 分析 Nginx 访问日志
前言项目地址github:
SparkSQL
分析Imooc访问日志环境说明Java版本:1.8Scala版本:2.11.12Hadoop版本:hadoop-2.6.0-cdh5.14.0spark版本:spark
小旋锋
·
2020-06-29 22:24
大数据实践
Spark:org.apache.spark.SparkException: Task not serializable
最近调式Java语言写
sparkSQL
访问HBase数据表,遇到标题所述的问题,先描述下问题出现过程,然后讲述下问题解决办法。
wuscar0703
·
2020-06-29 21:07
Spark
SparkSQL
学习笔记(一)DataFrame
SQLContext:
SparkSQL
的所有方法都在SQLContext类或它的子类里,用SparkContext创建一
王义凯_Rick
·
2020-06-29 20:39
#
spark
Spark实验之环境搭建
其他Spark的库都是构建在RDD和SparkCore之上的
SparkSQL
:提供通过ApacheHi
敲代码去
·
2020-06-29 18:34
Spark
fastspark | 用SparkCore和
SparkSQL
两种方式实现各省份广告TopN统计
内容本文讲述使用SparkCore和
SparkSQL
实现每个省份点击量最多的前三个广告id,测试数据如下省份id广告id110011001100111211011112110211021103111211121101111221002121210121212104212121112104210321112121210431213112311231213100SparkCoreimportorg.a
pomelorange
·
2020-06-29 18:20
大数据
Spark
EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
背景和动机
SparkSQL
多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划,后者的目的是针对既定的计划尽可能执行的更快。
weixin_45906054
·
2020-06-29 16:10
sparkSQL
13(DStream操作实战、数据源)
文章目录DStream操作实战1、架构图2、实现流程3、执行查看效果sparkStreaming数据源1、文件数据源2、自定义数据源3、RDD队列DStream操作实战1SparkStreaming接受socket数据,实现单词计数WordCount1、架构图2、实现流程第一步:创建maven工程并导入jar包2.11.82.2.0org.scala-langscala-library${scal
Bitmao888
·
2020-06-29 16:54
spark
大数据
上一页
50
51
52
53
54
55
56
57
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他