E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。
本资料来自Workday的软件开发工程师JiannengLi在SparkSummitNorthAmerica2020的《OnImprovingBroadcastJoinsin
SparkSQL
》议题的分享
过往记忆
·
2020-07-10 05:35
Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能
多年以来,社区一直在努力改进
SparkSQL
的查询优化器和规划器,以生成高质量的查询执行计划。
过往记忆
·
2020-07-10 05:34
Spark SQL 在字节跳动的核心优化实践
以下是字节跳动数据仓库架构负责人郭俊的分享主题沉淀,《字节跳动在
SparkSQL
上的核心优化实践》。团队介绍数据仓库架构团队负责数据仓库领域架构设计,支持字节跳动几乎所有产品
过往记忆
·
2020-07-10 05:03
sparkSQL
统计TopN
原始数据如下:需求:按天统计uid。main方法:objectTopNStatJob{defmain(args:Array[String]):Unit={valspark=SparkSession.builder().appName("TopNStatJob").config("spark.sql.sources.partitionColumnTypeInference.enabled","fal
vincent_duan
·
2020-07-10 05:37
spark
Spark Streaming java实现简单例子(一)
1.背景:之前已经学习过
SparkSQL
的相关知识,现在开始对Spark的另一模块Streaming部分进行学习。
玖月启程
·
2020-07-10 04:25
Spark
Spark SQL小文件问题在OPPO的解决方案
SparkSQL
小文件是指文件大小显著小于hdfsblock块大小的的文件。过于繁多的小文件会给HDFS带来很严重的性能瓶颈,对任务的稳定和集群的维护会带来极大的挑战。
OPPO互联网技术
·
2020-07-10 03:49
spark
sql
sparkSql
动态插入hive分区表
前提条件:hive中创建分区表,并指定分区键createtabletest(idstirng)partitionedby(namestring)storedasorc;创建sparksession,不需要认证的话去掉config中内容SparkSessionss=SparkSession.builder().appName("test").master("local[2]".enableHiveS
麦田里的虫子
·
2020-07-10 03:39
hive
postgreSQL 修改字段类型为geometry
代码中用
sparksql
将数据存储了,geomtry的值已经转换为了16进制字符串geometry处理为WKB字符的代码:if(fldName.equalsIgnoreCase(Const.pg_field_geomtry
tanju_997
·
2020-07-10 03:02
gis
opengis
mysql通过字符串计算hashcode更新到原表和多表关联优化
mysql通过字符串计算hashcode更新到原表和多表关联优化一.需求描述现有表a,要求通过每条数据中的三个字段计算hashcode值更新到原表做为shopid.二.第一种做法最好的方式是通过
sparksql
tang_xiaotang
·
2020-07-10 03:51
mysql
第62课:
SparkSQL
下的Parquet使用最佳实践和代码实践学习笔记
第62课:
SparkSQL
下的Parquet使用最佳实践和代码实践学习笔记本期内容:1
SparkSQL
下的Parquet使用最佳实践2
SparkSQL
下的Parquet实战一:
SparkSQL
下的Parquet
梦飞天
·
2020-07-10 02:01
Spark
SparkSQL
基于DataSourceV2自定义数据源
SparkSQL
基于DataSourceV2自定义数据源版本说明:Spark2.3前言:之前在
SparkSQL
数据源操作文章中整理了一些
SparkSQL
内置数据源的使用,总的来说
SparkSQL
支持的数据源还是挺丰富的
shirukai
·
2020-07-10 02:47
Spark
浪尖以案例聊聊spark3的动态分区裁剪
SparkSql
中外连接查询中的谓词下推规则动态分区裁剪比谓词下推更复杂点,因为他会整合维表的过滤条件,生成filterset,然后用于事实表的过滤,从而减少join。
大数据星球-浪尖
·
2020-07-10 01:48
源码:Spark SQL 分区特性第一弹
头条号上说过近期分享
SparkSQL
系列文章,前面在头条号上分享了DatasetAPI的基本操作和复杂操作,不知道下面大家有没有自己测试一下。
大数据星球-浪尖
·
2020-07-10 01:48
Spark-SQL简介
JiaThis石山园博客园首页新闻新随笔联系管理订阅随笔-83文章-0评论-140Spark入门实战系列--6.
SparkSQL
(上)--
SparkSQL
简介【注】该系列文章以及使用到安装包/测试数据可以在
reb12345reb
·
2020-07-10 01:53
Hadoop
Spark Structured Streaming快速入门(详解)
structured-streaming-programming-guide.html简单来说SparkStructuredStreaming提供了流数据的快速、可靠、容错、端对端的精确一次处理语义,它是建立在
SparkSQL
Mcy2017
·
2020-07-09 23:45
大数据
Kafka Java API使用Demo
pom.xml:4.0.0cn.just.shinelon
SparkSql
_Proj1.0-SNAPSHOT2008scala-tools.orgScala-ToolsMaven2Repositoryhttp
不清不慎
·
2020-07-09 23:46
Kafka
延云YDB&&YA100安装部署文档
Ya100:大数据加速器:
SparkSQL
的一种新的存储格式。Ya100比Parquet格式快5~100倍.任意维度组合,过滤,万亿数据秒级响应。
qq_33160722
·
2020-07-09 22:51
Spark2.x 快速入门教程 5
Spark处理多种数据源一、实验介绍1.1实验内容
SparkSQL
通过DataFrame接口可以支持Parquet、JSON、Hive等数据源,将DataFrame注册为临时视图,可以允许你在数据上运行
oxuzhenyi
·
2020-07-09 21:57
实验楼课程
大数据实战:基于Spark SQL统计分析函数求分组TopN
SparkSQL
提供了四个排名相关的统计分析函数:dense_rank()返回分区内每一行的排名,排名是连续的。rank()返回分区内每一行的排名,排名可能不连续。
DemonHunter211
·
2020-07-09 18:54
Spark2-mlib
记录oracle回写的几个解决方案
首先说下我们的需求,是将hive的表进行回写入oracle,必须使用
sparksql
这种形式,所以就不考虑sqoop,集群的大数据平台没有sqoop组件。
deepthinkers
·
2020-07-09 18:56
spark
ApacheSpark3.0动态分区裁剪
ApacheSpark3.0动态分区裁剪静态分区裁剪(StaticPartitionPruning)
sparksql
在执行查询的时候根据过滤条件实现谓词下推,分区剪裁,跳过不必要的分区,减少读取数据量select
github_28583061
·
2020-07-09 16:05
半小时,利用FEDB将你的Spark SQL模型变为在线服务
SparkSQL
在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而
SparkSQL
在这些AI应用中快速实现特征变换发挥着重要的作用
范式AI云
·
2020-07-09 14:23
SparkSQL
在线模型
Spark
Spark
Spark 3.0发布啦,改进SQL,弃Python 2,更好的兼容ANSI SQL,性能大幅提升
Spark3.0中的
SparkSQL
是这个版本中
老夫科技说
·
2020-07-09 14:57
计算机基础
sparksql
对MongoDB数据的读取(scala版本)
最近折腾
sparksql
,正好有需求,需要读取MongoDB的数据,在网上查找后,能顺利用
sparksql
读取MongoDB的数据.记录下添加依赖org.apache.sparkspark-core_2.112.1.3org.apache.sparkspark-sql
a904364908
·
2020-07-09 12:42
大数据
spark
MongoDB
一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)
静态分区裁剪(StaticPartitionPruning)用过Spark的同学都知道,
SparkSQL
在查询的时候支持分区裁剪,比如我们如果有以下的查询:SELECT*FROMSales_iteblogWHEREday_of_week
过往记忆
·
2020-07-09 09:58
上海沙龙回顾 | 字节跳动在Spark SQL上的核心优化实践
以下是字节跳动数据仓库架构负责人郭俊的分享主题沉淀,《字节跳动在
SparkSQL
上的核心优化实践》。团队介绍数据仓库架构团队负责数据仓库领域架构设计,支持字节跳动几乎所有产品
字节跳动技术团队
·
2020-07-09 07:21
上海沙龙回顾 | Redis 高速缓存在大数据场景中的应用
更多精彩分享:上海沙龙回顾|字节跳动在
SparkSQL
上的核心优化实践上海沙龙回顾|字
字节跳动技术团队
·
2020-07-09 07:51
大数据技术分享:
SparkSQL
访问Hive遇到的问题及解决方法
需要先将hadoop的core-site.xml,hive的hive-site.xml拷贝到project中测试代码报错查看源码解决方法将$HIVE_HOME/lib下的spark-hive_2.11-2.4.2.jar与spark-hive-thriftserver_2.11-2.4.2.jar添加到project中继续报错查看源码进入ConfVars发现ConfVars中定义的变量并没有MET
xinxindsj
·
2020-07-09 02:58
大数据
人工智能
互联网
快学Big Data -- Spark SQL总结(二十四)
SparkSQL
总结概述
SparkSql
是用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
小徐xfg
·
2020-07-09 01:44
大数据书籍
地铁译:Spark for python developers ---Spark的数据戏法
认真使用
SparkSQL
,交互性探索结构化和半结构化数据.
SparkSQL
的基础数据结构是 Sparkdataframe,Sparkdataframe受到了PythonPandas dataframe和
半吊子全栈工匠
·
2020-07-09 00:42
大数据
python
Python
开发者的Spark
SparkSQL
启动报错:A read-only user or a user in a read-only database is not permitted to disable ...
2018-05-1814:58:07WARNNativeCodeLoader:62-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable2018-05-1814:58:07INFOHiveMetaStore:589-0:Openingrawstorewithimplemen
myz95
·
2020-07-08 20:24
【Python实战】Pandas:让你像写SQL一样做数据分析(一)
Pandas把结构化数据分为了三类:Series,1维序列,可视作为没有column名的、只有一个column的DataFrame;DataFrame,同
SparkSQL
中的DataFrame一样,其概念来自于
weixin_34249678
·
2020-07-08 17:35
Spark MLlib GraphX
Spark课堂笔记Spark生态圈:SparkCore:RDD(弹性分布式数据集)
SparkSQL
SparkStreamingSparkMLLib:协同过滤,ALS,逻辑回归等等-->机器学习SparkGraphx
Rki-dor
·
2020-07-08 13:07
Spark-Streaming进阶与Spark优化
Spark课堂笔记Spark生态圈:SparkCore:RDD(弹性分布式数据集)
SparkSQL
SparkStreamingSparkMLLib:协同过滤,ALS,逻辑回归等等-->机器学习SparkGraphx
335046781
·
2020-07-08 13:33
sparkSQL
自定义数据源
sparkSQL
自定义数据源创建hbase数据源表创建Hbase的数据保存表自定义
SparkSQL
的数据源读取Hbase数据以及将分析结果spark读取hbase的数据时,可以先使用newAPIHadoopRDD
子不语归来
·
2020-07-08 08:21
大数据
cdh5.9添加
sparksql
cli直接操作hive
由于项目需要,需要在cloudera的spark中直接用
sparksql
操作hive,但是cloudera的spark中没有
sparksql
cli(也就是没有spark-sql命令),有关解决方案网上比较多
tianjun2012
·
2020-07-08 07:19
cdh
Spark SQL操作hive报错处理
SparkSQL
操作hive报错处理总结:1:启动hive的metastore服务2:报错后加入依赖包spark-hive_2.123:创建SparkSession加入.enableHiveSupport
Rachel_Channing
·
2020-07-08 05:32
Spark
hive
spark快速大数据分析之数据读取与保存
spark生态常见三种数据源:文件格式与文件系统,
sparkSQL
中的结构化数据源,数据库与键值存储2文件格式a.0....逗号分隔值CSV与制表符分隔值a.文本文件------非结构化b.JSON--
love others as self
·
2020-07-08 05:08
spark
Spark Sql
1、
SparkSql
概述1.1混乱的前世今生先出现MapReduce,后本着sqlonmr的思路,产生了Hive。
ONEKING777
·
2020-07-08 03:23
hadoop
spark
hdfs
mapreduce
Spark超简单入门
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、SparkStream
喜讯XiCent
·
2020-07-08 02:50
spark
大数据笔记
Zookeeper分布式协调服务Hive数据仓库/数据分析Flume数据采集Spoop数据迁移HBaseNoSql:实现百万数据级的毫秒级操作Sparkkafka消息队列Scala函数式编程语言SparkRDD
SparkSql
SparkStreamingSparkCore
qq_40220816
·
2020-07-08 00:52
IT
大数据
Spark学习总结
Sparkcore、
SparkSQL
、SparkStreaming、SparkMLlib、SparkGraphx4.Spark的核心数据模型?
从一点一滴做起
·
2020-07-08 00:08
Spark
SparkSql
学习之DataFrame
spark中几种数据类型:spark数据处理的过程,就是将数据以某种格式(txt,json,csv,parquet,mysql,hive,Hbase)导入,也就是read过程,对数据进行一定的处理之后,以用户想要的格式导出,也就是write过程。RDDDataFrameDataset其中RDD可转化为DataFrame,DataFrame可以转化为Datasets,其中Datasets时静态类型(
qq_35660280
·
2020-07-07 22:50
大数据
Spark概念及使用简介
更快更容易使用除了Java之外,提供了Scala、Python、R的API;好用的库基于SparkCore提供了
SparkSQL
、SparkStreaming、MLib、Graph
漂泊的胡萝卜
·
2020-07-07 17:39
Spark Core 解析:RDD
引言SparkCore是Spark的核心部分,是
SparkSQL
,SparkStreaming,SparkMLlib等等其他模块的基础,SparkCore提供了开发分布式应用的脚手架,使得其他模块或应用的开发者不必关心复杂的分布式计算如何实现
liam08
·
2020-07-07 13:52
Scala
Spark
半小时,将你的Spark SQL模型变为在线服务
SparkSQL
在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而
SparkSQL
在这些AI应用中快速实现特征变换发挥着重要的作用
范式AI云
·
2020-07-07 08:35
python
算法
spark
模型
服务
Spark 官方文档(5)——Spark SQL,DataFrames和Datasets 指南
Spark版本:1.6.2概览
SparkSQL
用于处理结构化数据,与SparkRDDAPI不同,它提供更多关于数据结构信息和计算任务运行信息的接口,
SparkSQL
内部使用这些额外的信息完成特殊优化。
bigbigtree911
·
2020-07-07 04:26
spark
SparkSql
笔记
文章目录3种结构的关系自定义函数UDAF-弱类型UDAF-强类型
SparkSQL
通用的读取
SparkSQL
通用的保存CSVMySQL读数据写数据Hive本地hive操作hive外连接案例:造表导入数据需求
VanasWang
·
2020-07-07 01:37
spark
spark
Spark性能优化 -- > Joins (SQL and Core)
本博文将总结和讨论下sparkcore和
sparksql
中join的优化操作。
村头陶员外
·
2020-07-06 23:57
spark性能优化
Spark性能优化 -- > Spark SQL、DataFrame、Dataset
本博文将详细分析和总结
SparkSQL
及其DataFrame、Dataset的相关原理和优化过程。
村头陶员外
·
2020-07-06 23:56
spark性能优化
上一页
48
49
50
51
52
53
54
55
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他