E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
在Apache Spark中使用UDF
ApacheSpark也不例外,其为UDF与
SparkSQL
工作流集成提供了各种选项。
ClouderaHadoop
·
2019-06-14 10:42
Spark;UDF
在Apache Spark中使用UDF
ApacheSpark也不例外,其为UDF与
SparkSQL
工作流集成提供了各种选项。
ClouderaHadoop
·
2019-06-14 10:19
Cloudera
Spark学习笔记之Spark SQL的具体使用
1.
SparkSQL
是什么?
EVAO_大个子
·
2019-06-14 10:29
大数据系列——Spark学习笔记之 Spark SQL
1.
SparkSQL
是什么?
EVAO_大个子
·
2019-06-14 00:00
spark
大数据系列——kafka学习笔记
1.大数据领域数据类型1.1有界数据一般批处理(一个文件或者一批文件),不管文件多大,都是可以度量mapreducehivesparkcore
sparksql
1.2无界数据源源不断的流水一样(流数据)StormSparkStreaming2
EVAO_大个子
·
2019-06-14 00:00
kafka
Impala中常用的窗口函数
后续也会把这些sql通过
sparksql
集成执行spark任务,去定时调度。后面我会首先介绍一些窗口函数,然后再结合具体的应用进行进一步理解。
爆发的~小宇宙
·
2019-06-13 11:09
impala
impala窗口函数
impala
时间函数
impala常用函数
一条 SQL 在 Apache Spark 之旅(上)
SparkSQL
是Spark众多组件中技术最复杂的组件之一,它同时支持SQL查询和DataFrameDSL。通过引入了SQL的支持,大大降低了开发人员的学习和使用成本。
Hadoop技术博文
·
2019-06-13 08:03
spark的dataframe写入mysql的坑
MySQL:spark-shell--jars"/path/mysql-connector-java-5.1.42.jar可以使用DataSourcesAPI将来自远程数据库的表作为DataFrame或
SparkSQL
大壮vip
·
2019-06-12 14:34
大数据
Spark
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2019-06-10 21:36
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2019-06-10 21:20
全方位测评Hive、
SparkSQL
、Presto 等七个大数据查询引擎
阅读更多选取了Hive、
SparkSQL
、Presto、Impala、HAWQ、ClickHouse、Greenplum七个大数据查询引擎,在原生推荐配置情况下,在不同场景下做一次横向对比,出品了一份开源
flylynne
·
2019-06-09 21:00
Hive
SparkSQL
Presto
大数据体系概览Spark、Spark核心原理、架构原理、Spark特点
Spark整体架构Spark的特点Spark核心原理Spark架构原理spark内核架构RDD及其特点
SparkSQL
VSHiveSparkStreamingVSStorm小提示:这里,使用axure(
爱是与世界平行
·
2019-06-09 16:34
Sprak
大数据
运维
大数据
➹➹➹⑤Spark
大数据体系概览Spark、Spark核心原理、架构原理、Spark特点
Spark整体架构Spark的特点Spark核心原理Spark架构原理spark内核架构RDD及其特点
SparkSQL
VSHiveSparkStreamingVSStorm小提示:这里,使用axure(
爱是与世界平行
·
2019-06-09 16:34
大数据
➹➹➹⑤Spark
Spark SQL操作之-函数汇总篇-中
SparkSQL
操作之-窗口函数篇-中环境说明窗口函数是什么窗口函数和其他函数的区别窗口函数列表示例详解lag()和lead()示例dense_rank(),rank(),rows_number()的排序编号差异
野男孩
·
2019-06-09 08:17
大数据
Spark
spark-sql
dataset
Spark
SQL专栏
Spark原理篇之
SparkSQL
Join分析
1Join背景Join是数据库查询永远绕不开的话题,传统查询SQL技术可以分为简单操作(过滤操作-where、排序操作-sortby),聚合操作-groupby以及join操作等。其中join操作是最复杂的、代价最大的操作模型,也是OLAP场景中使用相对较多的操作。因此很有必要对其进行深入研究。另外,从业务层面来讲,用户在数仓建设的时候也会涉及join使用的问题。通常情况下,数据仓库中的表一般会分
huahuaxiaoshao
·
2019-06-08 15:15
Spark
Spark 系列(十二)—— Spark SQL JOIN操作
一、数据准备本文主要介绍
SparkSQL
的多表连接,需要预先准备测试数据。
hei bai ying
·
2019-06-08 08:08
Spark
Spark 系列(十一)—— Spark SQL 聚合函数 Aggregations
一、简单聚合1.1数据准备//需要导入
sparksql
内置的函数包importorg.apache.spark.sql.functions.
hei bai ying
·
2019-06-08 08:04
Spark
Spark DataFrame导入mysql入库添加自增主键id
SparkDataFrame添加一个自增主键id在使用
SparkSQL
处理数据的时候,经常需要给全量数据增加一列自增的ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。
R_记忆犹新
·
2019-06-06 17:28
大数据
Loong
requirement failed: Block broadcast_487 is already present in the MemoryStore
场景:以往正常执行的
sparksql
,今天在公司执行报如下错误:第一次执行报错如下:Causedby:java.sql.SQLException:org.apache.spark.SparkException
Andree
·
2019-06-05 13:22
Hadoop
spark
【大数据】
SparkSql
连接查询中的谓词下推处理 (二)
mp.weixin.qq.com/s/II48YxGfoursKVvdAXYbVg作者:李勇目录:1.左表join后条件下推2.左表join中条件不下推3.右表join中条件下推4.右表join中条件不下推5.总结在《
SparkSql
vivo互联网技术
·
2019-06-04 11:00
【大数据 】
SparkSQL
连接查询中的谓词下推处理(二)
mp.weixin.qq.com/s/II48YxGfoursKVvdAXYbVg作者:李勇目录:1.左表join后条件下推2.左表join中条件不下推3.右表join中条件下推4.右表join中条件不下推5.总结在《
SparkSql
vivo互联网技术
·
2019-06-04 00:00
数据查询
大数据
SparkSQL
UDF 返回类型不能包含NUMPY类型
Spark版本:2.1.1问题:
SparkSQL
UDF返回类型包含NUMPY类型,报错:PickleException:expectedzeroargumentsforconstructionofClassDict
dkjkls
·
2019-06-02 19:02
大数据
学习spark 技术
sparksql
可以说是spark中的精华部分了,我感觉整体复杂度是sparkstreaming的5倍以上,现在spark官方主推structedstreaming,sparkstreaming维护的也不积极了
大数据森林
·
2019-06-02 14:00
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2019-05-31 23:06
java.sql.SQLException: java.lang.RuntimeException: serious problem
场景:sparkonhive使用
sparksql
查询hive的ORC表。
Andree
·
2019-05-31 18:11
hive
spark
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2019-05-30 19:33
SparkSQL
访问Hive遇到的问题及解决方法
需要先将hadoop的core-site.xml,hive的hive-site.xml拷贝到project中测试代码defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().appName("TopNApp").master("local[2]").enableHiveSupport().getOr
小朋友2D
·
2019-05-30 12:52
Spark
Spark RDD转换成DataFrame的两种方式
SparkSQL
支持两种方式将现有RDD转换为DataFrame。第一种方法使用反射来推断RDD的schema并创建DataSet然后将其转化为DataFrame。
Stitch_x
·
2019-05-30 12:22
SparkSQL
Spark
spark
RDD与DataFrame的两种相互转换
http://spark.apache.org/docs/latest/sql-getting-started.html#interoperating-with-rdds
SparkSQL
的Scala接口支持自动将包含
FangStar8Jeff
·
2019-05-29 15:10
Spark
Antlr4 - 自定义
SparkSQL
解析
>Antlr4是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器,最出名的Spark计算引擎2.x就是用它来解析SQL的,是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7
kikiki4
·
2019-05-28 23:52
原创-spark sql 写入hive较慢优化思路
在《
sparksql
写入hive较慢原因分析》中已经分析了
sparksql
写入hive分区文件慢的原因,笔者提供几种优化思路供参考:(1)spark直接生成hive库表底层分区文件,然后再使用addpartion
无色的叶
·
2019-05-28 16:20
【大数据 】
SparkSQL
连接查询中的谓词下推处理(二)
本文首发于vivo互联网技术微信公众号作者:李勇目录:1.左表join后条件下推2.左表join中条件不下推3.右表join中条件下推4.右表join中条件不下推5.总结在《
SparkSql
连接查询中的谓词下推处理
vivo互联网
·
2019-05-28 11:31
大数据SparkSQL连接查询
原创干货
Spark SQL操作之-函数汇总篇-上
SparkSQL
操作之-函数汇总篇-上开头的胡扯环境说明概要内置函数详情org.apache.spark.sql.functions聚合函数集合函数时间处理函数字符串处理函数一些不常见的跨列处理的函数SQL
野男孩
·
2019-05-28 08:03
Spark
大数据
Spark
spark-sql
dataset
Spark
SQL专栏
待看博文
archives/category/spark/page/4阿里云Flink教程ATaleofThreeApacheSparkAPIs:RDDsvsDataFramesandDatasets平易近人、兼容并蓄——
SparkSQL
1.3.0
AaronLwx
·
2019-05-25 18:19
【大数据】
SparkSql
连接查询中的谓词下推处理(一)
本文首发于vivo互联网技术微信公众号https://mp.weixin.qq.com/s/YPN85WBNcnhk8xKjTPTa2g作者:李勇目录:1.
SparkSql
2.连接查询和连接条件3.谓词下推
cuihuang6976
·
2019-05-23 11:39
spark初步理解和认识
了解spark前应学习hadoop体系和scala语言1.概念Spark是一种快速、通用、可扩展的大数据分析引擎spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
、SparkStreaming
我係外星人
·
2019-05-23 10:30
Spark
Spark高级数据分析(第2版)- 2018.pdf
新版Spark使用了全新的核心API,MLlib和
SparkSQL
两个子项目也发
python测试开发_AI命理
·
2019-05-20 09:09
Spark入门梳理3-Spark数据结构
文章目录Spark编程基础-搭配Jupyter1.1
SparkSQL
简介1.1.1
SparkSQL
架构1.2DataFrame与RDD的区别1.3DataFrame的创建1.4从RDD转换得到DataFrame1.4.1
Jolahua
·
2019-05-19 23:27
机器学习
Spark SQL 编译原理
正如大家了解的一样,
SparkSQL
它其实是一个SQL的编译器,跟普通数据库不同的是它的底层使用的HDFS存储,使用SparkCore进行计算。
Sammion
·
2019-05-19 18:36
学习笔记
Hadoop生态圈学习
Hive学习
SparkSQL
源码阅读笔记
Spark SQL 可调参数汇总
本文主要是日常工作的积累,主要是简单罗列了常见的
sparkSQL
的参数及其含义。
Sammion
·
2019-05-18 20:59
学习笔记
Hadoop生态圈学习
SparkSQL
源码阅读笔记
闲话Scala专栏导航
阅读图书,是学习技术的捷径《Scala实用指南》by@何品@沈达:夯实基础,简明易读,实用主义《高性能Scala》by@大魔头-诺铁:性能调优,登堂入室《
SparkSQL
内核剖析》by腾讯出品:
SparkSQL
溢出的达达
·
2019-05-17 00:00
scala
【大数据】
SparkSql
连接查询中的谓词下推处理(一)
本文首发于vivo互联网技术微信公众号作者:李勇目录:1.
SparkSql
2.连接查询和连接条件3.谓词下推4.内连接查询中的谓词下推规则4.1.Join后条件通过AND连接4.2.Join后条件通过OR
vivo互联网
·
2019-05-16 17:04
分布式
结构化数据
数据查询
原创干货
Spark和Alluxio
目前SparkDataFrame和
SparkSQL
更加成熟,而作为普通文件存储方案的Tachyon升级成为Alluxio,在成熟度和性能上都得到了进一步的提升,方便非结构化的文件处理,如影像、视频文件等
老猿说说
·
2019-05-16 09:11
记一次
sparksql
读取oracle数据优化过程
问题描述
Sparksql
提供外接关系型数据库的接口如下,defjdbc(url:String,table:String,columnName:String,lowerBound:Long,upperBound
GC_NJUPT_CODE
·
2019-05-16 07:24
sparksql
【大数据】
SparkSql
连接查询中的谓词下推处理(一)
本文首发于vivo互联网技术微信公众号https://mp.weixin.qq.com/s/YPN85WBNcnhk8xKjTPTa2g作者:李勇目录:1.
SparkSql
2.连接查询和连接条件3.谓词下推
vivo互联网技术
·
2019-05-16 00:00
数据查询
大数据
【大数据】
SparkSql
连接查询中的谓词下推处理 (一)
本文首发于vivo互联网技术微信公众号https://mp.weixin.qq.com/s/YPN85WBNcnhk8xKjTPTa2g作者:李勇目录:1.
SparkSql
2.连接查询和连接条件3.谓词下推
vivo互联网技术
·
2019-05-14 16:00
SparkSql
中用户自定义聚合函数---强类型
强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数,如count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。强类型用户自定义聚合函数:通过继承Aggregator来实现强类型自定义聚合函数。强类型Demo:自定义求用户平均年龄的聚合函数packagecom.bigdata.spark.sqlimport
Demo_chen
·
2019-05-13 20:40
Spark
重磅!蚂蚁金服开源机器学习工具SQLFlow,技术架构独家解读
其中所涉及的SQL引擎包括MySQL、Oracle、Hive、
SparkSQL
、Flink等支持用SQL或其某个变种语言描述数据,以及描述对数据的操作的系统。
蚂蚁金服技术团队
·
2019-05-13 17:41
蚂蚁金服
机器学习
SQLFlow
开源
架构
Spark实战电影点评系统(二)
这使得
SparkSQL
得以
|旧市拾荒|
·
2019-05-13 14:00
PySpark学习笔记-数据读取与保存
SparkSQL
中的结构化数据源。数据库和键值存储。Spark自带的库以及一些第三方库,可以用来连接HBase、JDBC源。格式名称结构化备注文件文件无结构普通的文本文件,
Sun_Sherry
·
2019-05-08 20:02
上一页
63
64
65
66
67
68
69
70
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他