E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
SparkSQL
实现行转列与列转行
例如目前有一张表dlzz:TG_ID表示变压器台区ID,DATA_DATE表示时间,I1、I2和I3分别表示三个不同时间点的电流值
SparkSQL
实现列转行valframe:DataFrame=spark.read.format
我在北国不背锅
·
2019-09-18 11:20
Spark
SparkSQL
性能优化
一、代码层面的优化使用高性能算子使用reduceByKey/aggregateByKey替代groupByKey。使用mapPartitions替代普通map。mapPartitions类的算子,一次函数调用会处理一个partition所有的数据,而不是一次函数调用处理一条,性能相对来说会高一些。但是有的时候,使用mapPartitions会出现OOM(内存溢出)的问题。因为单次函数调用就要处理掉
我在北国不背锅
·
2019-09-17 17:22
sparkSQL
Spark
Spark SQL读取Oracle的number类型的数据时精度丢失问题
SparkSQL
读取Oracle的number类型的数据时精度丢失问题在程序开发中,使用到了
sparkSQL
读取Oracle数据库,发现当
sparkSQL
读取Oracle的number类型字段时,数据的小数经度会出现了丢失的情况
我在北国不背锅
·
2019-09-17 16:21
Spark
SparkSQL
读取/写入MySQL/Oracle数据(分区并行读取)
**
SparkSQL
读取MySQL数据**一、
sparkSQL
读取MySQL数据1、第一种方式defmain(args:Array[String]):Unit={//获取sparkSessionvalsparkSession
我在北国不背锅
·
2019-09-17 14:57
Spark
记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程
一、问题现象:使用
sparksql
调用get_json_object函数后,报如下错误:yarn容器被kill,导致任务失败,查看日志:ContainerkilledbyYARNforexceedingmemorylimits
微步229
·
2019-09-16 10:55
Container
killed
by
YARN
for
e
Spark
Spark
生产案例
TiDB 数据库的四大应用场景分析
TiDB是一套开源分布式HTAP(HybridTransactional/AnalyticalProcessing数据库,同时提供MySQL与
SparkSQL
接口。
Alwaysdazz
·
2019-09-14 11:46
Spark SQL操作之-函数汇总篇-下
SparkSQL
操作之-自定义函数篇-下环境说明自定义函数分类用户自定义函数(UDF)用户自定义聚合函数(UDAF)环境说明1.JDK1.82.Spark2.1自定义函数分类不同的业务需要不同的处理函数
野男孩
·
2019-09-12 22:05
大数据
Spark
spark-sql
dataset
Spark
SQL专栏
sparkSQL
连接Oracle
sparkSQL
连接oracle#-*-coding:utf-8-*-frompyspark.sqlimportSparkSessionfrompyspark.sql.typesimport
银灯玉箫
·
2019-09-10 15:06
spark
Spark学习笔记0——简单了解和技术架构
目录Spark学习笔记0——简单了解和技术架构什么是Spark技术架构和软件栈SparkCore
SparkSQL
SparkStreamingMLlibGraphX集群管理器受众起源和发展Spark学习笔记
隔壁老李头
·
2019-09-10 12:00
SparkSQL
读取MySQL数据tinyint字段转换成boolean类型的解决方案
最近在做弄
sparksql
,在读取mysql数据的时候发现一个问题,在数据库将字段定义成tinyint,并且长度为1的时候,读取到spark里面,被转换成Boolean类型的字段了.测试表定义CREATETABLE
a904364908
·
2019-09-08 14:48
大数据
spark
Migrate from Oracle to Spark SQL
Oracleto
SparkSQL
需要转换之处decode转为casewhenconditionthenresult_1elseresult_2end写法decode是一个字符串函数:decode(binarybin
daoxu_hjl
·
2019-09-04 00:00
Spark
structured streaming 介绍
structuredstreaming模型思想StructuredStreaming模型是把数据流当作一个没有边界的数据表来对待,这样开发人员可以在流上使用
SparkSQL
进行流处理,可以使用离线spark
shinwing
·
2019-08-29 18:16
大数据 SQL Boy 脱坑指南
大数据行业跟SQL更是有不解之缘,可谓“万物皆可SQL化”,从Hive/
SparkSQL
等最原始的最普及的SQL查询引擎,到Impal
aydnwba6940
·
2019-08-28 10:00
Spark与Hive集成
2.第二步集成根据hive的配置参数hive.metastore.uris的情况,采用不同的集成方式分别:1.hive.metastore.uris没有给定配置值,为空(默认情况)
SparkSQL
通过hive
chenxk
·
2019-08-27 10:35
7.推荐系统之
SparkSQL
一.
SparkSQL
简介
SparkSQL
是spark中用于处理结构化数据的一个模块
SparkSQL
历史:Hive是目前大数据领域,事实上的数据仓库标准Shark:shark底层使用spark的基于内存的计算模型
Sssssss_A
·
2019-08-26 20:59
推荐系统
电商大数据应用之用户画像
一、课程目标1.1了解用户画像是什么1.2用户画像的作用是什么1.3学会使用
SparkSQL
构建用户画像二、前言大数据时代已经到来,企业迫切希望从已经积累的数据中分析出有价值的东西,而用户行为的分析尤为重要
qq5d3e5bae55f08
·
2019-08-26 14:43
小程序第二天
笔记
Spark SQL overwrite问题
背景今天发现hive中有张表,每天会有定时插入操作,但是会有比较多的重复数据,于是想着每天再插入的时候清理一下,用的
SparkSQL
。
lvwenyuan_1
·
2019-08-21 16:15
spark
Scala基于MySQL元数据管理项目实战
项目概述:SpringBoot+SpringDataJPA+Scala+Java(混编)(有些java工具类需要调用)项目需求:统一元数据管理(metastore)在大数据平台的重要性(
SparkSQL
SkinnyTracy
·
2019-08-16 00:00
scala
spark streaming拉取kafka数据, 结合
sparkSql
dataframe hive存储计算,输出到mysql
sparkstreaming拉取kafka数据,结合
sparkSql
dataframehive存储计算,输出到mysql.数据清洗过程比较复杂,没办法,上游给的屡一样的数据,正则去解析并全量按时间取最新一条去重
java的爪哇
·
2019-08-15 17:29
大数据
scala
spark
大数据学习笔记之Spark(三):
SparkSQL
应用解析
文章目录第1章
SparkSQL
概述1.1什么是
SparkSQL
1.2RDDvsDataFramesvsDataSet1.2.1RDD1.2.2Dataframe1.2.3Dataset1.2.4三者的共性
Leesin Dong
·
2019-08-15 08:46
Big
Data
Cloud
Technology❤️
#
BigData
------
Spark
大数据技术及算法学习清单
基础数据结构与算法极客时间专栏:数据结构与算法之美https://time.geekbang.org/col...leetcode刷题:https://leetcode-cn.com/大数据技术离线计算hivesql
sparksql
dataliu
·
2019-08-15 00:00
大数据
机器学习
Spark排序方式集锦
一.简介spark中的排序一般可以使用orderBy或sort算子,可以结合负号、ASC/DESC和col进行简单排序、二次排序等情况二.代码实现1packagebig.data.analyse.
sparksql
23importorg.apache.log4j
云山之巅
·
2019-08-14 19:00
好程序员大数据学习路线分享
SparkSQl
好程序员大数据学习路线分享
SparkSQl
,
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
好程序员IT
·
2019-08-14 17:51
好程序员
大数据学习路线
SparkSQl
spark笔记之Spark SQL
1.
SparkSQL
概述1.1.
SparkSQL
的前世今生Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。
qq5d3e5bae55f08
·
2019-08-14 09:22
spark笔记之Spark
SQL
Spark 系列(十一)—— Spark SQL 聚合函数 Aggregations
一、简单聚合1.1数据准备//需要导入
sparksql
内置的函数包importorg.apache.spark.sql.functions.
黑白影
·
2019-08-14 09:00
Streaming+
Sparksql
使用sql实时分析 rabbitmq+mongodb+hive
SparkConfsparkConf=newSparkConf()//此处使用一个链接切记使用一个链接否则汇报有多个sparkcontext错误.setAppName("SparkConsumerRabbit").setMaster("local[2]").set("hive.metastore.uris",thrift).set("spark.sql.warehouse.dir",hdfs).s
一颗小白菜灬
·
2019-08-13 10:00
Spark 系列(八)—— Spark SQL 之 DataFrame 和 Dataset
一、
SparkSQL
简介
SparkSQL
是Spark中的一个子模块,主要用于操作结构化数据。
黑白影
·
2019-08-12 07:00
Flink+Druid构建实时OLAP的探索
方案实时入库SQL支持度Spark+CarbonData支持
SparkSQL
语法丰富Kylin不支持支持joinFlink+Druid支持0.15以前
ChouYarn
·
2019-08-09 18:00
spark开窗函数
bigdata.beiwang.cn/laolihttp://bigdata.beiwang.cn/haiyuanhttp://bigdata.beiwang.cn/haiyuan实现代码:object
SparkSql
Demo11
山水一程,三生有幸。
·
2019-08-09 17:00
Spark SQL中出现 CROSS JOIN 问题解决
SparkSQL
中出现CROSSJOIN问题解决1、问题显示如下所示:UsetheCROSSJOINsyntaxtoallowcartesianproductsbetweentheserelation2
鸿燕藏锋
·
2019-08-09 12:39
Python
Spark
Spark项目实战学习电商项目
该项目源码中是用Java开发的,分析计算多用的是sparkcore,我在实践这个项目的时候,spark2.x已有了,性能应该比1有提升,所以关于spark部分我基本用的都是
SparkSql
,并且用scala
maozicb
·
2019-08-09 08:32
SparkSQL
in中使用子查询耗时高如何优化
目录一、背景二、用join替代in三、用join替换in且map端Join四、用Join替换in的坑一、背景经常遇到MySQL表太大,频繁查询影响性能,需要把MySQL数据同步到hive(通过解析MySQLbinlog同步数据到hive),MySQL表一般会有create_time和update_time字段,如何同步到hive方便查询呢?我们采用的方式是按天快照,更新历史。模拟SQL如下:在sp
aijiudu
·
2019-08-08 13:50
Hive
SparkSQL
中SQL风格和DSL风格的使用
准备工作读取文件并转换为DataFrame或DataSetvallineRDD=sc.textFile("hdfs://node-01:9000/person.txt").map(_.split(""))caseclassPerson(id:Int,name:String,age:Int)valpersonRDD=lineRDD.map(x=>Person(x(0).toInt,x(1),x(2)
MannerXu
·
2019-08-07 22:13
Spark
Spark-SQL-Java编程
原理:将
SparkSQL
转化为RDD,然后提交到集群执行。SparkSession:统一的切入点,实质上是SQLContext和HiveContext的组合。
dlphay
·
2019-08-07 17:49
大数据
Spark
分布式计算系统三巨头--Hadoop、Storm、Spark的区别和比较
Spark包括sparkcore,
sparksql
,sparkstreaming,sparkcore可以用来
暁洣
·
2019-08-07 11:03
大数据学习
大数据
Hadoop
storm
spark
Spark计算引擎之
SparkSQL
详解
一、
SparkSQL
二、
SparkSQL
1.
SparkSQL
概述1.1.
SparkSQL
的前世今生Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。
林夕1740
·
2019-08-06 16:48
大数据
Spark总结
大数据专栏
Hadoop YARN:调度性能优化实践
离线业务主要运行的是HiveonMapReduce,
SparkSQL
为主的数据仓库作业。实时业务主要运行SparkStreaming,Flink为主的实时流计算作业。
美团技术团队
·
2019-08-05 10:55
Hadoop YARN:调度性能优化实践
离线业务主要运行的是HiveonMapReduce,
SparkSQL
为主的数据仓库作业。实时业务主要运行SparkStreaming,Flink为主的实时流计算作业。
美团技术团队
·
2019-08-05 00:00
资源管理器
大数据
hadoop
大数据测试:
sparkSQL
取MySQL数据库中的数据
#coding:utf-8frompyspark.sqlimportSparkSessionfrompyspark.sql.typesimport*importosif__name__=='__main__':os.environ['JAVA_HOME']='C:\ProgramFiles\Java\jdk1.8.0_211'print(os.path)spark=SparkSession\.bu
pingsha_luoyan
·
2019-08-02 15:00
大数据
大数据测试
physon
大数据测试基础
大数据入门之分布式计算框架Spark(2) -- Spark SQL
1.
SparkSQL
概述一个运行在Spark上执行sql的处理框架,可以用来处理结构化的数据【外部数据源(访问hive、json、parquet等文件的数据)】。
Kiku_xq
·
2019-08-01 18:24
Spark
SQL
大数据
Spark
7. Spark SQL的运行原理
7.1
SparkSQL
运行架构
SparkSQL
对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。
铖歌
·
2019-08-01 17:00
Apache Spark渐进式学习教程(六):
SparkSQL
简介及入门
目录一、简介1、
SparkSQL
的由来2、
SparkSql
特点二、
SparkSQL
入门1、创建DataFrame对象2、由外部文件构造DataFrame对象一、简介Spark为结构化数据处理引入了一个称为
JDZW2010
·
2019-08-01 15:34
spark
大数据入门之分布式计算框架Spark(1) -- Spark初次见面
效率高:因为是基于内存的,所以在数据处理过程中,数据不会落地,而是存入内存中,效率较MR更高易用:提供了很多算子,简化开发流程通用性:Spark之上,还有
SparkSQL
、SparkStreaming、
Kiku_xq
·
2019-08-01 11:59
大数据
Spark
Spark常见问题汇总
整理工作中遇见的Spark问题,希望能给大家在使用Spark或者运维Spark如果遇到类似的问题可以参考进行解决一.
SparkSQL
相关在执行insert语句时报错,堆栈信息为:FileSystemclosed
伊豚
·
2019-07-31 18:42
Spark
大数据
Hadoop
Hive
Streaming
BigData
Spark
spark程序打包为jar包,并且导出所有第三方依赖的jar包
spark读取kudu表导出数据为parquet文件(sparkkuduparquet)kudu导入/导出数据Kudu分页查询的两种方式map、flatMap(流的扁平化)、split的区别Spark(
SparkSql
日萌社
·
2019-07-31 12:47
spark
scala
PySpark 读写 MySQL
SparkSQL
有着强大的与其他存储介质交互的功能,其中就包括MySQL,这里简单介绍一下我在工作中用到的使用PySpark读写MySQL的使用。
门朝大海
·
2019-07-30 23:35
Spark读取Hive中的数据加载为DataFrame
首先要告诉
SparkSql
,Hive在哪。然后读取Hive中的数据,必须开启enableHiveSupport。
墨玉浮白
·
2019-07-30 21:12
Spark
5. JDBC/ODBC服务器
SparkSQL
也提供JDBC连接支持,这对于让商业智能(BI)工具连接到Spark集群上以及在多用户间共享一个集群的场景都非常有用。
铖歌
·
2019-07-29 14:00
Spark DataFrame 写入MySQL性能调优
driver(也为必须参数,如果不指定会报错),dbtable后,发现写入数据时非常的慢,甚至只写入一部分后直接报错,为解决此问题,在网上搜索可以做以下调优sparkjdbc参数介绍:在spark官网
sparksql
jdbc
banana`
·
2019-07-29 14:39
Spark
合并Spark SQL产生的小文件
问题使用
sparksql
执行etl时候出现了,最终结果大小只有几百K或几M,但是小文件一个分区有上千的情况。
夜古诚
·
2019-07-27 16:52
Spark
SQL
上一页
61
62
63
64
65
66
67
68
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他