E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkSQL
[转] Spark sql 内置配置(V2.2)
【From】https://blog.csdn.net/u010990043/article/details/82842995最近整理了一下
sparkSQL
内置配。
Pekkle
·
2019-03-13 19:00
Spark SQL 教程
一、什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。
张明洋_4b13
·
2019-03-12 18:13
1.
SparkSql
-Spark SQL 教程
一、什么是
SparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。
__元昊__
·
2019-03-12 18:01
SparkSQL
实战7——综合实战完成日志分析3
需求:按地市统计主站最受欢迎的TopN课程//按照地市进行统计TopN课程defcityAccessTopNStat(spark:SparkSession,accessDF:DataFrame):Unit={//使用DataFrame方式进行统计importspark.implicits._valcityAccessTopNDF=accessDF.filter($"day"==="20170511
驭风者yuzhansheng
·
2019-03-12 17:42
Spark
大数据相关
SparkSQL
实战6——综合实战完成日志分析2
需求、统计最受欢迎的topN课程importorg.apache.spark.sql.{DataFrame,SparkSession}importorg.apache.spark.sql.functions._/***@authorYuZhansheng*@desc*@create2019-03-1114:58*/objectTopNStatJob{defmain(args:Array[Strin
驭风者yuzhansheng
·
2019-03-12 12:33
Spark
大数据相关
SparkSQL
实战5——综合实战完成日志分析1
1、离线处理架构图:2、数据处理流程:数据采集:使用Flume采集web日志信息到HDFS中去数据清洗:将脏数据清理,使用Spark、hive、MapReduce等分布式计算框架数据处理:按照我们的需要进行相应业务的统计和分析,使用Spark、hive、MapReduce等分布式计算框架处理结果入库:调用API,将结果存放到RDBMS,NoSQL中去;数据可视化:通过图形化展示,Echarts或者
驭风者yuzhansheng
·
2019-03-11 11:57
Spark
大数据相关
Spark SQL数据倾斜解决方案
由于Spark都是基于RDD的特性,所以可以用纯RDD的方法,实现和
SparkSQL
一模一样的功能。之前在SparkCore中的数据倾斜的七种解决方案,全部都可以直接套用在
SparkSQL
上。
Johnson8702
·
2019-03-10 20:38
大数据
Spark调优
spark sql 综合实例
该文主要展示的是
sparksql
例子(内容是找了份oracle的例子,翻译成
sparksql
的)1、需要准备好四张表,既四个文本文件逗号分隔2、为这四张表创建好schema,并注册成表3、时间处理有小部分改动准备的四张表
张明洋_4b13
·
2019-03-10 11:16
eclipse如何导入Spark源码方便阅读
最近想看下
sparksql
的源码,就查了些相关文章。
lzw2016
·
2019-03-09 21:35
Hadoop及Spark学习
#
Learning
Spark
Spark on Hive 和 Hive on Spark的区别
这里可以理解为Spark通过
SparkSQL
使用Hive语句操作Hive表,底层运行的还是SparkRDD。
henrrywan
·
2019-03-08 09:43
Hive
sparkSQL
之调优
spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和CPU资源,但是如果
purisuit_knowledge
·
2019-03-07 17:02
spark
SparkSQL
实战3——DataFrame和Dataset
1、前言DataFrame并不是Spark最新提出使用的,DataFrame最早是在R、Python语言中使用的。Dataset是一个分布式的数据集;而DataFrame是一个以列(包括列名、列的类型、列值)的形式构成的分布式数据集,并且按照列赋予不同的名称。在概念层次上,我们可以把DataFrame理解为关系型数据里面的一张表。DataFrame可以通过结构化的数据创建,或者通过Hive中的一张
驭风者yuzhansheng
·
2019-03-06 16:43
Spark
大数据相关
SparkSQL
之双重Group解决数据倾斜
主要内容:1.自定义UDF2.数据流程3.Spark程序1.自定义UDFRandomPrefixUDF.java/***给字段添加随机前缀*random_prefix()**@authorAdministrator*/publicclassRandomPrefixUDFimplementsUDF2{privatestaticfinallongserialVersionUID=1L;@Overrid
首席撩妹指导官
·
2019-03-06 11:59
大数据
2019-03-05
SparkSQL
集群性能调优 CheatSheet
0.买高性能机器,增加节点1.设置磁盘文件预读值大小为16384,使用linux命令:echo16384>/sys/block/{磁盘名}/queue/read_ahead_kb2.Spark任务序列化只支持JavaSerializer,数据序列化支持JavaSerializer和KryoSerializer。KryoSerializer能达到JavaSerializer的十倍。3.在spark.
2efper
·
2019-03-05 16:56
大数据生态圈的理解
是一种操作计算框架,MapReduce相当于一个别人写好的java程序,它并不需要在服务器上启动相应的服务,甚至可以在本地runHive=>MapReduceHive操作MapReduce(底层是MapReduce)
SparkSQL
奥兰治的威廉
·
2019-03-04 20:53
big
data
Spark SQL 之 Aggregation
SparkSQL
之聚合函数(Aggregation)案例来自于世界杯足球赛相关数据下载文件https://www.kaggle.com/abecklas/fifa-world-cup#WorldCups.csv
颓废的大饼
·
2019-03-04 14:20
Spark
spark thrift server 启用 User Impersonation 会报permission denied
SparkSQL
UserImpersonation功能需要在hive-site.xml中把hive.server2.enable.doAs设置为true我们使用的版本是spark2.4hadoop2.7.2hive1.2.1
oo_思维天空
·
2019-03-02 16:02
SparkSQL
实战1——先从Hadoop开始说起
1、Hadoop概述广义的Hadoop,指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,狭义的Hadoop指的是Hadoop框架,Hadoop框架是Hadoop生态系统最重要最基础的一个部分,生态系统中的每一子系统只解决某一特定的问题域,不搞统一型的全能系统,而是小而精的多个小系统。Flume:日志收集工具,它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,在具
驭风者yuzhansheng
·
2019-03-01 17:19
Spark
大数据相关
sparkSQL
从MySQL数据源 读取数据【demo 程序篇 ReadDataFromMysql】
demo程序篇packagecn.demo.sqlimportorg.apache.spark.sql.SQLContextimportorg.apache.spark.{SparkConf,SparkContext}objectReadDataFromMysql{defmain(args:Array[String]):Unit={//设置程序入口参数valconf=newSparkConf().
tamir_2017
·
2019-03-01 11:29
hadoop
大数据技术学习
Spark快速大数据分析
翁松秀文章目录Spark快速大数据分析一、Spark数据分析导论二、Spark下载与入门三、RDD编程四、键值对操作五、数据读取与保存六、Spark编程进阶七、在集群上运行Spark八、Spark调优与调试九、
SparkSQL
翁松秀
·
2019-03-01 11:39
大数据_Hadoop
互联网
新闻网站关键指标离线统计Spark作业
packagecom.spark.study.
sparksql
;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext
不急吃口药
·
2019-02-26 17:29
IDEA+SBT+Spark+MySQL
SparkSQL
连接mysql数据库驱动依赖问题(略坑)
spark-shell中并不会遭遇这么多问题这是在IDEA中sbt依赖问题。1、导入包问题importjava.util.Propertiesimportorg.apache.spark.sqlimportorg.apache.spark.sql.types._importorg.apache.spark.sql.Rowimportorg.apache.spark.sql.SparkSession
liuhehe123
·
2019-02-26 16:56
spark
大数据
Scala
sparkSQL
的整体实现框架
感谢分享:https://blog.51cto.com/9269309/1845525这篇博客的目的是让那些初次接触
sparkSQL
框架的童鞋们,希望他们对
sparkSQL
整体框架有一个大致的了解,降低他们进入
forever_ai
·
2019-02-26 11:47
大数据
spark
[Spark基础]-- Spark sql使用(编程和 cli)
什么是
Sparksql
?分布式的SQL查询引擎,官方测试结果比Hivesql快100倍;从Spark-2.2.0版本起,提供了基于代价的优化器。
sparksql
怎样使用?
highfei2011
·
2019-02-25 14:38
Spark
sparkSQL
数据写入es
最近有需求,要将spark的数据写入es.在网上查找了一番,再测试过后,顺利将任务完成,记录下.直接上代码:pom文件:org.apache.sparkspark-core_2.112.1.3provided-->org.apache.sparkspark-sql_2.112.1.3provided-->org.scala-langscala-library2.11.8provided-->mys
a904364908
·
2019-02-25 00:20
大数据
spark
elk
10-
SparkSQL
读取mysql数据源并将结果写回mysql
一、创建测试表t_user2、user_t和t_result1、t_user2表结构如下:CREATETABLE`t_user2`(`id`int(11)DEFAULTNULLCOMMENT'id',`name`varchar(64)DEFAULTNULLCOMMENT'用户名',`password`varchar(64)DEFAULTNULLCOMMENT'密码',`age`int(11)DEF
CSDN_小路
·
2019-02-23 13:13
——Spark
Spark
Spark SQL之数据源(Data Source)与保存模式(Save Modes)
ParquetFiles(三).ORCFiles(四).JSONFiles(五).HiveTables(六).JDBCToOtherDatabases(七).AvroFiles(八).Troubleshooting
SparkSQL
Thomson617
·
2019-02-22 15:06
Spark
Spark
SQL
理解Spark中的RDD、DataFrame和DataSet
RDD也不支持
SparkSQL
操作。DataFram
CoderLin很忙
·
2019-02-21 21:23
大数据之Spark
基于
SparkSql
的日志分析实战
目录日志数据内容用户行为日志分析的意义离线数据处理流程需求分析数据清洗解析访问日志使用github上的开源项目对日志进行统计分析统计最受欢迎的TOPN的视频访问次数按照地市统计imooc主站最受欢迎的TOPN课程按流量统计imooc主站最受欢迎的TOPN课程调优点EChart展示图形化界面静态数据展示动态数据展示日志数据内容访问系统属性,操作系统,浏览器访问特征,点击的url,从那个url跳转过来
XiaodunLP
·
2019-02-21 16:16
Spark
SparkSQL
Spark SQL发展史
Spark1.0版本开始,推出了
SparkSQL
。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了
SparkSQL
。
一个人一匹马
·
2019-02-21 15:34
Druid数据模型
另外一类是内存实时计算,Impala、
SparkSQL
、Presto、Phoenix属于这类。第一类预计算和写入需要时间,计算性能快,并发高,缺点就是因为预聚合,不能查明细。
clive0x
·
2019-02-21 11:42
Spark SQL Join原理分析
SparkSQL
Join原理分析1.Join问题综述:Join有inner,leftouter,rightouter,fullouter,leftsemi,leftanti六种类型,对单独版本的Join
xiao酒窝
·
2019-02-19 17:55
Spark
SQL
Spark
Spark Dataframe中的Column
然而,有时候Column实例独立于Datafame存在,这让人很疑惑,实际上,
Sparksql
中的Column对象有以下存在方式:df("columnName")//OnaspecificDataFrame.col
Code_LT
·
2019-02-19 17:04
Spark
【大数据】【Spark】
SparkSQL
一前言1.hive可以跑在spark或者mapreduce上面,hiveonspark和
sparkSQL
并非一个概念,它们俩SQL引擎不同,但是计算引擎都是spark,hive和
sparkSQL
都不负责计算
菜丸子
·
2019-02-19 00:52
hadoop
Spark----
SparkSQL
简单操作
SparkSession前面我们已经介绍了SparkSession,这里我们在系统回顾一下,并做一些补充在老的版本中,
SparkSQL
提供两种SQL查询起始点,一个叫SQLContext,用于Spark
XiaodunLP
·
2019-02-18 01:38
Spark
SparkSQL
Spark----RDD 、 DataFrames 和 DataSet的爱恨情仇
在
SparkSQL
中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?
XiaodunLP
·
2019-02-18 00:27
Spark
SparkSQL
Spark SQL Dataset 常用API 一
TransformationUntypedAPI首先啰嗦一句,
SparkSQL
Dataset中主要分为Transformation和Action两种API(这个特性沿用了SparkRDD的特性,其中的Transformation
Brad_Q1
·
2019-02-17 10:55
大数据
spark
执行
sparksql
出现OOM问题
原文链接:http://www.cnblogs.com/lestatzhang/p/10611357.html一开始使用yarn-client模式提交作业时一切正常,但换成cluster模式下使用
sparksql
abc33880238
·
2019-02-16 21:00
SparkSQL
之rank() over, dense_rank(), row_number() 的区别
假设现在有一张学生表student,学生表中有姓名、分数、课程编号,现在我需要按照课程对学生的成绩进行排序。select*fromstudentrankover()可以实现对学生排名,特点是成绩相同的两名是并列,如下12245selectname,course,rank()over(partitionbycourseorderbyscoredesc)asrankfromstudent;dense_
机智的小狐狸
·
2019-02-16 20:35
Spark
Spark SQL 之 Temporary View
SparkSQL
之TemporaryView
sparkSQL
的temporaryview是支持原生SQL的方式之一
sparkSQL
的DataFrame和DataSet均可以通过注册temporaryview
颓废的大饼
·
2019-02-16 09:50
Spark
读《Spark内核设计的艺术 架构设计与实现》笔记之二----Spark模块设计
Spark模块设计整个Spark主要由SparkCore,
SparkSQL
,SparkStreaming,GraphX,MLlib组成,SparkCore是整个Spark体系的核心引擎,
SparkSQL
TMH_ITBOY
·
2019-02-15 16:00
Spark
关于在使用
sparksql
写程序是报错以及解决方案:org.apache.spark.sql.AnalysisException: Duplicate column(s): "name" found,
valconf=newSparkConf().setMaster("local[2]").setAppName("Load_Data")valsc=newSparkContext(conf)valssc=newsql.SparkSession.Builder().appName("Load_Data_01").master("local[2]").getOrCreate()sc.setLogLev
小小的_我
·
2019-02-11 18:19
184、Spark 2.0之Spark 2.x与1.x对比以及分析
Spark2.x与1.x对比Spark1.x:SparkCore(RDD)、
SparkSQL
(SQL+Dataframe+Dataset)、SparkStreaming、SparkMLlib、SparkGraphxSpark2
ZFH__ZJ
·
2019-02-11 13:00
Spark入坑
SparkSQL
之自定义函数UDAF
需求:计算1-10的几何平均数需要继承UserDefinedAggregateFunction并重写方法含义见注释packagecn.UDAFimportjava.langimportorg.apache.spark.sql.expressions.{MutableAggregationBuffer,UserDefinedAggregateFunction}importorg.apache.spa
机智的小狐狸
·
2019-02-08 16:25
Spark
parkstreaming实时写入hive后合并小文件问题
今天主要来说一下
sparksql
写入hive后小文件太多,影响查询性能的问题.在另外一篇博客里面也稍微提到了一下,但还是感觉要单独说一下,首先我们要知道hive里面文件的数量=executor-cores
hongtaq156136
·
2019-02-03 15:07
hive
spark
历史引用最高的云计算论文
2019-01-08
SparkSQL
的发明者MichaelArmbrust八年前写过一篇CloudComputing【云计算】的文章,引用轻松过一万!
smilegator
·
2019-02-03 14:17
Spark SQL 优化笔记
我的原创地址:https://dongkelun.com/2018/12/26/
sparkSql
Optimize/前言记录自己在工作开发中遇到的SQL优化问题1、避免用in和notin解决方案:用exists
董可伦
·
2019-02-01 16:49
spark
Custom UDF in Apache Spark
ApacheSparkhasbecomeverywidelyusedframeworktobuildBigdataapplication.
SparkSQL
hasmadeadhocanalysisonstructureddataveryeasy
张博208
·
2019-02-01 00:00
Spark
Scala
SparkSQL
之处理结构化数据
SPARKSQL
处理结构化数据同样
SPARKSQL
处理机构化数据也存在2个大的API:transformation和actionTransformationAPI列表Operationdescselect
颓废的大饼
·
2019-01-31 13:40
Spark
DataFrame:通过
SparkSql
将scala类转为DataFrame的方法
如下所示:importjava.text.DecimalFormatimportcom.alibaba.fastjson.JSONimportcom.donews.data.AppConfigimportcom.typesafe.config.ConfigFactoryimportorg.apache.spark.sql.types.{StructField,StructType}importor
silentwolfyh
·
2019-01-29 14:25
上一页
65
66
67
68
69
70
71
72
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他