E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkCore
Spark 笔录
运行模式2.1集群角色1.Master和Worker2.Driver和Executor2.2Local模式2.3Spark核心概念2.4Standalone模式2.5Yarn模式2.6集中运行模式对比三、
SparkCore
3.1RDD3.2RDD
马本不想再等了
·
2020-07-27 12:50
spark
SparkCore
之RDD中的函数传递
在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。下面我们看几个例子:1传递一个方法1.创建一个类classSearch(query:String){//过滤出包含字符串的数据defisMatch(s:String):Boolean={s.contain
不稳定记忆
·
2020-07-27 11:42
Spark
Spark入门
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复与内存系统交互等模块。
MXC肖某某
·
2020-07-21 14:00
SparkCore
一、概述1,定义RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。2,RDD的特点RDD表示制度的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必须的信息。RDDs之间存在依赖,R
MXC肖某某
·
2020-07-21 14:00
Spark---spark Sql建立临时表进行查询
这个时候直接建立临时表并查询即可当外部文件非json文件,只是简单的结构性数据的时候,需要先用
sparkcore
的
一只生活丰富的程序猿
·
2020-07-16 06:34
spark
Spark(Python)学习(三)
RDD编程RDD编程指的是
SparkCore
编程RDD创建(1)通过文件系统加载数据来创建RDDSpark的SparkContext通过“.textFile()”读取数据,生成内存中的RDD。
雨山林稀
·
2020-07-16 06:23
Spark
大数据常用组件 Maven 依赖, 已根据CDH兼容版本
主要包括,
sparkcore
,sql,stream,kafka,ml.Hbase,HdfsClient,Scala.org.apache.hbasehbase-common2.1.9org.apache.hbasehbase-client2.1.9org.apache.commonscommons-lang33.9com.thoughtworks.paranamerparanamer2.8org
DJH2717
·
2020-07-15 17:00
集群搭建和配置
Spark面试相关
SparkCore
面试篇01一、简答题1.Sparkmaster使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?
aeluwl2038
·
2020-07-15 14:36
[0.0.0] 大型spark项目实战
参考电商用户行为分析大数据平台-中华石杉DT大数据梦工厂-王家林spark官网文档场景在项目实战中理解:1、
sparkcore
、sql、streaming以及机器学习与图计算相关的知识点2、性能调优、troubleshooting
彭宇成
·
2020-07-15 13:03
项目总结
Apache SparkStreaming
SparkStreaminghttp://spark.apache.org/docs/latest/streaming-programming-guide.html#overviewSparkStreaming是
SparkCore
非常爱非常
·
2020-07-15 08:06
SparkStreaming StructuredStreaming Flink Storm 对比
SparkStreaming2.StructuredStreaming延迟数据处理Watermark容错性3.FlinkFlink分层API3.场景1.SparkStreamingSparkStreaming是
SparkCore
孟知之
·
2020-07-15 07:00
大数据组件
Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考
RDD的三个问题1.RDD到底是怎么生成的2.具体执行的时候,是否和基于
SparkCore
上的RDD有所不同,runtime级别的3.运行之后我们对RDD如何处理。
阳光男孩spark
·
2020-07-15 02:52
Spark系列--Spark Streaming(二)IDEA编写Spark Streaming--NetWordCount程序
一、IDEA编写NetWordCount在原有的
SparkCore
项目基础上,添加SparkStreaming项目依赖: org.apache.spark spark-streaming_2.11 ${
淡淡的倔强
·
2020-07-15 01:54
Spark
SparkCore
流量统计
packagecom.xzdream.sparkimportorg.apache.spark.{SparkConf,SparkContext}/***LogApp*/objectSparkContextApp{defmain(args:Array[String]):Unit={valsparkConf=newSparkConf();sparkConf.setAppName("LogApp").se
袁河之滨
·
2020-07-15 00:40
大数据入门实践
大数据环境准备
疯狂Spark之
SparkCore
入门
什么是SparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是Scala编写,方便快速编程。Spark与MapReduce的区别都
千锋教育官方博客
·
2020-07-14 04:39
大数据
spark(一)
2.Spark模块
Sparkcore
//核心模块SparkSQL//SQLSparkStreaming//流计算SparkMLlib//机器学习Spar
高国才
·
2020-07-14 03:45
spark
spark
大数据
疯狂Spark之
SparkCore
入门
什么是SparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是Scala编写,方便快速编程。Spark与MapReduce的区别都
QF大数据
·
2020-07-13 09:29
Spark核心编程:创建RDD(集合、本地文件、HDFS文件)
然后在创建了初始的RDD之后,才可以通过
SparkCore
提供的transformation算子,对该RDD进行转换,来获取其他的RDD。
VectorYang
·
2020-07-13 01:17
spark
Spark Core基础RDD操作【map,flatMap,mapPartitions,flatMapToPair】20200302
SparkCore
基础RDD操作【map,flatMap,mapPartitions,flatMapToPair】org.apache.sparkspark-core_2.112.3.1importorg.apache.spark.SparkConf
Ginoy
·
2020-07-12 18:07
Spark
Java
SparkCore
和MapReduce运行效率比较/Spark运行较快原因
spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性好。主要区别(1)spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘(2)Spark容错性高,它通过弹性分布式数据集RDD来
l雷雷
·
2020-07-12 12:17
Spark SQL
SparkSQL1、介绍SparkSQL是构建在
Sparkcore
模块之上的四大模块之一,提供DataFrame等丰富API,可以采用传统的SQL语句进行数学计算。
林尧彬
·
2020-07-12 06:02
葵花宝典--spark入门+WordCount入门
支持迭代式计算和图计算,计算比MR快的原因,是因为他的中间结果不落盘,只有发生shuffer的时候才会进行落盘内置模块
sparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块
张薄薄
·
2020-07-11 17:01
『 Spark 』10. spark 机器学习
其实我觉得spark有两个层次的概念:一个通用的分布式计算框架,
sparkcore
基于
sparkcore
设计,无缝实现的库,dataframe,sql,mllib,graphx,bagel,streaming
fengyuruhui123
·
2020-07-11 06:32
spark
spark
机器学习
分布式计算
框架
通过案例对SparkStreaming透彻理解三板斧之二
SparkStreaming运行时与其说是
SparkCore
上的一个流式处理框架,不如说是
SparkCore
上的一个最复杂的应用程序。
阳光男孩spark
·
2020-07-10 10:26
秦凯新技术社区-大数据实战系列滚动更新目录
本套商业实战系列一直会滚动更新,敬请期待1SPARK实战系列1.1
SparkCore
商业源码实战系列目录Spark商业环境实战-Spark内置框架rpc通讯机制及RpcEnv基础设施Spark商业环境实战
weixin_34162401
·
2020-07-10 08:21
源码:Spark SQL 分区特性第一弹
常见RDD分区
SparkCore
中的RDD的分区特性大家估计都很了解,这里说的分区特性是指从数据源读取数据的第一个RDD或者Dataset的分区,而后续再
大数据星球-浪尖
·
2020-07-10 01:48
大数据系列——Spark学习笔记Spark Streaming
1.SparkStreamingSparkStreaming是一个基于
SparkCore
之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream
EVAO
·
2020-07-09 22:44
大数据
Spark(二)--
SparkCore
扩展 (三) -- RDD 的 Shuffle 和分区
目录3.RDD的Shuffle和分区3.1RDD的分区操作查看分区数创建RDD时指定分区数3.2RDD的Shuffle是什么3.3RDD的Shuffle原理HashbaseshuffleSortbaseshuffle3.RDD的Shuffle和分区目标RDD的分区操作Shuffle的原理分区的作用RDD使用分区来分布式并行处理数据,并且要做到尽量少的在不同的Executor之间使用网络交换数据,所
HelloWorld闯天涯
·
2020-07-09 22:40
Spark
spark学习- 创建RDD-操作RDD
然后在创建了初始的RDD之后,才可以通过
SparkCore
提供的transformation算子,对该RDD进行转换,来获取其他的RDDSparkCore提供了三种创建RDD的方式,包括:使用程序中的集合创建
小葫芦105
·
2020-07-09 14:46
17-
SparkCore
04
collectcollectcountByKeycountByValuecollectAsMapgroupByKeyvsreduceByKeyvalrdd=sc.textFile("file:///home/hadoop/data/ruozeinput.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_)rdd.collectvalrdd
CrUelAnGElPG
·
2020-07-09 10:55
Spark Streaming运行架构以及代码详解
运行架构sparkStreaming相对其他流处理系统最大的优势在于流处理引擎和数据处理在同一软件栈,其中SparkStreaming功能主要包括流处理引擎的流数据接收与存储以及批处理作业的生成与管理,而
SparkCore
张林强超级ok
·
2020-07-08 21:13
大数据
spark
计算框架
sparkCore
-RDD详解
2019独角兽企业重金招聘Python工程师标准>>>1.1什么是RDD1.1.1产生背景当初设计RDD主要是为了解决三个问题:Fast:Spark之前的Hadoop用的是MapReduce的编程模型,没有很好的利用分布式内存系统,中间结果都需要保存到externaldisk,运行效率很低。RDD模型是in-memorycomputing的,中间结果不需要被物化(materialized),它的p
weixin_34356138
·
2020-07-08 18:07
Spark-core(核心)的基本介绍
一、
SparkCore
提供Spark最基础与最核心的功能,主要包括以下功能:(1)SparkContext:通常而言,DriverApplication的执行与输出都是通过SparkContext来完成的
weixin_34258078
·
2020-07-08 17:44
SparkCore
-Overview-1
本系列文章源自JerryLead的SparkInternals,本文只是在作者的原文基础上加入自己的理解,批注,和部分源码,作为学习之用注:原文是基于Spark1.0.2,而本篇笔记是基于spark2.2.0,对比后发现核心部分变化不大,依旧值得参考概览拿到系统后,部署系统是第一件事,那么系统部署成功以后,各个节点都启动了哪些服务?部署图从部署图中可以看到整个集群分为Master节点和Worker
weixin_33919950
·
2020-07-08 16:01
Spark MLlib GraphX
Spark课堂笔记Spark生态圈:
SparkCore
:RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤,ALS,逻辑回归等等-->机器学习SparkGraphx
Rki-dor
·
2020-07-08 13:07
Spark-Streaming进阶与Spark优化
Spark课堂笔记Spark生态圈:
SparkCore
:RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤,ALS,逻辑回归等等-->机器学习SparkGraphx
335046781
·
2020-07-08 13:33
Spark学习总结
Sparkcore
、SparkSQL、SparkStreaming、SparkMLlib、SparkGraphx4.Spark的核心数据模型?
从一点一滴做起
·
2020-07-08 00:08
Spark
Spark系列(一) ——
SparkCore
详解
1.=》Spark引入首先看一下MapReudce计算和Spark计算的区别:MapReudce:分布式计算框架缺点:执行速度慢,shuffle机制:数据需要输出到磁盘,而且每次shuffle都需要进行排序操作框架的机制:只有map和reduce两个算子,对于比较复杂的任务,需要构建多个job来执行,当存在job依赖的时候,job之间的数据需要落盘(输出到HDFS上),所以有IO瓶颈(磁盘IO,网
豆沙糕
·
2020-07-08 00:32
大数据
Spark概念及使用简介
更快更容易使用除了Java之外,提供了Scala、Python、R的API;好用的库基于
SparkCore
提供了SparkSQL、SparkStreaming、MLib、Graph
漂泊的胡萝卜
·
2020-07-07 17:39
Spark Core 解析:RDD
引言
SparkCore
是Spark的核心部分,是SparkSQL,SparkStreaming,SparkMLlib等等其他模块的基础,
SparkCore
提供了开发分布式应用的脚手架,使得其他模块或应用的开发者不必关心复杂的分布式计算如何实现
liam08
·
2020-07-07 13:52
Scala
Spark
关于spark core 和spark streaming 的区别
目录1.
sparkcore
快速使用简单通用运行灵活多种运行模式访问多种数据源总结2.sparkstreaming原理,概念,特点整合kafaka1.sparkcoresparkcore是一个基于内存的,
大数据王一
·
2020-07-06 23:07
spark
Spark性能优化 -- > Joins (SQL and Core)
本博文将总结和讨论下
sparkcore
和sparksql中join的优化操作。
村头陶员外
·
2020-07-06 23:57
spark性能优化
Spark Core笔记
SparkCore
笔记Spark一、WhatisSparkApacheSparkisafastandgeneralengineforlarge-scaledataprocessing二、Spark框架优势数据结构
Lee_Yuanyuan
·
2020-07-06 22:32
笔记
大数据学习路线(完整详细版)
Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,
sparkcore
xinyuan_java
·
2020-07-06 09:26
summary
1)Spark(概述、运行模式)
什么是Spark:Spark是一个基于内存的快速、通用、可扩展的大数据分析引擎;Spark内置模块:
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块
大哥哥的勇气
·
2020-07-06 06:20
大数据之Spark
Spark精选面试题三(Spark core面试篇01-03)
SparkCore
面试篇011、Sparkmaster使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?
俊杰梓
·
2020-07-06 01:34
Spark
面试题收集
Spark Streaming介绍以及简单使用
SparkStreamingisanextensionofthecoreSparkAPIthatenablesscalable,high-throughput,fault-tolerantstreamprocessingoflivedatastreams.SparkStreaming是
Sparkcore
蜗牛!Destiny
·
2020-07-05 18:34
Spark
spark DataFrame数据插入mysql性能优化(源码解析)
这里说的Spark包含
SparkCore
/SparkSQL/SparkStreaming,实际上都一样操作。以下展示的都是实际项目中的代码。
Therefore丶
·
2020-07-05 15:27
Spark
MySql
spark从入门到放弃三十四:Spark Sql(7) JDBC
www.haha174.top/article/details/2557791.简述SparkSql支持使用jdbc从关系型数据库读取数据(比如mysql),读取的数据依然用DataSet表示,很方便地使用
Sparkcore
意浅离殇
·
2020-07-04 12:10
Spark Core
操作步骤1.主要功能
SparkCore
提供S
bingoabin
·
2020-07-04 12:14
大数据
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他