E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parallelize
RDD基本操作(Python)
RDD基本转换运算创建RDD最简单的方式是使用SparkContext的
parallelize
方法intRDD=sc.
parallelize
([3,1,2,5,5])intRDD.collect()由于
老肥码码码
·
2023-08-09 09:28
Python
关于Python中pyspark的使用
SparkContextconf=SparkConf().setMaster("local[*]").setAppName("test_spark")sc=SparkContext(conf=conf)rdd1=sc.
parallelize
我有一只小柴犬!
·
2023-08-06 16:26
python
大数据
数据挖掘
Spark-Core 计算基础核心(四) 概念及原理介绍
类型的数据,转换算子都是lazy模式,直到遇见执行算子才执行执行算子:无返回或者返回一个非RDD类型的数据持久化算子:将数据持久化或者缓存到内存中,持久化和缓存都是lazy模式的转换算子创建:从集合:
parallelize
章云邰
·
2023-08-03 13:12
PySpark大数据分析(2):RDD操作
最直接的创建方式就是通过SprakContext的
parallelize
()方法,将一个已有集合变为RDD:>>>lines=sc.
parallelize
(['wor
唐犁
·
2023-08-03 11:45
大数据处理
大数据
数据分析
Spark
Python
RDD
源码跟踪,案例详解Spark的分区规则
RDD-textFile二、指定分区规则 1.从集合中创建RDD指定分区-makeRDD 2.读取外部存储系统创建RDD指定分区-textFile一、默认分区规则 spark中有三种创建RDD的方式:从集合中创建(
parallelize
阿年、嗯啊
·
2023-07-31 08:46
Spark
spark
默认分区规则
指定分区
源码跟踪
区内数据的确定
spark - rdd/df/ds 性能测试
Log10(UUID.randomUUID().toString,num)}})valcount=rdd.count()}elseif(typ==1){valrdd=spark.sparkContext.
parallelize
大猪大猪
·
2023-07-26 14:47
[nlp] 数据并行 & 模型并行
数据并行数据并行DP模型并行有2种:pipeline并行,张量并行模型并行——pipeline并行:把不同的layer放到不同的gpumodel.
parallelize
()模型并行——张量并行:把同一个
心心喵
·
2023-07-19 21:40
nlp
自然语言处理
人工智能
reduce、reduceByKey详解
valc=sc.
parallelize
(1to10)c.reduce((x,y)=>x+y)//结果5512具体过程,RDD有12345678910个元素,1+2=33
专注于大数据技术栈
·
2023-06-19 07:31
Spark大数据处理讲课笔记3.3 掌握RDD分区
目录零、本讲学习目标一、RRD分区(一)RDD分区概念(二)RDD分区作用二、RDD分区数量(一)RDD分区原则(二)影响分区的因素(三)使用
parallelize
()方法创建RDD时的分区数量1、指定分区数量
贫坤户~濰小城
·
2023-06-15 21:40
大数据
spark
hadoop
Spark大数据处理学习笔记(3.1)掌握RDD的创建
1.1.2启动HDFS服务1.1.3上传文件到HDFS1.2启动SparkShell1.2.1启动Spark服务1.2.2启动SparkShell二、创建RDD2.1通过并行集合创建RDD2.1.1利用`
parallelize
Kox2021
·
2023-06-12 04:47
#
Spark大数据处理学习笔记
spark
学习
笔记
Spark RDD的创建
准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD(一)通过并行集合创建RDD1、利用`
parallelize
梁辰兴
·
2023-06-09 03:30
大数据处理
spark
大数据
hadoop
Spark源码:Job的Stage划分
SparkJob_Demo").setMaster("local[*]");valsparkContext:SparkContext=newSparkContext(conf);sparkContext.
parallelize
Jorvi
·
2023-04-20 02:25
Spark源码:提交Tasks
SparkJob_Demo").setMaster("local[*]")valsparkContext:SparkContext=newSparkContext(conf)sparkContext.
parallelize
Jorvi
·
2023-04-19 08:59
如何使用spark实现topN的获取
方法1:按照key对数据进行聚合(groupByKey)将value转换为数组,利用sortBy或者sortWith进行排序valrddData1=sparkSession.
parallelize
(Array
scott_alpha
·
2023-04-18 01:06
Spark大数据处理讲课笔记3.1 掌握RDD的创建
准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD(一)通过并行集合创建RDD1、利用`
parallelize
howard2005
·
2023-04-14 10:14
Spark大数据处理讲课笔记
spark
大数据
hadoop
RDD操作—— 键值对RDD(Pair RDD)
scala>valpairRDD=sc.
parallelize
(List("thisisdemo","howdoyoudo","fine
_羊羽_
·
2023-04-10 10:32
pyspark 对RDD的相关api
1、aggregate,可以用来求平均值如下示例rdd2=spark.sparkContext.
parallelize
([1,2,3,4,5,6,7,8,9,10])seqop=(lambdax,y:(
maketubu7
·
2023-04-07 05:10
spark
python
Spark宽窄依赖之间的案例
conf.setAppName("day03")conf.setMaster("local")valsc=newSparkContext(conf)sc.setLogLevel("error");valrdd1=sc.
parallelize
smile@Sky
·
2023-04-06 19:32
Spark基础学习笔记:创建RDD
)准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用
parallelize
tooolik
·
2023-04-06 14:05
spark
学习
big
data
PySpark-DataFrame条件筛选
目录示例DataFrame.where条件筛选.filter过滤.isin过滤funcs.when()示例DataFrame#创建一个SparkDataFramerdd=sc.
parallelize
([
旺仔的算法coding笔记
·
2023-04-03 07:41
大数据
spark报错illegal cyclic reference involving object InterfaceAudience
valfs=FileSystem.get(sparkSession.sparkContext.hadoopConfiguration)第二次使用2.sparkSession.sparkContext.
parallelize
荣晓
·
2023-04-03 03:13
scala
spark
spark
scala
sparkcore的join
先准备两个rdd数据scala>vala=sc.
parallelize
(Array(("A","a1"),("B","b1"),("C","c1"),("E","e1")))a:org.apache.spark.rdd.RDD
大数据修行
·
2023-03-31 13:57
Spark文档总结
appName).setMaster(master)newSparkContext(conf)RDD可以由Hadoop文件系统(hdfs://)、本地文件、AmazonS3(s3a://)等创建或者使用sc.
parallelize
jingy_ella
·
2023-03-30 22:24
spark jdbc 写入mysql 遇到序列化问题 Caused by: java.io.NotSerializableException: com.mysql.jdbc.JDBC4PreparedStatement
代码如下:valdata=sc.
parallelize
(List(("192.168.34.5","pc",5,12)))valurl="jdbc:mysql://ip:端口/数据库?"
z_star
·
2023-03-27 10:18
3 RDDs基本操作之Transformations
Transformations(转换)从之前的RDD构建一个新的RDD,像map()和filter()map()map()接收函数,把函数应用到RDD的每一个元素,返回新RDDvallines=sc.
parallelize
Achaichai
·
2023-03-25 22:52
PySpark库
导入库frompysparkimportSparkConf,SparkContextsc=SparkContext.getOrCreate()创建RDDdata=sc.
parallelize
([('Amber
JUNjianshuZHU
·
2023-03-22 03:27
Spark 常用算子及代码
sc.
parallelize
和sc.markRDDparallelize()源码defparallelize[T:ClassTag](seq:Seq[T],numSlices:Int=defaultParallelism
coderrrrrrrrr
·
2023-03-17 13:35
RDD分区数量
假设:服务器是2vcoremaster-local[5]那么:1.
parallelize
(list,numSlices=5)分区数由numSlices参数决定,如果没有指定该参数,则由local[5]决定
kangwq2017
·
2023-03-15 12:04
hadoop
hadoop
spark
黑猴子的家:Spark RDD SequenceFile文件输入输出(数据读取与保存的主要方式之一)
scala>valdata=sc.
parallelize
(List((2,"aa"),(3,"bb"),(4,"cc"
黑猴子的家
·
2023-03-10 03:16
Spark-算子-Active
函数中的curr参数,并不是value,而是一整条数据*2.reduce整体上的结果,只有一个*/@Testdefreduce():Unit={valtuple:(String,Double)=sc.
parallelize
Demons_LLL
·
2023-02-06 20:57
【RDD】创建RDD及读取文件
创建RDDSparkshell提供了SparkContext变量sc,使用sc.
parallelize
()创建RDD。
leeshutao
·
2023-02-03 12:34
Spark
scala
Spark:创建RDD
主要特征二、做好准备工作(一)准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动SparkShell1、启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用
parallelize
mu_kui
·
2023-02-03 12:27
spark
big
data
java
Spark基础:创建RDD
文章目录一、RDD讲述(一)RDD概念二、RDD例题(一)创建文件1、准备本地系统文件2.启动集群3、上传文件到HDFS(二)启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用
parallelize
兮若耶
·
2023-02-03 12:27
spark
big
data
hdfs
Spark源码-spark算子-1-构建RDD的算子
构建RDD的算子1.概述2.RDD创建方式2.1.根据驱动程序中现有并行化集合创建RDD2.1.1.
parallelize
方式创建RDD2.2.根据外部存储系统中的数据集创建RDD2.2.1.textFile
zdaiqing
·
2023-02-03 12:26
源码
Spark
大数据
spark
大数据
scala
RDD的创建
valrdd=sc.
parallelize
(List(1,2,3,4,5,6)rdd.countvalrdd=sc.paralleliz
Connie_2022
·
2023-02-03 12:25
大数据
Spark学习笔记10:创建RDD
准备文件1、准备本地系统文件2、启动HDFS服务3、准备HDFS系统文件(二)启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用
parallelize
balabalalibala
·
2023-02-03 12:54
Spark
spark
学习
big
data
详解 Spark RDD 的转换操作与行动操作
对一个集合进行并行化操作Spark创建RDD最简单的方式就是把已经存在的集合传给
parallelize
()方法,不过,这种方式在开发中并不常用,毕竟需
Data跳动
·
2023-01-31 14:50
Spark
spark
hadoop
big
data
使用sparkContext.
parallelize
创建RDD
使用sparkContext.
parallelize
创建RDDIfyouareusingscala,getSparkContextobjectfromSparkSessionandusesparkContext.
parallelize
坤坤子的世界
·
2023-01-14 09:35
spark
RDD
spark
scala
创建 Spark RDD的不同方式
创建SparkRDD的不同方式SparkRDD可以使用Scala和Pyspark语言以多种方式创建,例如,可以使用sparkContext.
parallelize
()从文本文件、另一个RDD、DataFrame
坤坤子的世界
·
2022-12-25 06:01
RDD
spark
spark中filter函数的一个用法
valdf1=sc.
parallelize
(Seq((1,"abcd"),(2,"defg"),(3,"ghij"),(4,"xyzz"),(5,"lmnop"),(6,"pqrst"),(7,"wxyz
阿莫_glistening
·
2022-12-15 11:54
Spark集群初级
spark
大数据
big
data
【pyspark】常用api(1)
x=sc.
parallelize
(['A','A','B'])y=sc.
parallelize
(['D','C','A'])z=x.subtract(y)print('x和y的差集是:',z.collect
littlemichelle
·
2022-12-15 09:16
Hive
&
Sql
&
Spark
spark
大数据
分布式
Spark 创建Dataframe和创建空的DataFrame
_创建case-class的Rddvalrdd:RDD[Person]=sc.
parallelize
(Array(Person("fanghailiang",29),Person("sunyu",28)
瑾明达2号
·
2022-11-20 17:25
spark
spark
Spark之创建Rdd、DataFrame、Dataset
一、RDD1.1通过本地集合创建RDDvalseq1=Seq(1001,"liming",24,95)valseq2=Seq(1,2,3)//可以不指定分区数valrdd1:RDD[Any]=sc.
parallelize
大数据翻身
·
2022-11-20 17:20
spark
大数据
数据分析
Spark创建空的df
最近有需求用到了这个,在此记录一下1valdf:DataFrame=session.sparkContext.
parallelize
(List(("1585457624919318528","450",
南风知我意丿
·
2022-11-20 17:34
#
Spark-SQL
spark
reduceByKey实现(key,value)生成(key,list(value))
sc.
parallelize
(Array(("red","zero"),("yellow","one"),("red","two"))).groupByKey().collect.foreach(println
fir_dameng
·
2022-10-30 19:48
大数据开发
reduceByKey
groupByKey
spark
scala
rdd
spark 算子详解 java_Spark算子讲解(一)
例如:valrdd1=sc.
parallelize
(Array(1,2,3,4,5,6),2)valrdd2=sc.
parallelize
(Array(1,2,3,4,5
weixin_33945547
·
2022-09-22 22:20
spark
算子详解
java
Spark RDD的分区规则详解
SparkRDD的分区规则一.RDD中数据来源二.读取内存数据分区规则三.读取文件数据分区规则3.1分区数量的计算规则3.2数据分配到哪个分区规则一.RDD中数据来源2个地方:本地集合或外部数据源sc.
parallelize
卡农c
·
2022-07-07 15:51
大数据
spark
键值对RDD
键值对RDD1.创建pairRDD直接创建pairRDD=sc.
parallelize
([(2,5),(8,9),(4,5)])pairRDD.collect()[(2,5),(8,9),(4,5)]从文件中加载
Panda4u
·
2022-06-12 09:08
hadoop
spark
大数据
Spark学习笔记(3) - 关于Spark常用的transform算子的一些总结⭐️⭐️⭐️
本章节代码实现CSDN:wangt的博客☁️Github:https://github.com/lovewangtzq❤️微信公众号:大数据初学者b站:我学不会Spark创建RDD的三种方法valrdd1=sc.
parallelize
兀坐晴窗独饮茶
·
2022-06-07 21:35
批处理框架
大数据专栏
Spark
算子
spark
transform
算子
spark之map与flatmap的区别
具体示例我们可以看如下的例子:valarr=sc.
parallelize
(Array("a1","b2","c3"))使用map:arr.map(x=>x).foreach(println)输出结果为:
小木胆
·
2022-02-17 03:20
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他