parallelize 第2页

RDD基本操作（Python）

RDD基本转换运算创建RDD最简单的方式是使用SparkContext的parallelize方法intRDD=sc.parallelize([3,1,2,5,5])intRDD.collect()由于

老肥码码码·2023-08-09 09:28

关于Python中pyspark的使用

SparkContextconf=SparkConf().setMaster("local[*]").setAppName("test_spark")sc=SparkContext(conf=conf)rdd1=sc.parallelize

我有一只小柴犬！·2023-08-06 16:26

Spark-Core 计算基础核心(四) 概念及原理介绍

类型的数据，转换算子都是lazy模式，直到遇见执行算子才执行执行算子：无返回或者返回一个非RDD类型的数据持久化算子：将数据持久化或者缓存到内存中，持久化和缓存都是lazy模式的转换算子创建：从集合：parallelize

章云邰·2023-08-03 13:12

PySpark大数据分析(2)：RDD操作

最直接的创建方式就是通过SprakContext的parallelize()方法，将一个已有集合变为RDD：>>>lines=sc.parallelize(['wor

唐犁·2023-08-03 11:45

源码跟踪，案例详解Spark的分区规则

RDD-textFile二、指定分区规则 1.从集合中创建RDD指定分区-makeRDD 2.读取外部存储系统创建RDD指定分区-textFile一、默认分区规则 spark中有三种创建RDD的方式：从集合中创建（parallelize

阿年、嗯啊·2023-07-31 08:46

spark - rdd/df/ds 性能测试

Log10(UUID.randomUUID().toString,num)}})valcount=rdd.count()}elseif(typ==1){valrdd=spark.sparkContext.parallelize

大猪大猪·2023-07-26 14:47

[nlp] 数据并行 & 模型并行

数据并行数据并行DP模型并行有2种：pipeline并行，张量并行模型并行——pipeline并行：把不同的layer放到不同的gpumodel.parallelize()模型并行——张量并行：把同一个

心心喵·2023-07-19 21:40

reduce、reduceByKey详解

valc=sc.parallelize(1to10)c.reduce((x,y)=>x+y)//结果5512具体过程，RDD有12345678910个元素，1+2=33

专注于大数据技术栈·2023-06-19 07:31

Spark大数据处理讲课笔记3.3 掌握RDD分区

目录零、本讲学习目标一、RRD分区（一）RDD分区概念（二）RDD分区作用二、RDD分区数量（一）RDD分区原则（二）影响分区的因素（三）使用parallelize()方法创建RDD时的分区数量1、指定分区数量

贫坤户～濰小城·2023-06-15 21:40

Spark大数据处理学习笔记（3.1）掌握RDD的创建

1.1.2启动HDFS服务1.1.3上传文件到HDFS1.2启动SparkShell1.2.1启动Spark服务1.2.2启动SparkShell二、创建RDD2.1通过并行集合创建RDD2.1.1利用`parallelize

Kox2021·2023-06-12 04:47

Spark RDD的创建

准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS（二）启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD（一）通过并行集合创建RDD1、利用`parallelize

梁辰兴·2023-06-09 03:30

Spark源码：Job的Stage划分

SparkJob_Demo").setMaster("local[*]");valsparkContext:SparkContext=newSparkContext(conf);sparkContext.parallelize

Jorvi·2023-04-20 02:25

Spark源码：提交Tasks

SparkJob_Demo").setMaster("local[*]")valsparkContext:SparkContext=newSparkContext(conf)sparkContext.parallelize

Jorvi·2023-04-19 08:59

如何使用spark实现topN的获取

方法1：按照key对数据进行聚合(groupByKey)将value转换为数组，利用sortBy或者sortWith进行排序valrddData1=sparkSession.parallelize(Array

scott_alpha·2023-04-18 01:06

Spark大数据处理讲课笔记3.1 掌握RDD的创建

准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS（二）启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD（一）通过并行集合创建RDD1、利用`parallelize

howard2005·2023-04-14 10:14

RDD操作—— 键值对RDD（Pair RDD）

scala>valpairRDD=sc.parallelize(List("thisisdemo","howdoyoudo","fine

_羊羽_·2023-04-10 10:32

pyspark 对RDD的相关api

1、aggregate，可以用来求平均值如下示例rdd2=spark.sparkContext.parallelize([1,2,3,4,5,6,7,8,9,10])seqop=(lambdax,y:(

maketubu7·2023-04-07 05:10

Spark宽窄依赖之间的案例

conf.setAppName("day03")conf.setMaster("local")valsc=newSparkContext(conf)sc.setLogLevel("error");valrdd1=sc.parallelize

smile@Sky·2023-04-06 19:32

Spark基础学习笔记：创建RDD

）准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS（二）启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD（一）从对象集合创建RDD1、利用parallelize

tooolik·2023-04-06 14:05

PySpark-DataFrame条件筛选

目录示例DataFrame.where条件筛选.filter过滤.isin过滤funcs.when()示例DataFrame#创建一个SparkDataFramerdd=sc.parallelize([

旺仔的算法coding笔记·2023-04-03 07:41

spark报错illegal cyclic reference involving object InterfaceAudience

valfs=FileSystem.get(sparkSession.sparkContext.hadoopConfiguration)第二次使用2.sparkSession.sparkContext.parallelize

荣晓·2023-04-03 03:13

sparkcore的join

先准备两个rdd数据scala>vala=sc.parallelize(Array(("A","a1"),("B","b1"),("C","c1"),("E","e1")))a:org.apache.spark.rdd.RDD

大数据修行·2023-03-31 13:57

Spark文档总结

appName).setMaster(master)newSparkContext(conf)RDD可以由Hadoop文件系统(hdfs://)、本地文件、AmazonS3(s3a://)等创建或者使用sc.parallelize

jingy_ella·2023-03-30 22:24

spark jdbc 写入mysql 遇到序列化问题 Caused by: java.io.NotSerializableException: com.mysql.jdbc.JDBC4PreparedStatement

代码如下：valdata=sc.parallelize(List(("192.168.34.5","pc",5,12)))valurl="jdbc:mysql://ip:端口/数据库?"

z_star·2023-03-27 10:18

3 RDDs基本操作之Transformations

Transformations(转换）从之前的RDD构建一个新的RDD，像map()和filter()map()map()接收函数，把函数应用到RDD的每一个元素，返回新RDDvallines=sc.parallelize

Achaichai·2023-03-25 22:52

PySpark库

导入库frompysparkimportSparkConf,SparkContextsc=SparkContext.getOrCreate()创建RDDdata=sc.parallelize([('Amber

JUNjianshuZHU·2023-03-22 03:27

Spark 常用算子及代码

sc.parallelize和sc.markRDDparallelize()源码defparallelize[T:ClassTag](seq:Seq[T],numSlices:Int=defaultParallelism

coderrrrrrrrr·2023-03-17 13:35

RDD分区数量

假设：服务器是2vcoremaster-local[5]那么：1.parallelize(list,numSlices=5)分区数由numSlices参数决定，如果没有指定该参数，则由local[5]决定

kangwq2017·2023-03-15 12:04

黑猴子的家：Spark RDD SequenceFile文件输入输出（数据读取与保存的主要方式之一）

scala>valdata=sc.parallelize(List((2,"aa"),(3,"bb"),(4,"cc"

黑猴子的家·2023-03-10 03:16

Spark-算子-Active

函数中的curr参数，并不是value，而是一整条数据*2.reduce整体上的结果，只有一个*/@Testdefreduce():Unit={valtuple:(String,Double)=sc.parallelize

Demons_LLL·2023-02-06 20:57

【RDD】创建RDD及读取文件

创建RDDSparkshell提供了SparkContext变量sc，使用sc.parallelize()创建RDD。

leeshutao·2023-02-03 12:34

Spark：创建RDD

主要特征二、做好准备工作（一）准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS（二）启动SparkShell1、启动SparkShell三、创建RDD（一）从对象集合创建RDD1、利用parallelize

mu_kui·2023-02-03 12:27

Spark基础：创建RDD

文章目录一、RDD讲述（一）RDD概念二、RDD例题（一）创建文件1、准备本地系统文件2.启动集群3、上传文件到HDFS（二）启动SparkShell三、创建RDD（一）从对象集合创建RDD1、利用parallelize

兮若耶·2023-02-03 12:27

Spark源码-spark算子-1-构建RDD的算子

构建RDD的算子1.概述2.RDD创建方式2.1.根据驱动程序中现有并行化集合创建RDD2.1.1.parallelize方式创建RDD2.2.根据外部存储系统中的数据集创建RDD2.2.1.textFile

zdaiqing·2023-02-03 12:26

RDD的创建

valrdd=sc.parallelize(List(1,2,3,4,5,6)rdd.countvalrdd=sc.paralleliz

Connie_2022·2023-02-03 12:25

Spark学习笔记10:创建RDD

准备文件1、准备本地系统文件2、启动HDFS服务3、准备HDFS系统文件（二）启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD（一）从对象集合创建RDD1、利用parallelize

balabalalibala·2023-02-03 12:54

详解 Spark RDD 的转换操作与行动操作

对一个集合进行并行化操作Spark创建RDD最简单的方式就是把已经存在的集合传给parallelize()方法，不过，这种方式在开发中并不常用，毕竟需

Data跳动·2023-01-31 14:50

使用sparkContext.parallelize创建RDD

使用sparkContext.parallelize创建RDDIfyouareusingscala,getSparkContextobjectfromSparkSessionandusesparkContext.parallelize

坤坤子的世界·2023-01-14 09:35

创建 Spark RDD的不同方式

创建SparkRDD的不同方式SparkRDD可以使用Scala和Pyspark语言以多种方式创建，例如，可以使用sparkContext.parallelize()从文本文件、另一个RDD、DataFrame

坤坤子的世界·2022-12-25 06:01

spark中filter函数的一个用法

valdf1=sc.parallelize(Seq((1,"abcd"),(2,"defg"),(3,"ghij"),(4,"xyzz"),(5,"lmnop"),(6,"pqrst"),(7,"wxyz

阿莫_glistening·2022-12-15 11:54

【pyspark】常用api（1）

x=sc.parallelize(['A','A','B'])y=sc.parallelize(['D','C','A'])z=x.subtract(y)print('x和y的差集是：',z.collect

littlemichelle·2022-12-15 09:16

Spark 创建Dataframe和创建空的DataFrame

_创建case-class的Rddvalrdd:RDD[Person]=sc.parallelize(Array(Person("fanghailiang",29),Person("sunyu",28)

瑾明达2号·2022-11-20 17:25

Spark之创建Rdd、DataFrame、Dataset

一、RDD1.1通过本地集合创建RDDvalseq1=Seq(1001,"liming",24,95)valseq2=Seq(1,2,3)//可以不指定分区数valrdd1:RDD[Any]=sc.parallelize

大数据翻身·2022-11-20 17:20

Spark创建空的df

最近有需求用到了这个，在此记录一下1valdf:DataFrame=session.sparkContext.parallelize(List(("1585457624919318528","450",

南风知我意丿·2022-11-20 17:34

reduceByKey实现（key,value)生成(key,list(value))

sc.parallelize(Array(("red","zero"),("yellow","one"),("red","two"))).groupByKey().collect.foreach(println

fir_dameng·2022-10-30 19:48

spark 算子详解 java_Spark算子讲解(一)

例如：valrdd1=sc.parallelize(Array(1,2,3,4,5,6),2)valrdd2=sc.parallelize(Array(1,2,3,4,5

weixin_33945547·2022-09-22 22:20

Spark RDD的分区规则详解

SparkRDD的分区规则一.RDD中数据来源二.读取内存数据分区规则三.读取文件数据分区规则3.1分区数量的计算规则3.2数据分配到哪个分区规则一.RDD中数据来源2个地方：本地集合或外部数据源sc.parallelize

卡农c·2022-07-07 15:51

键值对RDD

键值对RDD1.创建pairRDD直接创建pairRDD=sc.parallelize([(2,5),(8,9),(4,5)])pairRDD.collect()[(2,5),(8,9),(4,5)]从文件中加载

Panda4u·2022-06-12 09:08

Spark学习笔记(3) - 关于Spark常用的transform算子的一些总结⭐️⭐️⭐️

本章节代码实现CSDN:wangt的博客☁️Github:https://github.com/lovewangtzq❤️微信公众号:大数据初学者b站:我学不会Spark创建RDD的三种方法valrdd1=sc.parallelize

兀坐晴窗独饮茶·2022-06-07 21:35

spark之map与flatmap的区别

具体示例我们可以看如下的例子：valarr=sc.parallelize(Array("a1","b2","c3"))使用map：arr.map(x=>x).foreach(println)输出结果为:

小木胆·2022-02-17 03:20

推荐频道

parallelize