pyspark运行模式

spark有两种不同的交互式运行环境:一种是给python语言提供的(pyspark),一种是给scala语言提供的。

如何进入pyspark?

假设现在已经进入linux环境了,然后执行以下命令进入pyspark中:

pyspark运行模式_第1张图片

master-url的值可取以下值:

pyspark运行模式_第2张图片

local[*]  逻辑CPU的个数 = 整个物理CPU的个数 * 每个CPU的核数

最后一个连接集群 HOST:主机名    PORT:端口号

集群模式:

pyspark运行模式_第3张图片

pyspark运行模式_第4张图片

 pyspark运行模式_第5张图片

pyspark运行模式_第6张图片

pyspark运行模式_第7张图片

spark应用程序

pyspark运行模式_第8张图片

1:导入相应类

2:生成配置的上下文信息

3:生成sparkcontext对象,即生成名为sc的指挥官

4:本地文件地址

5:该句将文本文件加载进来生成一个rdd

6:logData为rdd的名称,对rdd进行过滤所有包含a的行

pyspark运行模式_第9张图片

pyspark运行模式_第10张图片

pyspark运行模式_第11张图片

pyspark运行模式_第12张图片

pyspark运行模式_第13张图片

pyspark运行模式_第14张图片

 

 

 

你可能感兴趣的:(pyspark)