王哪跑nn

大数据 - Spark系列《五》- Spark常用算子

Spark系列文章：

大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进-CSDN博客

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客

大数据 - Spark系列《三》- 加载各种数据源创建RDD-CSDN博客

大数据 - Spark系列《四》- Spark分布式运行原理-CSDN博客

5.1. 转换算子

5.1.1. map

5.1.2. flatMap

5.1.3 filter

5.1.4groupBy

5.1.5mapPartitionWithIndex

5.1.6 sortBy

5.1.7 distinct

5.1.8 mapPartitions

5.1.9 groupByKey

5.1.10reduceByKey

5.1.11交集差集并集笛卡尔积

5.1.12 zip算子

5.1.13 join算子

5.2 行动算子

5.2.1reduce

5.2.2aggregate

5.2.3 foreachPartition

5.2.4 其他行动算子举例

前言

创建好RDD以后,就可以根据自己的需求编写处理逻辑!在RDD上就可以调用处理数据的方法(算子) ,

算子分为两种:

rdd.算子 ---> 返回新的RDD 这样的算子叫转换算子
rdd.算子--->不返回新的RDD 为行动算子 , 触发RDD加载数据 ,触发计算

(行动算子一定触发计算, 特殊转换算子可能触发计算)

5.1. 转换算子

使用和scala的集合方法是一致的

5.1.1. map

1. 功能

用于对 RDD 中的每个元素进行映射处理，并返回处理后的结果。

调用后返回的新的RDD的分区数和父RDD的分区数默认是一致的
repartition(2) 方法可以修改分区个数
RDD编程和本地scala集合编程几乎一样 , 在底层的运行上是不一样的 (分布式并行计算)

package com.doit.day0201

import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/4
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test06 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(Seq(1, 2, 3, 4, 5, 6, 7, 8)).repartition(3)

    // 过滤出偶数
    val rdd2 = rdd1.map(e=>e*10)
    val rdd3 = rdd2.map(e=>e+1).repartition(2)

    println(rdd1.getNumPartitions)//3
    println(rdd2.getNumPartitions)//3  新的RDD的分区数和父RDD的分区数默认是一致的
    println(rdd3.getNumPartitions)//2  repartition(2)  方法可以修改分区个数

    sc.stop()

  }
}

2. 原理:

底层使用迭代器迭代数据使用传入的函数对数据一一处理, 将处理后的结果返回

多了分区多了并行的封装, 实现了分布式运行任务

def map[U: ClassTag](f: T => U): RDD[U] = withScope {
// 对函数做了封装  cleanF 的计算逻辑还是我们传入的f计算逻辑
  val cleanF = sc.clean(f)  // 闭包检测 是否可以序列化
  new MapPartitionsRDD[U, T](this, (_, _, iter) => iter.map(cleanF))
}

1) 闭包序列化检查

在 map 方法中，首先调用了 sc.clean(f) 方法，该方法用于对传入的函数 f 进行序列化，并进行闭包检查。这是因为在分布式环境中，需要确保传入的函数能够在远程节点正确地执行，因此需要对函数进行序列化和闭包检查。

2) 封装任务

接下来，map 方法创建一个新的 MapPartitionsRDD 实例，并传入了一个匿名函数作为参数。该匿名函数表示对每个分区的数据进行处理的逻辑。在这个匿名函数中，调用了 iter.map(cleanF) 方法，对分区中的每个元素应用传入的函数 f 进行处理。

3) 并行计算

最后，MapPartitionsRDD 实例将这个处理逻辑封装成并行任务，并根据 RDD 的分区数将任务分配到不同的机器上执行。这样就实现了分布式的并行计算。

val bean = User()

 // 映射每个元素  一行数据  一行数据
 val rdd2 = rdd1.map(line => {
   bean  // 闭包引用
   println(s"处理每条数据  $line")
   s"doe46: $line"
 })

当在分布式环境中使用Spark进行数据处理时，通常会遇到需要序列化的对象。

bean 对象是一个 User 类的实例，它是一个 case class。对于 case class，默认情况下是自带序列化支持的，因此不需要额外的操作。

如果 bean 是一个普通的 class，而不是 case class，并且没有实现 Serializable 接口，那么在将其用于 Spark RDD 的操作时会报错，因为 Spark 需要将这个对象序列化并在远程节点上进行传输。解决方法通常有两种：

1. 让类实现 Serializable 接口：

class User extends Serializable {
  // 类的定义
}

2. 使用 case class： case class 默认是实现了 Serializable 接口的，所以无需额外的操作。

注意:

算子中的代码并不是在main线程中执行的 , 而是在远端

算子中引用的外部变量 ,闭包

算子中的代码会被封装成并行任务, 根据分区个数分配到不同的机器上实例化运行

在封装任务时, 会进行函数的闭包检测保证序列化成功

5.1.2. flatMap

完成数据的一对多的处理映射, 输入一条数据 ,处理后返回多个数据或者1个,或者没有

每个元素 ----> 返回集合集合中可以有多个元素 , 1个元素 ,没有元素真正输出时,自动的输出集合的每个元素

测试一：直接对字符串进行压平

package com.doit.day0201

import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/5
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test07 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List("hello aaa", "hello bbb"))

    rdd1.flatMap(line=>line).foreach(println)
  }
}

结果：（字符串被压平成了一个个单个字符）

测试二：使用"-"对字符串进行切割

package com.doit.day0201

import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/5
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test07 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List("hello aaa", "hello bbb"))

    //rdd1.flatMap(line=>line).foreach(println)
    rdd1.flatMap(_.split("-")).foreach(println)
  }
}

结果：（由于每个字符串中并没有”-“，所以出来的就是一整个字符串作为一行

测试三：使用空格进行切割

package com.doit.day0201

import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/5
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test07 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List("hello aaa", "hello bbb"))

    //rdd1.flatMap(line=>line).foreach(println)
    //rdd1.flatMap(_.split("-")).foreach(println)
    rdd1.flatMap(_.split("\\s+")).foreach(println)
  }
}

结果：（出来的是一个个单词）

5.1.3 filter

每个元素 ----> 条件判断 --->条件为true的元素留下

package com.doit.day0201

import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/5
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test08 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List("hello aaa", "hello bbb", "hello bac"))

    val rdd2 = rdd1.flatMap(_.split("\\s+"))

    rdd2.filter(e=>true).foreach(println)  //留下所有元素
    rdd2.filter(e=>{!e.startsWith("h")}).foreach(println)  //只留下以h开头的单词
    
    sc.stop()
  }
}

多个行动算子上都使用了一个计算而来的RDD .这个RDD 会多次计算创建 ! 效率低 , 计算重复
可以将这个RDD缓存起来 rdd2.cache() ; 减少计算次数

5.1.4groupBy

按照指定的key(属性分组) ,可能会产生Shuffle

上下有任务
上下游任务之间分区间的数据分发, 数据的分发规则由分区器决定 ;默认分区器HashPartitioner

分区器: 决定了上下游任务之间分区间的数据分发规则

分区: 并行计算的单元 [数据信息, 计算逻辑等]

对数据进行分组 (对数据进行分区) , 一般会Shuffle

package com.doit.day0206

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/6
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description: 计算每个城市下每种商品类别的总金额
 */


object Test01 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    // 读取数据文件，创建RDD
    val rdd1 = sc.textFile("data/orders.txt")

    // 将每行数据映射为元组(订单ID, 金额, 城市)
    val rdd2 = rdd1.map(line=>{
      val arr = line.split(",")
      val oid = arr(0)
      val money = arr(1).toDouble
      val city = arr(2)
      (oid,money,city)
    })

    // 按城市分组，得到一个元组，其中键为城市，值为包含订单信息的迭代器
    val rdd3 = rdd2.groupBy(_._3)

    // 对每个城市的订单信息进行处理，计算总金额，并输出结果
    rdd3.map(tp=>{
      val city = tp._1
      val sum = tp._2.map(_._2).sum // 计算每个城市的总金额
      (city,sum)
    }).foreach(println)
    
    sc.stop()
  }
}

结果：

5.1.5mapPartitionWithIndex

类似mapPartitions，不同之处在于func可以接收到每个元素所属分区号

1. 方法格式

def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false): RDD[U]

2.参数说明

f: 一个函数，接受两个参数：分区索引(Int)和一个迭代器(Iterator[T])，返回一个迭代器(Iterator[U])。这个函数将被应用于RDD的每个分区。
preservesPartitioning: 布尔类型，指示输出RDD是否保留原始RDD的分区方式，默认为false。

3. 功能描述

mapPartitionsWithIndex函数对RDD的每个分区都调用一次指定的函数。该函数是在每个分区的数据上运行的，因此可以在该函数内部访问分区的所有元素。此函数的返回值是一个迭代器，其中包含了对分区数据进行处理后得到的结果。

package com.doit.day0201

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/5
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description: 使用Spark进行基本的RDD操作，并添加了一些注释说明
 */


object Test09 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式
      //.set("spark.default.parallelism", "8")

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    // 从文件中读取数据创建RDD
    val rdd1 = sc.textFile("data/a.txt")

    // 对RDD中的每一行数据进行分词，并将分词结果扁平化成单词的RDD
    val rdd2: RDD[String] = rdd1.flatMap(_.split("\\s+"))

    // 输出RDD的分区数
    println(rdd2.getNumPartitions)

    // 将RDD中的每个分区的数据与分区索引拼接成新的RDD
    val rdd4 = rdd2.mapPartitionsWithIndex((p, iter) => {
      iter.map(e => p + ": " + e)
    })

    // 遍历并打印新生成的RDD中的每个元素
    rdd4.foreach(println)

    // 对RDD进行分组操作，以单词作为key，相同单词的数据分到同一个组
    val rdd3: RDD[(String, Iterable[String])] = rdd2.groupBy(e => e)

    // 输出RDD的分区数
    println(rdd3.getNumPartitions)

    // 将RDD中的每个分区的数据与分区索引拼接成新的RDD
    val rdd5 = rdd3.mapPartitionsWithIndex((p, iter) => {
      iter.map(tp => p + ":" + tp._1)
    })

    // 遍历并打印新生成的RDD中的每个元素
    rdd5.foreach(println)
  }
}

结果：

5.1.6 sortBy

1. 按指定字段排序

对数据进行排序 , 能做到全局有序

函数 : f=>K 根据K的进行排序

package com.doit.day0206

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/6
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description: 对RDD进行mapPartitionsWithIndex和sortBy操作，并输出结果区间有序
 */


object Test02 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    // 读取数据文件，创建RDD
    val rdd1 = sc.textFile("data/orders.txt")

    // 将每行数据映射为元组(订单ID, 金额, 城市)
    val rdd2 = rdd1.map(line=>{
      val arr = line.split(",")
      val oid = arr(0)
      val money = arr(1).toDouble
      val city = arr(2)
      (oid,money,city)
    })

    // 对RDD进行mapPartitionsWithIndex操作，输出结果区间有序
    rdd2.mapPartitionsWithIndex((p,iter)=>{
      iter.map(e=>p+":"+e)
    }).foreach(println)

    // 对RDD进行按订单ID降序排序操作
    val rdd3 = rdd2.sortBy(_._1,false)

    // 对排序后的RDD进行mapPartitionsWithIndex操作，输出结果区间有序
    rdd3.mapPartitionsWithIndex((p,iter)=>{
      iter.map(e=>p+":"+e)
    }).foreach(println)

    // 关闭SparkContext
    sc.stop()
  }
}

2. 支持自定义比较函数

如果排序的属性是自定义的类型比如 ordersTp.sortBy(bean=>bean) OrdersBean

1) OrdersBean本身是可排序的

2) 比较器指定排序规则灵活

方式1 重新排序方法

case class OrdersBean(oid:Int,money:Double,city:String) extends Ordering{
  override def compare(ordersBean: OrdersBean):Int={
    //城市升序，oid降序
    if(city.compareTo(ordersBean.city)==0){
      ordersBean.oid.compareTo(oid)
    }else{
      city.compareTo(ordersBean.city)
    }
  }
}

-----------------------------------------------------------------------
package com.doit.day0206
import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/6
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test03 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd1 = sc.textFile("data/orders.txt")

    val rdd2 = rdd1.map(line=>{
      val arr = line.split(",")
      val oid = arr(0)
      val money = arr(1).toDouble
      val city = arr(2)
      OrdersBean(oid,money,city)
    })

    //按照钱的降序排列
    //rdd2.sortBy(_.money,false)
    //按照oid升序排列
    //rdd2.sortBy(_.oid)
    //按照iid升序，钱升序
    //rdd2.sortBy(bean=>(bean.oid,bean.money))

    //按ordersBean重写后的规则排序
    //rdd2.sortBy(bean=>bean).foreach(println)
    rdd2.sortBy(bean=>bean)
        .mapPartitionsWithIndex((p,iter)=>{iter.map(e=>s"${p}:"+e)})
        .foreach(println)
    sc.stop()

  }
}

结果：

方式2 比较器

自定义bean本身不需要修改

case class OrdersBean(oid:String , money:Double , city:String)

package com.doit.day0206

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}

/**
 * @日期: 2024/2/6
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test03 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd1 = sc.textFile("data/orders.txt")

    val rdd2 = rdd1.map(line => {
      val arr = line.split(",")
      val oid = arr(0)
      val money = arr(1).toDouble
      val city = arr(2)
      OrdersBean(oid, money, city)
    })

    //按照钱的降序排列
    //rdd2.sortBy(_.money,false)
    //按照oid升序排列
    //rdd2.sortBy(_.oid)
    //按照iid升序，钱升序
    //rdd2.sortBy(bean=>(bean.oid,bean.money))

    //按ordersBean重写后的规则排序
    //rdd2.sortBy(bean=>bean).foreach(println)
    implicit val ordering = new Ordering[OrdersBean] {
      override def compare(x:OrdersBean,y:OrdersBean): Int = {
        //城市升序，oid降序
        if (x.city.compareTo(y.city) == 0) {
          y.oid.compareTo(x.oid)
        } else {
          x.city.compareTo(y.city)
        }
      }
    }

    rdd2.sortBy(bean => bean)
      .mapPartitionsWithIndex((p, iter) => {
        iter.map(e => s"${p}:" + e)
      })
      .foreach(println)
    sc.stop()

  }
}

5.1.7 distinct

针对数据进行去重操作

package com.doit.day0206

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}
/**
 * @日期: 2024/2/7
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test04 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    val rdd = sc.parallelize(List("a", "b", "c", "d", "e", "a"))
    println(rdd.getNumPartitions)
    println(rdd.collect().toList)

    val res = rdd.distinct(2)

    println(res.getNumPartitions)
    println(res.collect().toList)

    sc.stop()
  }
}

答案：

5.1.8 mapPartitions

map方法映射一条数据 , 本方法映射的整个分区的数据

在数据库里面创建orders表：

CREATE TABLE orders (
    oid VARCHAR(10),
    money double,
    city VARCHAR(2)
);

练习：将orders.txt里面的数据一条条插入order表里面

package com.doit.day0206

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}

object Test05 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    // 读取文本文件并创建RDD
    val rdd1 = sc.textFile("data/orders.txt")

    // 对RDD进行转换，将每行数据拆分为数组，并将数组中的元素映射为元组
    val rdd2 = rdd1.map(line => {
      val arr = line.split(",")
      val oid = arr(0)
      val money = arr(1).toDouble
      val city = arr(2)
      (oid, money, city)
    })

    // 在RDD上执行操作，将数据插入MySQL数据库表中，并计算插入成功的记录数量
    println(rdd2.map(tp => { //每条数据获取一次链接
      val conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/day02_test02_company", "root", "123456")
      val ps = conn.prepareStatement("insert into orders values (?,?,?)")
      ps.setString(1, tp._1)
      ps.setDouble(2, tp._2)
      ps.setString(3, tp._3)
      ps.execute()
    }).count())

    // 在RDD上执行操作，使用mapPartitions方法将数据批量插入MySQL数据库表中，并计算插入成功的记录数量
    println(rdd2.mapPartitions(iters => { //每个分区获取一次链接
      val conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/day02_test02_company", "root", "123456")
      val ps = conn.prepareStatement("insert into orders values (?,?,?)")
      iters.map(tp => {
        ps.setString(1, tp._1)
        ps.setDouble(2, tp._2)
        ps.setString(3, tp._3)
        ps.execute()
      })
    }).count())

    // 停止SparkContext对象
    sc.stop()
  }
}

foreachPartition 行动算子直接触发执行
------------------------------------------------------------------------------------
ordersTp.foreachPartition(iters => { // 每个分区
  val conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/day02_test02_company", "root", "123456")
  val ps = conn.prepareStatement("insert into orders values (?,?,?)")
  iters.foreach(tp => {
    ps.setString(1, tp._1)
    ps.setDouble(2, tp._2)
    ps.setString(3, tp._3)
    ps.execute()
  })
})

5.1.9 groupByKey

处理的数据类型K-V的RDD

package com.doit.day0206

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}

object Test06 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    // 读取文本文件并创建RDD
    val rdd1 = sc.textFile("data/a.txt")

    // 将每行文本按空格拆分，并扁平化为单词RDD
    val rdd2 = rdd1.flatMap(_.split("\\s+"))

    // 将每个单词映射为 (单词, 1) 的键值对RDD
    val rdd3 = rdd2.map(tp => {
      (tp, 1)
    })

    // 按单词进行分组，得到 (单词, Iterable[1]) 的键值对RDD
    val rdd4 = rdd3.groupByKey()

    // 对每个单词的 Iterable[1] 进行求和，得到 (单词, 出现次数总和) 的键值对RDD
    val rdd5 = rdd4.map(tp=>{
      val word = tp._1
      val sum = tp._2.sum
      (word,sum)
    })

    // 打印每个单词及其出现次数总和
    rdd5.foreach(println)

    // 停止SparkContext对象
    sc.stop()
  }
}

代码：

5.1.10reduceByKey

处理的数据类型K-V的RDD

package com.doit.day0206

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}
/**
 * @日期: 2024/2/7
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test08 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd1 = sc.textFile("data/a.txt")

    val rdd2 = rdd1.flatMap(_.split("\\s+"))

    val rdd3 = rdd2.map(tp => {
      (tp, 1)//单词，1  （a,1) (b,1) (c,1)
    })

    val rddd4 = rdd3.reduceByKey(_ + _) //分组，组内聚合 a <1,1,1,1>
    rddd4.foreach(println)

  }
}

5.1.11交集差集并集笛卡尔积

package com.doit.day0208

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}

/**
 * @日期: 2024/2/8
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test01 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式
    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    val ls1=List(1,3,5,7,9)
    val ls2=List(1,2,4,6,8)

    //两个RDD的泛型一致
    val u1: Seq[Int] =ls1.union(ls2)
    println(u1.toList)//List(1, 3, 5, 7, 9, 1, 2, 4, 6, 8)

    val rdd1 = sc.makeRDD(ls1)
    val rdd2 = sc.makeRDD(ls2)
    rdd1.union(rdd2).foreach(println)//1, 3, 5, 7, 9, 1, 2, 4, 6, 8

    println("--------------")
    //差集 数据类型一致 在rdd1中出现在rdd2中没有出现的元素
    println(rdd1.subtract(rdd2).collect().toList) //List(3, 5, 7, 9)

    //交集 在两个RDD中都出现的元素
    println(rdd1.intersection(rdd2).collect().toList)//List(1)

    // 4 笛卡尔积 返回关联后的结果  join 
    println(rdd1.cartesian(rdd2).collect().toList)//List((1,1), (1,2), (1,4), (1,6), (1,8), (3,1), (3,2), (3,4), (3,6), (3,8), (5,1), (5,2), (5,4), (5,6), (5,8), (7,1), (7,2), (7,4), (7,6), (7,8), (9,1), (9,2), (9,4), (9,6), (9,8))
  }
}

5.1.12 zip算子

zip算子用于将两个RDD组合成key/Value形式的RDD，这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。

package com.doit.day0208
import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}
/**
 * @日期: 2024/2/8
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test02 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式
    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    val ls1=List(1,3,5,7,9)
    val ls2=List(2,4,6,8)
    val rdd1 = sc.makeRDD(ls1,2)
    val rdd2 = sc.makeRDD(ls2,2)
    val rdd3 = sc.makeRDD(Seq("A", "B", "C", "D", "E"), 2)
    val rdd4 = sc.makeRDD(Seq("A", "B", "C", "D", "E"), 3)

    val tuple1: Array[(Int, String)] = rdd1.zip(rdd3).collect()
    println(tuple1.toList)//List((1,A), (3,B), (5,C), (7,D), (9,E))

    val tuple2= rdd3.zip(rdd1).collect()
    println(tuple2.toList)//List((A,1), (B,3), (C,5), (D,7), (E,9))

    val tuple3= rdd4.zip(rdd1).collect()
    println(tuple3.toList)
    //java.lang.IllegalArgumentException: Can't zip RDDs with unequal numbers of partitions
    //如果两个RDD分区数不同，则抛出异常

    val tuple3= rdd3.zip(rdd2).collect()
    println(tuple3.toList)
    //java.lang.IllegalArgumentException: Can't zip RDDs with unequal numbers of partitions
    //如果两个RDD元素格式不同，则抛出异常
  }
}

5.1.13 join算子

统计订单数据 : 统计每个用户的订单金额信息

用户数据关联订单数据

按照用户分组

统计订单总额总个数均价

//orders.txt
oid13,900,bj,A,1
oid14,90,bj,B,1
oid15,300,nj,F,1
oid16,700,nj,E,2
oid17,199,bj,D,3
oid18,200,nj,C,4

//user.txt
1,鹿晗
2,吴亦凡
3,江拥杰
4,段海涛
5,孙健

package com.doit.day0208

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}

/**
 * @日期: 2024/2/8
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description: 统计订单数据: 统计每个用户的订单金额信息 name,总额,个数,均价
 */

object Test03 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    // 读取订单数据和用户数据
    val rdd1 = sc.textFile("Data/join/orders.txt")
    val rdd2 = sc.textFile("Data/join/user.txt")

    // 将订单数据映射为键值对 (id, line)
    val rdd3 = rdd1.map(line => {
      val arr = line.split(",")
      val id = arr(4)
      (id, line)
    })

    // 将用户数据映射为键值对 (id, name)
    val rdd4 = rdd2.map(line => {
      val arr = line.split(",")
      val id = arr(0)
      val name = arr(1)
      (id, name)
    })

    // 对订单数据和用户数据进行连接
    val rdd5: RDD[(String, (String, String))] = rdd3.join(rdd4)

    // 统计每个用户的订单金额信息
    val rdd6: RDD[(String, Iterable[String])] = rdd5.map(tp => {
      val name = tp._2._2
      val arr = tp._2._1.split(",")
      (name, arr(1))
    }).groupByKey()

    // 计算总额、个数和均价，并输出结果
    rdd6.map(tp=>{
      val name = tp._1
      val num = tp._2.size
      val sum = tp._2.map(p => p.toDouble).sum
      (name,sum,num,sum/num)
    }).foreach(println)

    // 关闭SparkContext
    sc.stop()
  }
}

结果：

5.2 行动算子

5.2.1reduce

行动算子直接返回聚合结果

返回的结果类型和输入的数据类型一致

package com.doit.day0206

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}

/**
 * @日期: 2024/2/7
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test07 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd = sc.parallelize(List("a", "b", "c", "d", "e"), 2)
    // _ 前一个元素  _ 拼接符   _ 后一个元素
    println(rdd.reduce((str1, str2) => {
      str1 + "_" + str2
    }))

    sc.stop()
  }
}

结果：

5.2.2aggregate

聚合算子 ,输入数据类型和返回数据类型可以不一致

aggregate 是 Spark 中用于聚合数据的一个高级函数，它允许用户在 RDD 上执行聚合操作，并且比常规的 reduce 和 fold 方法更加灵活。aggregate 方法接受三个参数：初始值、分区内聚合函数和分区间聚合函数。

def aggregate[U](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U

其中：

zeroValue 是一个初始值，它将作为每个分区的第一个聚合操作的初始值。
seqOp 是一个函数，用于在每个分区上聚合数据。它接受两个参数，第一个参数是初始值或上一次聚合操作的结果，第二个参数是 RDD 中的元素。
combOp 是一个函数，用于将每个分区的结果进行合并。它接受两个参数，表示两个分区的聚合结果，然后将它们合并为一个结果。

工作流程：

Spark 将每个分区的数据与初始值一起传递给 seqOp 函数，然后在每个分区上执行聚合操作，得到每个分区的局部结果。
Spark 将所有分区的局部结果与初始值一起传递给 combOp 函数，然后在 driver 端执行聚合操作，得到最终的全局结果。

package com.doit.day0206

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}

/**
 * @日期: 2024/2/7
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description:
 */


object Test09 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式

    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List(1, 2, 3, 4, 5), 2)
    // 计算每个分区的元素和，并将结果与初始值相加
    /**
     * 分区0 2d+1+2=5d
     * 分区1 2d+3+4+5=14
     *  2.0 + 5.0 + 14.0 = 21.0
     */
    val rdd2: Double = rdd1.aggregate(2d)(_ + _, _ + _)
    println(rdd2)
    sc.stop()
  }
}

结果：

5.2.3 foreachPartition

上面的mapPartition例子也可以用foreachPartition实现

foreachPartition 行动算子直接触发执行
------------------------------------------------------------------------------------
ordersTp.foreachPartition(iters => { // 每个分区
  val conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/day02_test02_company", "root", "123456")
  val ps = conn.prepareStatement("insert into orders values (?,?,?)")
  iters.foreach(tp => {
    ps.setString(1, tp._1)
    ps.setDouble(2, tp._2)
    ps.setString(3, tp._3)
    ps.execute()
  })
})

5.2.4 其他行动算子举例

 package com.doit.day0208

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

import java.sql.{DriverManager, ResultSet}
import org.apache.log4j.{Level, Logger}

/**
 * @日期: 2024/2/8
 * @Author: Wang NaPao
 * @Blog: https://blog.csdn.net/weixin_40968325?spm=1018.2226.3001.5343
 * @Tips: 和我一起学习吧
 * @Description: Spark RDD行动算子示例
 */

object Test05 {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象，并设置应用程序名称和运行模式
    val conf = new SparkConf()
      .setAppName("Starting...") // 设置应用程序名称
      .setMaster("local[*]") // 设置运行模式为本地模式
    // 创建SparkContext对象，并传入SparkConf对象
    val sc = new SparkContext(conf)

    // 设置日志级别为WARN，减少不必要的输出信息
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    // 创建两个列表
    val ls1 = List(1, 7, 3, 5, 9)
    val ls2 = List(2, 4, 6, 8)

    // 创建两个RDD，分别将列表分布在两个分区中
    val rdd1 = sc.makeRDD(ls1, 2)
    val rdd2 = sc.makeRDD(ls2, 2)

    // 使用行动算子进行操作

    // 获取第一个元素
    println(rdd1.first())  //1

    // 获取前3个元素，并转换为列表
    println(rdd1.take(3).toList) //1,7,3

    // 获取前3个元素，并按升序排序后转换为列表
    println(rdd1.takeOrdered(3).toList) //1,3,5

    // 将所有元素收集到本地内存集合中（慎用，可能会占用大量内存）
    println(rdd1.collect().toList)//1,7,3,5,9

    // 获取RDD中的最小值
    println(rdd1.min())  //1

    // 获取RDD中的最大值
    println(rdd1.max())  //9

    // 获取RDD中所有元素的总和
    println(rdd1.sum())  //25

    // 迭代遍历RDD中的每个元素并打印
    rdd1.foreach(println)//1,7,3,5,9

    // 获取RDD中元素的个数
    println(rdd1.count())  //5

    // 关闭SparkContext
    sc.stop()
  }
}

你可能感兴趣的:(spark,大数据,spark,分布式)

实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
2025最新系统 Git 教程（七）（完结）嘿rasa 2025最新教程系列 git
第4章分布式Git4.1分布式Git-分布式工作流程你现在拥有了一个远程Git版本库，能为所有开发者共享代码提供服务，在一个本地工作流程下，你也已经熟悉了基本Git命令。你现在可以学习如何利用Git提供的一些分布式工作流程了。这一章中，你将会学习如何作为贡献者或整合者，在一个分布式协作的环境中使用Git。你会学习为一个项目成功地贡献代码，并接触一些最佳实践方式，让你和项目的维护者能轻松地完成这个过
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
Spring Security OAuth2.0在分布式系统中的安全实践
引言分布式系统架构下，安全认证与授权面临跨服务、高并发、多租户等挑战。SpringSecurity与OAuth2.0的结合为微服务安全提供了标准化解决方案。分布式系统中的安全挑战跨服务身份认证的复杂性令牌管理的可扩展性问题多租户场景下的权限隔离需求防止CSRF、XSS等常见攻击SpringSecurityOAuth2.0核心架构授权服务器设计@EnableAuthorizationServer配置
【Spring WebFlux】为什么 Spring 要拥抱响应式会飞的架狗师 Spring WebFlux spring java 后端
在现代分布式系统中，响应式系统已成为应对高并发、低延迟需求的核心方案。但构建响应式系统并非易事——它需要框架级别的支持来解决异步处理、资源调度、背压控制等底层问题。作为Java生态中最具影响力的框架，Spring对响应式的支持并非偶然，而是技术演进的必然选择。本文将从响应式系统的构建挑战出发，剖析Spring拥抱响应式的底层逻辑。一、响应式系统的构建困境：现有方案的局限性响应式系统的核心诉求是在有
涵盖轻量级锁（SpinLock）与操作系统同步原语（如 CRITICAL_SECTION）的性能优化、Monitor 的原子性和数据竞争防护、Monitor.Wait 和 Pulse 在生产者-消费者 zhxup606 C#实战教程李工篇 wpf 开发语言 C#
涵盖轻量级锁（SpinLock）与操作系统同步原语（如CRITICAL_SECTION）的性能优化、Monitor的原子性和数据竞争防护、Monitor.Wait和Pulse在生产者-消费者中的作用、控制线程执行顺序、Thread.Join的含义、避免嵌套锁的锁顺序策略，以及防止伪唤醒的条件检查。每个问题包括核心概念、实现细节、与之前讨论的关联（如线程池、进程间同步、分布式同步）、代码示例、测试用
Seata与DTF框架在微服务中的选型对比策划加强小乔微服务架构云原生
在微服务架构中，分布式事务管理是确保数据一致性的关键环节。Seata和DTF作为两款主流的分布式事务解决方案，各自具有独特的优势和适用场景。以下从核心原理、功能特性、适用场景和实战案例等维度进行详细对比分析，并提供选型建议。核心架构与工作原理Seata：采用经典的分布式事务模型，支持AT（自动补偿）、TCC（Try-Confirm-Cancel）、SAGA和XA四种模式。AT模式通过全局锁实现数据
python中的 JWT weixin_34355881 python json php
Jsonwebtoken(JWT),是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准（(RFC7519).该token被设计为紧凑且安全的，特别适用于分布式站点的单点登录（SSO）场景。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息，以便于从资源服务器获取资源，也可以增加一些额外的其它业务逻辑所必须的声明信息，该token也可直接被用于认证，也可被加密。基
一篇教你学会Git 编程界的彭于晏qaq java GIT git
从安装到高级使用（2025最新版）引言：为什么Git是开发者必备技能Git（GlobalInformationTracker）作为最流行的分布式版本控制系统，由Linux之父LinusTorvalds于2005年创建，现已成为软件开发的基础设施。与传统集中式版本控制系统（如SVN）相比，Git具有三大核心优势：分布式架构：每个开发者本地都有完整仓库副本，支持离线工作高效分支管理：创建和切换分支几乎
Mybatisplus的雪花算法及代码生成器的使用你我约定有三算法 dreamweaver
1.雪花算法1.1背景:雪花算法（Snowflake）的使用背景主要源于高并发分布式系统环境下对唯一ID生成的需求。这种需求在像Twitter这样的社交媒体平台上尤为突出，因为Twitter需要处理每秒上万条消息的请求，并且每条消息都必须分配一个唯一的ID。这些ID不仅需要全局唯一，以跨机器、跨时间区分，还需要保持一定的顺序性（尽管不要求连续），以方便客户端排序和后续的数据处理。1.2与自动递增的
分布式IO选型指南：2025年分布式无线远程IO品牌及采集控制方案详解 2501_91398178 分布式分布式IO模块远程IO模块
近年来，随着工业物联网（IIoT）、智能制造和工业4.0的深入发展，分布式无线远程IO模块在工业控制领域的应用愈发广泛。这种模块通过无线方式实现远程数据采集与控制，极大地提高了工业设施的灵活性和效率。2025年，分布式IO市场呈现出技术革新与品牌竞争加剧的态势。本文基于权威数据平台（如Statista、MarketsandMarkets、GrandViewResearch）的市场分析，全面解读分布
基本服务 FTP & SMB 会飞的灰大狼 Centos7 linux
基本服务FTP&SMB前言：FTP简称为文件传输协议前面说的他可以做到备份的功能那么它可以做到文件传输的过程smb我们简单来说共享文件夹‍NFSNFS（NetworkFileSystem，网络文件系统）是一种分布式文件系统协议，允许不同计算机之间通过网络共享文件和目录，使远程文件系统像本地文件系统一样被访问。它最初由SunMicrosystems开发，现在已成为UNIX/Linux系统中常用的网络
分布式事务Seata的4种模式详解「已注销」分布式 wpf
Seata是一个开源的分布式事务解决方案，它在微服务架构下提供了高性能和简单易用的分布式事务服务。Seata的设计基于AT、TCC、Saga和XA事务模式，以满足不同场景下的分布式事务处理需求，今天的内容针对Seata来详细介绍一下。1、四种事务模式介绍1.AT模式：这是一种无侵入的分布式事务解决方案。用户只需关注自己的业务SQL，Seata框架会自动生成事务的二阶段提交和回滚操作。在一阶段，Se
分布式IO详解：2025年分布式无线远程IO采集控制方案选型指南 2501_91398178 分布式分布式IO
随着工业物联网（IIoT）和智能制造的快速发展，分布式远程IO（输入/输出）采集控制技术作为工业自动化系统的重要组成部分，正逐步取代传统集中式控制架构。这种技术广泛应用于工厂自动化、能源管理、智慧城市、过程控制等领域。2025年，分布式无线远程IO系统凭借其灵活性、低功耗和高可靠性，成为工业控制领域的核心解决方案。本文基于权威数据平台分析，详细解读分布式无线远程IO技术，盘点全球领先厂商及其产品优
零基础学习性能测试第六章：性能难点-Jmeter实现海量用户压测
目录一、海量压测核心挑战与解决思路二、分布式压测集群搭建（百倍性能提升）1.架构设计2.实战步骤三、百万级用户参数化方案1.Redis预生成测试数据2.JMeter分段读取（避免内存溢出）3.CSV分片策略四、高并发优化配置模板1.`jmeter.properties`关键修改2.线程组配置技巧五、结果收集与监控方案1.轻量级结果存储2.实时监控看板六、海量压测实战案例：双11级流量模拟测试目标：
探索RabbitMQ，让消息传递变得简单易懂！黎杉娜Torrent
探索RabbitMQ，让消息传递变得简单易懂！当你寻找一个强大而可靠的分布式消息队列系统时，RabbitMQ无疑是最佳选择之一。这个开源项目已经赢得了全球无数开发者的喜爱，现在，更有一份详尽的【RabbitMQ中文】文档在等待你的探索！项目介绍RabbitMQ中文是一份专门为非英语国家的开发者准备的高质量翻译资源，它将原汁原味的RabbitMQ官方文档转化为中文，旨在帮助中国地区的开发者更好地理解
TiDB - 分布式数据库的架构与特性爽新全效瓷兔膏
本文还有配套的精品资源，点击获取简介：TiDB是一个开源的分布式NewSQL数据库，受到了Google的Spanner/F1系统的启发。它提供水平扩展和强一致性事务，适用于需要高可用性和大规模数据处理的场景。TiDB的核心特点包括其分布式架构，由TiDBServer（SQL层）、PDServer（调度器）和TiKVServer（存储引擎）组成；支持无缝的水平扩展和ACID事务；与MySQL高度兼容
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s