erainm

Spark(51) -- StructuredStreaming集成 Kafka

Apache Kafka 是目前最流行的一个分布式的实时流消息系统，给下游订阅消费系统提供了并行处理和可靠容错机制，现在大公司在流式数据的处理场景，Kafka基本是标配。Structured Streaming很好的集成Kafka，可以从Kafka拉取消息，然后就可以把流数据看做一个DataFrame，一张无限增长的大表，在这个大表上做查询，Structured Streaming保证了端到端的 exactly-once，用户只需要关心业务即可，不用费心去关心底层是怎么做的。
StructuredStreaming集成Kafka，官方文档如下：
structured-streaming-kafka-integration
目前仅支持Kafka 0.10.+版本及以上，底层使用Kafka New Consumer API拉取数据，如果公司Kafka版本为0.8.0版本，StructuredStreaming集成Kafka参考文档：
spark-kafka-0-8-sql
StructuredStreaming既可以从Kafka读取数据，又可以向Kafka 写入数据，添加Maven依赖：

        
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-sql-kafka-0-10_2.11artifactId>
            <version>2.4.5version>
        dependency>

Maven Project工程中目录结构如下：

1. Kafka 数据消费

Kafka把生产者发送的数据放在不同的分区里面，这样就可以并行进行消费了。每个分区里面的数据都是递增有序的，跟structured commit log类似，生产者和消费者使用Kafka 进行解耦，消费者不管你生产者发送的速率如何，只要按照一定的节奏进行消费就可以了。每条消息在一个分区里面都有一个唯一的序列号offset（偏移量），Kafka 会对内部存储的消息设置一个过期时间，如果过期了，就会标记删除，不管这条消息有没有被消费。
Kafka 可以被看成一个无限的流，里面的流数据是短暂存在的，如果不消费，消息就过期滚动没了。涉及一个问题：如果开始消费，就要定一下从什么位置开始。下图就是每个分区对应的offset

第一、earliest：从最起始位置开始消费，当然不一定是从0开始，因为如果数据过期就清掉了，所以可以理解为从现存的数据里最小位置开始消费；
第二、latest：从最末位置开始消费；
第三、per-partition assignment：对每个分区都指定一个offset，然后从offset位置开始消费；
当第一次开始消费一个Kafka 流的时候，上述策略任选其一，如果之前已经消费了，而且做了 checkpoint ，比如消费程序升级了，这时候就会从上次结束的位置开始继续消费。目前StructuredStreaming和Flink框架从Kafka消费数据时，采用的就是上述的策略。

2. Kafka 数据源

Structured Streaming消费Kafka数据，采用的是poll方式拉取数据，与Spark Streaming中New Consumer API集成方式一致。从Kafka Topics中读取消息，需要指定数据源（kafka）、Kafka集群的连接地址（kafka.bootstrap.servers）、消费的topic（subscribe或subscribePattern），指定topic 的时候，可以使用正则来指定，也可以指定一个 topic 的集合。
官方提供三种方式从Kafka topic中消费数据，主要区别在于每次消费Topic名称指定，

方式一：消费一个Topic数据
方式二：消费多个Topic数据
方式三：消费通配符匹配Topic数据

从Kafka 获取数据后Schema字段信息如下，既包含数据信息有包含元数据信息：

在实际开发时，往往需要获取每条数据的消息，存储在value字段中，由于是binary类型，需要转换为字符串String类型；此外了方便数据操作，通常将获取的key和value的DataFrame转换为Dataset强类型，伪代码如下：

从Kafka数据源读取数据时，可以设置相关参数，包含必须参数和可选参数：
必须参数：kafka.bootstrap.servers和subscribe，可以指定开始消费偏移量assign。
可选参数：

范例演示：从Kafka消费数据，进行词频统计，Topic为wordsTopic。

下面操作可以直接基于分布式环境直接练习。

第一步、创建Topic，相关命令如下：

# 启动Zookeeper
/export/server/zookeeper/bin/zkServer.sh start
# 启动Kafka Broker
/export/server/kafka/bin/kafka-server-start.sh -daemon /export/server/kafka/config/server.properties

## ================================= wordsTopic =================================
# 查看Topic信息
/export/server/kafka/bin/kafka-topics.sh --list --zookeeper node1:2181/kafka200
# 创建topic
/export/server/kafka/bin/kafka-topics.sh --create --zookeeper node1:2181/kafka200 --replication-factor 1 --partitions 3 --topic wordsTopic
# 模拟生产者
/export/server/kafka/bin/kafka-console-producer.sh --broker-list node1:9092 --topic wordsTopic
# 模拟消费者，测试是否打通
/export/server/kafka/bin/kafka-console-consumer.sh --from-beginning --topic wordsTopic --bootstrap-server node1:9092

第二步、编写代码，其中设置每批次消费数据最大量

import org.apache.spark.sql.streaming.{
     OutputMode, StreamingQuery}
import org.apache.spark.sql.{
     DataFrame, SparkSession}

/**
 * 使用Structured Streaming从Kafka实时读取数据，进行词频统计，将结果打印到控制台。
 */
object StructuredKafkaSource {
     
    
    def main(args: Array[String]): Unit = {
     
        // 构建SparkSession实例对象
        val spark: SparkSession = SparkSession.builder()
            .appName(this.getClass.getSimpleName.stripSuffix("$"))
            .master("local[3]")
            // 设置Shuffle分区数目
            .config("spark.sql.shuffle.partitions", "3")
            .getOrCreate()
        // 导入隐式转换和函数库
        import spark.implicits._
        import org.apache.spark.sql.functions._
        
        // TODO: 从Kafka读取数据，底层采用New Consumer API
        val kafkaStreamDF: DataFrame = spark.readStream
            .format("kafka")
            .option("kafka.bootstrap.servers", "node1:9092")
            .option("subscribe", "wordsTopic")
            // TODO: 设置每批次消费数据最大值
            .option("maxOffsetsPerTrigger", "100000")
            .load()
        
        // TODO: 进行词频统计
        val resultStreamDF: DataFrame = kafkaStreamDF
            // 获取value字段的值，转换为String类型
            .selectExpr("CAST(value AS STRING)")
            // 转换为Dataset类型
            .as[String]
            // 过滤数据
            .filter(line => null != line && line.trim.length > 0)
            // 分割单词
            .flatMap(line => line.trim.split("\\s+"))
            // 按照单词分组，聚合
            .groupBy($"value").count()
        
        // 设置Streaming应用输出及启动
        val query: StreamingQuery = resultStreamDF.writeStream
            .outputMode(OutputMode.Complete())
            .format("console").option("numRows", "10").option("truncate", "false")
            .start()
        query.awaitTermination()  // 查询器等待流式应用终止
        query.stop() // 等待所有任务运行完成才停止运行
    }  
}

3. Kafka 接收器

往Kafka里面写数据类似读取数据，可以在DataFrame上调用writeStream来写入Kafka，设置参数指定value，其中key是可选的，如果不指定就是null。如果key为null，有时候可能导致分区数据不均匀。

3.1 配置说明

将DataFrame写入Kafka时，Schema信息中所需的字段：

需要写入哪个topic，可以像上述所示在操作DataFrame 的时候在每条record上加一列topic字段指定，也可以在DataStreamWriter上指定option配置。

写入数据至Kafka，需要设置Kafka Brokers地址信息及可选配置：

必选参数：kafka.bootstrap.servers，使用逗号隔开【host:port】字符；
可选参数：topic，如果DataFrame中没有topic列，此处指定topic表示写入Kafka Topic。

官方提供示例代码如下：

3.2 实时数据ETL架构

在实际实时流式项目中，无论使用Storm、SparkStreaming、Flink及Structured Streaming处理流式数据时，往往先从Kafka 消费原始的流式数据，经过ETL后将其存储到Kafka Topic中，以便其他业务相关应用消费数据，实时处理分析，技术架构流程图如下所示：

接下来模拟产生运营商基站数据，实时发送到Kafka 中，使用StructuredStreaming消费，经过ETL（获取通话状态为success数据）后，写入Kafka中，便于其他实时应用消费处理分析。

3.3 模拟基站日志数据

模拟产生运营商基站通话日志数据，封装到样例类中，字段信息如下：

package com.erainm.spark.kafka.mock

/**
 * 基站通话日志数据，字段如下：
 *
 * @param stationId 基站标识符ID
 * @param callOut 主叫号码
 * @param callIn 被叫号码
 * @param callStatus 通话状态
 * @param callTime 通话时间
 * @param duration 通话时长
 */
case class StationLog(
                     stationId: String, //
                     callOut: String, //
                     callIn: String, //
                     callStatus: String, //
                     callTime: Long, //
                     duration: Long //
                     ){
     
    override def toString: String = {
     
        s"$stationId,$callOut,$callIn,$callStatus,$callTime,$duration"
    }
}

创建Topic，相关命令如下：

# 启动Zookeeper
/export/server/zookeeper/bin/zkServer.sh start
# 启动Kafka Broker
/export/server/kafka/bin/kafka-server-start.sh -daemon /export/server/kafka/config/server.properties

## ================================= stationTopic =================================

# 创建topic
/export/server/kafka/bin/kafka-topics.sh --create --zookeeper node1:2181/kafka200 --replication-factor 1 --partitions 3 --topic stationTopic
# 模拟消费者---当执行idea的产生数据的代码后可以直接在消费者查看如下接受到的数据
/export/server/kafka/bin/kafka-console-consumer.sh --bootstrap-server node1:9092 --topic stationTopic --from-beginning

# 模拟生产者---etl程序开始的时候开启如下模拟生产者
/export/server/kafka/bin/kafka-console-producer.sh --broker-list node1:9092 --topic stationTopic

# 删除topic
/export/server/kafka/bin/kafka-topics.sh --delete --zookeeper node1:2181/kafka200 --topic stationTopic

## ================================= etlTopic =================================
# 创建topic
/export/server/kafka/bin/kafka-topics.sh --create --zookeeper node1:2181/kafka200 --replication-factor 1 --partitions 3 --topic etlTopic
# 模拟生产者
/export/servers/kafka/bin/kafka-console-producer.sh --broker-list node1:9092 --topic etlTopic
# 模拟消费者--------在IDEA执行etl程序后卡其消费者查看数据是否经过了etl过程了
/export/server/kafka/bin/kafka-console-consumer.sh --bootstrap-server node1:9092 --topic etlTopic --from-beginning

编写代码，实时产生日志数据，发送Kafka Topic：

package com.erainm.spark.kafka.mock

import java.util.Properties

import org.apache.kafka.clients.producer.{
     KafkaProducer, ProducerRecord}
import org.apache.kafka.common.serialization.StringSerializer

import scala.util.Random

/**
 * 模拟产生基站日志数据，实时发送Kafka Topic中，数据字段信息：
 *      基站标识符ID, 主叫号码, 被叫号码, 通话状态, 通话时间，通话时长
 */
object MockStationLog {
     
    
    def main(args: Array[String]): Unit = {
     
        // 发送Kafka Topic
        val props = new Properties()
        props.put("bootstrap.servers", "node1:9092")
        props.put("acks", "1")
        props.put("retries", "3")
        props.put("key.serializer", classOf[StringSerializer].getName)
        props.put("value.serializer", classOf[StringSerializer].getName)
        val producer = new KafkaProducer[String, String](props)
        
        val random = new Random()
        val allStatus =Array(
            "fail", "busy", "barring", "success", "success", "success",
            "success", "success", "success", "success", "success", "success"
        )
        
        while (true){
     
            val callOut: String = "1860000%04d".format(random.nextInt(10000))
            val callIn: String = "1890000%04d".format(random.nextInt(10000))
            val callStatus: String = allStatus(random.nextInt(allStatus.length))
            val callDuration = if("success".equals(callStatus)) (1 + random.nextInt(10)) * 1000L else 0L
            
            // 随机产生一条基站日志数据
            val stationLog: StationLog = StationLog(
                "station_" + random.nextInt(10), //
                callOut, //
                callIn, //
                callStatus, //
                System.currentTimeMillis(), //
                callDuration //
            )
            println(stationLog.toString)
            Thread.sleep(100 + random.nextInt(100))
            
            val record = new ProducerRecord[String, String]("stationTopic", stationLog.toString)
            producer.send(record)
        }
        
        producer.close() // 关闭连接
    }
}

运行程序，基站通话日志数据格式如下：

station_7,18600009710,18900000269,success,1590709965144,4000
station_6,18600003894,18900000028,success,1590709965333,8000
station_4,18600003853,18900005139,success,1590709965488,1000
station_7,18600007207,18900001057,busy,1590709965680,0

同时打开station的消费者的tipic查看数据是否接受到：

# 模拟消费者---当执行idea的产生数据的代码后可以直接在消费者查看如下接受到的数据
/export/server/kafka/bin/kafka-console-consumer.sh --bootstrap-server node1:9092 --topic stationTopic --from-beginning

3.4 实时增量ETL

编写应用实时从Kafka的【stationTopic】消费数据，经过处理分析后，存储至Kafka的【etlTopic】，其中需要设置检查点目录，保证应用一次且仅一次的语义。

package com.erainm.spark.kafka.sink

import org.apache.spark.sql.streaming.{
     OutputMode, StreamingQuery}
import org.apache.spark.sql.{
     DataFrame, Dataset, SparkSession}

/**
 * 实时从Kafka Topic消费基站日志数据，过滤获取通话转态为success数据，再存储至Kafka Topic中
 *      1、从KafkaTopic中获取基站日志数据（模拟数据，JSON格式数据）
 *      2、ETL：只获取通话状态为success日志数据
 *      3、最终将ETL的数据存储到Kafka Topic中
 */
object StructuredEtlSink {
     
    
    def main(args: Array[String]): Unit = {
     
        // 构建SparkSession实例对象
        val spark: SparkSession = SparkSession.builder()
            .appName(this.getClass.getSimpleName.stripSuffix("$"))
            .master("local[3]")
            // 设置Shuffle分区数目
            .config("spark.sql.shuffle.partitions", "3")
            .getOrCreate()
        // 导入隐式转换和函数库
        import spark.implicits._
        import org.apache.spark.sql.functions._
        
        // 1. 从KAFKA读取数据
        val kafkaStreamDF: DataFrame = spark.readStream
            .format("kafka")
            .option("kafka.bootstrap.servers", "node1:9092")
            .option("subscribe", "stationTopic")
            .load()
        
        // 2. 对基站日志数据进行ETL操作
        // station_0,18600004405,18900009049,success,1589711564033,9000
        val etlStreamDF: Dataset[String] = kafkaStreamDF
            // 获取value字段的值，转换为String类型
            .selectExpr("CAST(value AS STRING)")
            // 转换为Dataset类型
            .as[String]
            // 过滤数据：通话状态为success
            .filter{
     log =>
                null != log && log.trim.split(",").length == 6 && "success".equals(log.trim.split(",")(3))
            }
        etlStreamDF.printSchema()
        
        // 3. 针对流式应用来说，输出的是流
        val query: StreamingQuery = etlStreamDF.writeStream
            // 对流式应用输出来说，设置输出模式
            .outputMode(OutputMode.Append())
            .format("kafka")
            .option("kafka.bootstrap.servers", "node1:9092")
            .option("topic", "etlTopic")
            // 设置检查点目录
            .option("checkpointLocation", s"datas/structured/etl-100001")
            // 流式应用，需要启动start
            .start()
        // 查询器等待流式应用终止
        query.awaitTermination()
        query.stop() // 等待所有任务运行完成才停止运行
    } 
}

首先从station的生产者生产数据：

# 模拟生产者---etl程序开始的时候开启如下模拟生产者
/export/server/kafka/bin/kafka-console-producer.sh --broker-list node1:9092 --topic stationTopic

然后查看etltopic是否有处理后的数据接受：

# 模拟消费者--------在IDEA执行etl程序后卡其消费者查看数据是否经过了etl过程了
/export/server/kafka/bin/kafka-console-consumer.sh --bootstrap-server node1:9092 --topic etlTopic --from-beginning

回顾核心ETL代码

4. Kafka 特定配置

从Kafka消费数据时，相关配置属性可以通过带有kafka.prefix的DataStreamReader.option进行设置，例如前面设置Kafka Brokers地址属性：stream.option(“kafka.bootstrap.servers”, “host:port”)，更多关于Kafka 生产者Producer Config配置属和消费者Consumer Config配置属性，参考文档：

生产者配置（Producer Configs）：
- producerconfigs
消费者配置（New Consumer Configs）：
- newconsumerconfigs

注意以下Kafka参数属性可以不设置，如果设置的话，Kafka source或者sink可能会抛出错误：

1）、group.id：Kafka source将会自动为每次查询创建唯一的分组ID；
2）、auto.offset.reset：在将source选项startingOffsets设置为指定从哪里开始。结构化流管理内部消费的偏移量，而不是依赖Kafka消费者来完成。这将确保在topic/partitons动态订阅时不会遗漏任何数据。注意，只有在启动新的流式查询时才会应用startingOffsets，并且恢复操作始终会从查询停止的位置启动；
3）、key.deserializer/value.deserializer：Keys/Values总是被反序列化为ByteArrayDeserializer的字节数组，使用DataFrame操作显式反序列化keys/values；
4）、key.serializer/value.serializer：keys/values总是使用ByteArraySerializer或StringSerializer进行序列化，使用DataFrame操作将keysvalues/显示序列化为字符串或字节数组；
5）、enable.auto.commit：Kafka source不提交任何offset；
6）、interceptor.classes：Kafka source总是以字节数组的形式读取key和value。使用ConsumerInterceptor是不安全的，因为它可能会打断查询；

实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
全面对比，深度解析 Ignite 与 Spark xaio7biancheng
经常有人拿Ignite和Spark进行比较，然后搞不清两者的区别和联系。Ignite和Spark，如果笼统归类，都可以归于内存计算平台，然而两者功能上虽然有交集，并且Ignite也会对Spark进行支持，但是不管是从定位上，还是从功能上来说，它们差别巨大，适用领域有显著的区别。本文从各个方面对此进行对比分析，供各位技术选型参考。一、综述Ignite和Spark都为Apache的顶级开源项目，遵循A
ignite redis_全面对比，深度解析 Ignite 与 Spark weixin_39997696 ignite redis
经常有人拿Ignite和Spark进行比较，然后搞不清两者的区别和联系。Ignite和Spark，如果笼统归类，都可以归于内存计算平台，然而两者功能上虽然有交集，并且Ignite也会对Spark进行支持，但是不管是从定位上，还是从功能上来说，它们差别巨大，适用领域有显著的区别。本文从各个方面对此进行对比分析，供各位技术选型参考。一、综述Ignite和Spark都为Apache的顶级开源项目，遵循A
数据写入因为汉字引发的异常 qq_40841339 spark hadoop hive hive hadoop 数据仓库
spark数据写hive表，发生查询分区异常问题异常：251071241926.49ERRORHive:MelaException(message.Exceptionthrownwhenexeculingquey.SELECTDISTINCT‘orgapache.hadop.hivemelastore.modelMpartionAs"NUCLEUSTYPE,AONCREATETIME,AO.LAS
语言合成模型Spark-TTS-0.5B学习笔记 tutgxuzyj spark 学习笔记
语言合成模型Spark-TTS-0.5B学习笔记语言合成是通过计算机技术将文字信息转换为自然流畅的语音输出，模拟人类语音。一、下载Spark-TTS-0.5B项目下载链接：https://github.com/SparkAudio/Spark-TTS.git注：需要科学网络。进入Spark-TTS文件夹，启动命令行窗口。创建Conda环境：condacreate-nsparktts-ypython
Spark-TTS 使用时间自由 AI 人工智能
1.开发背景上一章节使用了MegaTTS3实现文本转语音，但是后面才发现只能使用官方的语言包，没看到克隆功能，所以重新找了一个可以克隆语音的开源模型。2.开发需求在Ubuntu下实现Spark-TTS的部署，实现官方语音克隆，根据自定义文本输出语音。3.开发环境Ubuntu20.04+Conda+Spark-TTS+RTX5060TI4.实现步骤4.1安装环境#创建环境python版本建议3.10
Spark 的监控和性能调优高度依赖其内置的工具：【 Spark Web UI 和 Spark History Server】 csdn_tom_168 大数据 spark 大数据核心监控性能调优工具
Spark的监控和性能调优高度依赖其内置的SparkWebUI和SparkHistoryServer。它们是诊断作业性能瓶颈、资源利用率、错误原因和优化机会的最重要工具。一、SparkWebUI(DriverWebUI)当一个Spark应用程序(SparkContext)运行时，Driver进程会启动一个Web服务器，默认端口是4040(如果4040被占用，则尝试4041,4042等)。这是实时监
黑猴子的家：Spark RDD 编程进阶之广播变量黑猴子的家
广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，甚至是机器学习算法中的一个很大的特征向量，广播变量用起来都很顺手。传统方式下，Spark会自动把闭包中所有引用到的变量发送到工作节点上。虽然这很方便，但也很低效。原因有二:首先，默认的任务发射机制是专门为小任务进行优化的；其次，事实上你可能
开源项目ESP-SparkBot: ESP32-S3 大模型 AI 桌面机器人（复刻分享） Qsm_lambda 机器人 ai AI编程
一、前言ESP-SparkBot是官方大佬，乐鑫小铁匠开源在立创开源硬件平台的项目，此贴是用于分享与记录复刻过程。开源地址：(ESP-SparkBot-立创开源硬件平台(oshwhub.com))千人讨论Q群362367052二、项目简介ESP-SparkBot是⼀款基于ESP32-S3，集成语⾳交互、图像识别、遥控操作和多媒体功能于⼀体的智能设备。它不仅可以通过语⾳助⼿实现
数据科学与大数据技术专业的核心课程体系及发展路径全解析 YangYang9YangYan 大数据
CDA数据分析师证书含金量高，适应了未来数字化经济和AI发展趋势，难度不高，行业认可度高，对于找工作很有帮助。一、课程体系三维地图二、核心课程能力矩阵课程模块关键技能行业应用场景工具链分布式计算Spark调优用户行为日志分析AWSEMR/Databricks数据挖掘特征工程金融反欺诈模型Scikit-learn实时数据处理Flink窗口计算物联网设备监控Kafka+Flink数据治理元数据管理企业
SpringBoot与ApacheSpark、MyBatis实战整合 KENYCHEN奉孝 spring实站大全 java 开发语言 mybatis spring
基于SpringBoot和ApacheSpark开发的实例以下是基于SpringBoot和ApacheSpark整合开发的实用示例分类及关键点，涵盖数据处理、机器学习、实时分析等场景。每个示例均提供核心思路和代码片段（Markdown格式）。数据处理与ETL示例1：CSV文件读取与处理SparkSessionspark=SparkSession.builder().appName("CSVProc
INVALID_COLUMN_NAME _AS_PATH
sparksql异常[INVALID_COLUMN_NAME_AS_PATH]ThedatasourceHiveFileFormatcannotsavethecolumnmin(birth_date)becauseitsnamecontainssomecharactersthatarenotallowedinfilepaths.Piease,useanallastorenameidemosqlSE
Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化陆水A 大数据 hive hadoop spark python
重点是后面的参数优化一、小文件的定义在Hadoop的上下文中，小文件的定义是相对于Hadoop分布式文件系统（HDFS）的块（Block）大小而言的。HDFS是Hadoop生态系统中的核心组件之一，它设计用于存储和处理大规模数据集。在HDFS中，数据被分割成多个块，每个块的大小是固定的，这个大小在Hadoop的不同版本和配置中可能有所不同，但常见的默认块大小包括128MB、256MB等。基于这个背
Spark核心--RDD介绍陆水A 大数据 spark 大数据分布式
一、RDD的介绍rdd弹性分布式数据集是spark框架自己封装的数据类型，用来管理内存数据数据集：rdd数据的格式类似Python中[]。hive中的该结构[]叫数组rdd提供算子(方法)方便开发人员进行调用计算数据在pysaprk中本质是定义一个rdd类型用来管理和计算内存数据分布式：rdd可以时使用多台机器的内存资源完成计算弹性：可以通过分区将数据分成多份234，每份数据对应一个task线程处
C++与Hive、Spark、libhdfs、ACID交互技巧 KENYCHEN奉孝 C++开发语言 spring C++hive spark
C++与Hive交互的实例以下是C++与Hive交互的实例代码片段，涵盖连接、查询、数据操作等常见场景。假设使用libhdfs或thrift接口实现，部分示例需要结合Hive环境配置。基础连接与查询示例1：通过Thrift连接HiveServer2#include#include#includeusingnamespaceapache::thrift;usingnamespaceapache::h
全面的Spark学习资料合集：从基础到高级应用
本文还有配套的精品资源，点击获取简介：Spark是一个受到数据科学界青睐的大数据处理框架，以其高效、易用和可扩展性著称。本资料合集包括了Spark的基础学习材料、实战案例分析和高级应用实践，内容覆盖从Scala编程语言基础到Spark核心功能使用，再到大数据领域的实际应用。适合不同层次的学习者深入学习Spark，无论是初学者还是有经验的开发者，都能从中找到有价值的学习资源，帮助理解和掌握Spark
一文带你理清Spark Core调优的方方面面即将秃头的Java程序员
前言本文的注意事项观看本文前，可以先百度搜索一下Spark程序的十大开发原则看看哦文章虽然很长，可并不是什么枯燥乏味的内容，而且都是面试时的干货（我觉得）可以结合PC端的目录食用，可以直接跳转到你想要的那部分内容图非常的重要，是文章中最有价值的部分。如果不是很重要的图一般不会亲手画，特别是本文2.2.6的图非常重要此文会很大程度上借鉴美团的文章分享内容和Spark官方资料去进行说明，也会结合笔者自
AI系统Spark原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI系统Spark原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Spark、大数据处理、分布式计算、机器学习、数据挖掘、实时流处理1.背景介绍1.1问题的由来在大数据时代,海量数据的高效处理和分析已成为各行各业的迫切需求。传统的数据处理方式难以应对数据量激增、数据类型多样化以及实时性要求高等挑战。为了解决这些问题,Ap
Spark大数据处理讲课笔记4.8 Spark SQL典型案例酒城译痴无心剑 #Spark基础学习笔记（1）spark 笔记 sql
文章目录零、本讲学习目标一、使用SparkSQL实现词频统计（一）提出任务（二）实现任务1、准备数据文件2、创建Maven项目3、修改源程序目录4、添加依赖和设置源程序目录5、创建日志属性文件6、创建HDFS配置文件7、创建词频统计单例对象8、启动程序，查看结果9、词频统计数据转化流程图二、使用SparkSQL计算总分与平均分（一）提出任务（二）完成任务1、准备数据文件2、新建Maven项目3、修
手撕Spark之WordCount RDD执行流程啊Abu Spark spark
手撕Spark之WordCountRDD执行流程文章目录手撕Spark之WordCountRDD执行流程写在前面软件环境代码过程分析写在前面一个Spark程序在初始化的时候会构造DAGScheduler、TaskSchedulerImpl、MapOutTrackerMaster等对象，DAGScheduler主要负责生成DAG、启动Job、提交Stage等操作，TaskSchedulerImpl主
【大数据学习 | Spark-Core】RDD的概念与Spark任务的执行流程 Vez'nan的幸福生活大数据 spark oracle sql json
1.RDD的设计背景在实际应用中，存在许多迭代式计算，这些应用场景的共同之处是，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，目前的MapReduce框架都是把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。显然，如果能将结果保存在内存当中，就可以大量减少IO。RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层
第84课：StreamingContext、DStream、Receiver深度剖析 chengnidi5193
StreamingContext、DStream、Receiver深度剖析编写人：姜伟、唐陈昊、龚湄燕本课分成四部分讲解，第一部分对StreamingContext功能及源码剖析；第二部分对DStream功能及源码剖析；第三部分对Receiver功能及源码剖析；最后一部分将StreamingContext、DStream、Receiver结合起来分析其流程。1、通过SparkStreaming对象
Hbase BulkLoad用法 kikiki2
要导入大量数据，Hbase的BulkLoad是必不可少的，在导入历史数据的时候，我们一般会选择使用BulkLoad方式，我们还可以借助Spark的计算能力将数据快速地导入。使用方法导入依赖包compilegroup:'org.apache.spark',name:'spark-sql_2.11',version:'2.3.1.3.0.0.0-1634'compilegroup:'org.apach
Python 大数据分析（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/5058e6970bd2a8d818ecc1f7f8fef74a译者：飞龙协议：CCBY-NC-SA4.0第六章：第五章处理缺失值和相关性分析学习目标到本章结束时，你将能够：使用PySpark检测和处理数据中的缺失值描述变量之间的相关性计算PySpark中两个或多个变量之间的相关性使用PySpark创建相关矩阵在本章中，我们将使用Iris数据集处理
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
【Spark征服之路-3.7-Spark-SQL核心编程（六）】 qq_46394486 spark sql ajax
数据加载与保存：通用方式：SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet加载数据：spark.read.load是加载数据的通用方法。如果读取不同格式的数据，可以对不同的数据格式进行设定。spark.read.format("…")[.option("…")].
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin