葛红富

Spark复习 Day03：SparkSQL

Spark复习 Day03：SparkSQL

1. 什么是SparkSQL
-----------------------------------------------
    - SparkSQL是Spark用来处理结构化[表]数据的一个模块。
    - 它提供了两个编程抽象：DataFrame和DataSet，底层还是RDD操作


2. DataFrame、DataSet 介绍
------------------------------------------------
    - DataFrame
        1. 与RDD类似，DataFrame也是一个分布式数据容器
        2. 不同的是，DataFrame更像是传统数据库的二维表格
        3. 除了记录了数据以外，还记录了数据的结构信息，即Schema
        4. 与Hive一样，DataFrame也支持嵌套数据类型[struct,array,map]
        5. DataFrame的API 比 RDD的API更加好用
        6. DataFrame是为数据提供了Schema的视图，可以把它当做数据库的一张表来对待

    - DataSet
        1. Dataset是DataFrameAPI的一个拓展，是Spark最新的数据抽象。DataFrame的升级版
        2. 用户友好的API风格，既有类型的安全检查，収DataFrame的查询优化特性
        3. DataSet支持编解码器，当需要访问非堆上的数据时，可以避免反序列化整个对象，提高了效率
        4. 样例类用来在DataSet中定义数据的结构信息Schema. 样例类的每个属性的名称直接映射到DataSet的字段名称
        5. DataFrame 是DataSet的特例
        6. DataFrame = DataSet[Row]
        7. 可以通过as方法将 DataFrame转换成DataSet
        8. Row 是一个Spark的类型，就和Car,Person一样。所有的表结构信息都用Row来表示
        9. DataSet是强类型的，必须指定类型。比如DataSet[Row],DataSet[Car]

    - DataFrame 把RDD数据当成表用，而DataSet把数据当成类用，当成属性的集合用


3. SparkSession
-----------------------------------------------
    - 作用等同于RDD的SparkContext
    - SQLContext + HiveContext
    - SparkSession 是创建DataFrame 和 执行SparkSQL的入口


4. 创建DataFrame的三种方式
--------------------------------------------------
    - 通过Spark数据源进行创建
        /**
           * 测试SparkSession
           */
         @Test
         def testSparkSession(): Unit = {
           val spark = SparkSession.builder().master("local").appName("spark").getOrCreate()
           val read: DataFrameReader = spark.read
           val frame: DataFrame = read.json("d:/Test/1.json")
           frame.show()
           // +---+----+
           //|age|name|
           //+---+----+
           //|  1|tom1|
           //|  2|tom2|
           //|  3|tom3|
           //|  4|tom4|
           //+---+----+
           // 创建一个临时表student -- 只读的，只能查不能改
           // frame.createTempView("student")
           // 创建一个全局的临时表，不仅限于当前会话。注意使用的时候要加上global_temp.
           frame.createGlobalTempView("student")
           // 使用sql查询临时表
           val res1: DataFrame = spark.sql("select avg(age) from global_temp.student")
           res1.show()
           //+--------+
           //|avg(age)|
           //+--------+
           //|     2.5|
           //+--------+
         }

    - 通过RDD进行创建
        1. 如果想RDD与DF或者DS之间相互转换，需要引入 import spark.implicits._
        注意，此处的spark不是包名，而是你的SparkSession对象
        2. 本质上 RDD + Schema = DataFrame
        3. Schema 可以在转换DF时手动指定，也可以通过转换成样例类的RDD进行DF转换操作
        4. 例
         /**
            * RDDtoDF
            */
          @Test
          def RDDtoDF(): Unit ={
            val sparkConf = new SparkConf().setMaster("local").setAppName("sc")
            val sc = new SparkContext(sparkConf)
            val rdd = sc.makeRDD(List(("tom1",1),("tom2",2),("tom3",3)))
            val spark = SparkSession.builder().master("local").appName("spark").getOrCreate()
            import spark.implicits._
            val frame: DataFrame = rdd.toDF("name","age")
            frame.show()
            //+----+---+
            //|name|age|
            //+----+---+
            //|tom1|  1|
            //|tom2|  2|
            //|tom3|  3|
            //+----+---+
          }
            @Test
            def CaseCalss2RDD(): Unit ={
              val sparkConf = new SparkConf().setMaster("local").setAppName("sc")
              val sc = new SparkContext(sparkConf)
              val rdd = sc.makeRDD(List(("tom1",1),("tom2",2),("tom3",3)))
              val spark = SparkSession.builder().master("local").appName("spark").getOrCreate()
              import spark.implicits._
              val rdd2: RDD[Student] = rdd.map(x => Student(x._1,x._2))
              val frame1: DataFrame = rdd2.toDF()
              frame1.show()
              //+----+---+
              //|name|age|
              //+----+---+
              //|tom1|  1|
              //|tom2|  2|
              //|tom3|  3|
              //+----+---+
            }
            case class Student(name:String,age:Int) extends java.io.Serializable

    - 通过HiveTable进行查询返回


5. 创建 DataSet
------------------------------------
    - DataSet是具有强类型的数据集合，需要提供对应的类型信息,通过面向对象的方式去访问数据
    - 创建
      1. 创建一个样例类
           case class Student(name:String,age:Int) extends java.io.Serializable
           @Test
           def testDataSet(): Unit ={
             val spark = SparkSession.builder().master("local").appName("spark").getOrCreate()
             import spark.implicits._
             val dataset: Dataset[Student] = List(Student("tom",1),Student("tom2",1)).toDS()
             dataset.show()
             //+----+---+
             //|name|age|
             //+----+---+
             //| tom|  1|
             //|tom2|  1|
             //+----+---+
           }


6. DSL风格的语法
-----------------------------
    - df.printSchema
    - df.select("name").show()
    - df.select($"name", $"age" + 1).show()
    - df.filter($"age" > 5).show()
    - df.groupBy("age").count().show()


7. RDD、DataFrame、DataSet的关系以及相互转换
--------------------------------------------
    - RDD、DataFrame、DataSet的关系
        1. RDD(spark1.0) --> DataFrame(spark1.3) --> DataSet(Spark1.6)
        2. 后期DataSet 会逐渐取代 DataFrame和RDD

    - RDD、DataFrame、DataSet的相互转换
        1. 引入import spark.implicits._
        2. RDD to DataFrame
            val rdd = sc.makeRDD(List(("tom1",1),("tom2",2),("tom3",3)))
            val frame: DataFrame = rdd.toDF("name","age")

        3. RDD to DataSet
            val rdd = sc.makeRDD(List(("tom1",1),("tom2",2),("tom3",3)))
            val ds: Dataset[Student] = rdd.map(x => Student(x._1,x._2)).toDS()

        4. DataFrame to RDD
            val rdd = sc.makeRDD(List(("tom1",1),("tom2",2),("tom3",3)))
            val frame: DataFrame = rdd.toDF("name","age")
            val rdd2: RDD[Row] = frame.rdd

        5. DataFrame to DataSet
            val rdd = sc.makeRDD(List(("tom1",1),("tom2",2),("tom3",3)))
            val frame: DataFrame = rdd.toDF("name","age")
            val ds: Dataset[Student] = frame.as[Student]

        6. DataSet to RDD
            val rdd = sc.makeRDD(List(("tom1",1),("tom2",2),("tom3",3)))
            val ds: Dataset[Student] = rdd.map(x => Student(x._1,x._2)).toDS()
            val rdd2: RDD[Student] = ds.rdd

        7. DataSet to DataFrame
            val rdd = sc.makeRDD(List(("tom1",1),("tom2",2),("tom3",3)))
            val ds: Dataset[Student] = rdd.map(x => Student(x._1,x._2)).toDS()
            val frame: DataFrame = ds.toDF()


8. 用户自定义函数
---------------------------------------
    - 自定义普通函数UDF
       @Test
        def testUDF(): Unit ={
          val conf = new SparkConf().setMaster("local").setAppName("sc")
          val spark = SparkSession.builder().config(conf).getOrCreate()
          val frame: DataFrame = spark.read.json("d:/Test/1.json")
          frame.createTempView("student")
          // 自定义UDF
          val func = (x:Int) => x + 10
          spark.udf.register("add_10", func)
          val frame1: DataFrame = spark.sql("select *, add_10(age) as nage from student")
          frame1.show()
        }

    - 自定义聚合函数UDAF - 弱类型,不是特别的规定类型以及对应
        // 声明自定义聚合函数 -- 求年龄的平均值
        class AvgUDAF extends UserDefinedAggregateFunction{

          // 定义输入数据的结构 - 输入的年龄
          override def inputSchema: StructType = {
            val age = StructField("age", IntegerType)
            StructType(Array(age))
          }

          // 缓冲区 - 做计算的数据的结构 - 计算平均值，需要年龄总和以及人数
          override def bufferSchema: StructType = {
            val sum = StructField("sum", IntegerType)
            val count = StructField("count", IntegerType)
            StructType(Array(sum,count))
          }

          // 数据计算完毕返回的数据类型
          override def dataType: DataType = {
            FloatType
          }

          // 稳定性 -- 相同值的输入，是否返回相同的输出
          override def deterministic: Boolean = {
            true
          }

          // 计算之前，计算缓冲区的初始化 -- 你的sum,count初始是什么值
          // 参数buffer是一个数组，数组索引对应bufferSchema中定义的结构
          // 注意，没有名称，只能通过索引去取
          override def initialize(buffer: MutableAggregationBuffer): Unit = {
            // sum
            buffer(0) = 0
            // count
            buffer(1) = 0
          }

          // 传入每一条数据，计算，更新自己的缓冲区
          // 参数buffer 表示自己的缓冲区
          // input 表示输入的数据 -- inputSchema 中定义的 -- 此处为单字段的age
          override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
            // sum + age
            buffer(0) = buffer.getInt(0) + input.getInt(0)
            // count + 1
            buffer(1) = buffer.getInt(1) + 1
          }

          // 将多个Executor的缓冲区数据进行合并
          // buffer1 代表当前缓冲区，buffer2 代表合并过来的缓冲区
          override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
            // sum 合并
            buffer1(0) = buffer1.getInt(0) + buffer2.getInt(0)
            // count 合并
            buffer1(1) = buffer1.getInt(1) + buffer2.getInt(1)
          }

          // 计算缓冲区中的数值，得出最终的结果
          // 参数为自己的缓冲区 sum count
          override def evaluate(buffer: Row): Any = {
            val sum = buffer.getInt(0)
            val count = buffer.getInt(1).toFloat
            sum / count
          }
        }
        -------------------
          @Test
          def testUDAF(): Unit ={
            val conf = new SparkConf().setMaster("local").setAppName("sc")
            val spark = SparkSession.builder().config(conf).getOrCreate()
            val frame: DataFrame = spark.read.json("d:/Test/1.json")
            frame.createTempView("student")
            frame.show()
            val udaf = new AvgUDAF()
            // 注册聚合函数
            spark.udf.register("avgAge",udaf)
            val frame1: DataFrame = spark.sql("select avgAge(age) as avg from student")
            frame1.show()
          }

    - 自定义聚合函数UDAF - 强类型,必须规定类型以及对应，不容易出错，记混参数的位置和类型
        case class Student(name:String,age:Int) extends java.io.Serializable
        case class AvgBuffer(sum:Int,count:Int) extends java.io.Serializable

        class AvgUDAF_2 extends Aggregator[Student,AvgBuffer,Float]{
          // 初始化缓冲区
          override def zero: AvgBuffer = {
            AvgBuffer(0,0)
          }
          // 聚合逻辑
          override def reduce(b: AvgBuffer, a: Student): AvgBuffer = {
            val sum = b.sum + a.age
            val count = b.count + 1
            AvgBuffer(sum,count)
          }
          // 缓冲区合并逻辑
          override def merge(b1: AvgBuffer, b2: AvgBuffer): AvgBuffer = {
            val sum = b1.sum + b2.sum
            val count = b1.count + b2.count
            AvgBuffer(sum,count)
          }
          // 最终计算逻辑
          override def finish(reduction: AvgBuffer): Float = {
            reduction.sum.toFloat / reduction.count.toFloat
          }
          // 定义缓冲区的编解码器，自定义的用Encoders.product
          override def bufferEncoder: Encoder[AvgBuffer] = {
            Encoders.product[AvgBuffer]
          }
          // 定义输出类型的编解码器，常见类型直接用Encoders.scalaFloat等
          override def outputEncoder: Encoder[Float] = {
            Encoders.scalaFloat
          }
        }
        -------------------------------
         @Test
          def testUDAF(): Unit ={
            val conf = new SparkConf().setMaster("local").setAppName("sc")
            val spark = SparkSession.builder().config(conf).getOrCreate()
            import spark.implicits._
            val frame: DataFrame = spark.read.json("d:/Test/1.json")
            frame.show()
            frame.createTempView("student")
            val ds: Dataset[Student] = frame.as[Student]

            // 强类型的UDAF不能直接通过注册，得转换成列, 然后通过DSL风格去查询
            val udaf = new AvgUDAF_2()
            val avgColumn: TypedColumn[Student, Double] = udaf.toColumn.name("avgAge")
            val res: Dataset[Double] = ds.select(avgColumn)
            res.show()
          }


9. SparkSQL 读取和保存
-------------------------------------
    - READ
        1. load函数：默认为Parquet格式文件，一种面向列存储的数据格式
        2. 使用 spark.read.load("path") 这种方式只能读取Parquet格式文件，不能读取其他的文件格式
        3. 如果想使用load去读取其他格式，spark.read.format("json").load("jsonPath")
        4.  @Test
            def sparkSQLLoad(): Unit ={
              val conf = new SparkConf().setMaster("local").setAppName("sc")
              val spark = SparkSession.builder().config(conf).getOrCreate()
              import spark.implicits._
              val frame: DataFrame = spark.read.load("D:\\MyProgram\\spark\\examples\\src\\main\\resources\\users.parquet")
              frame.show()
              //+------+--------------+----------------+
              //|  name|favorite_color|favorite_numbers|
              //+------+--------------+----------------+
              //|Alyssa|          null|  [3, 9, 15, 20]|
              //|   Ben|           red|              []|
              //+------+--------------+----------------+
            }
        5. 读取JDBC[Spark lib下要有mysql的连接jar包]
            @Test
            def readJDBC(): Unit ={
              val conf = new SparkConf().setMaster("local").setAppName("sc")
              val spark = SparkSession.builder().config(conf).getOrCreate()
              import spark.implicits._
              val prop = new Properties()
              prop.put("user","root")
              prop.put("password","root")
              prop.put("driver","com.mysql.jdbc.Driver")
              val frame: DataFrame = spark.read.jdbc(
                url = "jdbc:mysql://localhost:3306/test",
                table = "student",
                prop
              )
              frame.show()
            }

    - WRITE
        1. spark.write.save() 默认保存Parquet格式文件
        2. 其他格式：
             - frame.write.format("json").save("d:/Test/out.json")
             - frame.write.json("d:/Test/out1.json")
        3. 保存时可选模式,默认是error,存在就报错
            frame.write.mode(SaveMode.Overwrite).json("d:/Test/out1.json")
        4. 保存jdbc [Spark lib下要有mysql的连接jar包]
            val prop = new Properties()
            prop.put("user","root")
            prop.put("password","root")
            prop.put("driver","com.mysql.jdbc.Driver")
            frame.write.mode(SaveMode.Append).jdbc(
              url = "jdbc:mysql://localhost:3306/test",
              table = "student" ,
              prop
            )


10. SparkSQL 连接Hive
-------------------------------------------
    - 首先Spark内部是集成有hive的，可以直接操作内置的hive, 也可以操作外部的Hive
        1. 添加pom依赖
            
            
                org.apache.spark
                spark-hive_${scala.version}
                ${spark.version}
            
            
                org.apache.hive
                hive-exec
                ${hive.version}
            

        2. Spark操作Hive[注意：将hive-site.xml放入spark的classpath下或者自己的resources下]
            @Test
            def TestReadHive(): Unit ={
              // 创建
              val conf = new SparkConf().setMaster("local").setAppName("Hive On Spark")
              val spark = SparkSession
                .builder()
                .config(conf)
                //打开Hive连接
                .enableHiveSupport()
                .getOrCreate()
              import spark.implicits._
              spark.sql("create database test")
              spark.sql("use test")
              spark.sql("create table xxx(id int)")
              spark.sql("insert into `test`.`xxx` values(1)")
              spark.sql("load data local inpath 'file:///D:/Test/a.txt' into table xxx")
            }

实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
全面对比，深度解析 Ignite 与 Spark xaio7biancheng
经常有人拿Ignite和Spark进行比较，然后搞不清两者的区别和联系。Ignite和Spark，如果笼统归类，都可以归于内存计算平台，然而两者功能上虽然有交集，并且Ignite也会对Spark进行支持，但是不管是从定位上，还是从功能上来说，它们差别巨大，适用领域有显著的区别。本文从各个方面对此进行对比分析，供各位技术选型参考。一、综述Ignite和Spark都为Apache的顶级开源项目，遵循A
ignite redis_全面对比，深度解析 Ignite 与 Spark weixin_39997696 ignite redis
经常有人拿Ignite和Spark进行比较，然后搞不清两者的区别和联系。Ignite和Spark，如果笼统归类，都可以归于内存计算平台，然而两者功能上虽然有交集，并且Ignite也会对Spark进行支持，但是不管是从定位上，还是从功能上来说，它们差别巨大，适用领域有显著的区别。本文从各个方面对此进行对比分析，供各位技术选型参考。一、综述Ignite和Spark都为Apache的顶级开源项目，遵循A
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑 Echo_Wish LeetCode极客营链表数据结构
“链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑”今天我们不聊大数据，不聊AI，咱回归算法的“原点”——链表。别看它简单，里面的很多技巧在面试、在工程开发里都能救你一命。今天我就带你聊聊重排链表（ReorderList），以及它背后的思路和一些值得深挖的细节。1.先说说“重排链表”到底是啥？简单来说：给你一个单链表，比如：1->2->3->4->5要求你把它重新排列成：1->5->2->4-
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
好用的酒店预订软件有哪些？酒店预订哪个软件便宜好项目高省
哪个酒店预订App更省钱？想要预订酒店却担心价格过高？试试这些超值的酒店预订App吧！【美团】：专注于三四线城市，性价比超高！经济型酒店最受欢迎，但用户忠诚度稍低。【飞猪】：阿里旗下平台，依托强大系统和大数据。受年轻人喜爱，但产品同质化较突出，需注意商家管控和用户纠纷解决。要领取优惠券，我们需要使用APP或者登录官方网站。在进入APP后，我们可以通过以下几种途径来获取内部优惠券。一、直返直返的口号
大数据量查询计算引发数据库CPU告警问题复盘懒虫虫~ 业务解决方案大表治理
大数据量查询计算引发数据库CPU告警问题复盘一、背景二、根因分析三、解决方案方案1：多线程+缓存方案2：利用中间表+缓存四、总结一、背景2025年7月份某天，CDP系统每天不定时推送我们的Portal服务，生产环境运营看板会展示统计数据，发现接口响应缓慢，随之而来数据库监控告警，发现数据库CPU达到了80%。由于表数据量大，计算统计复杂，多线程使用不当，导致数据库服务器爆表。其中A表数据量达到1亿
Elasticsearch－索引原理 ouyang+
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作，花了些时间学习Elasticsearch的基础理论知识，整理了一下，希望能对Elasticsearch感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起探讨，学习，进步。介绍Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文
结婚纪念日是婚礼当天还是领证那天？？壹刻所闻
领证日子和结婚日子大部分都是分开的，所以很多新人弄清楚结婚纪念日是需要过领证那天还是举办婚礼那天。两个日子都会有人过，不过根据大数据显示，大部分的人选择的是举办婚礼的日子。一、结婚纪念日按领证还是婚礼1、领证结婚证纪念日是按领结婚证的那一天算的。只有领了结婚证，两人才是合法夫妻关系，才能受法律保护。而举办婚礼只不过是告诉双方的亲友两人结婚了，邀请双方的亲友一起吃了顿饭罢了，不具备法律效应。如果只是
这个“看不见的问题”，才是工业数据管理的终极难题 CSDN资讯 TDengine 大数据
在谈论#工业数据管理时，我们常常会听到“4V”这样的术语，而在#大数据领域，也有类似的版本，甚至扩展成了5V、6V、乃至8V。但一个问题随之而来：这些被广泛引用的数据特征，真的代表了用户的痛点吗？真的切中了工业企业在实际应用中最棘手的挑战吗？TDengine解决方案架构师陈展隆结合自己多年服务工业客户的经验，分享了他对这个问题的深入观察与思考。或许，我们该重新思考：数据管理的“用户”到底是谁？又是
99% 的 Python 开发者都不知道的 gzip 高级用法 coder_风逝 Python数据挖掘分析 python servlet 开发语言
前言：为什么数据压缩如此重要？在当今大数据时代，数据存储和传输成本已成为每个开发者必须考虑的问题。想象一下，当你需要处理日志文件、API响应或数据库备份时，原始数据往往占用大量空间。Python内置的gzip模块提供了一种简单高效的解决方案，可以轻松将数据压缩到原大小的1/3甚至更小！本文将带你深入掌握gzip的核心用法，让你的Python程序在处理大数据时如虎添翼。1.gzip模块基础介绍gzi
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

Spark复习 Day03：SparkSQL

你可能感兴趣的:(大数据,Spark)