wlyang666

1. 初识spark

背景：

作为一名开发人员，用内存处理数据是每天都在做的事情。内存处理数据最大的优势就是方便，快捷，可以很快得到结果，但是内存总是有瓶颈的，不管你运行代码的机器有多大的内存，总是有更大规模的数据需要处理，而且随着单个机器内存扩容，硬件成本会指数级上升。在当今互联网行业，数据快速膨胀的时代，分布式计算来处理数据是大势所趋。本文通过介绍的是大数据领域优秀框架spark ，打开分布式实时计算的大门

1. spark是什么

Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。以下是对Spark的详细介绍：

1.1 起源与发展

Spark最初于2009年诞生于加州大学伯克利分校AMPLab（AMP：Algorithms，Machines，People），作为伯克利大学的研究性项目。
2010年，Spark正式开源。
2013年6月，Spark成为Apache孵化项目。
2014年2月，Spark成为Apache顶级项目。

1.2 核心特点

高速性：Spark基于内存进行数据处理，大大减少了磁盘读写的开销，因此比传统的MapReduce作业快上几个数量级。同时，Spark实现了高效的DAG（有向无环图）执行引擎，可以高效地处理数据流。
易用性：Spark提供了丰富的API，支持多种编程语言（如Scala、Java、Python、R等），并且提供了丰富的高级功能（如SQL查询、机器学习和图计算），使得用户可以轻松地开发复杂的分布式应用程序。此外，Spark还支持交互式的Python和Scala的Shell，方便用户在这些Shell中使用Spark集群来验证解决问题的方法。
弹性：Spark提供了弹性的分布式数据集（Resilient Distributed Dataset，RDD）抽象，可以在内存中缓存数据，具有强容错性。当节点故障时，Spark可以自动恢复数据，保证作业的稳定执行。
通用性：Spark不仅支持批处理作业（如MapReduce），还支持交互式查询、流处理和机器学习等多种应用场景。这些不同类型的处理都可以在同一个应用中无缝使用，从而降低了开发和维护的人力成本以及部署平台的物力成本。

1.3 内置模块与组件

Spark包含了多个内置模块和组件，以满足不同场景下的数据处理需求：

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。同时，Spark Core中还包含了对RDD的API定义。
Spark SQL：用于操作结构化数据的程序包。通过Spark SQL，用户可以使用SQL或者Apache Hive版本的SQL方言（HQL）来查询数据。Spark SQL支持多种数据源，如Hive表、Parquet以及JSON等。
Spark Streaming：用于对实时数据进行流式计算的组件。它提供了用来操作数据流的API，并且与Spark Core中的RDD API高度对应。Spark Streaming使得用户可以快速开发流应用程序，并且具有强大的容错能力和集成性。
Spark MLlib：提供常见的机器学习（ML）功能的程序库。包括分类、回归、聚类、协同过滤等算法，还提供了模型评估、数据导入等额外的支持功能。
GraphX：用于图计算的组件。GraphX提供了丰富的图处理算法和工具，使得用户可以高效地处理和分析图数据。

1.4 应用场景与生态系统

Spark的应用场景非常广泛，包括但不限于推荐系统、交互式实时查询等。同时，Spark已经形成了一个丰富的生态圈，能够与其他多种框架和系统进行融合和扩展。这些框架和系统包括数据科学和机器学习框架（如scikit-learn、pandas、TensorFlow、PyTorch等）、SQL分析和BI工具（如Superset、Power BI、Looker等）、存储和基础设施（如Elasticsearch、MongoDB、Kafka等）。

综上所述，Spark作为一种基于内存的快速、通用、可扩展的大数据分析引擎，在大数据处理领域具有广泛的应用前景和重要的学术价值。

2. spark下载与入门

在前期，我会先下载spark并在本地单机运行spark，后期会搭建spark集群并将任务交给集群处理。关于版本问题，本文选择3.4.4 来演示

2.1 下载

访问spark官网 https://spark.apache.org/downloads.html
选择对应版本之后点击download下载，下载的是压缩包
本地解压压缩包
安装scala

2.2 spark中python 和 scala的shell

Spank 带有交互式的 shell，可以作即时数据分析。如果你使用过类似R、Python、Seala 所提供的 shell，或操作系统的 shell(例如 Bash 或者 Windows 中的命令提示符)，你也会对Spark shell 感到很熟悉。

然而和其他 shell 工具不一样的是，在其他she 工具中你只能使用单机的硬盘和内存来操作数据，而Sparkshell 可用来与分布式存储在许多机器的内存或者硬盘上的数据进行交互，并且处理过程的分发由Spark自动控制完成。

由于Spark 能够在工作节点上把数据读取到内存中，所以许多分布式计算都可以在几秒钟之内完成，哪怕是那种在十几个节点上处理TB级别的数据的计算。这就使得一般需要在shell 中完成的那些交互式的即时探索性分析变得非常适合Spark。Spark提供Python 以及Scala的增强版shell，支持与集群的连接。

2.2.1 Scala Shell (spark-shell)

Scala 是 Spark 的原生语言，因此 Spark Shell 默认是基于 Scala 的。spark-shell 提供了一个预配置的环境，其中包含 Spark 上下文（SparkContext）和 SQL 上下文（SparkSession），使得用户可以立即开始使用 Spark。

2.2.1.1 启动 Scala Shell

在命令行中输入以下命令来启动 Scala Shell：

bin/spark-shell

启动后，你会看到一个类似 REPL（Read-Eval-Print Loop）的界面，可以开始输入 Scala 代码。

2.2.1.2 示例

val sc = spark.sparkContext
val data = sc.textFile("hdfs:///path/to/input.txt")
val words = data.flatMap(line => line.split(" "))
val wordCounts = words.map(word => (word, 1)).reduceByKey(_ + _)
wordCounts.collect().foreach(println)

2.2.2 Python Shell (pyspark)

PySpark 是 Spark 的 Python API，允许用户使用 Python 编写 Spark 应用程序。pyspark shell 提供了一个与 Scala shell 类似的环境，但适用于 Python 开发者。

2.2.2.1 启动 Python Shell

在命令行中输入以下命令来启动 PySpark Shell：

bin/pyspark

启动后，你会看到一个 Python REPL 界面，并且 Spark 上下文（sc）和 SQL 上下文（spark）已经预先配置好了。

2.2.2.2 示例

from pyspark import SparkContext, SparkConf

sc = SparkContext(appName="PythonWordCount")
data = sc.textFile("hdfs:///path/to/input.txt")
words = data.flatMap(lambda line: line.split(" "))
wordCounts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
wordCounts.collect()

2.2.3 注意事项

环境配置：确保你已经正确安装了 Spark，并且环境变量（如 SPARK_HOME）已经配置好。
依赖管理：在 PySpark 中，你可能需要管理 Python 依赖，这通常通过 requirements.txt 文件或虚拟环境来实现。
性能差异：虽然 PySpark 提供了方便的开发体验，但在性能上，Scala 通常会比 Python 更快，因为 Scala 是静态类型语言，并且与 JVM 更紧密集成。

通过使用这些 shell，可以快速原型化和测试 Spark 应用程序，而无需编写完整的脚本或应用程序。

2.3 spark核心概念简介

2.3.1 RDD（弹性分布式数据集）

RDD是Spark的核心数据结构，代表一个不可变、可分区、可并行操作的元素集合。RDD具有如下特性：

弹性：RDD既可以在内存中存储并计算（优先使用内存），如果内存不够，可以溢出到磁盘上。
数据集：RDD是一个普通的Scala的不可变的集合。
分布式：一个完整的RDD数据集被拆分成多个部分，在不同的机器里面存储。被拆分成的部分称之为该RDD的分区（Partition），类似于HDFS中的一个文件被拆分成多个Block块存储。

RDD支持两种操作：

转换操作（Transformations）：如map、filter、reduceByKey等，这些操作是惰性（Lazy）的，即从一个RDD转换生成另一个RDD的操作不会立即执行，而是等到有Actions操作时才会真正启动计算过程进行计算。
行动操作（Actions）：如collect、count、saveAsTextFile等，这些操作会触发Spark启动计算并返回结果或把RDD数据写到存储系统中。

2.3.2 SparkContext

SparkContext是Spark的入口点，用于连接Spark集群，创建RDD并进行操作。它是Spark应用程序的上下文环境，控制应用的生命周期。

2.3.3 Cluster Manager（集群管理器）

Cluster Manager负责管理Spark集群的资源（如CPU核心、内存等）。在不同的部署模式下，Cluster Manager可以是Spark自带的（Standalone模式），也可以是YARN、Mesos等外部集群管理器。

2.3.4 Worker Node（工作节点）

Worker Node是执行作业任务的工作节点，是Spark计算能力的实际提供者。在Standalone模式中，Worker Node负责控制计算节点，启动Executor。

2.3.5 Driver

Driver是每个Spark应用程序的核心，负责启动并控制整个应用程序。它创建SparkContext，与Cluster Manager通信，管理资源申请、任务分配和监控。

2.3.6 Executor

Executor是在Worker Node上运行的进程，可以派生出多个线程来并行处理任务。每个Spark应用程序都拥有独立的一组Executors。

2.3.7 DAGScheduler和TaskScheduler

DAGScheduler：负责将Spark作业分解成一到多个Stage，每个Stage根据RDD的Partition个数决定Task的个数，然后生成相应的Task Set放到TaskScheduler中。DAGScheduler可以看作是Spark的大脑，负责作业的划分和调度。
TaskScheduler：负责将Task分发给Executor执行。

2.3.8 Stage和Task

Stage：一个Spark作业一般包含一到多个Stage。Stage是根据RDD之间的依赖关系（宽依赖或窄依赖）来划分的。
Task：一个Stage包含一到多个Task，通过多个Task实现并行运行的功能。Task的个数由RDD的Partition分区决定。

2.3.9 Actions触发计算

在Spark中，只有Actions操作才会触发计算。Actions操作会返回一个结果或把RDD数据写到存储系统中。常见的Actions操作包括collect、count、saveAsTextFile等。

综上所述，Spark的核心概念包括RDD、SparkContext、Cluster Manager、Worker Node、Driver、Executor、DAGScheduler、TaskScheduler、Stage、Task以及Actions触发计算等。这些概念共同构成了Spark的分布式计算框架，使得Spark能够高效地处理大规模数据。

2.3.10 简单交互

2.3.10.1 Spark作业执行交互图

Client
  |
  v
Driver (SparkContext)
  |
  +--- DAGScheduler (划分Stage)
  |
  +--- TaskScheduler (分发Task)
  |
  v
Cluster Manager (资源分配)
  |
  +--- Worker Node (控制计算节点)
         |
         v
       Executor (执行任务)

2.3.10.2 交互流程说明

Client提交作业：
- 用户通过Client（如spark-submit命令）提交Spark作业。
Driver启动并管理作业：
- Driver是Spark作业的核心，负责启动并管理整个作业的执行。
- Driver创建SparkContext，它是Spark应用程序的上下文环境，用于连接Spark集群、创建RDD并进行操作。
- SparkContext内部包含DAGScheduler和TaskScheduler两个重要组件。
DAGScheduler划分Stage：
- DAGScheduler负责将Spark作业分解成一到多个Stage。
- 每个Stage根据RDD的Partition个数决定Task的个数。
- DAGScheduler生成相应的Task Set并放到TaskScheduler中等待调度。
TaskScheduler分发Task：
- TaskScheduler负责将Task分发给Executor执行。
- TaskScheduler与Cluster Manager通信，请求资源并分配Task。
Cluster Manager分配资源：
- Cluster Manager负责管理Spark集群的资源。
- 在不同的部署模式下，Cluster Manager可以是Spark自带的（Standalone模式），也可以是YARN、Mesos等外部集群管理器。
- Cluster Manager根据TaskScheduler的请求，为Spark作业分配资源（如CPU核心、内存等）。
Worker Node控制计算节点：
- Worker Node是执行作业任务的工作节点。
- 在Standalone模式中，Worker Node负责控制计算节点，启动Executor。
Executor执行任务：
- Executor是在Worker Node上运行的进程，可以派生出多个线程来并行处理任务。
- Executor接收TaskScheduler分发的Task，并执行相应的计算逻辑。
- Executor将计算结果返回给Driver（对于需要返回结果的Actions操作）。

2.3.10.3 数据流动

数据在RDD之间流动，通过转换操作（Transformations）生成新的RDD。
行动操作（Actions）触发计算，并将结果返回给用户或写入存储系统。

以上，如有错误，请不吝指正！

我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
恩小希美食成长日记之118：“摘星女神”王亚平归来，她的婚姻，治愈了多少职场女性的痛恩小希
上周最为热闹的消息,无疑是神舟13号的三位航天英雄回来了.其中,最为瞩目的就是王亚平.她是我国首位进行太空行走的女航天员,也是为自己小女儿“摘星星的妈妈”。作为最受关注的职场妈妈，王亚平之所以能够成就这样一番事业，跟背后默默支持她的丈夫--赵鹏分不开。01王亚平1980年出生于山东烟台。父母都是地地道道的农民。王亚平这个姑娘从小体质好，一直练习长跑。高中时，空军来家乡招收女飞行员，作为体育班里唯一
2019-07-30 西域社群
天地之间，分外热闹。望热浪涛涛，引无数帅哥竞开撩，夕窈窕淑女皆露腰。一代天骄，群里热闹。不见美女露妖娆，唯见帅哥手机忙，唐诗宋词，广为流传，惜字如金，声情并茂。君悉吾析，今日之局有套路，昨日之生惹人恋。聚往矣，数风流人物还看今朝！！
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
【老房翻新】92平轻奢简约风，将和谐之美融入空间！没人比我更懂装修
在客厅空间中，设计师于冷静的空间基调中选用了层次感丰富的黄蓝色作为主要跳色，搭配黑白纹理的地毯与单椅，为空间增加了时尚摩登的气息。艺术感的单品突出点亮了空间，绿植的点缀、留白的软饰则增强了空间的呼吸性。点击此处添加图片说明文字点击此处添加图片说明文字设计师力求使每一处的设立都在空间中达到相互间的呼应与制衡，将艺术的跃动之美赋于空间之上，也将空间的和谐之美融于生活之中。点击此处添加图片说明文字点击此
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
营销活动-大转盘無缺520
写在前面最近，首先营销活动工具这块我是再熟悉不过了。曾经做了不下20个活动工具，然后通过监控活动数据反推活动的好坏。文中主要讲解幸运大转盘营销工具一.大转盘定义大转盘是比较常见的营销活动工具，它是通过消费者用户控制【开始/停止】操作获得奖品物品。用户在不知道自己能获得什么奖品的条件下，然后通过抽奖，大概率的获得未知的奖品。类似最近流行的盲盒玩法。二.为什么做大转盘大转盘是最常用的抽奖类的活动工具之
STM32入门之TIM基本定时器嵌入式白话 STM32入门学习 stm32 嵌入式硬件单片机
一、定时器简介定时器是嵌入式系统中的关键外设之一，它可以用于生成精确的延时、周期性中断、PWM波形生成等功能。在STM32F1系列单片机中，定时器不仅能为系统提供精确的时钟，还支持外部事件的捕获以及信号输出。对于定时器的功能，我们可以通过一个生活中非常常见的例子来形象地描述：微波炉的定时器。想象你正在使用微波炉加热食物。在微波炉里，定时器的作用就是帮助你控制食物加热的时间。当你设置了加热时间后，定
收集落叶申文秀
走啊，一起走，我们一起去收集落叶落叶的模样早已映入我的眼帘耳边已响起叶子落在地上的“沙沙”声走啊，去收集落叶，落叶是我们的回忆落叶的样子如此俏皮心形是写给秋姑娘的情书圆形是秋姑娘送给大地的礼物三角形是秋姑娘礼服上的碎珠片哟！秋姑娘举行的盛装宴会开始了你看！秋之宴会开始了松叶缓缓飘落在空中跳起了华尔兹枫叶跳着芭蕾兜着圈子盘旋而下银杏叶是杂技演员，正“七上八下”地翻跟头每个落叶都在宴会上展示自己最美妙
婴童医话（五百六十）妙手柯楠
探天地清浊之源，察阴阳顺逆之机。“乳食过饱蓄胃中，乳片不化吐频频，身热面黄腹膨胀。”伤乳吐者，因乳食过饱，停蓄胃中，以致运化不及，吐多乳片，犹如物盛满而上溢也。其证身热面黄，肚腹膨胀。治宜化其宿乳，安胃和中，节其乳食，自然止也。“过食伤胃腹胀热，恶食口臭吐酸粘，眼胞虚浮身潮热。”伤食吐者，因小儿饮食无节，过食油腻、面食等物，以致壅塞中脘而成也，其证肚腹胀热，恶食口臭，频吐酸粘，眼胞虚浮，身体潮热。
【阳光️️☀️苑长幸福365】7月9日《就此刻确知》阳光苑长
音频文字原创|阳光苑长图片发自App一夜的梦境，情景相当的壮烈，那是前前后后多个情节的叠加，那是因为极其在意在正义的，完满的，在早已经确认——万古之先已经确认了一切美好的事物当中。当有假象，当有一些不好的势力，试图想去破坏夺取的时候，在梦境中一直得力的征战，为着身边最挚爱的朋友，为他，为所有美好的事业而守望。守望，英文叫做watcher，就是观望者。图片发自App在这个毫不奇怪，事实上一直发生的征
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
漫步，跳出藩篱张巧金沙
最近的教学，倍感不爽。一为这国庆之假，把这课上得支离破碎的。放假前，上了四天课，但我却只上了三天，9月30日，我工作室在搞活动，全天的活动，课当然未能上。10月8日学生回校，上了两天课，学生又放回家了。就觉得学生刚有点状态，又回去逍遥去了。感觉吧，教学内容也不敢大胆甩开膀子去教学，所以呀，这教学内容还真上不走，而且学生学下来效果特差。这不，国庆放假前的一个周，测试了两次，均为第一单元，是自考试以来
用好考评指挥棒答好时代新答卷天才码字选手
民之所望，施政所向。而群众评议正是检验发展质量和人民获得感的试金石。究竟是“走过场”、“栽盆景”，还是俯下身子，甘当为民服务的“孺子牛”或撸起袖子，做担当作为的“拓荒牛”，群众自是看得清清楚楚，最有发言权。因而也有这样一句话：干部脚下沾多少泥土，群众心里就有多少感情。民意不可或缺，群众的意见不能少。新时代下，要最大程度发挥群众评议在激励干部担当作为中的效能，才能汇聚起推动高质量发展的磅礴之力，答好
总会有一道光之利刃能划破暗夜长空！一滴Sea
图片发自App一帆风顺的人生很难产生什么顿悟，只有扎扎心，人才会醒悟，所以人生路上偶尔的风浪冲突，都可以怡情，和着一杯清茶一品人生的滋味。图片发自App中国人的传统家教就是:优点不鼓励，心知肚明就好，有缺点一定要细细碎碎仔细倒嚼，然后编织成一张唠叨之网把家人孩子都包裹的严严实实，苦口婆心地说:“走大街的人，没有人像我这样说你，你该感恩才是！”图片发自App唉！真是让人一口长气无处抒发，多少孩子因为
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
今天的彭格列依然被世界游戏吓得瑟瑟发抖呢云染舒倦
前言有一天，有一个白兰的大魔王想要毁灭世界，创世者非常不高兴，于是，创始者用吞噬一切，包容一切的大空（泽田纲吉）、捉摸不定的雾（六道骸）、孤高的浮云（云雀恭弥）、愤怒的忠岚（狱寺隼人）、晕染一切的雨（山本武）、守护之雷（蓝波）、热血之晴（晴川了平）创造了七位拯救世界的勇士（用属性制造勇士），让他们跟白兰对抗。。。［白兰的力量是游戏，于是要打败他，只要同样在世界布置的游戏中，赢过白兰就行了~］图片发
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
20210517坚持分享53天读书摘抄笔记非暴力沟通——爱自己 f79a6556cb19
让生命之花绽放在赫布·加德纳（HerbGardner）编写的《一千个小丑》一剧中，主人公拒绝将他12岁的外甥交给儿童福利院。他郑重地说道：“我希望他准确无误地知道他是多么特殊的生命，要不，他在成长的过程中将会忽视这一点。我希望他保持清醒，并看到各种奇妙的可能。我希望他知道，一旦有机会，排除万难给世界一点触动是值得的。我还希望他知道为什么他是一个人，而不是一张椅子。”然而，一旦负面的自我评价使我们看
好学生引路人2021年6月21日星期一一米阳光2025年
5组21号董文娟（甘肃省白银市靖远县小芦小学语文教师）的打卡记录：1.听录音，读原文：《论语·学政第二》之2.42[爱心]2.听分享，写心得：认真聆听了好几遍辛教授的讲解《为政第二》2.4后，深有感触，孔子说自己的学习是有所自觉的学习，而不是盲目的学习。自己最向往的志向，三十而立，坚定的自守，立于自己的志向，我感觉我自己正处于这个“三十而立”的年龄，能真正达到一切游刃有余，财务自由，志向远大的生命
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
守一朵花，偏安春之一隅者者行
图片发自App守一朵花，偏安春之一隅云雾压城的那一刻我发现世界小了许多高楼耸立，挨着天女的脚丫脚贴大地柔软的腹河水湿润了游离的眼际风偏安春的围城在我的身体里生根育芽远山，那块曾经蕴藏着诗的圣地不见也罢此刻我只想读懂泥土的温柔和挂在纤纤枝头的那抹春色它是那么轻盈像蝴蝶的羽翼我多想折一枝春寄给遥远的你可又怕你见到的是一朵将萎的花近日的烟雨，给江城的春色增添了些许朦胧之美。灰白的天色，让我的视界后退了不
算法刷题-动态规划之背包问题
1.背包问题之01（4.30）题目描述小明有一个容量为VV的背包。这天他去商场购物，商场一共有NN件物品，第ii件物品的体积为wiwi，价值为vivi。小明想知道在购买的物品总体积不超过VV的情况下所能获得的最大价值为多少，请你帮他算算。输入描述输入第11行包含两个正整数N,VN,V，表示商场物品的数量和小明的背包容量。第2∼N+12∼N+1行包含22个正整数w,vw,v，表示物品的体积和价值。1
一些身体的自描王神马
短发，黑色的盆栽浇水，裁剪只为了衬托盆的好看手掌，黄色的落叶纵横交错的脉络指引生命之树是哪一棵双脚，行走的印章镌刻着生命的贵重每一条人生都值得铭记眉毛，情绪的微澜紧促，上扬都牵动着那根心弦
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数