之乎者也·

Spark内容分享(二十)：网易基于 Kyuubi + Spark 内核优化以及实践

Apache Spark - Adaptive Query Execution/AQE

1. AQE–History

2. AQE–Shuffle

3. AQE - Small Reduce Partition

4. AQE – Skewed Reduce Partition

5. AQE – Optimize Plan

Kyuubi + Spark 数仓类任务优化实践

1. Kyuubi + Spark – 架构

2. Kyuubi+Spark–安全

3. Kyuubi+Spark–方案

4. Kyuubi+Spark–数据

Apache Spark - Adaptive Query Execution/AQE

1. AQE–History

自适应查询
Adaptive/AQE/AE

下面先来讲一下 Apache Spark Adaptive Query Execution 的一些历史， AQE 在不管是 Spark 开源代码里面还是在技术博客里面出现的频率越来越高，我们一般会用 AQE 这种缩写去简称它。

Spark 2.X

AQE 在Spark 2.X版本其实就已经有了一定的雏形。但是整个框架是非常 Hack 的，并且存在很多 Bug，它提供的功能就是可以合并一些小的分区。除此之外也没有别的功能，设计非常简单。

Spark 3.0

到 Spark 3.0的这个开发阶段，Intel 提出了一个基于 AQE 的新框架。在这个框架下我们可以做非常多事情，主要围绕两部分：

①对于 Shuffle Reader 阶段的各种优化

包括我们现在可以想到的一些Join 倾斜优化、 Local Shuffle Reader 的优化。这些优化在现在这个框架里都非常简单，只需要添加一些规则就可以支持。

②通过优化执行计划来进一步去优化 SQL 性能

比如我们以前见到的广播 Join，在 AQE 这个特性里面可以在运行时动态地将我们的 Join 转化成广播 Join 来跑。这一层面提高了 SQL 的性能。

Spark 3.1

Spark 3.1时代，网易开始进入并参与到了 AQE 特性的优化和增强。到目前为止，大概有40多个 Patch 已经合入了 Apache Spark 的社区。

网易内部默认打开了 AQE 特性并且效果非常好，相比于原来的Spark2.x 版本，几乎每个在TPC-DS性能测试下，几乎有 100% 的性能提升。

Spark 3.2

Spark 3.2才把 AQE 特性默认开启我相信在未来即将发布的 Spark 版本里面， AQE 会发挥更多更重要的作用，也还会有更多的特性的引入进来。

2. AQE–Shuffle

Small Reduce Partition
Skewed Reduce Partition

下面来讲一下 AQE 整个的一个设计，它解决了什么问题？以及它是如何解决的？

我们看一个非常简单的一张 Shuffle 图：

左边部分：是 Shuffle 的 Map 阶段，也就是负责写 Shuffle 数据的这一个 Stage

右边部分：是负责 Read Shuffle 数据的 Stage

中间部分：是 Spark Shuffle Block

可以看到，这是个非常简单的 Demo，它的数据已经出现了非常小的一些分区，实际在 Reduce 分区里面只有3个分区是有数据的，剩下197个是空的。我们知道这200个分区是 Spark 默认的分区配置，也就是我们经常会调整的 SQL Shuffle Partition 的配置。

这个 Shuffle 其实已经引入2个问题：

①假设我们期望每个分区只处理两条数据，Task5 分区已经出现了数据倾斜。

②剩下的分区都是小分区，或者是根本没有数据的分区，无效分区，这些分区在 Spark 整个调度层面会造成非常严重的 Task 资源浪费。

AQE 的诞生就是为了解决这些问题

3. AQE - Small Reduce Partition

Coalesce Shuffle Partition

我们先来看一下第一个问题，Small Reduce Partition , 也就是 Reduce 分区处理的数据量很小。在 Spark 的 AQE 的框架里面，这个特性的规则就是 Coalesce Shuffle Partition。Shuffle Partition 其实是和 Reduce Partition 等价的，在 Spark 代码里面这个特性规则就命名为 Shuffle Partition。

可以看到，经过 AQE 优化之后，整个 Shuffle Partition 用2个 Task 就完成了整个 Stage 的执行。对比刚刚那个 Stage 节省了198个 Task。这在实际的调度层面，会极大地提高任务的执行性能。

这根红线是表明了这个被合并的分区的一个数据流向，也就是 Task 6原本需要读 Task2 中的b这条数据，但是我们期望每个 Task 假设处理2条数据，最终它所有会把 Task4 产生的数据c也收录到这个分区内部来处理。这样就起到合并 Reduce 分区的效果。

在另一层面，如果 Stage 是最后一个 Stage，也就是负责写数据 Stage，那这个 Stage 还将影响整个产生文件数据量的大小，也就是我们以前经常听到的一些小文件问题。

4. AQE – Skewed Reduce Partition

Optimize Skewed Join
Optimize Skew In Rebalance Partition

第二个部分我们来讲一下 Shuffle Partition 文件 Skew 的问题。

我们知道 Spark 3.2 对于 Skew 分区的优化其实由两部分组成：

①对于 Join 倾斜的优化

②对于 Rebalance Partition 的优化

其实这两个优化的本质原理都是类似，都是通过拆解大分区来去平衡每个分区处理的数据量。

比如这个例子中a这个数据其实是倾斜的，我们希望每分区处理2条数据，而原来的 Task5处理了4条数据。我们期望把 Task5的分区再拆，一拆为二，拆成两个分区来处理。最终结果采用了三个分区来处理这些数据，每个分区处理的数据量都是一致。这样非常平均的 Task 数据量会让每个 Task 的执行性能，执行速度都非常相近，避免出现一些长尾的 Task 或倾斜的 Task，导致拖累整个 Stage 执行的性能问题，从而解决了倾斜的问题。

5. AQE – Optimize Plan

Dynamic Join Selection

刚刚讲的是关于 AQE 对于 Shuffle Read 这一个层面的优化思路，就是通过动态地生成 Shuffle Read 来合并分区，或者优化 Join 分区去调整每个 Task 的输入数据量。另一个思路就是可以在 AQE 框架内，动态地去优化执行计划。

在没有 AQE 之前，Spark 优化执行计划都是基于规则或者是基于静态统计数据的优化方式，整个过程在 SQL 编译阶段就完成了。一旦确认每个执行计划的执行算子之后，在执行过程中不会发生任何的改变，它只会去按照的最初的执行计划一直跑。

那么我们是不是可以拿到在执行中的一些 Shuffle 的数据，再通过这些数据去优化下一阶段要去跑的执行计划。基于这个思路，AQE 就提出了重新优化执行计划这样一个特性，网易在这个特性里面支持了对于 Join 的动态选择，是在 Join 领域里面非常核心的一个 Feature。

我们知道在 Spark 层面，如果是等值 Join，它会有三种执行方式：

①默认的是基于 Sort Merge Join，也是非常普适的，非常稳定的一种 Join 方式。

②如果一边数据量非常小，会采用广播 Join 的方式，也就是我们经常会遇到的一种。

这个 广播 Join 会让我们经常会遇到一些 OOM 问题，因为广播 Join 在原来都会采用静态的数据统计估计。数据统计估计可能是不准确的，因为它可能考虑到一些数据压缩率、每个算子的数据膨胀或者数据过滤的一些系数，它可能不太精准，从而导致我们在广播 Join 的阶段误判了执行计划的一个代价，把一个非常大的 Relation去广播到每个Reduce Task，导致我们的 Driver 压力非常大。

在 AQE 的环境下，可以通过采集执行计划实际的数据大小。如果该大小小于期望的 Driver 内存大小,可以考虑把数据Down到 Driver，再广播出去。这比相对于静态的数据统计来做广播 Join 判断，可以避免 OOM 情况。因为整个数据都是非常实际、非常准确的，不会出现误估的情况。

③还有一种Join 是基于 Shuffle 的 Hash Join，它的特点就是每一个分区内的数据都不是很大，但是结果总的数据量比较大，那我们可以把每一个分区内的数据 Build成一个 Hash Relation，然后再去和另一边做 Join。

每一种 Join 的执行策略都有各自的优势和劣势。用户在优化的时候，他肯定需要去不断调试，需要不断地去判断数据分布情况。如果 SQL 非常复杂，这种优化的成本是非常高的。我们通过在 AQE 这个框架里去支持基于 Runtime 的动态选择 Join 策略，可以极大的帮助用户降低优化成本。

整个动态 Join 选择在网易内部上线效果也还是比较可观的，相比于不开这个动态 Join 选择会有2%-30%的 Join 的性能提升。

Kyuubi + Spark 数仓类任务优化实践

第二部分来围绕着 Kyuubi 和 Spark 这两个组合拳分享关于数仓类任务的优化实践。

1. Kyuubi + Spark – 架构

Thrift & JDBC & Rest & 多租户
云原生

我们先讲一下 Kyuubi 这整个的架构和定位。

①Apache Kyuubi 对外可以支持 Thrift 接口或者 JDBC 接口，我们社区最近在支持的一个 Rest 接口。这是非常灵活的。我们网易内部，通过这些接口，我们支持了对于离线 SQL 任务，就是我们通常说的离线数仓类任务的一些支持。

②多租户的支持。在企业级的大数据场景里面多租户是非常重要，考虑到数据读写的安全，以及我们在数据层面的更细粒度，比如 Row Level 或者是 Column Level 的鉴权。

③Kyuubi 这套架构是完全支持云原生的，在网易内部其实一个 Kyuubi 集群可以同时路由到 Kubernetes 集群和 Yarn 集群，只需要在用户层面直接需要改一些配置就可以这样灵活地去路由。

2. Kyuubi+Spark–安全

Kerberos
Kerberos-Proxy
Ranger

下面讲一下这个 Kyuubi + Spark 这一套体系中，Kyuubi 是怎么去考虑数据安全或者说是怎么接入一套安全认证体系的？

我们知道在大数据场景，在 Hadoop 的生态范围内， Kerberos 是一个绕不过去的安全认证系统，Kyuubi 在 Kerberos 集成方面做了非常多的工作。分为两个部分：

第一部分是 Kyuubi Server，负责接入用户的 Query。

第二部分是 Kyuubi 的引擎，比如 Spark 引擎，或者是我们最新推出的一些 Flink 引擎或者 Trino 引擎去负责执行用户的 Query。

第一部分Kyuubi的接入层。在接入层 Kyuubi Server 我们支持了最常见的 Kerberos，还有一些比较简单的 LDAP，包括我们支持用户去自定义自己的一些鉴权行为，来帮助用户去更容易地去和自己内部的一些安全认证体系做集成，这是第一步在 Kyuubi Server 的一些集成环境。

第二部分 Kyuubi Server 和 Kyuubi 引擎之间，我们也支持基于 Kerberos（不管是 Keytab 或者是 Proxy）的两种接入方式。

另外 Kyuubi 还自研了支持 Proxy 的一个 Long Live 的行为，Hadoop 的原生的 Proxy 体系，并不支持长期的任务作业，比如一个任务跑了3天，过了12个小时，或者是一段时间内，你的 Proxy 的 Token 就失效了。这时候你的任务是无法长期作业的。

Kyuubi 的定位其实是非常的广泛，它可以作为一个长期存在的服务,去提供比如 Ad-Hoc 之类这种查询服务。我们希望 Kyuubi 整个架构可以支持把引擎缓存起来，支持引擎常驻等功能。这时候基于 Long Live 的 Proxy 的协议就非常有效果，通过在Kyuubi Server 内部不断地去利用 Kyuubi 自己的 Keytab 去刷新用户的 Proxy Token。从而再通过 Thrift 协议去扔给 Kyuubi 的引擎。这样是可以去保证 Kyuubi 引擎的Token永远是活跃状态，不会出现失效问题，从而实现 Long Live的这种Proxy类的协议。

最后我们在引擎层面其实还支持更细粒度的安全特性，比如对于数据 Row Level 和Column Level 的数据过滤或者是 Data Marks，当然我们特性需要在1.6下一版本可以支持，现在还在研发阶段。但是整个 Kyuubi 的数据安全体系建设体系是非常完善的。

3. Kyuubi+Spark–方案

Distribute By + Local Sort ×
Rebalance + Z-Order √

下面再说一下关于我们数仓类任务的一个优化方案。刚刚我们基于 Kyuubi + Spark 已经解决了数任务是如何去调度的，去跑在 Yarn 也好，跑 Kubernetes 也好，都已经完成了这些支持，那剩下的就是任务本身的一些性能，它的数据产出质量。

性能方面已经有了 Spark AQE 这一核心特性，那剩下的我们需要重点考虑的，对于 SQL 开发者来说，是它的数据产出质量。

关于数据产出质量这一层面来说，Spark 的支持其实不太友好，或者是每个大数据引擎的支持都不太友好。不管是对于小文件的处理也好，或者是对于倾斜文件的拆分也好，基本上没有出现一个成体系的一套方案，或者是一个开箱即用的方案。

数据开发在这种场景下就会自己地去琢磨，他会去根据数据去优化，比如会加一些 Distribute By 这种行为，或者在 Distribute By 后面再加一个 Local Sort，或者是在 Hive SQL 里面可能合并进行一个 Cluster By 来提高整个数据的产出质量。

数据的产出质量其实可以分成两部分来看。

第一部分是数据的压缩率。基于 Hash 分区后，或者在做排序后，它的压缩率会有一定程度的提高。

另一方面就是数据文件的一个质量。我们期望文件大小是非常适合我们去 Read 的，比如和 HDFS 的 Block 大小是匹配的。期望整个文件稳定在 256M 或者是 128M 这种固定大小的一个文件块，这样在下游 Read 阶段会有比较好的一个数据效果，同时对于我们 HDFS Name Node 一些元数据治理也有非常好的一个优化。

但是原生的 Distribute By 有一些弊端，首先它就解决不了文件倾斜的问题。当你出现某些 Key 值倾斜时候，Distribute By 会导致某些分区的数据量非常大，导致这个任务跑得非常慢，因为某些 Task 可能需要处理比别的 Task 的多几倍或者几十倍的数据。另一方面，在 Local Sort 其实对于多维数据来说的数据聚集分布的效果没有非常优秀，我们在此基础上提出了基于 Rebalance + Z Order 的、在写层面的优化方案。

Rebalance 可以在 AQE 框架下提供小文件合并以及大文件的一个拆分的功能。另外，网易内部还提供了关于基于 Stage 粒度的一个配置隔离，现在已经可以在 Kyuubi 社区里面可以看到。

我们知道写 Stage 永远是最后一个 Stage，那 Stage 配置隔离意味着你可以控制最后一个 Stage 的整个 Input Size。比如网易内部期望默认输出的一个文件大小是 200M+ 或者 300M+，那我们可以把最后一个分区的 Input Size 设置成 200M+ 或者 300M+，从而可以保证每个任务产生的数据文件都是期望的大小。

另一层面在 Z Order，在最近在大数据领域来说相是比较流行的一个特性，比如Databricks Delta和Iceberg 都在探索相关的支持。本质上就是把多维数据可以映射到一维数据，在映射的过程中可以保证这整个多维数据的数据聚集分布效果不失真。

这在一定程度上就可以让整个数据的分布非常优秀，从而可以在保证压缩率的情况下，让下游的任务在 Read 阶段有非常好的 Data Skipping 效果。

这整套方案在网易内部已经做了大量的优化实践。现在通过 Kyuubi 已经可以完成这整套优化链路。

首先我们可以通过定义表的一个核心的字段，比如我们某一张表有3~5个字段, 适合去做排序或者有非常好的压缩效果，或者在被下游任务去读的时候会非常频繁，亦或者是一些热点字段作为谓语条件存在频率非常高。就可以把这些字段定义到这张表的 Properties 里面去。

Kyuubi 再跑这些 SQL 的时候，就会动态感知这些 Table 里面的 Properties，判断是否要为这些写的数仓类任务增加 Rebalance + Z Order，去规范化每一个数仓类任务的产出，从而让整个产出的数据质量及产出的表的下游任务在读的时候有非常好的查询性能。这会获得两部分收益：

①对于写存储层面的一个收益

②在下游任务读的一个 Read 查询层面的收益

两个层面的收益效果都非常理想。

4. Kyuubi+Spark–数据

降低存储成本
提高查询性能

下面再给一些我们网易内部的、基于 Rebalance + Z Order 的性能数据。

左边这张图是我们的整个产出的一个文件数据量和产生的文件的数据大小，可以看到三个阶段：

第一阶段是野生或者是刚写完的这个任务，整个产出质量非常不理想，不管压缩率也好，还是文件数也好，都是野蛮生长。这时候经验丰富的一些SQL开发就会去通过给 Distribute By 或者是 Distribute By 再取模，或者是再通过一些比较 Hack 的行为强行把当前的这部分数据压缩率降下来。

但是有一些场景非常难以保证压缩率和小文件同时下降。比如在一些动态分区写的这种场景，其实压缩率和小文件他们这两个条件是互斥的，也就是非常难保证同时满足两个条件且都达到非常好效果。

我们通过 Rebalance + Z Order 这一套优化下来，不管是在产生的数据量也好，还是在产生的小文件数也好，它都有非常好的下降趋势。当然产生数据量，一般来对于用户是第一关心的点，可能宁愿会牺牲文件数量也来保证压缩率。

另一方面右边这张图可以看到我们经过优化之后，对于下游任务的查询性也有非常大的提升，并且性能的提升其实是跨引擎的，包括我们测试的一些 Impala 引擎，或者是我们最常用的 Spark 引擎，还有我们历史遗留的 Hive 引擎。三个引擎对于优化后的表的查询都有一定程度的性能提升。这对于我们来说是非常非常好的一个信号，因为我们写任务这一环节都是通过 Spark SQL 去写的。但是在读阶段在各个引擎都可以享受到写优化带来的性能提升，相当于进一步提高了优化的一个覆盖范围。

因为数仓类任务，我们知道它可能下游任务是其他更上层的数仓任务，也可能是一些直接报表，或者是给数据分析师接 HQL 之类的一些查询。那他每一个查询的引擎可能在不同公司内部用的组件模型都不太一样，那有些用 Impala，有些可能用 Presto，可能有些用其他的引擎。我们在优化层面上支持了多引擎的查询性能优化，也取得了非常好的效果。

希望大家可以在有兴趣的可以来 Kyuubi 社区来体验一下 Rebalance + Z Order 这一套方式。

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
25-1-2019 树藤与海岛呢
hello八月来报道了今天看到了一篇文章就只想记下那两句话：良田千顷不过一日三餐广夏万间只睡卧榻三尺大概的意思就是要珍惜当下不要等来不及的时候才珍惜分享今天的两餐最近没有时间运动呢下个月补回好了说完了哈哈goodnight图片发自App图片发自App
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
中原焦点团队吴瑕瑜焦点解决初级第18期坚持分享第695天 2021年12月6号卿安
中原焦点团队吴瑕瑜焦点解决初级第18期坚持分享第695天2021年12月6号相信相信的力量。很多时候我们忽视了相信的力量，当看到孩子遇到困难、挫折，或者可能犯错时，我们急于去帮忙，这至少部分暗含不相信孩子有能力自己解决，“等不及”，少了对孩子有权决定是否需要帮忙的尊重，缺乏界限，容易引起冲突，并影响孩子的独立能力。对孩子的成长，很多时候，家长的相信比具体帮助更重要。
车载刷写架构 --- 整车刷写中为何增加了ECU 队列刷写策略？汽车电子实验室电子电器架构——刷写方案车载电子电气架构架构开发语言车载诊断进阶篇汽车中央控制单元HPC软件架构关于网关转发性能引起的思考
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：周末洗了一个澡，换了一身衣服，出了门却不知道去哪儿，不知道去找谁，漫无目的走着，大概这就是成年人最深的孤独吧!旧人不知我近况，新人不知我过往，近况不该旧人知，过往不与新人讲。纵你阅人何其多，再无一人恰似我。时间不知不觉中，来到新的一年。2025开始新的忙碌。成年人的我也不知道去哪里渡
车载诊断架构 ---面向售后的DTC应该怎么样填写？汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列 EV（电动汽车）常规知识必备架构面向售后的DTC 车载诊断架构 OEM怎么掌握软件开发能力车载通信网络槪述 android ZEVonUDS-J1979
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
车载诊断架构 --- 关于诊断时间参数P4的浅析汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
关于诊断时间参数P4的浅析我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：所谓鸡汤，要么蛊惑你认命，要么怂恿你拼命，但都是回避问题的根源，以现象替代逻辑，以情绪代替思考，把消极接受现实的懦弱，伪装成乐观面对不幸的豁达，往不幸上面喷“香水”来掩盖问题。无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦
车载刷写架构 --- 刷写思考扩展汽车电子实验室电子电器架构——刷写方案架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
平静得接受自己的笨拙 20190118 晨间日记吴伯符
图片发自App最近做了一个关于微习惯的分享，这里有八个字：微量开始，超额完成。这里的言下之意其实是要你在一开始的时候，平静地接受自己的笨拙。接受自己的笨拙，理解自己的笨拙，放慢速度尝试，观察哪里可以改进，再反复练习，观察自己哪里可以再进一步改进，再反复…这是学习一切技能的必须的过程。这里的两个关键点是：1.尽快的开始这个过程，这就能够用到微习惯的微量开始。2.尽快的度过这个过程，这就需要用到超额完
【花了N长时间读《过犹不及》，不断练习，可以越通透】君君Love
我已经记不清花了多长时间去读《过犹不及》，读书笔记都写了42页，这算是读得特别精细的了。是一本难得的好书，虽然书中很多内容和圣经吻合，我不是基督徒，却觉得这样的文字值得细细品味，和我们的生活息息相关。我是个界线建立不牢固的人，常常愧疚，常常害怕他人的愤怒，常常不懂拒绝，还有很多时候表达不了自己真实的感受，心里在说不嘴里却在说好……这本书给我很多的启示，让我学会了怎样去建立属于自己的清晰的界限。建立
最佳好女婿赵倩王城(精彩热门小说)最佳好女婿赵倩王城&全集目录免费阅读海边书楼
最佳好女婿赵倩王城(精彩热门小说)最佳好女婿赵倩王城&全集目录免费阅读主角：赵倩王城简介：女人叫赵倩，三十八岁，很漂亮，----阅读全文小说内容请翻阅文章最底部---王城根本没有想到，女友的妈妈在自乐的时候，叫的竟然是自己的名字。女人叫赵倩，三十八岁，很漂亮，腰很细，腿很长，王城有些怪异赵倩为什么会放过自己，但赵倩没有发怒，却也让王城长长的舒了一口气，坐到沙发上点了根烟抽了起来。“王城，什么时候回
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
【焦点咨询的“无为”】邹庆会，持续分享第690天，2020年1月23日邹庆会
焦点课堂上，刘老师强调，焦点咨询师要“无为”，当时我就很困惑：我们“无为”，我们什么都不做，那来访者找我们做什么呢？那我们又怎么样来引领来访者呢？又怎么样让来访者在咨询当中有更多的收获呢？带着这个困惑，我逐渐在咨询中，包括在陪伴儿子的过程中，试着慢慢地放下期待、忘掉技术，寻找“无为”的感觉，寻找“无为”的痕迹，以及“无为”之后的一些效果的呈现。也慢慢的悟出一些自己的感受和体会。就像《道德经》中所说
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
云集怎么赚钱？云集APP分享购物赚钱攻略古楼
云集app怎么赚钱?云集app作为是一个全面的电商导购平台,提供诸如淘宝、京东、拼多多等各大平台的优惠券,其他同类型的导购平台相比,更加的全面,线上线下全面出击。如果你想通过云集赚钱,那你可以把这款APP推荐给淘宝(10亿用户)、拼多多(3亿用户)、京东(1亿用户)使用,那你能赚到他们购物返佣,也可以自己购物领优惠券能省不少钱,以后还有更多的商家与粉象合作,这么免费的App人人都需要,很好推广。至
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
提升在直返APP中的等级：解锁更多特权与收益的秘诀古楼
在直返APP的世界里，每个用户都渴望提升自己的等级，以解锁更多特权与收益。那么，如何提升在直返APP中的等级呢？接下来，我们将为您揭示这一秘密。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
漫步，跳出藩篱张巧金沙
最近的教学，倍感不爽。一为这国庆之假，把这课上得支离破碎的。放假前，上了四天课，但我却只上了三天，9月30日，我工作室在搞活动，全天的活动，课当然未能上。10月8日学生回校，上了两天课，学生又放回家了。就觉得学生刚有点状态，又回去逍遥去了。感觉吧，教学内容也不敢大胆甩开膀子去教学，所以呀，这教学内容还真上不走，而且学生学下来效果特差。这不，国庆放假前的一个周，测试了两次，均为第一单元，是自考试以来
第八课: 写作出版你最关心的出书流程和市场分析（无戒学堂复盘）人在陌上
今天是周六，恰是圣诞节。推掉了两个需要凑腿的牌局，在一个手机，一个笔记本，一台电脑，一杯热茶的陪伴下，一个人静静地回听无戒学堂的最后一堂课。感谢这一个月，让自己的习惯开始改变，至少，可以静坐一个下午而不觉得乏味枯燥难受了，要为自己点个赞。我深知，这最后一堂课的内容，以我的资质和毅力，可能永远都用不上。但很明显，无戒学堂是用了心的，毕竟，有很多优秀学员，已经具备了写作能力，马上就要用到这堂课的内容。
2018-08-29精进打卡米兰王
姓名:王兰英【日精进打卡第25天】【知～学习】《六项精进》1遍共39遍《大学》1遍共50遍【经典名句分享】一切都是最好的安排。【行～实践】一、修身：（对自己个人）1，散步1小时。2，每天坚持读书。二、齐家：（对家庭和家人）1，指导孩子开车。2，和家人一起逛超市。三、建功：（对工作）用心做好每件事。｛积善｝：发愿从2018年8月5日起1年内365个善事。今日1善，累计27善。【省～觉悟】正人先正己。
在人间(阿伟林秀芳柳娇娇)全本免费在线阅读_人间乐事全文阅读《人间芳韵》一米文库2
在人间(阿伟林秀芳柳娇娇)全本免费在线阅读_人间乐事全文阅读《人间芳韵》主角配角：阿伟林秀芳柳娇娇小说别名：在人间、人间乐事、人间芳韵简介：和美艳寂寞的小姨上山，不小心被她女儿看到……关注微信公众号【一米文库】回复书号【1017】即可阅读小说【在人间】全文内容！！！【戳我继续阅读】“嗯~~阿伟，你好强壮……”芳姨喝多了酒，被我搀扶着艰难的往卧室走去。她身上香喷喷的，温香软玉靠在我身上，性感的红唇几
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

Spark内容分享(二十)：网易基于 Kyuubi + Spark 内核优化以及实践

Apache Spark - Adaptive Query Execution/AQE

1. AQE–History

2. AQE–Shuffle

3. AQE - Small Reduce Partition

4. AQE – Skewed Reduce Partition

5. AQE – Optimize Plan

Kyuubi + Spark 数仓类任务优化实践

1. Kyuubi + Spark – 架构

2. Kyuubi+Spark–安全

3. Kyuubi+Spark–方案

4. Kyuubi+Spark–数据

你可能感兴趣的:(Spark,内容分享,大数据（Hadoop）内容分享,spark,大数据,分布式)