RzBu11d023r

MapReduce 论文阅读笔记 MapReduce 简介

论文：

MapReduce: Simplified Data Processing on Large Clusters

Jeffrey Dean and Sanjay Ghemawat

Google

https://pdos.csail.mit.edu/6.824/papers/mapreduce.pdf

MapReduce 是一种分布式系统中处理大数据方法。他提出是在 2004， jeff dean 和 Sanjay Ghemawat 的作品，和 GFS、BigTable 并列 Google 分布式系统的三驾马车。后面，基于 mapreduce 的框架由于种种问题已经很少使用了（2014 Google I/O），但是 map reduce 的思想（感觉也是人很自然想到的分治思想）不过时。

mapreduce 框架淘汰的原因是，对于简单的操作，map reduce 的严格框架方便了下层，但是上层写协同的处理时候必须很复杂。而底层的实现上仍然涉及很多部署和运维、整体的性能优化等问题，并不是写一个 map + reduce 函数就能成功了。结果就是，反而这层隔离抽象又好像没有了，仍然需要技术团队根据不同的业务数据特征折腾不同的性能优化和配置（属于是超参数）。

未来的层次抽象可能希望集中上层业务注意力到写 OLAP 的 DML 上，分布式的 HTAP、OLAP 数据库负责搞定下层的各种脏活（spanner/f1）？

整体论文看了我好久，而且最后感觉我自己的笔记好像也没做到什么。但是在读论文之前看别人的笔记或者简略的话我又感觉不知道他在说什么，缺失了某种上下文信息。

看完论文之后再看别人的笔记，好像的确是这么回事，而且比我打的精美多了。

看来看的细节的东西确实有用，变成某种常识了。但是又不能直接一上来就给你丢几个概念，这样是去掉了分析法的过程，只剩下综合法不知道他怎么来的，最近用不同的材料复习数学也有同感。

以后可以直接找别人写好的笔记，自己只是读一遍过理解细节之后，这样效率可能高一点，因为其实笔记也做不了什么，反而分心，利用前人的笔记其实均摊下来别人写笔记的花费也分摊了。不过对一些细节没弄懂的地方，思考和阅读其他资料的过程是不能丢掉的了。

更新：后来想了一下，原论文没有 motivation 和 background，所以以问题的形式存在的笔记效果会好一点，因为这样强迫你去回答要点，而不是含糊的暧昧跳过。所以回来补充以下关键的一些点。我的一句话总结就是，map - shuffle - reduce = select - group by - aggregation。

总结一下：2022/5/30 14:50

map reduce 即 merge sort。数据更与一定原理分片，然后得到中间结果，中间结果要先做 aggregation 和 shuffle 基于优化。然后再 reduce 即再 merge 得到结果。
实现：RPC、GFS。
错误容忍：
- 处理会死的 worker（同时要避免误判，避免重复运行）；
- master 的 logging+checkpoint；
优化：
- worker 的任务分配执行文件就近调度；
- 调参；
- 备份冗余 worker，看谁先完成。
结论：
- 严格的编程模型可以方便的进行上面所的各种问题的解决和设计（其实就是类似于 IR 吧）。
- 网络带宽很贵，要做优化主要减少 RPC call/data send (类似减少 DrawCall 吧)。
- 冗余任务能避免有人没睡醒（很棒的思路）。

MapReduce 是什么概念？

他是一个编程模型，然后基于这个严格的编程模型，可以隔离上层和下层的逻辑，从而能够思想分布式的大数据计算。上层通过在严格的 map reduce 编程模型下编写业务逻辑（计算），下层框架统一解决分布式计算的 dirty work 细节，并行运算、错误容忍、数据分发、负载均衡等。

第二次总结：2022/6/8 14:25

MapReduce 的编程模型思想就是 map（函数，e.g. std::apply）+reduce（aggregate, e.g. std::accumulate）。然后，但是这个模型这里有一些细节需要理解的。

首先是模型里面处理的数据模式，我们必须明白到底为什么这样设计。

我们知道，mapreduce 里面数据是以 key-value pair 的形式存在的，编程的时候，有时候用 `unordered_map/map`，有时候用 `unordered_set/set`, 那么什么时候用 `set` 什么时候用 `map` 呢（当然我们都知道 `map` 就是用 `set` 实现的，不过底层 `node` 类型是一个 `pair` 而已。）？

所以这里要理解一下为什么 mapreduce 的编程模型是 kv pair。

为什么 MapReduce 是数据是基于 key - value 的？

普通的 map + reduce （源自 lisp 函数是编程模型）的表达能力有限，可以认为是限定了某个 key 下做 map + reduce，比如对一个数组做平方再求和。大数据下，除了 aggregate 全局数据，一般还需要一个 group by 的语义，这一点是类似于 SQL 的设计的。（当然，下面的 SQL 语句举例中，没有 map 的步骤，这一点了解就好，实际如果我们对 * 进行一些 projection 是不是就能当作是一种 map 呢，笑）。

即，values(set) 的 mapReduce =

select aggregation(*) from table;

而 key-value 的 mapReduce =

select aggregation(*) from table group by(some_key);

然后是编程模型的细节，mapreduce 的编程模型中，用户需要编写的有两个部分，就是 map 和 reduce。用户需要注意到的有三个部分，分别是 map、shuffle、reduce。其中并行多机处理的阶段是 map 和 reduce，而 shuffle 阶段要处理中间结果，数据重新分派等工作。

首先 map。

MapReduce 的 map 是什么意思？他的输入和输出分别是什么？

Map 就是对源输入进行一些处理产生一些输出。这里的输入 1 可能输出 1 或者输出 n，就是一个处理过程。他的输入是一些 key value PAIRS，输出另一些 key value PAIRS。由于一般来说 map 都是做一个一对多的mapping，因此一般理解为拆解split，所以才有下面的图片里面切面包和切黄瓜，这一种 map 其实更难理解，因为他要把同样的面包片映射到不同的输出商品去。另一种 map 比如收集到n个用户的所有资料，我们要丢掉用户，而拆解为用户对 A 的喜爱，对B的喜爱 etc...。

(k1, val1), (k1, val2) , (k2,val3) ---> (k3, val4), (k3, val5), (k3, val6), (k4, val7), (k5, val8)...

shuffle 是一个框架处理的中间过程，结果送 reduce。

MapReduce 的 shuffle 是什么意思？他的输入和输出是什么？

shuffle 不是打乱的意思而是把同一个 key 的都分配给同一个 reducer。这里实际做的是中间结果的 group by 操作！

(k3, val4), (k3, val5), (k3, val6), (k4, val7), (k5, val8) -->(k3: {val4, val5, val6}), (k4, {val7}), (k5, {val8})

这里 shuffle 阶段之前，其实还有一个 combine 优化（论文没有）

Combine 优化

在 hadoop 的 mapreduce 里面，这里涉及一个二次分片的类似 hash partition 的东西，从而方便进行 group by，而且还有局部聚合，这样方便，比如多个 mapper 先内部 partition，local group by 之后，再送 reduce 做，这个过程叫做 combine 优化。combine 优化不需要 shuffle，就提前 reduce，可以是单机多核 mapper 的情况下看作是单机做 reduce。

Reduce 就是写一个聚合函数而已。

MapReduce 的 reduce 是什么意思？他的输入和输出分别是什么？

reduce 就是做 aggregation, 不过 reduce 的 key value 也可以重新 map 的，看你喜欢。

(k3: {val4, val5, val6}), (k4, {val7}), (k5, {val8}) ---> (k3: sth3), (k4: sth4), (k5: sth5)

实际尽管编程模型已经严格了，在技术能手的把玩之下，也是可以绕过一些限制的，这主要还是依赖于问题的同构性质和一些 workaround 之类的技术。

说到这里，下面我之前做的的笔记其实就是垃圾啊！其实我根本不在乎 infra 是怎么做的（因为论文本来也只是 high level 提了一下，只要知道下面的那张图 task 是怎么分配的就差不多了，具体的怎么做 rpc 的，怎么做分布式文件系统的还得看 gfs 论文）。。。。

下一个问题是这次实验作业要做的 spark。前面提到 mapreduce （指 hadoop 的 mapreduce）淘汰了，所以要讲一个继任者。Spark，spark 的编程模型同样是基于 mapreduce，但是不再严格，灵活性更高。这里就不是这个博客的内容了，到此为止。

基于上面的故事，附上一些直观的图片（可能有版权问题）：

简介

框架：传统的并行主要是单机上获得的。基于分布式系统上的并行涉及到许多其他问题，包括时钟的不同步、潜在的故障、主机间消息通信的网络问题等。实际要处理这些东西，用户（工程师）就需要处理大量的 accidental 的事情，而不是专注在业务处理上。
map 和 reduce：在函数式编程里面，map 和 reduce 是针对列表的很常见的两种编程思路。map 顾名思义就是完成一个映射，可以认为是 std::apply ，而 reduce 是能够让一个函数在一个列表上一直执行下去。
reduce 意义：当时学 CS61A 的时候，reduce 的用法好像是用来实现同一个操作的 uncurrying （uncurrying 的指代范围更大吧）。比如基于 std::max 做支持任意长度参数的 max。或者做递归求和、减法、乘法。

Map + Reduce 使用举例

map 的一对多：值得注意的是 map 的返回结果可以是更多的数量的，比如这样：

图例

其实从这幅图里面就大概能理解很多细节上为什么还有很多中间的一些操作，比如 shuffle 过程。下面具体讲的 map reduce 是基于 key value pair 上的操作，所以细节是和上面的简单例子是不一样的。

Introduction

问题：大数据的数据和计算都是分布式的，可能有成百上千个机器，需要解决的问题包括怎么并行运算，怎么分发数据，怎么处理失败。为了解决这些问题，很简单的运算也变成了非常复杂的代码。
框架：MapReduce 编程模型主要是上层基于这个模型来写程序，下面的底层细节（parallelization, fault-tolerance, data distribution, load balancing）不需要程序员关心。提出一个固定的模型，这样底层做优化和解决各种分布式系统的问题也更加方便。

所以论文主要就是从两方面讲解，一个是这个简单的 Programming model，是一个接口。第二个就是接口的实现。

Programming Model

数据类型：主要的数据类型是 kv pairs，主要的逻辑是 Map and Reduce。
编程模型：首先大致看一下整个 map reduce 再框架里面的过程：

Map 实现：

比如写一个统计文档中各个单词数量的程序，可以这样写 map：

这里的 EmitIntermediate 这样写，其实是类似数据库里面 Query Processing 里面为了提高并行度而采用的火山模型（迭代器模型）那样，才有更高的并行度（底层可以任意实现）。如果只是加入到某个列表中，就还是同步的单机模型。实际 MapReduce 的也是通过迭代器模型来实现。

Reduce 的执行是类似数据库 Query Processing 里面的 pipeline breaker 必须打断流水线的操作。所有的 aggregate 都是 breaker，reduce 其实也类似于一个 aggregate 的过程。

还是在统计词频程序里面，注意的是 MapReduce library 会把 map 产生的所有相同 key 的中间结果做一个 aggregate 再传给 reduce 函数的。

应用举例：

分布式的 grep
url 访问频率（这种其实和词频统计是一类问题）
Reverse Web Link graph
term vector per host
inverted index
distributed sort

接口

Hadoop：由于 MapReduce 是一个分布式部署的框架，Google 的论文中的 sample code 是用 C++ 写的，但是 Google 的框架没有开源。广泛使用的其实是 Apache 的 Java 平台的 Hadoop （HDFS + MapReduce + BigTable 的实现）。一般来说大数据主要为文本信息，为了支持多语言，Hadoop 提供了 Hadoop Streaming 和 Hadoop Pipes 等方法借助标准 IO 和管道等进程间通信来支持多种语言编写 mapper 和 reducer。
调试版：如果学习的时候希望在单机只是练习 MapReduce 的使用的话，可以用一些单机的多线程模拟 MapReduce 的库，但是那样其实没什么意思。
Docker：单机实践的时候，可以使用 docker 来完成集群的模拟。

Docker 的主要原理其实在 6.s081 学虚拟化和 dune 的时候基本都明白了，虚拟机是模拟整个 OS 通过硬件虚拟化运行在 host 上，而沙盒或者 docker 这种容器系统只是虚拟了一个让进程运行的环境出来，减少浪费，主要的 kernel 还是用 host 的（docker 只支持 linux 系统，当然，win 上运行 linux container 的方法就是，先做一个 vm，再基于他跑多个 docker container 就行了）。

Hadoop 使用：hadoop 的配置需要一系列配置，包括配置好 HDFS。可以参照 apache 官方的中文教程。配置好后第一个例子是 WordCount：

		public class WordCount {
		   public static class Map extends MapReduceBase implements Mapper {
		     private final static IntWritable one = new IntWritable(1);
		     private Text word = new Text();
		     public void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException {
		       String line = value.toString();
		       StringTokenizer tokenizer = new StringTokenizer(line);
		       while (tokenizer.hasMoreTokens()) {
		         word.set(tokenizer.nextToken());
		         output.collect(word, one);
		       }
		     }
		   }
		   public static class Reduce extends MapReduceBase implements Reducer {
		     public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException {
		       int sum = 0;
		       while (values.hasNext()) {
		         sum += values.next().get();
		       }
		       output.collect(key, new IntWritable(sum));
		     }
		   }
		   public static void main(String[] args) throws Exception {
		     JobConf conf = new JobConf(WordCount.class);
		     conf.setJobName("wordcount");
		     conf.setOutputKeyClass(Text.class);
		     conf.setOutputValueClass(IntWritable.class);
		     conf.setMapperClass(Map.class);
		     conf.setCombinerClass(Reduce.class);
		     conf.setReducerClass(Reduce.class);
		     conf.setInputFormat(TextInputFormat.class);
		     conf.setOutputFormat(TextOutputFormat.class);
		     FileInputFormat.setInputPaths(conf, new Path(args[0]));
		     FileOutputFormat.setOutputPath(conf, new Path(args[1]));
		     JobClient.runJob(conf);
		   }
}

迭代器模型：以这个作为例子就了解了具体是怎么写 map 和 reduce 的了，很显然的，就是简单的迭代器模型，完全像我们学数据库里面 Query Processing 过程的火山模型。通过用户层是 Next 来做的，最后底层就能进行中间的其他非关键性工作的扩展，比如分发到集群里面的不同机器、调度、保证安全东西等。

while (tokenizer.hasMoreTokens()) {

word.set(tokenizer.nextToken());

output.collect(word, one);

}

这里，output 是传进来的，所以 collect 的时候实际做的可以是进行某个 RPC/RMI 然后 reducer 前面有一个流程会做按 key group 操作，这个最直接的思路是之前学的 hash aggregate（具体是什么实现之后 lab1 就是写一个 mapreduce 框架，所以不急），之后再传给 reducer。

到实现这一步的时候，考虑的东西其实比较多。单机多核的分布式对于 NUMA 架构（现在的 CPU 基本都是 NUMA，Non Uniform Memory Access，即各核心划分独立的内存控制器，和 UMA 比少总线竞争）来说，要尽量减少非本地内存的访问，容易出现性能不稳定。对于分布式系统，共享内存无法使用。论文主要讨论分布式系统的，他们的数据通信需要通过网络实现。

具体讨论前提是：

Execution

Execution：这个下面这个图非常详细的描述。每个 core 我都圈起来了（output file 的不应卷进来，这是我的标注错误）。worker 是用来执行的，至于是执行 map 还是 reduce，看 master 的调度。可能一个 worker 一开始也执行是 map，等到一个 split 完成了之后，master 会把他指派为执行 reduce 的继续工作。
数据分区：其中要注意的是，split 是对应 worker 的数量的，而 intermediate result 的 R partiotions 是 match 执行 reduce 的 worker 的数量的（which is specified by the user）。
数据存放：两部分数据，一部分是 local（图中的 intermediate files），不过这部分马上也要流转给 reduce worker 的，map worker 需要一直努力工作，工作成果需要不断上交给 reduce worker，他们换得的是所有 map tasks 完成之后无事可做的空虚。另外一部分数据是 global 的，这里图片的 6 实际是要输出给最终的地方（global）的（reduce worker 也不是 user program 的受益者，只是搬砖工，遍身罗绮者,不是养蚕人，风口过去了之后他也会变回 map worker 的）。不过 global 的文件数量是 one per reduce task，这个不能 share 的，不然你也没办法并行 append 文件。

RPC ：remote read （对应 hadoop mapreduce 框架里面的 Iterator 那个的 next 函数）是通过 RPC 从 MapReduce 框架完成一次远程的硬盘读写的。
Master Data Structure：对于 master 而言，要存储一些 meta 信息，以及 XControll Block，包括 task state、worker identifier。基本的网络编程的调度器了属于，基本和 POSAv2 中 Reactor 模式里面的 Reactor 做的差不多。master 还是一个信息发布获取中心，他是 the conduit through which the location of intermediate file regions is propagated from map tasks to reduce tasks. 对于 map worker 完成的时候，他要负责获取中间结果的远程访问信息，从而能让 reduce worker 通过RPC 访问。

Fault Tolerance

worker failure: 通过 keepalive 技术，如果 worker 死了，rollback running tasks which is on the dead worker，然后 reschedule 就行了。因为部分完成了的数据存在 local disk，可能会重复做一些东西，这是不可避免的。reducer 的情况轻松一点，因为他的输出是字节到达 global disk 的. 当然如果 worker 死了，task 重新分配，reducer 也要知道从新的 worker 调用 RPC 而不是已经死的。
Master failure：用数据库、OS 磁盘文件系统经典做法，checkpoint 写 log，把上面提到的 master data 写进文件里面。不过 Google 的实现里面没有做这部分。

However, given that there is only a single master, its failure is unlikely; therefore our current implementation aborts the MapReduce computation if the master fails. Clients can check for this condition and retry the MapReduce operation if they desire.

误判：（这个只是我对原文的 Semantics in the Presence of Failures 前面的理解）worker failure 还有一个副作用，就是 reduce task 可能会重复运行。考虑一个 reduce worker failure 误判的情况，此时重启了一个新的 reducer，问题就会发生。解决方案是 reduce worker 必须通过底层 OS 的文件锁提供 atomic 支持。
语义支持：确定性的 map 和 reduce 函数，框架保证行 produces the same output as would have been produced by a non-faulting sequential execution of the entire program。为对于非确定性的程序，只能保证一个 reducer task intra 的顺序等价，inter 的情况可能会有 interleave 。

优化

分布式存储就近调度: 这个我不想拙略地加工翻译一遍了，很简单的思路。至于具体实现的 GFS （2003）以及 HDFS （实现 MapReduce 需要基于一个分布式文件系统，Hadoop 就自己改进了一个）之后在 6.824 和校内课程的阅读作业里都还会读的，这个不急。
Task Granularity：这个主要是 split M 和 R 的时候调参，这个这里不分析了，涉及时间空间、RPC 网速、负载均衡等抉择。MapReduce 框架真正实现了之后，要调的参数太多了，谷歌自己都没有玩明白（Google AI Blog: Sorting Petabytes with MapReduce - The Next Episode (googleblog.com)）
backup Tasks：就是说有时候有些机器或者环境到了最后变差了（straggler，落伍者），与其干等，不如做些冗余，当一个MapReduce计算接近完成时，master会调度一个备用（backup）任务来执行剩下的处于正在执行中（in-progress）的任务。论文说这样做能提速44%，具体是什么情况倒置这个是最后任务落伍，论文的例子：

虽然上面好像感觉很多东西了，但是仔细想一下感觉也是很想当然的思路，好像这些思路之前的其他课都讲过了。不过实际要做出来，还是有很多细节。

论文第四节讲的是一些扩展功能。时间关系，我暂时略过这部分。第五部分讲的是 performance。理论上读论文最关心的其实就是 performance，包括运行性能和稳定性，但是学习理论的时候反而没什么好看的（除非有什么奇妙细节分析）。第六部分是一些经验，讲解了用上 mapreduce 的一个搜索引擎应用 Large-Scale Indexing，感觉也是一些 PPT 的东西，这里也略过了。

Refinements

略

Conclusion 重点标记

日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
【花了N长时间读《过犹不及》，不断练习，可以越通透】君君Love
我已经记不清花了多长时间去读《过犹不及》，读书笔记都写了42页，这算是读得特别精细的了。是一本难得的好书，虽然书中很多内容和圣经吻合，我不是基督徒，却觉得这样的文字值得细细品味，和我们的生活息息相关。我是个界线建立不牢固的人，常常愧疚，常常害怕他人的愤怒，常常不懂拒绝，还有很多时候表达不了自己真实的感受，心里在说不嘴里却在说好……这本书给我很多的启示，让我学会了怎样去建立属于自己的清晰的界限。建立
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
第八课: 写作出版你最关心的出书流程和市场分析（无戒学堂复盘）人在陌上
今天是周六，恰是圣诞节。推掉了两个需要凑腿的牌局，在一个手机，一个笔记本，一台电脑，一杯热茶的陪伴下，一个人静静地回听无戒学堂的最后一堂课。感谢这一个月，让自己的习惯开始改变，至少，可以静坐一个下午而不觉得乏味枯燥难受了，要为自己点个赞。我深知，这最后一堂课的内容，以我的资质和毅力，可能永远都用不上。但很明显，无戒学堂是用了心的，毕竟，有很多优秀学员，已经具备了写作能力，马上就要用到这堂课的内容。
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
DPDK 技术详解：榨干网络性能的“瑞士军刀”
你是否曾感觉，即使拥有顶级的服务器和万兆网卡，你的网络应用也总是“喂不饱”硬件，性能总差那么一口气？传统的网络处理方式，就像在高速公路上设置了太多的收费站和检查点，限制了数据包的“奔跑”速度。今天，我们要深入探讨一个能够打破这些瓶颈，让你的网络应用快到飞起的“黑科技”——DPDK(DataPlaneDevelopmentKit，数据平面开发套件)。这不仅仅是一个工具包，更是一种全新的网络处理哲学。
手把手教你用C语言实现顺序表
hello，大家好，本篇文章旨在为大家讲解如何使用C语言实现顺序表，还有就是小编自己复习一下相关知识，OK，那我们现在开始。在通讯录中，有增删查改等功能，那么顺序表我们也会对以上功能进行实现。一、创建并初始化顺序表1.创建typedefintSLDataType;#defineINIT_CAPACITY4//动态顺序表--按需申请typedefstructSeqList{SLDataType*a;
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
《感官品牌》读书笔记 1 西红柿阿达
原文:最近我在东京街头闲逛时，与一位女士擦肩而过，我发现她的香水味似曾相识。“哗”的一下，记亿和情感立刻像潮水般涌了出来。这个香水味把我带回了15年前上高中的时候，我的一位亲密好友也是用这款香水。一瞬间，我呆站在那里，东京的街景逐渐淡出，取而代之的是我年少时的丹麦以及喜悦、悲伤、恐惧、困惑的记忆。我被这熟悉的香水味征服了。感想:感官是有记忆的，你所听到，看到，闻到过的有代表性的事件都会在大脑中深深
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
我不想再当知识的搬运工楚煜楚尧
因为学校课题研究的需要，这个暑假我依然需要完成一本书的阅读笔记。我选的是管建刚老师的《习课堂十讲》。这本书，之前我读过，所以重读的时候，感到很亲切，摘抄起来更是非常得心应手。20页，40面，抄了十天，终于在今天大功告成了。这对之前什么事都要一拖再拖的我来说，是破天荒的改变。我发现至从认识小尘老师以后，我的确发生了很大的改变。遇到必须做却总是犹豫不去做的事，我学会了按照小尘老师说的那样，在心里默默数
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
20210517坚持分享53天读书摘抄笔记非暴力沟通——爱自己 f79a6556cb19
让生命之花绽放在赫布·加德纳（HerbGardner）编写的《一千个小丑》一剧中，主人公拒绝将他12岁的外甥交给儿童福利院。他郑重地说道：“我希望他准确无误地知道他是多么特殊的生命，要不，他在成长的过程中将会忽视这一点。我希望他保持清醒，并看到各种奇妙的可能。我希望他知道，一旦有机会，排除万难给世界一点触动是值得的。我还希望他知道为什么他是一个人，而不是一张椅子。”然而，一旦负面的自我评价使我们看
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析（8000字图文实战）一、UDP协议核心特性与编程模型1.1UDP协议设计哲学UDP（UserDatagramProtocol）是面向无连接的传输层协议（图1），其核心特征包括：无连接通信：无需三次握手，直接发送数据报尽最大努力交付：不保证可靠性、不维护连接状态报文边界保留：接收方读取的数据与发送方写入完全一致低开销高效
Unity学习笔记1 zy_777
通过一个星期的简单学习，初步了解了下unity，unity的使用，以及场景的布局，UI，以及用C#做一些简单的逻辑。好记性不如烂笔头，一些关键帧还是记起来比较好，哈哈，不然可能转瞬即逝了，（PS:纯小白观点，unity大神可以直接忽略了）一：MonoBehaviour类的初始化1，Instantiate()创建GameObject2，通过Awake()和Start()来做初始化3，Update、L
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
08.学习闭环三部曲：预习、实时学习、复习 0058b195f4dc
人生就是一本效率手册，你怎样对待时间，时间就会给你同比例的回馈。单点突破法。预习，实时学习，复习。1、预习：凡事提前【计划】（1）前一晚设置三个当日目标。每周起始于每周日。（2）提前学习。预习法进行思考。预不预习效果相差20％，预习法学会提问。（3）《学会提问》。听电子书。2.实时学习（1）（10％）相应场景，思维导图，快速笔记。灵感笔记。（2）大纲，基本记录，总结篇。3.复习法则，（70％），最
《如何写作》文心读书笔记逆熵反弹力
《文心》这本书的文体是以讲故事的形式来讲解如何写作的，读起来不会觉得刻板。读完全书惊叹大师的文笔如此之好，同时感叹与此书相见恨晚。工作了几年发现表达能力在生活中越来越重要，不管是口语还是文字上的表达。有时候甚至都不能把自己想说的东西表达清楚，平时也有找过一些书来看，想通过提升自己的阅读量来提高表达能力。但是看了这么久的书发现见效甚微，这使得我不得不去反思，该怎么提高表达能力。因此打算从写作入手。刚
数据库基础概念梳理 22:30Plane-Moon 数据库
1.数据存储类型表(Table):存储结构化数据的标准方式，数据以行和列的形式组织，具有固定的格式。非结构化数据(UnstructuredData):如音频、视频、图片、文本文档等，其格式不固定，不易直接用表存储。2.SQL的核心优势SQL尤其擅长处理和操作存储在表中的结构化数据。2.1数据类型约束(DataTypeConstraints):定义列可存储的数据种类。整数类型:TINYINT(1字节
SQL笔记纯干货 AI入门修炼 oracle 数据库 sql
软件：DataGrip2023.2.3，phpstudy_pro,MySQL8.0.12目录1.DDL语句（数据定义语句）1.1数据库操作语言1.2数据表操作语言2.DML语句（数据操作语言）2.1增删改2.2题2.3备份表3.DQL语句（数据查询语言）3.1查询操作3.2题一3.3题二4.多表详解4.1一对多4.2多对多5.多表查询6.窗口函数7.拓展:upsert8.sql注入攻击演示9.拆表
Java：数据结构-ArrayList和顺序表（2） blammmp java 数据结构开发语言
一ArrayList的使用1.ArrayList的构造方法第一种（指定容量的构造方法）创建一个空的ArrayList，指定容量为initialCapacity。publicArrayList(intinitialCapacity){if(initialCapacity>0){this.elementData=newObject[initialCapacity];}elseif(initialCap
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要