大数据技术11：Hadoop 原理与运行机制

前言：HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。

一、Hadoop简介

1.1、Hadoop定义

Hadoop 作为一个开源分布式系统基础框架，主要包含两大核心组件：HDFS 分布式文件系统和 MapReduce 分布式并行计算框架，这两大核心组件是 Hadoop 进行大数据处理的基础和基石，此外，Hadoop 的重要组件还包括：Hadoop Common 和 YARN 框架。目前，Hadoop 主要由 Apache 软件基金会进行开发和维护。

其实，我们在使用 Hadoop 的过程中，不需要了解分布式系统底层的细节，在开发 Hadoop 分布式程序的时候，只需要简单地编写 map() 函数和 reduce() 函数即可完成 Hadoop 程序的开发，并且能够充分利用 Hadoop 集群的大规模存储和高并行计算来完成复杂的大数据处理业务。

同时，Hadoop 分布式文件系统的高度容错性和高可扩展性等优点使得 Hadoop 可以部署在廉价的服务器集群上，它能够大大节约海量数据的存储成本。MapReduce 的高度容错性，有效保证了系统计算结果的准确性，并从整体上解决了大数据的可靠性存储和处理。

实际上，Hadoop 核心（或重要）组件主要包括：Hadoop Common、HDFS 分布式文件系统、MapReduce 分布式计算框架、YARN 资源调度框架，接下来，我们来简单了解 HDFS、MapReduce 和 YARN 的运行流程。

（1）HDFS 架构

HDFS 遵循主/从架构，由单个 NameNode(NN) 和多个 DataNode(DN) 组成：

NameNode : 负责执行有关文件系统命名空间的操作，例如打开，关闭、重命名文件和目录等。

它同时还负责集群元数据的存储，记录着文件中各个数据块的位置信息。

DataNode：负责提供来自文件系统客户端的读写请求，执行块的创建，删除等操作。

（2）文件系统命名空间

HDFS 的文件系统命名空间的层次结构与大多数文件系统类似 (如 Linux)，支持目录和文件的创建、移动、删除和重命名等操作，支持配置用户和访问权限，但不支持硬链接和软连接。 NameNode 负责维护文件系统名称空间，记录对名称空间或其属性的任何更改。

1.2、HDFS 分布式文件系统

首先，Hadoop 会将一个大文件切分成 N 个小文件数据块，分别存储到不同的 DataNode 上，具体如图1所示。

（图1）

当我们向 Hadoop 写入一个大文件时，客户端首先会向 NameNode 服务器获取元数据信息，得到元数据信息后向相应的 DataNode 写入文件，Hadoop 框架会比较文件的大小与数据块的大小，如果文件的大小小于数据块的大小，则文件不再切分，直接保存到相应的数据块中；如果文件的大小大于数据块的大小， Hadoop 框架则会将原来的大文件进行切分，形成若干数据块文件，并将这些数据块文件存储到相应的数据块中，同时，默认每个数据块保存3个副本存储到不同的 DataNode 中。

由于 Hadoop 中 NameNode 节点保存着整个数据集群的元数据信息，并负责整个集群的数据管理工作，所以，它在读/写数据上与其他传统分布式文件系统有些许不同之处。

Hadoop 读数据的简易流程如下图所示。

（图2）

客户端发出读数据请求，请求 NameNode 节点的元数据。
NameNode 节点将元数据信息返回给客户端。
客户端根据 NameNode 节点返回的元数据信息，到对应的 DataNode 节点上读取块数据，如果读取的文件比较大，则会被 Hadoop 切分成多个数据块，保存到不同的 DataNode 上。
读取完3的数据块后，如果数据未读取完，则接着读取数据。
读取完4的数据块后，如果数据未读取完，则接着读取数据。
读完所有的数据之后，通知 NameNode 关闭数据流。

Hadoop 写数据的简易流程如下图所示。

（图3）

客户端向 NameNode 节点发起元数据请求，指定文件上传的路径，此时，NameNode 节点内部会进行一系列的操作，比如：验证客户端指定的路径是否合法，客户端是否具有写权限等。验证通过后，NameNode 节点会为文件分配块存储信息。
NameNode 节点向客户端返回元数据信息，并给客户端返回一个输出流。
客户端获取到元数据和输出流之后，开始向第一个 DataNode 节点写数据块。
第一个 DataNode 节点将数据块发送给第二个 DataNode 节点，第二个 DataNode 节点将数据块发送给第三个 DataNode 节点，以此类推，写完所有的数据块。
每个 DataNode 节点会向上游的 DataNode 节点发送结果确认信息，以保证写入数据的完整性。
DataNode 节点向客户端发送结果确认信息，保证数据写入成功。
当所有的数据块都写完，并且客户端接收到写入成功的确认信息后，客户端会向 NameNode 节点发送关闭数据流请求，NameNode 节点会将之前创建的输出流关闭。

1.3、MapReduce 分布式计算框架

值得一提的是，Hadoop 的 MapReduce 分布式计算框架会将一个大的、复杂的计算任务，分解为一个个小的简单的计算任务，这些分解后的计算任务会在 MapReduce 框架中并行执行，然后将计算的中间结果根据键进行排序、聚合等操作，最后输出最终的计算结果。

我们可以将这一整个 MapReduce 过程分为：数据输入阶段、map 阶段、中间结果处理阶段（包括 combiner 阶段和 shuffle 阶段）、reduce 阶段以及数据输出阶段。

数据输入阶段：将待处理的数据输入 MapReduce 系统。
map 阶段：map() 函数中的参数会以键值对的形式进行输入，经过 map() 函数的一系列并行处理后，将产生的中间结果输出到本地磁盘。
中间结果处理阶段：这个阶段又包含 combiner 阶段和 shuffle 阶段，对 map() 函数输出的中间结果按照键进行排序和聚合等一系列操作，并将键相同的数据输入相同的 reduce() 函数中进行处理（用户自身也可以根据实际情况指定数据的分发规则）。
reduce 阶段：reduce 函数的输入参数是以键和对应的值的集合形式输入的，经过 reduce 函数的处理后，产生一系列键值对形式的最终结果数据输出到 HDFS 分布式文件系统中。
数据输出阶段：数据从 MapReduce 系统中输出到 HDFS 分布式文件系统。

上述简要执行过程如图4所示。

（图4）

原始数据以“(k, 原始数据行data)”的形式输入到 map 阶段，经过 map 阶段的 map() 函数一系列并行处理后，将中间结果数据以“{(k1, v1), (k1, v2)}”的形式输出到本地，然后经过 MapReduce 框架的中间结果处理阶段的处理，此中间结果处理阶段会根据键对数据进行排序和聚合处理，将键相同的数据发送到同一个 reduce 函数处理。

接下来我们就进入到 reduce 阶段，reduce 阶段接收到的数据都是以“{k1,[v1, v2]…}”形式存在的数据，这些数据经过 reduce 阶段的处理之后，最终得出“{(k1,v3)}”样式的键值对结果数据，并将最终结果数据输出到 HDFS 分布式文件系统中。

1.4、YARN 资源调度系统

YARN 框架主要负责 Hadoop 的资源分配和调度工作，其工作流程可以简化为图5所示。

（图5）

客户端向 ResourceManager 发出运行应用程序的请求。
ResourceManager 接收到客户端发出的运行应用程序的请求后，为应用程序分配资源。
ResourceManager 到 NodeManager 上启动 ApplicationMaster。
ApplicationMaster 向 ResourceManager 注册，使得 ResourceManager 能够时刻获得运行任务的进程状态信息；同时，ResourceManager 会为 ApplicationMaster 分配资源，并将分配资源的信息发送给 ApplicationMaster。
ApplicationMaster 获得分配的资源信息后，启动相应节点上的 Container，执行具体的 Task 任务。
Container 时刻与 ApplicationMaster 进行通信，向 ApplicationMaster 汇报任务执行的情况。
当所有的任务运行完成之后，ApplicationMaster 向 ResourceManager 发出请求，注销自己。

1.5、HDFS 的特点

（1）高容错

由于 HDFS 采用数据的多副本方案，所以部分硬件的损坏不会导致全部数据的丢失。

（2）高吞吐量

HDFS 设计的重点是支持高吞吐量的数据访问，而不是低延迟的数据访问。

（3）大文件支持

https://github.com/heibaiyingHDFS 适合于大文件的存储，文档的大小应该是是 GB 到 TB 级别的。

（4） 简单一致性模型

HDFS 更适合于一次写入多次读取 (write-once-read-many) 的访问模型。支持将内容追加到文件末尾，

但不支持数据的随机访问，不能从文件任意位置新增数据。

（5）跨平台移植性

HDFS 具有良好的跨平台移植性，这使得其他大数据计算框架都将其作为数据持久化存储的首选方案。

二、搭建 Hadoop 单机环境

为了演示简单，这里我们搭建一套 Hadoop 单机环境为大家进行演示，并且默认大家已经安装好 CentOS7 操作系统并搭建好 JDK 环境。具体的环境信息如下所示。

操作系统：CentOS7
主机名：binghe102
IP 地址：192.168.184.102
JDK 版本：1.8
Hadoop 版本：Apache Hadoop 3.2.0

注意：此部分操作是以 Hadoop 用户登录 CentOS7 服务器进行的。

2.1、配置操作系统基础环境

我们主要是 Hadoop 用户来安装并启动 Hadoop，所以，我们需要先在服务器中添加 Hadoop 用户。

（1）添加 Hadoop 用户组和用户

首先，我们需要登录 root 账户，执行如下命令添加 Hadoop 用户组和用户。

groupadd hadoop
useradd -r -g hadoop hadoop

（2）赋予 Hadoop 用户目录权限

为了方便安装 Hadoop 环境，我们需要将服务器的 /usr/local 目录权限赋予 Hadoop 用户，具体命令如下所示。

mkdir -p /home/hadoop
chown -R hadoop.hadoop /usr/local/
chown -R hadoop.hadoop /tmp/
chown -R hadoop.hadoop /home/

（3）赋予 Hadoop 用户 sudo 权限

在这里，我们主要通过 vim 编辑器编辑 /etc/sudoers 文件来赋予 Hadoop 用户 sudo 权限，具体操作如下：

vim /etc/sudoers

然后找到如下代码。

root    ALL=(ALL)       ALL

接着，在此行代码后添加如下代码。

hadoop  ALL=(ALL)       ALL

注意：由于“/etc/sudoers”是只读文件，所以保存并退出“/etc/sudoers”文件使用的是“wq!”。

（4）赋予 Hadoop 用户密码

我们采用如下方式赋予 Hadoop 用户密码。

[root@binghe102 ~]# clear
[root@binghe102 ~]# passwd hadoop
Changing password for user hadoop.
New password: 输入密码
BAD PASSWORD: The password is shorter than 8 characters
Retype new password: 再次输入密码
passwd: all authentication tokens updated successfully.

（5）关闭防火墙

并在命令行输入如下命令，关闭 CentOS7 防火墙。

（6）配置 Hadoop 用户免密码登录

最后，以 Hadoop 用户登录服务器，分别输入如下命令来配置 Hadoop 用户免密码登录。

ssh-keygen -t rsa
cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys
chmod 700 /home/hadoop/ 
chmod 700 /home/hadoop/.ssh 
chmod 644 /home/hadoop/.ssh/authorized_keys 
chmod 600 /home/hadoop/.ssh/id_rsa
ssh-copy-id -i /home/hadoop/.ssh/id_rsa.pub  主机名(IP地址)

2.2 、搭建 Hadoop 本地模式

其实，Hadoop 本地安装模式是三种安装模式中最简单的一种，我们只需要在 Hadoop 的 hadoop-env.sh 文件中配置 JAVA_HOME 即可。

（1）下载 Hadoop 安装包

首先，我们需要在 CentOS7 命令行输入如下命令下载 Hadoop 安装包。

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz

（2）解压 Hadoop 安装包

然后，在 CentOS7 命令行输入如下命令解压 Hadoop 安装包。

tar -zxvf hadoop-3.2.0.tar.gz

（3）配置 Hadoop 环境变量

接着，在 /etc/profile 文件中追加如下内容。

HADOOP_HOME=/usr/local/hadoop-3.2.0
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH HADOOP_HOME

然后输入如下命令使环境变量生效。

source /etc/profile

（4）验证 Hadoop 的安装状态

在 CentOS7 命令行输入 hadoop version 命令验证 Hadoop 环境是否搭建成功，如下所示。

-bash-4.2$ hadoop version     
Hadoop 3.2.0
Source code repository https://github.com/apache/hadoop.git -r e97acb3bd8f3befd27418996fa5d4b50bf2e17bf
Compiled by sunilg on 2019-01-08T06:08Z
Compiled with protoc 2.5.0
From source with checksum d3f0795ed0d9dc378e2c785d3668f39
This command was run using /usr/local/hadoop-3.2.0/share/hadoop/common/hadoop-common-3.2.0.jar

可以看到，我们输出了 Hadoop 的版本号，说明 Hadoop 环境搭建成功。

（5）配置 Hadoop

这里，我们主要通过配置 Hadoop 安装目录下的 /etc/hadoop 目录下的 hadoop-env.sh 文件，例如我们将 Hadoop 安装在了 /usr/local/hadoop-3.2.0 目录下，所以，hadoop-env.sh 文件在 /usr/local/hadoop-3.2.0/etc/hadoop 目录下。

首先，使用 vim 编辑器打开 hadoop-env.sh 文件，如下所示。

vim /usr/local/hadoop-3.2.0/etc/hadoop/hadoop-env.sh

然后找到如下代码。

# export JAVA_HOME=

接着打开注释，我们将 JDK 的安装目录填写到等号后面。

export JAVA_HOME=/usr/local/jdk1.8.0_321

至此，Hadoop 搭建环境搭建完成。

数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
读史明智：龚遂展现了循吏的操守和能力逆熵成长
网图侵删读《资治通鉴·汉纪十七》和《汉书·循吏传》，看到历经刘贺、刘病已两任老板的龚遂，都得到了老板信任。对昏庸无能的刘贺，坚持操守敢于直言；在宣帝重用时，有勇有谋，让百姓饥馑，盗贼并起的渤海得到了治理，从中可见循吏的本色。01多次力谏刘贺，终免一死龚遂因通晓经术而担任官职，官至昌邑国郎中令，侍奉昌邑王刘贺。刘贺行为不端，龚遂为人忠厚，性格刚毅临难不苟，他在府内规劝刘贺，在府外指责傅相，援引经义，
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Redis分布式锁—SETNX+Lua脚本实现 Sahm5k java redis 分布式 lua
使用redis实现分布式锁，就是利用redis中的setnx，如果key不存在则进行set操作返回1，key已经存在则直接返回0。优点：设置expiretime过期时间，可以避免程序宕机长期持有锁不释放。redis作为一个中间服务，所有微服务都可见，满足分布式的需求。只需redis中原生setnx命令即可构建，实现简单。性能高效，redis数据在内存中。高可用，可以部署redis集群。加锁在red
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
若依框架集成seata分布式事务的一些幺蛾子半山惊竹分布式
一、bug连环炮A服务调用B服务，B服务异常，A服务插入的数据没有回退，前面没有思路，就查了下，说是没有切换为seata的数据源，我就在启动类加了一个@EnableAutoDataSourceProxy注解，结果就开始报错了：2024-03-1910:49:30.653[http-nio-8080-exec-2]INFOc.a.n.client.config.impl.CacheData-Line
Linux（centos7）部署hive 灯下夜无眠 Linux linux hive 运维 dbeaver hive客户端
前提环境：已部署完hadoop(HDFS、MapReduce、YARN)1、安装元数据服务MySQL切换root用户#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysqL-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch.
Kafka、ActiveMQ、RabbitMQ 及 RocketMQ区别比较木西爷 kafka activemq rabbitmq 阿里云 rocketmq
消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削锋等问题。它可以实现高性能、高可用、可伸缩和最终一致性架构，是大型分布式系统不可缺少的中间件。消息队列在电商系统、消息通讯、日志收集等应用中扮演着关键作用，以阿里为例，其研发的消息队列（RocketMQ）在历次天猫“双十一”活动中支撑了万亿级的数据洪峰，为大规模交易提供了有力保障。常见消息中间件对比特性ActiveMQRab
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
党建引领“三农”发展持续助力乡村振兴一切照旧
2022年中央一号文件《中共中央国务院关于做好2022年全面推进乡村振兴重点工作的意见》发布。文件指出，要扎实有序做好乡村发展、乡村建设、乡村治理重点工作，推动乡村振兴取得新发展、农业农村现代化迈出新步伐。助力乡村振兴，要聚焦党建引领，确保农业稳产增产、农民稳步增收、农村稳定安宁，切实做到“三农”向好，为乡村振兴夯实底盘、加油蓄能、跑出“加速度”。把准“三农”主动脉，开好党建引领“新药方”。做好“
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
Redis+Lua脚本实现分布式服务的限流 henry_2016 Redis 分布式 redis lua
背景限流的目的是通过对并发访问/请求进行限速或者一个时间窗口内的的请求进行限速来保护系统，一旦达到限制速率则可以拒绝服务。开始打算使用GuavaRateLimiter来实现限流，但RateLimiter是局限于单机中使用，然后打算使用Redis+Lua脚本实现限流。1提供调用的接口@Slf4j@RestController@RequestMapping("/rateLimter")publiccl
分布式应用下登录检验解决方案敲键盘的小夜猫分布式 java
优缺点JWT是一个开放标准，它定义了一种用于简洁，自包含的用于通信双方之间以JSON对象的形式安全传递信息的方法。可以使用HMAC算法或者是RSA的公钥密钥对进行签名。说白了就是通过一定规范来生成token，然后可以通过解密算法逆向解密token，这样就可以获取用户信息。生产的token可以包含基本信息，比如id、用户昵称、头像等信息，避免再次查库，可以存储在客户端，不占用服务端的内存资源，在前后
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
分布式：这里详细的说一下分布式独木人生后端分布式
分布式系统是由多台计算机节点协同工作的系统，节点之间通过网络进行通信和协调。每个节点可以独立执行任务，但它们共享资源和数据，相互之间通过消息传递进行通信。在分布式系统中，通信和协调是实现分布式的关键。节点之间可以通过消息传递、远程过程调用（RPC）、远程方法调用（RMI）等方式进行通信。为了保证节点的可靠性和容错性，通常会采用一致性协议、故障检测和容错机制等技术来处理节点故障和网络分区等问题。分布
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
常见物联网模型优缺点简介成都亿佰特电子科技有限公司通信技术物联网
物联网模型多种多样，每种模型都有其独特的优点和局限性。以下是一些常见的物联网模型及其优缺点概述：集中式模型：优点：数据管理和处理集中化，便于统一监控和维护。安全性较高，数据在中心节点进行统一加密和处理。缺点：中心节点可能成为单点故障，一旦故障整个系统将受影响。随着设备数量的增加，中心节点的负载将增大，可能引发性能瓶颈。分布式模型：优点：提高了系统的可靠性和容错性，因为数据和处理能力分散在各个节点。
一文详解大数据时代与低代码开发应用快乐非自愿大数据低代码
随着信息技术的飞速发展，我们迎来了一个崭新的时代——大数据时代。在这个时代，数据成为了一种新的资源，大数据技术的应用成为了推动社会进步的关键力量。而在大数据技术的浪潮中，低代码开发应用也逐渐崭露头角，以其高效、灵活的特点，成为大数据时代的重要支撑。大数据时代的来临随着科技的飞速发展和互联网的广泛普及，我们迎来了一个被称为“大数据时代”的全新时代。这个时代，数据无处不在，无时不刻不在增长，其规模之大
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
认识Java语言（一）小魏冬琅学习 java 开发语言
Java语言的背景(0.1)在数字化的时代浪潮中，Java显得尤为璀璨，它不仅仅是由SunMicrosystems公司孕育而出的一种编程语言，更是一种融汇简洁性、面向对象的设计、分布式编程能力、稳健与安全性、平台独立性、可移植性、多线程处理能力和动态性于一体的技术精粹。Java之所以独树一帜，得益于它那“一次编写，随处运行”的核心理念，使其不仅成为编程语言的代名词，更是一个全方位的开发平台，提供了
skynet cluster集群笔记半夏知半秋 skynet 笔记服务器 lua 系统架构
skynetcluster集群笔记前言cluster相关方法说明集群设计方案：集群中常遇到的问题：注意事项：前言skynet是一个基于事件驱动的分布式游戏服务器框架，支持构建高性能、高并发的网络程序。在skynet中，集群是指将多个节点连接在一起，共同协作完成任务的一个系统，一个skynet集群架构中涉及的一些名词如下：1.节点：skynet中的节点是指运行着skynet实例的独立服务器。每个节点
高可用系统有哪些设计原则没有女朋友的程序员架构师架构
1.降级主动降级：开关推送被动降级：超时降级异常降级失败率熔断保护多级降级2.限流nginx的limit模块gatewayredis+Lua业务层限流本地限流gua分布式限流sentinel3.弹性计算弹性伸缩—K8S+docker主链路压力过大的时候可以将非主链路的机器给主链路的应用用上4.流量切换多机房环境：DNS端域名切换入口Clien端流量调度虚IPHaProxyLVS负载均衡应用层Ngi
hadoop配置免密登录我干开发那十年 ssh 服务器 linux
1.生成密钥ssh-keygen-trsa所有节点都要执行2.所有节点执行ssh-copy-id-i~/.ssh/id_rsa.pub用户名1@主机名1ssh-copy-id-i~/.ssh/id_rsa.pub用户名2@主机名2ssh-copy-id-i~/.ssh/id_rsa.pub用户名3@主机名33.目录授权chmod700~/.sshchmod600~/.ssh/authorized_
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
什么是高防CDN？江苏冬云云计算网络安全云计算
高防CDN（ContentDeliveryNetwork，内容分发网络）在网络安全中的作用非常重要。它通过一种特别的方式来保护网站和网络应用程序免受大规模DDoS攻击。以下是它的一些主要优势：01分布式防护高防CDN通过在全球各地设立大量的节点，以实现流量的分发和冗余。当你的网站或应用受到DDoS攻击时，这些节点能够分担流量，从而减轻主服务器的压力，保证服务的持续提供。02吸纳并分发攻击流量由于高
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
DDoS和CC攻击的原理 a'ゞ云防护游戏盾 ddos 网络安全服务器阿里云经验分享
目前最常见的网络攻击方式就是CC攻击和DDoS攻击这两种，很多互联网企业服务器遭到攻击后接入我们德迅云安全高防时会问到，什么是CC攻击，什么又是DDoS攻击，这两个有什么区别的，其实清楚它们的攻击原理，也就知道它们的区别了。DDoS攻击DDoS攻击（分布式拒绝服务攻击）指借助于客户/服务器技术，将多个计算机联合起来作为攻击平台，对一个或多个目标发动DDoS攻击，从而成倍地提高拒绝服务攻击的威力DD
大数据毕设图像识别-人脸识别与疲劳检测 - python opencv fawubio_A python 算法
文章目录0前言1课题背景2Dlib人脸识别2.1简介2.2Dlib优点2.3相关代码2.4人脸数据库2.5人脸录入加识别效果3疲劳检测算法3.1眼睛检测算法3.2打哈欠检测算法3.3点头检测算法4PyQt54.1简介4.2相关界面代码0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb