FlyGently

Hadoop2.7.3部署

一、安装前准备

1. 宿主机安装虚拟机

VMware-workstation-full-12.1.1-3770994.exe

2. 虚拟机安装CentOS操作系统

CentOS-7-x86_64-DVD-1611.iso

在装好的VMware中新建虚拟机并安装Linux CentOS64位操作系统，为保证系统运行效率，避免图形界面占用太多资源，本次实验选用了CentOS-7-x86_64。虚拟机的内存设为1G，硬盘设为20G，网络模式设为“桥接”。CentOS选择最小化安装。

3. 配置ip地址

a) 输入如下命令修改配置ip地址

# vi /etc/sysconfig/network-scripts/ifcfg-ens33

ifcfg-ens33后面的数字是自动生成的，每台机器可能不一样，进行如下配置：

BOOTPROTO=static #把dhcp改为static，启用静态地址

ONBOOT=yes #把no改为yes，开启自动启用网络连接

IPADDR=192.168.241.235

GATEWAY=192.168.241.129

NETMASK=255.255.255.128

DNS=192.168.241.128

b) 输入如下命令重启网络

# service network restart

CentOS 7 不再使用 ifconfig 而是用 ip 命令查看网络信息

# ip addr

4. 修改主机名

a) 输入命令：

# vi /etc/hostname

b) 修改为如下主机名：

master

c) 输入命令：

# shutdown -r now

5. 添加本机ip到域名

a) 输入命令：

# vi /etc/hosts

b) 添加如下：

127.0.0.1 localhost localhost.localdomainlocalhost4 localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.241.235 master

6. 设置yum方式从本地安装软件包

CentOS虚拟机不能联网状况下yum命令无法使用，需做如下配置

a) 挂载CentOS安装光盘

# mkdir /mnt/cdrom

# mount -t iso9660 /dev/cdrom /mnt/cdrom

b) 修改yum配置文件

# cd /etc/yum.repos.d/

会看到三个文件，第一个CentOS-Base.repo是yum网络源的配置文件，第三个CentOS-Media.repo是本地源的配置。

修改CentOS-Media.repo

在baseurl中，修改第2个路径为/mnt/cdrom（即为光盘挂载点）

将enabled=0改为1

c) 将yum网络源配置文件改名为CentOS-Base.repo.bak，否在会先在网络源中寻找适合的包，改名之后直接从本地源读取。

好了，现在你可以安装你要的包了，比如你要安装gcc，输入命令yuminstall gcc即可！

7. 安装szrz

CentOS7.0最小化版不支持sz、rz命令，输入如下命令安装

# yum install lrzsz

8. 安装vim

# yum -y install vim

9. 宿主机安装XShell

文件-->新建，连接主机

二、Hadoop部署

1. Java安装

所有的机器上都要安装JDK，先在Master服务器安装，其他服务器按照步骤重复进行即可，也可以采用完全复制已经安装好的虚拟机的方法。安装JDK以及配置环境变量，需要以"root"的身份进行。下载java开发工具包，在实际使用中，我们下载的版本是jdk-8u112-linux-x64.rpm。

1.1 安装JDK

打开XShell，用root身份登录"master"，后在"/usr"下创建"java"文件夹。命令如下：

# mkdir /usr/java

# cd /usr/java

# rz

选择已下载到宿主机上的jdk-8u112-linux-x64.rpm

# chmod+x jdk-8u112-linux-x64.rpm

# rpm -ivh jdk-8u112-linux-x64.rpm

1.2 配置环境变量

编辑"/etc/profile"文件，在后面添加Java的"JAVA_HOME"、"CLASSPATH"以及"PATH"内容。命令如下：

# vi /etc/profile

export JAVA_HOME=/usr/java/jdk1.8.0_112

export CLASSPATH=$CLASSPATH:$JAVA_HOME /lib:$JAVA_HOME/jre/lib

export PATH=$PATH:$JAVA_HOME/bin

保存并退出，执行下面命令使其配置立即生效。

# source /etc/profile

1.3 验证安装成功

配置完毕并生效后，用下面命令判断是否成功。

# java -version

出现了相关参数提示，如图所示，说明java开发环境已经安装完毕。

2. Hadoop集群安装

所有的机器上都要安装hadoop，先在Master服务器安装，然后其他服务器按照步骤重复进行即可。也可以采用完全复制已经安装好的虚拟机的方法。安装和配置hadoop需要以"root"的身份进行。本次实验下载的版本为hadoop-2.7.3。

2.1 安装Hadoop

a) 上传hadoop-2.7.3.tar.gz到虚拟机

在root路径下新建文件夹Hadoop，并进入目录，再使用rz命令把" hadoop-2.7.3.tar.gz "上传到"/root/Hadoop"目录下面。

# mkdir /root/Hadoop

# cd /root/Hadoop

# rz

通过rz命令弹出的“打开”对话框在宿主机上找到hadoop-2.7.3.tar.gz

b) 解压hadoop-2.7.3.tar.gz

用下面命令把"hadoop-2.7.3.tar.gz "进行解压，然后删除" hadoop-2.7.3.tar.gz "安装包。

# tar -zxvf hadoop-2.7.3

# rm -rf hadoop-2.7.3

2.2 配置Hadoop

# vim/root/Hadoop/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

在hadoop-env.sh最后增加exportJAVA_HOME=/usr/java/jdk1.8.0_112

# vim /etc/profile

在profile最后添加如下设置：

export HADOOP_HOME=/root/Hadoop/hadoop-2.7.3

exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2.3 配置core-site.xml文件

a) 在/root/Hadoop/hadoop-2.7.3/目录下创建tmp文件夹

# mkdir /root/ Hadoop/hadoop-2.7.3/tmp

b) 编辑core-site.xml

# vim/root/Hadoop/hadoop-2.7.3/etc/hadoop/core-site.xml

在中加入以下内容

hadoop.tmp.dir

/root/Hadoop/hadoop-2.7.3/tmp

Abase for other temporary directories.

fs.default.name

hdfs://master:9000

如下配置是读写sequence file 的 buffer size,可减少 I/O 次数。在大型的 Hadoop cluster，建议可设定为 65536 到 131072，默认值 4096

io.file.buffer.size

131702

2.4 配置hdfs-site.xml文件

配置数据副本数量，先配成1，再复制。

# vim /root/Hadoop/hadoop-2.7.3/etc/hadoop/hdfs-site.xml

在中加入以下内容

dfs.namenode.name.dir

file:/root/Hadoop/hadoop-2.7.3/tmp/dfs/name

dfs.datanode.data.dir

file:/root/Hadoop/hadoop-2.7.3/tmp/dfs/data

dfs.replication

dfs.namenode.secondary.http-address

master:9001

dfs.webhdfs.enabled

true

2.5 配置mapred-site.xml文件

配置的是JobTracker的地址和端口,复制一份template，并改名。

# vim/root/Hadoop/hadoop-2.7.3/etc/hadoop/mapred-site.xml

在中加入以下内容

mapreduce.framework.name

yarn

mapreduce.jobhistory.address

master:10020

mapreduce.jobhistory.webapp.address

master:19888

2.6 配置yarn-site.xml文件

# vim/root/Hadoop/hadoop-2.7.3/etc/hadoop/yarn-site.xml

在中加入以下内容

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.nodemanager.auxservices.mapreduce.shuffle.class

org.apache.hadoop.mapred.ShuffleHandler

yarn.resourcemanager.address

master:8032

yarn.resourcemanager.scheduler.address

master:8030

yarn.resourcemanager.resource-tracker.address

master:8031

yarn.resourcemanager.admin.address

master:8033

yarn.resourcemanager.webapp.address

master:8088

yarn.resourcemanager.hostname

master

The https adddress of the RM webapplication.

yarn.resourcemanager.webapp.https.address

${yarn.resourcemanager.hostname}:8090

2.7 配置masters文件：（目录下没有，从slaves复制一份）

打开该文件，把“localhost”改为master。该文件指定namenode

2.8 配置slaves文件（Master主机特有）

打开该文件，把“localhost”改为slave1。该文件中有哪些主机名，哪些主机就作为datanode，每个主机名占一行

3. 配置Slaves节点

为了降低配置Hadoop的难度，并且同时测试系统动态扩展的能力，Slave节点的配置实际上分为两个阶段：

复制主节点虚拟机作为从节点1：

1) 使用VMWare的“克隆”功能复制主节点作为从节点1；

2) 将从节点1命名为slave1；

3) 将从节点1的ip地址配置为192.168.241.236；

4) 将从节点1的主机名改为slave1

5) 修改从节点1的hosts网址和域名映射

复制从节点1作为从节点2和从节点3

1) 在VMware中克隆虚拟机，分别命名为Slave2和Slave3（完全复制）

2) 打开从节点，分别把IP地址改为192.168.241.237，192.168.241.238

3) 修改从节点2、3的主机名、ip地址和域名映射

4) 修改master节点配置文件，加入两个新的从节点

$ vim $HADOOP_HOME/etc/hadoop/slaves

添加如下内容：

slave1

slave2

slave3

该文件只在master节点上起作用，各个slave节点改不改都可以。

将新添加的节点的主机名添加到该文件中，一个主机名占一行。

5) 修改master配置，子节点数改为3；

$ vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml

dfs.replication

6) 分别重启四台虚拟机。

执行完所有的配置之后，需要确保所有的机器之间都可以可以访问到的，通过命令行中的“ping 机器IP”指令，验证所有虚拟机之间都是可以互通的。

4. 安装SSH

4.1 安装和启动SSH协议

安装CentOS6.0时，我们选择了一些基本安装包， ssh和rsync已经安装了。通过下面命令查看:

# rpm -qa | grep openssh

# rpm -qa | grep rsync

结果显示如下图：

4.2 Master机器上生成密码对

在Master节点上执行以下命令：

# ssh-keygen -t rsa -P ''

保存路径时直接回车采用默认路径。生成的密钥对：id_rsa和id_rsa.pub，默认存储在"/root/.ssh"目录下。

4.3 把id_rsa.pub追加到授权的key里面去

在Master节点上做如下配置：

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

4.4 修改文件"authorized_keys"权限

chmod 600 ~/.ssh/authorized_keys

4.5 设置SSH配置

用root用户登录服务器修改SSH配置文件"/etc/ssh/sshd_config"的下列内容：

RSAAuthentication yes # 启用 RSA 认证

PubkeyAuthentication yes # 启用公钥私钥配对认证方式

AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径（和上面生成的文件同）

4.6 验证设置

设置完之后，重启SSH服务，使设置有效，执行如下命令：

service sshd restart

4.7 复制公钥到Slave机器上

在主机上执行：

scp ~/.ssh/id_rsa.pub [email protected]:~/

在Slave机器上创建.ssh文件夹并设置权限为700

mkdir ~/.ssh

chmod 700 ~/.ssh

4.8 追加到授权文件

把主节点的公钥追加到授权文件"authorized_keys"

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 600 ~/.ssh/authorized_keys

4.9 用root用户修改slave节点的"/etc/ssh/sshd_config"

具体命令如下：

RSAAuthentication yes # 启用 RSA 认证

PubkeyAuthentication yes # 启用公钥私钥配对认证方式AuthorizedKeysFile/root/.ssh/authorized_keys # 公钥文件路径（和上面生成的文件同）

重启服务：service sshd restart

4.10 用Master.Hadoop使用SSH无密码登录Slave1.Hadoop

在Slave节点：

ssh-keygen -t rsa -P ''

cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys

scp ~/.ssh/id_rsa.pub [email protected]:~/

在Master节点：

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

完成ssh配置

5. 格式化Hadoop系统

在启动Hadoop系统之前，需要先格式化一个Hadoop系统，执行如下指令：

# hadoop namenode -format

如果顺利完成，则说明系统格式化完成，下面即可启动并使用Hadoop系统了，如果失败，则需要查看Hadoop安装目录中的logs目录下的日志了。

6. 启动Hadoop集群

6.1 启动

在启动前关闭集群中所有机器的防火墙，不然会出现datanode开后又自动关闭。

a) 关闭防火墙执行命令：

# sudo systemctl stop firewalld.service && sudo systemctldisable firewalld.service

b) 启动NameNode、DataNode和SecondaryNameNode

# start-dfs.sh

执行结果如下图：

c) 启动ResourceManager和NodeManager

# start-yarn.sh

执行结果如下图：

6.2 验证hadoop启动

用““hadoop dfsadmin -report”

Master服务器的状态：

Slave服务器的状态：

7. 遇到的困难及解决方法

7.1 slaver

注意：单词拼写slave写成slaver会导致意料不到的错误

7.2 service iptables stop 提示Failed to stop iptables.service: Unit iptables.service not loaded

centos从7开始默认用的是firewalld，这个是基于iptables的，虽然有iptables的核心，但是iptables的服务是没安装的。所以你只要停止firewalld服务即可：sudo systemctl stop firewalld.service&& sudo systemctl disable firewalld.service

如果你要改用iptables的话，需要安装iptables服务：

sudo yum install iptables-services

sudo systemctl enable iptables && sudosystemctl enable ip6tables

sudo systemctl start iptables && sudosystemctl start ip6tables

7.3 使用hadoop命令提示如下错误

DEPRECATED: Use of this script to execute hdfscommand is deprecated.

Instead use the hdfs command for it.

从0.21.0版本以后，hadoop 命令换成了hdfs命令，将命令中的hadoop换为hdfs即可。

7.4 出现如下警告是版本不一致问题

Java HotSpot(TM) Client VM warning: You haveloaded library /usr/local/hadoop2.5/lib/native/libhadoop.so.1.0.0 which mighthave disabled stack guard. The VM will try to fix the stack guard now

Java HotSpot(TM) 64-Bit Server VM warning: Youhave loaded library /usr/local/hadoop-2.2.0/lib/native/libhadoop.so.1.0.0 whichmight have disabled stack guard. The VM will try to fix the stack guard now.

WARN [main] util.NativeCodeLoader: Unable to load native-hadoop library foryour platform... using builtin-java classes where applicable

这个问题的错误原因会发生在64位的操作系统上，原因是从官方下载的hadoop使用的本地库文件(例如lib/native/libhadoop.so.1.0.0)都是基于32位编译的，运行在64位系统上就会出现上述错误。解决方法之一是在64位系统上重新编译hadoop，另一种方法是在hadoop-env.sh和yarn-env.sh中添加如下两行：

exportHADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_PREFIX}/lib/native

exportHADOOP_OPTS="-Djava.library.path=$HADOOP_PREFIX/lib"

7.5 执行start-dfs.sh后，DateNode消失

打开hdfs-site.xml里配置的datanode和namenode对应的目录，分别打开current文件夹里的VERSION，可以看到clusterID项正如日志里记录的一样，确实不一致，修改datanode里VERSION文件的clusterID 与namenode里的一致，再重新启动dfs（执行start-dfs.sh）再执行jps命令可以看到datanode已正常启动。

Hadoop配置完成！

出现该问题的原因：在第一次格式化dfs后，启动并使用了hadoop，后来又重新执行了格式化命令（hdfs namenode-format)，这时namenode的clusterID会重新生成，而datanode的clusterID 保持不变。

你可能感兴趣的:(hadoop)

Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
zookeeper和hadoop
zookeeper操作连接zkCli.sh-server服务名称查看客户端指令helpZooKeeper-serverhost:portcmdargs statpath[watch] setpathdata[version] lspath[watch] delquota[-n|-b]path ls2path[watch] setAclpathacl setquot
Hadoop 之 ZooKeeper (一) devalone Hadoop Hadoop ZooKeeper Hbase Chubby znode
Hadoop之ZooKeeper本文介绍使用Hadoop的分布式协调服务构建通用的分布式应用——ZooKeeper。ZooKeeper是Hadoop分布式协调服务。写分布式应用是比较难的，主要是因为部分失败(partialfailure).当一条消息通过网络在两个节点间发送时，如果发生网络错误，发送者无法知道接受者是否接收到了这条消息。接收者可能在发生网络错误之前已经收到了这条消息，也可能没有收到
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
大数据开发系列（六）----Hive3.0.0安装配置以及Mysql5.7安装配置 Xiaoyeforever hive mysql hive hadoop 数据库
一、Hive3.0.0安装配置:(Hive3.1.2有BUG）hadoop3.1.2Hive各个版本下载地址：http://archive.apache.org/dist/hive/，这里我们下载hive3.0.01、解压：tar-xzvfapache-hive-3.0.0-bin.tar.gz-C/usr/lib/JDK_2021cd/usr/lib/JDK_20212.改名称.将解压以后的文件
大数据编程基础芝麻开门-新的起点大数据大数据
3.1Java基础（重点）内容讲解Java是大数据领域最重要的编程语言之一。Hadoop、HBase、Elasticsearch等众多核心框架都是用Java开发的。因此，扎实的Java基础对于深入理解这些框架的底层原理和进行二次开发至关重要。为什么Java在大数据领域如此重要？生态系统：Hadoop生态系统原生就是Java构建的，使用Java进行开发可以无缝集成。跨平台性：Java的“一次编译，到
深入解析HBase如何保证强一致性：WAL日志与MVCC机制码字的字节 hadoop布道师 hadoop HBase WAL MVCC
HBase强一致性的重要性在分布式数据库系统中，强一致性是确保数据可靠性和系统可信度的核心支柱。作为Hadoop生态系统中关键的列式存储数据库，HBase需要处理金融交易、实时风控等高敏感场景下的海量数据操作，这使得强一致性成为其设计架构中不可妥协的基础特性。分布式环境下的数据一致性挑战在典型的HBase部署环境中，数据被分散存储在多个RegionServer节点上，同时面临以下核心挑战：1.跨节
Hadoop中MapReduce和Yarn相关内容详解
接上一章写的HDFS说，Hadoop是一个适合海量数据的分布式存储和分布式计算的一个平台，上一章介绍了分布式存储，这一章介绍一下分布式计算——MapReduce。一、MapReduce设计理念map——>映射Reduce——>归纳mapreduce是一种必须构建在hadoop之上的大数据离线计算框架。因为mapreduce是给予磁盘IO来计算存储文件的，所以它具有一定的延时性，因此一般用来处理离线
阿里云MaxCompute SQL与Apache Hive区别面面观大模型大数据攻城狮阿里云 odps sql 物化 maxcompute udf开发 sql语法
目录1.引爆开场：MaxCompute和Hive，谁才是大数据SQL的王者？2.架构大比拼：从Hadoop到Serverless的进化之路Hive的架构：老派但经典MaxCompute的架构：云原生新贵3.SQL语法的微妙差异：90%相似，10%决定胜负建表语句分区与分桶函数与UDF4.执行引擎的较量：MapReducevs飞天引擎Hive的MapReduce执行流程MaxCompute的飞天引擎
一文说清楚Hive
Hive作为ApacheHadoop生态的核心数据仓库工具，其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。一、Hive底层分布式计算框架对比Hive本身不直接执行计算，而是将HQL转换为底层计算引擎的任务。目前支持的主流引擎及其特点如下：计算引擎核心原理优点缺点适用场景MapReduce基于“Map→Shuffle→R
HBase 简介
HBase简介什么是HBaseApacheHBase是Hadoop数据库，一个分布式的、可伸缩的大数据存储。当您需要对大数据进行随机的、实时的读/写访问时，请使用ApacheHBase。这个项目的目标是在商品硬件的集群上托管非常大的表——数十亿行百万列的列。ApacheHBase是一个开源的、分布式的、版本化的、非关系的数据库，它模仿了Google的Bigtable：一个结构化数据的分布式存储系统
sqoop的几个注意参数 yayooo
vimsqoop_export.shsqoop导出脚本：#!/bin/bashdb_name=gmallexport_data(){/opt/module/sqoop/bin/sqoopexport\--connect"jdbc:mysql://hadoop102:3306/${db_name}?useUnicode=true&characterEncoding=utf-8"\--username
大数据领域Hadoop集群搭建的详细步骤 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 hadoop 分布式 ai
大数据领域Hadoop集群搭建的详细步骤关键词：Hadoop集群、HDFS、YARN、大数据平台、分布式系统、集群配置、故障排查摘要：Hadoop作为大数据领域的基石框架，其集群搭建是数据工程师和运维人员的核心技能。本文从Hadoop核心架构出发，结合生产环境实践，详细讲解从环境准备、配置文件调优到集群启动验证的全流程，并涵盖常见问题排查与最佳实践。无论你是初学者还是需要优化现有集群的工程师，本文
Zookeeper简单入门灬哆啦A梦不吃鱼
zookeeper简介ZooKeeper（动物园管理员），顾名思义，是用来管理Hadoop（大象）、Hive（蜜蜂）、Pig（小猪）的管理员，同时ApacheHBase、ApacheSolr、LinkedInSensei等众多项目中都采用了ZooKeeper。ZooKeeper曾是Hadoop的正式子项目，后发展成为Apache顶级项目，与Hadoop密切相关但却没有任何依赖。它是一个针对大型应用
解锁Hive：高效数据查找的秘密武器 YangRyeon hive hadoop 数据仓库
Hive是什么？Hive是基于Hadoop的一个数据仓库工具，它能够进行数据提取、转化和加载操作，为存储、查询和分析Hadoop中的大规模数据提供了有效的机制。Hive能将结构化的数据文件映射为一张数据库表，让用户可以通过熟悉的SQL查询功能来处理数据。其内部机制是将SQL语句巧妙地转变成MapReduce任务来执行，大大降低了开发的难度和复杂性。例如，在面对海量的用户行为日志数据时，Hive就能
Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化陆水A 大数据 hive hadoop spark python
重点是后面的参数优化一、小文件的定义在Hadoop的上下文中，小文件的定义是相对于Hadoop分布式文件系统（HDFS）的块（Block）大小而言的。HDFS是Hadoop生态系统中的核心组件之一，它设计用于存储和处理大规模数据集。在HDFS中，数据被分割成多个块，每个块的大小是固定的，这个大小在Hadoop的不同版本和配置中可能有所不同，但常见的默认块大小包括128MB、256MB等。基于这个背
深入解析Hadoop资源隔离机制：Cgroups、容器限制与OOM Killer防御策略码字的字节 hadoop布道师 Hadoop 资源隔离机制 Cgroups 容器限制 OOM Killer
Hadoop资源隔离机制概述在分布式计算环境中，资源隔离是保障多任务并行执行稳定性的关键技术。Hadoop作为主流的大数据处理框架，其资源管理能力直接影响集群的吞吐量和任务成功率。随着YARN架构的引入，Hadoop实现了计算资源与存储资源的解耦，而资源隔离机制则成为YARN节点管理器（NodeManager）最核心的功能模块之一。资源隔离的必要性在共享集群环境中，典型问题表现为"资源侵占"现象：
CC00096.kafka——|Hadoop&kafka.V03|——|kafka.v03|Kafka源码剖析|Topic创建流程| yanqi_vip kafka java 大数据 python spark
一、Kafka源码剖析之Topic创建流程###---Topic创建~~~有两种创建方式：自动创建、手动创建。~~~在server.properties中配置auto.create.topics.enable=true时，~~~kafka在发现该topic不存在的时候会按照默认配置自动创建topic,~~~触发自动创建topic有以下两种情况：~~~Producer向某个不存在的Topic写入消息
大数据集群多命令脚本小P聊技术
1简介在大数据集群部署过程中，需要查询各个集群节点运行的服务状态，可使用批量命令脚本。2配置集群hostname2.1配置hostname文件1服务器hadoop01[root@localhost~]#echohostname1>/etc/hostnamehostnamehadoop012服务器hadoop02[root@localhost~]#echohadoop02>/etc/hostname
R 和 Hadoop 大数据分析（一）
原文：annas-archive.org/md5/b7f3a14803c1b4d929732471e0b28932译者：飞龙协议：CCBY-NC-SA4.0前言企业每天获取的数据量呈指数增长。现在可以将这些海量信息存储在像Hadoop这样的低成本平台上。这些组织目前面临的难题是如何处理这些数据，以及如何从中提取关键见解。因此，R就成为了关键工具。R是一个非常强大的工具，它使得在数据上运行高级统计模
Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那