安装JDK
1.下载jdk linux
2.执行命令:
chmod +x jdk.bin(赋予文件可执行的权限)
./jdk.bin (解压文件)
修改HOST
1.修改文件/etc/hosts,添加以下内容
10.196.142.28 master
10.196.142.29 slave1
10.196.142.30 slave2
(IP地址根据实际情况修改,对应机器数量添加条数)
2.修改所有机器上的文件
SSH配置
1. 在master结点操作,使用root用户登录(初次学习配置分布式建议使用root可以避免很多权限问题)
cd ~/.ssh/ (非root用户可能没有此文件夹,忽略提示完成下一步后再次执行此命令)
ssh-keygen -t rsa(生成公钥密钥,一路回车,直到出现图像)
cp id_rsa.pub authorized_keys
scp authorized_keys root@slave1:~/.ssh/ (拷贝到所有slave,注意当前路径是否正确)
ssh localhost (第一次需要输入yes和密码)
ssh slave1 (连接slave结点,第一次需要输入yes和密码)
2. 在slave结点操作,使用root用户登录
cd ~/.ssh/
ssh-keygen -t rsa(生成公钥密钥,一路回车,直到出现图像)
ssh master (必须连接master一次,不然启动的时候master结点不能收到回复)
配置Hadoop
1.下载Hadoop压缩包解压(http://www.apache.org/dyn/closer.cgi/hadoop/common/)
2.修改conf/hadoop-env.sh,添加jdk支持
export JAVA_HOME=/usr/local/jdk
3.配置conf/core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/data/tmp</value>
</property>
4.配置conf/hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/data/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/data/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
配置环境变量
1.修改/etc/profile:
export JAVA_HOME=/usr/local/jdk
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/data/soft/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
启动Hadoop
1.bin/hadoop namenode –format (格式化hadoop数据)
2.bin/start-all.sh
简单使用Hadoop
建立目录
root@master:/data/soft/hadoop # bin/hadoop dfs -mkdir testdir
查看现有文件
root@master:/data/soft/hadoop # bin/hadoop dfs -ls