Hadoop入门进阶课程6--MapReduce应用案例

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，博主为石山园，博客地址为 http://www.cnblogs.com/shishanyuan 。该系列课程是应邀实验楼整理编写的，这里需要赞一下实验楼提供了学习的新方式，可以边看博客边上机实验，课程地址为 https://www.shiyanlou.com/courses/237

【注】该系列所使用到安装包、测试数据和代码均可在百度网盘下载，具体地址为 http://pan.baidu.com/s/10PnDs，下载该PDF文件

1、环境说明

部署节点操作系统为CentOS，防火墙和SElinux禁用，创建了一个shiyanlou用户并在系统根目录下创建/app目录，用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序，用户对shiyanlou必须赋予rwx权限（一般做法是root用户在根目录下创建/app目录，并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanlou /app）。

Hadoop搭建环境：

l 虚拟机操作系统： CentOS6.6 64位，单核，1G内存

l JDK：1.7.0_55 64位

l Hadoop：1.1.2

2、准备测试数据

测试数据包括两个文件dept（部门）和emp（员工），其中各字段用逗号分隔：

dept文件内容：

10,ACCOUNTING,NEW YORK

20,RESEARCH,DALLAS

30,SALES,CHICAGO

40,OPERATIONS,BOSTON

emp文件内容：

7369,SMITH,CLERK,7902,17-12月-80,800,,20

7499,ALLEN,SALESMAN,7698,20-2月-81,1600,300,30

7521,WARD,SALESMAN,7698,22-2月-81,1250,500,30

7566,JONES,MANAGER,7839,02-4月-81,2975,,20

7654,MARTIN,SALESMAN,7698,28-9月-81,1250,1400,30

7698,BLAKE,MANAGER,7839,01-5月-81,2850,,30

7782,CLARK,MANAGER,7839,09-6月-81,2450,,10

7839,KING,PRESIDENT,,17-11月-81,5000,,10

7844,TURNER,SALESMAN,7698,08-9月-81,1500,0,30

7900,JAMES,CLERK,7698,03-12月-81,950,,30

7902,FORD,ANALYST,7566,03-12月-81,3000,,20

7934,MILLER,CLERK,7782,23-1月-82,1300,,10

在/home/shiyanlou/install-pack/class6目录可以找到这两个文件，把这两个文件上传到HDFS中/class6/input目录中，执行如下命令：

cd /home/shiyanlou/install-pack/class6

hadoop fs -mkdir -p /class6/input

hadoop fs -copyFromLocal dept /class6/input

hadoop fs -copyFromLocal emp /class6/input

hadoop fs -ls /class6/input

3、应用案例

3.1 测试例子1：求各个部门的总工资

3.1.1 问题分析

MapReduce中的join分为好几种，比如有最常见的 reduce side join、map side join和semi join 等。reduce join 在shuffle阶段要进行大量的数据传输，会造成大量的网络IO效率低下，而map side join 在处理多个小表关联大表时非常有用。

Map side join是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。这样我们可以将小表复制多份，让每个map task内存中存在一份（比如存放到hash table中），然后只扫描大表：对于大表中的每一条记录key/value，在hash table中查找是否有相同的key的记录，如果有，则连接后输出即可。为了支持文件的复制，Hadoop提供了一个类DistributedCache，使用该类的方法如下：

（1）用户使用静态方法DistributedCache.addCacheFile()指定要复制的文件，它的参数是文件的URI（如果是HDFS上的文件，可以这样：hdfs://jobtracker:50030/home/XXX/file）。JobTracker在作业启动之前会获取这个URI列表，并将相应的文件拷贝到各个TaskTracker的本地磁盘上。

（2）用户使用DistributedCache.getLocalCacheFiles()方法获取文件目录，并使用标准的文件读写API读取相应的文件。

在下面代码中，将会把数据量小的表(部门dept）缓存在内存中，在Mapper阶段对员工部门编号映射成部门名称，该名称作为key输出到Reduce中，在Reduce中计算按照部门计算各个部门的总工资。

3.1.2 处理流程图

3.1.3 测试代码

Q1SumDeptSalary.java代码（vi编辑代码是不能存在中文）：

  1 import java.io.BufferedReader;

  2 import java.io.FileReader;

  3 import java.io.IOException;

  4 import java.util.HashMap;

  5 import java.util.Map;

  6 

  7 import org.apache.hadoop.conf.Configuration;

  8 import org.apache.hadoop.conf.Configured;

  9 import org.apache.hadoop.filecache.DistributedCache;

 10 import org.apache.hadoop.fs.Path;

 11 import org.apache.hadoop.io.LongWritable;

 12 import org.apache.hadoop.io.Text;

 13 import org.apache.hadoop.mapreduce.Job;

 14 import org.apache.hadoop.mapreduce.Mapper;

 15 import org.apache.hadoop.mapreduce.Reducer;

 16 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 17 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 18 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 19 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 20 import org.apache.hadoop.util.GenericOptionsParser;

 21 import org.apache.hadoop.util.Tool;

 22 import org.apache.hadoop.util.ToolRunner;

 23 

 24 public class Q1SumDeptSalary extends Configured implements Tool {

 25 

 26     public static class MapClass extends Mapper<LongWritable, Text, Text, Text> {

 27 

 28         // 用于缓存 dept文件中的数据

 29         private Map<String, String> deptMap = new HashMap<String, String>();

 30         private String[] kv;

 31 

 32         // 此方法会在Map方法执行之前执行且执行一次

 33         @Override

 34         protected void setup(Context context) throws IOException, InterruptedException {

 35             BufferedReader in = null;

 36             try {

 37 

 38                 // 从当前作业中获取要缓存的文件

 39                 Path[] paths = DistributedCache.getLocalCacheFiles(context.getConfiguration());

 40                 String deptIdName = null;

 41                 for (Path path : paths) {

 42 

 43                     // 对部门文件字段进行拆分并缓存到deptMap中

 44                     if (path.toString().contains("dept")) {

 45                         in = new BufferedReader(new FileReader(path.toString()));

 46                         while (null != (deptIdName = in.readLine())) {

 47                             

 48                             // 对部门文件字段进行拆分并缓存到deptMap中

 49                             // 其中Map中key为部门编号，value为所在部门名称

 50                             deptMap.put(deptIdName.split(",")[0], deptIdName.split(",")[1]);

 51                         }

 52                     }

 53                 }

 54             } catch (IOException e) {

 55                 e.printStackTrace();

 56             } finally {

 57                 try {

 58                     if (in != null) {

 59                         in.close();

 60                     }

 61                 } catch (IOException e) {

 62                     e.printStackTrace();

 63                 }

 64             }

 65         }

 66 

 67 public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

 68 

 69             // 对员工文件字段进行拆分

 70             kv = value.toString().split(",");

 71 

 72             // map join: 在map阶段过滤掉不需要的数据，输出key为部门名称和value为员工工资

 73             if (deptMap.containsKey(kv[7])) {

 74                 if (null != kv[5] && !"".equals(kv[5].toString())) {

 75                     context.write(new Text(deptMap.get(kv[7].trim())), new Text(kv[5].trim()));

 76                 }

 77             }

 78         }

 79     }

 80 

 81     public static class Reduce extends Reducer<Text, Text, Text, LongWritable> {

 82 

 83 public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

 84 

 85             // 对同一部门的员工工资进行求和

 86             long sumSalary = 0;

 87             for (Text val : values) {

 88                 sumSalary += Long.parseLong(val.toString());

 89             }

 90 

 91             // 输出key为部门名称和value为该部门员工工资总和

 92             context.write(key, new LongWritable(sumSalary));

 93         }

 94     }

 95 

 96     @Override

 97     public int run(String[] args) throws Exception {

 98 

 99         // 实例化作业对象，设置作业名称、Mapper和Reduce类

100         Job job = new Job(getConf(), "Q1SumDeptSalary");

101         job.setJobName("Q1SumDeptSalary");

102         job.setJarByClass(Q1SumDeptSalary.class);

103         job.setMapperClass(MapClass.class);

104         job.setReducerClass(Reduce.class);

105 

106         // 设置输入格式类

107         job.setInputFormatClass(TextInputFormat.class);

108 

109         // 设置输出格式

110         job.setOutputFormatClass(TextOutputFormat.class);

111         job.setOutputKeyClass(Text.class);

112         job.setOutputValueClass(Text.class);

113 

114         // 第1个参数为缓存的部门数据路径、第2个参数为员工数据路径和第3个参数为输出路径

115     String[] otherArgs = new GenericOptionsParser(job.getConfiguration(), args).getRemainingArgs();

116     DistributedCache.addCacheFile(new Path(otherArgs[0]).toUri(), job.getConfiguration());

117         FileInputFormat.addInputPath(job, new Path(otherArgs[1]));

118         FileOutputFormat.setOutputPath(job, new Path(otherArgs[2]));

119 

120         job.waitForCompletion(true);

121         return job.isSuccessful() ? 0 : 1;

122     }

123 

124     /**

125      * 主方法，执行入口

126      * @param args 输入参数

127      */

128     public static void main(String[] args) throws Exception {

129         int res = ToolRunner.run(new Configuration(), new Q1SumDeptSalary(), args);

130         System.exit(res);

131     }

132 }

3.1.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q1SumDeptSalary.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q1SumDeptSalary.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q1SumDeptSalary.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q1SumDeptSalary.java

把编译好的代码打成jar包（如果不打成jar形式运行会提示class无法找到的错误）

jar cvf ./Q1SumDeptSalary.jar ./Q1SumDept*.class

mv *.jar ../..

rm Q1SumDept*.class

3.1.5 运行并查看结果

运行Q1SumDeptSalary时需要输入部门数据路径、员工数据路径和输出路径三个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 部门数据路径：hdfs://hadoop:9000/class6/input/dept，部门数据将缓存在各运行任务的节点内容中，可以提供处理的效率

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out1

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q1SumDeptSalary.jar Q1SumDeptSalary hdfs://hadoop:9000/class6/input/dept hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out1

运行成功后，刷新CentOS HDFS中的输出路径/class6/out1目录，打开part-r-00000文件

hadoop fs -ls /class6/out1

hadoop fs -cat /class6/out1/part-r-00000

可以看到运行结果：

ACCOUNTING8750

RESEARCH6775

SALES 9400

3.2 测试例子2：求各个部门的人数和平均工资

3.2.1 问题分析

求各个部门的人数和平均工资，需要得到各部门工资总数和部门人数，通过两者相除获取各部门平均工资。首先和问题1类似在Mapper的Setup阶段缓存部门数据，然后在Mapper阶段抽取出部门编号和员工工资，利用缓存部门数据把部门编号对应为部门名称，接着在Shuffle阶段把传过来的数据处理为部门名称对应该部门所有员工工资的列表，最后在Reduce中按照部门归组，遍历部门所有员工，求出总数和员工数，输出部门名称和平均工资。

3.2.2 处理流程图

3.2.3 编写代码

Q2DeptNumberAveSalary.java代码：

  1 import java.io.BufferedReader;

  2 import java.io.FileReader;

  3 import java.io.IOException;

  4 import java.util.HashMap;

  5 import java.util.Map;

  6 

  7 import org.apache.hadoop.conf.Configuration;

  8 import org.apache.hadoop.conf.Configured;

  9 import org.apache.hadoop.filecache.DistributedCache;

 10 import org.apache.hadoop.fs.Path;

 11 import org.apache.hadoop.io.LongWritable;

 12 import org.apache.hadoop.io.Text;

 13 import org.apache.hadoop.mapreduce.Job;

 14 import org.apache.hadoop.mapreduce.Mapper;

 15 import org.apache.hadoop.mapreduce.Reducer;

 16 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 17 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 18 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 19 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 20 import org.apache.hadoop.util.GenericOptionsParser;

 21 import org.apache.hadoop.util.Tool;

 22 import org.apache.hadoop.util.ToolRunner;

 23 

 24 public class Q2DeptNumberAveSalary extends Configured implements Tool {

 25 

 26     public static class MapClass extends Mapper<LongWritable, Text, Text, Text> {

 27 

 28         // 用于缓存 dept文件中的数据

 29         private Map<String, String> deptMap = new HashMap<String, String>();

 30         private String[] kv;

 31 

 32         // 此方法会在Map方法执行之前执行且执行一次

 33         @Override

 34         protected void setup(Context context) throws IOException, InterruptedException {

 35             BufferedReader in = null;

 36             try {

 37                 // 从当前作业中获取要缓存的文件

 38                 Path[] paths = DistributedCache.getLocalCacheFiles(context.getConfiguration());

 39                 String deptIdName = null;

 40                 for (Path path : paths) {

 41 

 42                     // 对部门文件字段进行拆分并缓存到deptMap中

 43                     if (path.toString().contains("dept")) {

 44                         in = new BufferedReader(new FileReader(path.toString()));

 45                         while (null != (deptIdName = in.readLine())) {

 46                             

 47                             // 对部门文件字段进行拆分并缓存到deptMap中

 48                             // 其中Map中key为部门编号，value为所在部门名称

 49                             deptMap.put(deptIdName.split(",")[0], deptIdName.split(",")[1]);

 50                         }

 51                     }

 52                 }

 53             } catch (IOException e) {

 54                 e.printStackTrace();

 55             } finally {

 56                 try {

 57                     if (in != null) {

 58                         in.close();

 59                     }

 60                 } catch (IOException e) {

 61                     e.printStackTrace();

 62                 }

 63             }

 64         }

 65 

 66     public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

 67 

 68             // 对员工文件字段进行拆分

 69             kv = value.toString().split(",");

 70 

 71             // map join: 在map阶段过滤掉不需要的数据，输出key为部门名称和value为员工工资

 72             if (deptMap.containsKey(kv[7])) {

 73                 if (null != kv[5] && !"".equals(kv[5].toString())) {

 74                     context.write(new Text(deptMap.get(kv[7].trim())), new Text(kv[5].trim()));

 75                 }

 76             }

 77         }

 78     }

 79 

 80     public static class Reduce extends Reducer<Text, Text, Text, Text> {

 81 

 82     public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

 83 

 84             long sumSalary = 0;

 85             int deptNumber = 0;

 86 

 87             // 对同一部门的员工工资进行求和

 88             for (Text val : values) {

 89                 sumSalary += Long.parseLong(val.toString());

 90                 deptNumber++;

 91             }

 92 

 93             // 输出key为部门名称和value为该部门员工工资平均值

 94     context.write(key, new Text("Dept Number:" + deptNumber + ", Ave Salary:" + sumSalary / deptNumber));

 95         }

 96     }

 97 

 98     @Override

 99     public int run(String[] args) throws Exception {

100 

101         // 实例化作业对象，设置作业名称、Mapper和Reduce类

102         Job job = new Job(getConf(), "Q2DeptNumberAveSalary");

103         job.setJobName("Q2DeptNumberAveSalary");

104         job.setJarByClass(Q2DeptNumberAveSalary.class);

105         job.setMapperClass(MapClass.class);

106         job.setReducerClass(Reduce.class);

107 

108         // 设置输入格式类

109         job.setInputFormatClass(TextInputFormat.class);

110 

111         // 设置输出格式类

112         job.setOutputFormatClass(TextOutputFormat.class);

113         job.setOutputKeyClass(Text.class);

114         job.setOutputValueClass(Text.class);

115 

116         // 第1个参数为缓存的部门数据路径、第2个参数为员工数据路径和第3个参数为输出路径

117     String[] otherArgs = new GenericOptionsParser(job.getConfiguration(), args).getRemainingArgs();

118         DistributedCache.addCacheFile(new Path(otherArgs[0]).toUri(), job.getConfiguration());

119         FileInputFormat.addInputPath(job, new Path(otherArgs[1]));

120         FileOutputFormat.setOutputPath(job, new Path(otherArgs[2]));

121 

122         job.waitForCompletion(true);

123         return job.isSuccessful() ? 0 : 1;

124     }

125 

126     /**

127      * 主方法，执行入口

128      * @param args 输入参数

129      */

130     public static void main(String[] args) throws Exception {

131         int res = ToolRunner.run(new Configuration(), new Q2DeptNumberAveSalary(), args);

132         System.exit(res);

133     }

134 }

3.2.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q2DeptNumberAveSalary.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q2DeptNumberAveSalary.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q2DeptNumberAveSalary.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q2DeptNumberAveSalary.java

把编译好的代码打成jar包，如果不打成jar形式运行会提示class无法找到的错误

jar cvf ./Q2DeptNumberAveSalary.jar ./Q2DeptNum*.class

mv *.jar ../..

rm Q2DeptNum*.class

3.2.5 运行并查看结果

运行Q2DeptNumberAveSalary时需要输入部门数据路径、员工数据路径和输出路径三个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 部门数据路径：hdfs://hadoop:9000/class6/input/dept，部门数据将缓存在各运行任务的节点内容中，可以提供处理的效率

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out2

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q2DeptNumberAveSalary.jar Q2DeptNumberAveSalary hdfs://hadoop:9000/class6/input/dept hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out2

运行成功后，刷新CentOS HDFS中的输出路径/class6/out2目录

hadoop fs -ls /class6/out2

hadoop fs -cat /class6/out2/part-r-00000

打开part-r-00000文件，可以看到运行结果：

ACCOUNTINGDept Number:3,Ave Salary:2916

RESEARCHDept Number:3,Ave Salary:2258

SALES Dept Number:6,Ave Salary:1566

3.3 测试例子3：求每个部门最早进入公司的员工姓名

3.3.1 问题分析

求每个部门最早进入公司员工姓名，需要得到各部门所有员工的进入公司日期，通过比较获取最早进入公司员工姓名。首先和问题1类似在Mapper的Setup阶段缓存部门数据，然后Mapper阶段抽取出key为部门名称（利用缓存部门数据把部门编号对应为部门名称），value为员工姓名和进入公司日期，接着在Shuffle阶段把传过来的数据处理为部门名称对应该部门所有员工+进入公司日期的列表，最后在Reduce中按照部门归组，遍历部门所有员工，找出最早进入公司的员工并输出。

3.3.2 处理流程图

3.3.3 编写代码

  1 import java.io.BufferedReader;

  2 import java.io.FileReader;

  3 import java.io.IOException;

  4 import java.text.DateFormat;

  5 import java.text.ParseException;

  6 import java.text.SimpleDateFormat;

  7 import java.util.Date;

  8 import java.util.HashMap;

  9 import java.util.Map;

 10 

 11 import org.apache.hadoop.conf.Configuration;

 12 import org.apache.hadoop.conf.Configured;

 13 import org.apache.hadoop.filecache.DistributedCache;

 14 import org.apache.hadoop.fs.Path;

 15 import org.apache.hadoop.io.LongWritable;

 16 import org.apache.hadoop.io.Text;

 17 import org.apache.hadoop.mapreduce.Job;

 18 import org.apache.hadoop.mapreduce.Mapper;

 19 import org.apache.hadoop.mapreduce.Reducer;

 20 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 21 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 22 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 23 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 24 import org.apache.hadoop.util.GenericOptionsParser;

 25 import org.apache.hadoop.util.Tool;

 26 import org.apache.hadoop.util.ToolRunner;

 27 

 28 public class Q3DeptEarliestEmp extends Configured implements Tool {

 29 

 30     public static class MapClass extends Mapper<LongWritable, Text, Text, Text> {

 31 

 32         // 用于缓存 dept文件中的数据

 33         private Map<String, String> deptMap = new HashMap<String, String>();

 34         private String[] kv;

 35 

 36         // 此方法会在Map方法执行之前执行且执行一次

 37         @Override

 38         protected void setup(Context context) throws IOException, InterruptedException {

 39             BufferedReader in = null;

 40             try {

 41                 // 从当前作业中获取要缓存的文件

 42                 Path[] paths =     DistributedCache.getLocalCacheFiles(context.getConfiguration());

 43                 String deptIdName = null;

 44                 for (Path path : paths) {

 45                     if (path.toString().contains("dept")) {

 46                         in = new BufferedReader(new FileReader(path.toString()));

 47                         while (null != (deptIdName = in.readLine())) {

 48 

 49                             // 对部门文件字段进行拆分并缓存到deptMap中

 50                             // 其中Map中key为部门编号，value为所在部门名称

 51                             deptMap.put(deptIdName.split(",")[0], deptIdName.split(",")[1]);

 52                         }

 53                     }

 54                 }

 55             } catch (IOException e) {

 56                 e.printStackTrace();

 57             } finally {

 58                 try {

 59                     if (in != null) {

 60                         in.close();

 61                     }

 62                 } catch (IOException e) {

 63                     e.printStackTrace();

 64                 }

 65             }

 66         }

 67 

 68         public void map(LongWritable key, Text value, Context context) throws IOException,         InterruptedException {

 69 

 70             // 对员工文件字段进行拆分

 71             kv = value.toString().split(",");

 72 

 73             // map join: 在map阶段过滤掉不需要的数据

 74             // 输出key为部门名称和value为员工姓名+","+员工进入公司日期

 75             if (deptMap.containsKey(kv[7])) {

 76                 if (null != kv[4] && !"".equals(kv[4].toString())) {

 77                     context.write(new Text(deptMap.get(kv[7].trim())), new Text(kv[1].trim()                     + "," + kv[4].trim()));

 78                 }

 79             }

 80         }

 81     }

 82 

 83     public static class Reduce extends Reducer<Text, Text, Text, Text> {

 84 

 85         public void reduce(Text key, Iterable<Text> values, Context context) throws IOException,         InterruptedException {

 86 

 87             // 员工姓名和进入公司日期

 88             String empName = null;

 89             String empEnterDate = null;

 90 

 91             // 设置日期转换格式和最早进入公司的员工、日期

 92             DateFormat df = new SimpleDateFormat("dd-MM月-yy");

 93 

 94             Date earliestDate = new Date();

 95             String earliestEmp = null;

 96 

 97             // 遍历该部门下所有员工，得到最早进入公司的员工信息

 98             for (Text val : values) {

 99                 empName = val.toString().split(",")[0];

100                 empEnterDate = val.toString().split(",")[1].toString().trim();

101                 try {

102                     System.out.println(df.parse(empEnterDate));

103                     if (df.parse(empEnterDate).compareTo(earliestDate) < 0) {

104                         earliestDate = df.parse(empEnterDate);

105                         earliestEmp = empName;

106                     }

107                 } catch (ParseException e) {

108                     e.printStackTrace();

109                 }

110             }

111 

112             // 输出key为部门名称和value为该部门最早进入公司员工

113             context.write(key, new Text("The earliest emp of dept:" + earliestEmp + ", Enter             date:" + new SimpleDateFormat("yyyy-MM-dd").format(earliestDate)));

114         }

115     }

116 

117     @Override

118     public int run(String[] args) throws Exception {

119 

120         // 实例化作业对象，设置作业名称

121         Job job = new Job(getConf(), "Q3DeptEarliestEmp");

122         job.setJobName("Q3DeptEarliestEmp");

123 

124         // 设置Mapper和Reduce类

125         job.setJarByClass(Q3DeptEarliestEmp.class);

126         job.setMapperClass(MapClass.class);

127         job.setReducerClass(Reduce.class);

128 

129         // 设置输入格式类

130         job.setInputFormatClass(TextInputFormat.class);

131 

132         // 设置输出格式类

133         job.setOutputFormatClass(TextOutputFormat.class);

134         job.setOutputKeyClass(Text.class);

135         job.setOutputValueClass(Text.class);

136 

137         // 第1个参数为缓存的部门数据路径、第2个参数为员工数据路径和第三个参数为输出路径

138     String[] otherArgs = new GenericOptionsParser(job.getConfiguration(), args).getRemainingArgs();

139     DistributedCache.addCacheFile(new Path(otherArgs[0]).toUri(), job.getConfiguration());

140         FileInputFormat.addInputPath(job, new Path(otherArgs[1]));

141         FileOutputFormat.setOutputPath(job, new Path(otherArgs[2]));

142 

143         job.waitForCompletion(true);

144         return job.isSuccessful() ? 0 : 1;

145     }

146 

147     /**

148      * 主方法，执行入口

149      * @param args 输入参数

150      */

151     public static void main(String[] args) throws Exception {

152         int res = ToolRunner.run(new Configuration(), new Q3DeptEarliestEmp(), args);

153         System.exit(res);

154     }

155 }

3.3.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q3DeptEarliestEmp.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q3DeptEarliestEmp.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q3DeptEarliestEmp.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q3DeptEarliestEmp.java

把编译好的代码打成jar包，如果不打成jar形式运行会提示class无法找到的错误

jar cvf ./Q3DeptEarliestEmp.jar ./Q3DeptEar*.class

mv *.jar ../..

rm Q3DeptEar*.class

3.3.5 运行并查看结果

运行Q3DeptEarliestEmp时需要输入部门数据路径、员工数据路径和输出路径三个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 部门数据路径：hdfs://hadoop:9000/class6/input/dept，部门数据将缓存在各运行任务的节点内容中，可以提供处理的效率

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out3

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q3DeptEarliestEmp.jar Q3DeptEarliestEmp hdfs://hadoop:9000/class6/input/dept hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out3

运行成功后，刷新CentOS HDFS中的输出路径/class6/out3目录

hadoop fs -ls /class6/out3

hadoop fs -cat /class6/out3/part-r-00000

打开part-r-00000文件，可以看到运行结果：

ACCOUNTINGThe earliest emp of dept:CLARK, Enter date:1981-06-09

RESEARCHThe earliest emp of dept:SMITH, Enter date:1980-12-17

SALES The earliest emp of dept:ALLEN, Enter date:1981-02-20

3.4 测试例子4：求各个城市的员工的总工资

3.4.1 问题分析

求各个城市员工的总工资，需要得到各个城市所有员工的工资，通过对各个城市所有员工工资求和得到总工资。首先和测试例子1类似在Mapper的Setup阶段缓存部门对应所在城市数据，然后在Mapper阶段抽取出key为城市名称（利用缓存数据把部门编号对应为所在城市名称），value为员工工资，接着在Shuffle阶段把传过来的数据处理为城市名称对应该城市所有员工工资，最后在Reduce中按照城市归组，遍历城市所有员工，求出工资总数并输出。

3.4.2 处理流程图

3.4.3 编写代码

  1 import java.io.BufferedReader;

  2 import java.io.FileReader;

  3 import java.io.IOException;

  4 import java.util.HashMap;

  5 import java.util.Map;

  6 

  7 import org.apache.hadoop.conf.Configuration;

  8 import org.apache.hadoop.conf.Configured;

  9 import org.apache.hadoop.filecache.DistributedCache;

 10 import org.apache.hadoop.fs.Path;

 11 import org.apache.hadoop.io.LongWritable;

 12 import org.apache.hadoop.io.Text;

 13 import org.apache.hadoop.mapreduce.Job;

 14 import org.apache.hadoop.mapreduce.Mapper;

 15 import org.apache.hadoop.mapreduce.Reducer;

 16 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 17 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 18 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 19 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 20 import org.apache.hadoop.util.GenericOptionsParser;

 21 import org.apache.hadoop.util.Tool;

 22 import org.apache.hadoop.util.ToolRunner;

 23 

 24 public class Q4SumCitySalary extends Configured implements Tool {

 25 

 26     public static class MapClass extends Mapper<LongWritable, Text, Text, Text> {

 27 

 28         // 用于缓存 dept文件中的数据

 29         private Map<String, String> deptMap = new HashMap<String, String>();

 30         private String[] kv;

 31 

 32         // 此方法会在Map方法执行之前执行且执行一次

 33         @Override

 34         protected void setup(Context context) throws IOException, InterruptedException {

 35             BufferedReader in = null;

 36             try {

 37                 // 从当前作业中获取要缓存的文件

 38                 Path[] paths = DistributedCache.getLocalCacheFiles(context.getConfiguration());

 39                 String deptIdName = null;

 40                 for (Path path : paths) {

 41                     if (path.toString().contains("dept")) {

 42                         in = new BufferedReader(new FileReader(path.toString()));

 43                         while (null != (deptIdName = in.readLine())) {

 44 

 45                             // 对部门文件字段进行拆分并缓存到deptMap中

 46                             // 其中Map中key为部门编号，value为所在城市名称

 47                             deptMap.put(deptIdName.split(",")[0], deptIdName.split(",")[2]);

 48                         }

 49                     }

 50                 }

 51             } catch (IOException e) {

 52                 e.printStackTrace();

 53             } finally {

 54                 try {

 55                     if (in != null) {

 56                         in.close();

 57                     }

 58                 } catch (IOException e) {

 59                     e.printStackTrace();

 60                 }

 61             }

 62         }

 63 

 64         public void map(LongWritable key, Text value, Context context) throws IOException,         InterruptedException {

 65 

 66             // 对员工文件字段进行拆分

 67             kv = value.toString().split(",");

 68 

 69             // map join: 在map阶段过滤掉不需要的数据，输出key为城市名称和value为员工工资

 70             if (deptMap.containsKey(kv[7])) {

 71                 if (null != kv[5] && !"".equals(kv[5].toString())) {

 72                     context.write(new Text(deptMap.get(kv[7].trim())), new Text(kv[5].trim()));

 73                 }

 74             }

 75         }

 76     }

 77 

 78     public static class Reduce extends Reducer<Text, Text, Text, LongWritable> {

 79 

 80         public void reduce(Text key, Iterable<Text> values, Context context) throws IOException,         InterruptedException {

 81 

 82             // 对同一城市的员工工资进行求和

 83             long sumSalary = 0;

 84             for (Text val : values) {

 85                 sumSalary += Long.parseLong(val.toString());

 86             }

 87 

 88             // 输出key为城市名称和value为该城市工资总和

 89             context.write(key, new LongWritable(sumSalary));

 90         }

 91     }

 92 

 93     @Override

 94     public int run(String[] args) throws Exception {

 95 

 96         // 实例化作业对象，设置作业名称

 97         Job job = new Job(getConf(), "Q4SumCitySalary");

 98         job.setJobName("Q4SumCitySalary");

 99 

100         // 设置Mapper和Reduce类

101         job.setJarByClass(Q4SumCitySalary.class);

102         job.setMapperClass(MapClass.class);

103         job.setReducerClass(Reduce.class);

104 

105         // 设置输入格式类

106         job.setInputFormatClass(TextInputFormat.class);

107 

108         // 设置输出格式类

109         job.setOutputFormatClass(TextOutputFormat.class);

110         job.setOutputKeyClass(Text.class);

111         job.setOutputValueClass(Text.class);

112 

113         // 第1个参数为缓存的部门数据路径、第2个参数为员工数据路径和第3个参数为输出路径

114     String[] otherArgs = new GenericOptionsParser(job.getConfiguration(), args).getRemainingArgs();

115     DistributedCache.addCacheFile(new Path(otherArgs[0]).toUri(), job.getConfiguration());

116         FileInputFormat.addInputPath(job, new Path(otherArgs[1]));

117         FileOutputFormat.setOutputPath(job, new Path(otherArgs[2]));

118 

119         job.waitForCompletion(true);

120         return job.isSuccessful() ? 0 : 1;

121     }

122 

123     /**

124      * 主方法，执行入口

125      * @param args 输入参数

126      */

127     public static void main(String[] args) throws Exception {

128         int res = ToolRunner.run(new Configuration(), new Q4SumCitySalary(), args);

129         System.exit(res);

130     }

131 }

3.4.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q4SumCitySalary.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q4SumCitySalary.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q4SumCitySalary.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q4SumCitySalary.java

把编译好的代码打成jar包，如果不打成jar形式运行会提示class无法找到的错误

jar cvf ./Q4SumCitySalary.jar ./Q4SumCity*.class

mv *.jar ../..

rm Q4SumCity*.class

3.4.5 运行并查看结果

运行Q4SumCitySalary时需要输入部门数据路径、员工数据路径和输出路径三个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 部门数据路径：hdfs://hadoop:9000/class6/input/dept，部门数据将缓存在各运行任务的节点内容中，可以提供处理的效率

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out4

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q4SumCitySalary.jar Q4SumCitySalary hdfs://hadoop:9000/class6/input/dept hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out4

运行成功后，刷新CentOS HDFS中的输出路径/class6/out4目录

hadoop fs -ls /class6/out4

hadoop fs -cat /class6/out4/part-r-00000

打开part-r-00000文件，可以看到运行结果：

CHICAGO 9400

DALLAS 6775

NEW YORK 8750

3.5 测试例子5：列出工资比上司高的员工姓名及其工资

3.5.1 问题分析

求工资比上司高的员工姓名及工资，需要得到上司工资及上司所有下属员工，通过比较他们工资高低得到比上司工资高的员工。在Mapper阶段输出经理数据和员工对应经理表数据，其中经理数据key为员工编号、value为"M，该员工工资"，员工对应经理表数据key为经理编号、value为"E，该员工姓名，该员工工资"；然后在Shuffle阶段把传过来的经理数据和员工对应经理表数据进行归组，如编号为7698员工，value中标志M为自己工资，value中标志E为其下属姓名及工资；最后在Reduce中遍历比较员工与经理工资高低，输出工资高于经理的员工。

3.5.2 处理流程图

3.5.3 编写代码

  1 import java.io.IOException;

  2 import java.util.HashMap;

  3 

  4 import org.apache.hadoop.conf.Configuration;

  5 import org.apache.hadoop.conf.Configured;

  6 import org.apache.hadoop.fs.Path;

  7 import org.apache.hadoop.io.LongWritable;

  8 import org.apache.hadoop.io.Text;

  9 import org.apache.hadoop.mapreduce.Job;

 10 import org.apache.hadoop.mapreduce.Mapper;

 11 import org.apache.hadoop.mapreduce.Reducer;

 12 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 13 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 14 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 15 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 16 import org.apache.hadoop.util.GenericOptionsParser;

 17 import org.apache.hadoop.util.Tool;

 18 import org.apache.hadoop.util.ToolRunner;

 19 

 20 public class Q5EarnMoreThanManager extends Configured implements Tool {

 21 

 22     public static class MapClass extends Mapper<LongWritable, Text, Text, Text> {

 23 

 24         public void map(LongWritable key, Text value, Context context) throws IOException,         InterruptedException {

 25 

 26             // 对员工文件字段进行拆分

 27             String[] kv = value.toString().split(",");

 28 

 29             // 输出经理表数据，其中key为员工编号和value为M+该员工工资

 30             context.write(new Text(kv[0].toString()), new Text("M," + kv[5]));

 31 

 32             // 输出员工对应经理表数据，其中key为经理编号和value为(E，该员工姓名，该员工工资)

 33             if (null != kv[3] && !"".equals(kv[3].toString())) {

 34                 context.write(new Text(kv[3].toString()), new Text("E," + kv[1] + "," + kv[5]));

 35             }

 36         }

 37     }

 38 

 39     public static class Reduce extends Reducer<Text, Text, Text, Text> {

 40 

 41         public void reduce(Text key, Iterable<Text> values, Context context) throws IOException,         InterruptedException {

 42 

 43             // 定义员工姓名、工资和存放部门员工Map

 44             String empName;

 45             long empSalary = 0;

 46             HashMap<String, Long> empMap = new HashMap<String, Long>();

 47             

 48             // 定义经理工资变量

 49             long mgrSalary = 0;

 50 

 51             for (Text val : values) {

 52                 if (val.toString().startsWith("E")) {

 53                     // 当是员工标示时，获取该员工对应的姓名和工资并放入Map中

 54                     empName = val.toString().split(",")[1];

 55                     empSalary = Long.parseLong(val.toString().split(",")[2]);

 56                     empMap.put(empName, empSalary);

 57                 } else {

 58                     // 当时经理标志时，获取该经理工资

 59                     mgrSalary = Long.parseLong(val.toString().split(",")[1]);

 60                 }

 61             }

 62 

 63             // 遍历该经理下属，比较员工与经理工资高低，输出工资高于经理的员工

 64             for (java.util.Map.Entry<String, Long> entry : empMap.entrySet()) {

 65                 if (entry.getValue() > mgrSalary) {

 66                     context.write(new Text(entry.getKey()), new Text("" + entry.getValue()));

 67                 }

 68             }

 69         }

 70     }

 71 

 72     @Override

 73     public int run(String[] args) throws Exception {

 74 

 75         // 实例化作业对象，设置作业名称

 76         Job job = new Job(getConf(), "Q5EarnMoreThanManager");

 77         job.setJobName("Q5EarnMoreThanManager");

 78 

 79         // 设置Mapper和Reduce类

 80         job.setJarByClass(Q5EarnMoreThanManager.class);

 81         job.setMapperClass(MapClass.class);

 82         job.setReducerClass(Reduce.class);

 83 

 84         // 设置输入格式类

 85         job.setInputFormatClass(TextInputFormat.class);

 86 

 87         // 设置输出格式类

 88         job.setOutputFormatClass(TextOutputFormat.class);

 89         job.setOutputKeyClass(Text.class);

 90         job.setOutputValueClass(Text.class);

 91 

 92         // 第1个参数为员工数据路径和第2个参数为输出路径

 93 String[] otherArgs = new GenericOptionsParser(job.getConfiguration(), args).getRemainingArgs();

 94         FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

 95         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

 96 

 97         job.waitForCompletion(true);

 98         return job.isSuccessful() ? 0 : 1;

 99     }

100 

101     /**

102      * 主方法，执行入口

103      * @param args 输入参数

104      */

105     public static void main(String[] args) throws Exception {

106         int res = ToolRunner.run(new Configuration(), new Q5EarnMoreThanManager(), args);

107         System.exit(res);

108     }

109 }

3.5.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q5EarnMoreThanManager.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q5EarnMoreThanManager.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q5EarnMoreThanManager.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q5EarnMoreThanManager.java

把编译好的代码打成jar包，如果不打成jar形式运行会提示class无法找到的错误

jar cvf ./Q5EarnMoreThanManager.jar ./Q5EarnMore*.class

mv *.jar ../..

rm Q5EarnMore*.class

3.5.5 运行并查看结果

运行Q5EarnMoreThanManager运行的员工数据路径和输出路径两个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out5

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q5EarnMoreThanManager.jar Q5EarnMoreThanManager hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out5

运行成功后，刷新CentOS HDFS中的输出路径/class6/out5目录

hadoop fs -ls /class6/out5

hadoop fs -cat /class6/out5/part-r-00000

打开part-r-00000文件，可以看到运行结果：

FORD 3000

3.6 测试例子6：列出工资比公司平均工资要高的员工姓名及其工资

3.6.1 问题分析

求工资比公司平均工资要高的员工姓名及工资，需要得到公司的平均工资和所有员工工资，通过比较得出工资比平均工资高的员工姓名及工资。这个问题可以分两个作业进行解决，先求出公司的平均工资，然后与所有员工进行比较得到结果；也可以在一个作业进行解决，这里就得使用作业setNumReduceTasks方法，设置Reduce任务数为1，保证每次运行一个reduce任务，从而能先求出平均工资，然后进行比较得出结果。

在Mapper阶段输出两份所有员工数据，其中一份key为0、value为该员工工资，另外一份key为0、value为"该员工姓名 ,员工工资"；然后在Shuffle阶段把传过来数据按照key进行归组，在该任务中有key值为0和1两组数据；最后在Reduce中对key值0的所有员工求工资总数和员工数，获得平均工资；对key值1，比较员工与平均工资的大小，输出比平均工资高的员工和对应的工资。

3.6.2 处理流程图

3.6.3 编写代码

  1 import java.io.IOException;

  2 import org.apache.hadoop.conf.Configuration;

  3 import org.apache.hadoop.conf.Configured;

  4 import org.apache.hadoop.fs.Path;

  5 import org.apache.hadoop.io.IntWritable;

  6 import org.apache.hadoop.io.LongWritable;

  7 import org.apache.hadoop.io.Text;

  8 import org.apache.hadoop.mapreduce.Job;

  9 import org.apache.hadoop.mapreduce.Mapper;

 10 import org.apache.hadoop.mapreduce.Reducer;

 11 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 12 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 13 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 14 import org.apache.hadoop.util.GenericOptionsParser;

 15 import org.apache.hadoop.util.Tool;

 16 import org.apache.hadoop.util.ToolRunner;

 17 

 18 public class Q6HigherThanAveSalary extends Configured implements Tool {

 19 

 20     public static class MapClass extends Mapper<LongWritable, Text, IntWritable, Text> {

 21 

 22         public void map(LongWritable key, Text value, Context context) throws IOException,         InterruptedException {

 23 

 24             // 对员工文件字段进行拆分

 25             String[] kv = value.toString().split(",");

 26 

 27             // 获取所有员工数据，其中key为0和value为该员工工资

 28             context.write(new IntWritable(0), new Text(kv[5]));

 29 

 30             // 获取所有员工数据，其中key为0和value为(该员工姓名 ,员工工资)

 31             context.write(new IntWritable(1), new Text(kv[1] + "," + kv[5]));

 32         }

 33     }

 34 

 35     public static class Reduce extends Reducer<IntWritable, Text, Text, Text> {

 36 

 37         // 定义员工工资、员工数和平均工资

 38         private long allSalary = 0;

 39         private int allEmpCount = 0;

 40         private long aveSalary = 0;

 41         

 42         // 定义员工工资变量

 43         private long empSalary = 0;

 44 

 45         public void reduce(IntWritable key, Iterable<Text> values, Context context) throws         IOException, InterruptedException {

 46 

 47             for (Text val : values) {

 48                 if (0 == key.get()) {

 49                     // 获取所有员工工资和员工数

 50                     allSalary += Long.parseLong(val.toString());

 51                     allEmpCount++;

 52                     System.out.println("allEmpCount = " + allEmpCount);

 53                 } else if (1 == key.get()) {

 54                     if (aveSalary == 0) {

 55                         aveSalary = allSalary / allEmpCount;

 56                         context.write(new Text("Average Salary = "), new Text("" + aveSalary));

 57                         context.write(new Text("Following employees have salarys higher than                         Average:"), new Text(""));

 58                     }

 59 

 60                     // 获取员工的平均工资

 61                     System.out.println("Employee salary = " + val.toString());

 62                     aveSalary = allSalary / allEmpCount;

 63                     

 64                     // 比较员工与平均工资的大小，输出比平均工资高的员工和对应的工资

 65                     empSalary = Long.parseLong(val.toString().split(",")[1]);

 66                     if (empSalary > aveSalary) {

 67                         context.write(new Text(val.toString().split(",")[0]), new Text("" +                         empSalary));

 68                     }

 69                 }

 70             }

 71         }

 72     }

 73 

 74     @Override

 75     public int run(String[] args) throws Exception {

 76 

 77         // 实例化作业对象，设置作业名称

 78         Job job = new Job(getConf(), "Q6HigherThanAveSalary");

 79         job.setJobName("Q6HigherThanAveSalary");

 80 

 81         // 设置Mapper和Reduce类

 82         job.setJarByClass(Q6HigherThanAveSalary.class);

 83         job.setMapperClass(MapClass.class);

 84         job.setReducerClass(Reduce.class);

 85 

 86         // 必须设置Reduce任务数为1 # -D mapred.reduce.tasks = 1

 87         // 这是该作业设置的核心，这样才能够保证各reduce是串行的

 88         job.setNumReduceTasks(1);

 89 

 90         // 设置输出格式类

 91         job.setMapOutputKeyClass(IntWritable.class);

 92         job.setMapOutputValueClass(Text.class);

 93 

 94         // 设置输出键和值类型

 95         job.setOutputFormatClass(TextOutputFormat.class);

 96         job.setOutputKeyClass(Text.class);

 97         job.setOutputValueClass(LongWritable.class);

 98 

 99         // 第1个参数为员工数据路径和第2个参数为输出路径

100 String[] otherArgs = new GenericOptionsParser(job.getConfiguration(), args).getRemainingArgs();

101         FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

102         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

103 

104         job.waitForCompletion(true);

105         return job.isSuccessful() ? 0 : 1;

106     }

107 

108     /**

109      * 主方法，执行入口

110      * @param args 输入参数

111      */

112     public static void main(String[] args) throws Exception {

113         int res = ToolRunner.run(new Configuration(), new Q6HigherThanAveSalary(), args);

114         System.exit(res);

115     }

116 }

3.6.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q5EarnMoreThanManager.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q6HigherThanAveSalary.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q6HigherThanAveSalary.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q6HigherThanAveSalary.java

把编译好的代码打成jar包，如果不打成jar形式运行会提示class无法找到的错误

jar cvf ./Q6HigherThanAveSalary.jar ./Q6HigherThan*.class

mv *.jar ../..

rm Q6HigherThan*.class

3.6.5 运行并查看结果

运行Q6HigherThanAveSalary运行的员工数据路径和输出路径两个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out6

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q6HigherThanAveSalary.jar Q6HigherThanAveSalary hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out6

运行成功后，刷新CentOS HDFS中的输出路径/class6/out6目录

hadoop fs -ls /class6/out6

hadoop fs -cat /class6/out6/part-r-00000

打开part-r-00000文件，可以看到运行结果：

Average Salary = 2077

Following employees have salarys higher than Average:

FORD 3000

CLARK2450

KING 5000

JONES2975

BLAKE 2850

3.7 测试例子7：列出名字以J开头的员工姓名及其所属部门名称

3.7.1 问题分析

求名字以J开头的员工姓名机器所属部门名称，只需判断员工姓名是否以J开头。首先和问题1类似在Mapper的Setup阶段缓存部门数据，然后在Mapper阶段判断员工姓名是否以J开头，如果是抽取出员工姓名和员工所在部门编号，利用缓存部门数据把部门编号对应为部门名称，转换后输出结果。

3.7.2 处理流程图

3.7.3 编写代码

  1 import java.io.BufferedReader;

  2 import java.io.FileReader;

  3 import java.io.IOException;

  4 import java.util.HashMap;

  5 import java.util.Map;

  6 

  7 import org.apache.hadoop.conf.Configuration;

  8 import org.apache.hadoop.conf.Configured;

  9 import org.apache.hadoop.filecache.DistributedCache;

 10 import org.apache.hadoop.fs.Path;

 11 import org.apache.hadoop.io.LongWritable;

 12 import org.apache.hadoop.io.Text;

 13 import org.apache.hadoop.mapreduce.Job;

 14 import org.apache.hadoop.mapreduce.Mapper;

 15 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 16 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 17 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 18 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 19 import org.apache.hadoop.util.GenericOptionsParser;

 20 import org.apache.hadoop.util.Tool;

 21 import org.apache.hadoop.util.ToolRunner;

 22 

 23 public class Q7NameDeptOfStartJ extends Configured implements Tool {

 24 

 25     public static class MapClass extends Mapper<LongWritable, Text, Text, Text> {

 26 

 27         // 用于缓存 dept文件中的数据

 28         private Map<String, String> deptMap = new HashMap<String, String>();

 29         private String[] kv;

 30 

 31         // 此方法会在Map方法执行之前执行且执行一次

 32         @Override

 33         protected void setup(Context context) throws IOException, InterruptedException {

 34             BufferedReader in = null;

 35             try {

 36 

 37                 // 从当前作业中获取要缓存的文件

 38                 Path[] paths = DistributedCache.getLocalCacheFiles(context.getConfiguration());

 39                 String deptIdName = null;

 40                 for (Path path : paths) {

 41 

 42                     // 对部门文件字段进行拆分并缓存到deptMap中

 43                     if (path.toString().contains("dept")) {

 44                         in = new BufferedReader(new FileReader(path.toString()));

 45                         while (null != (deptIdName = in.readLine())) {

 46                             

 47                             // 对部门文件字段进行拆分并缓存到deptMap中

 48                             // 其中Map中key为部门编号，value为所在部门名称

 49                             deptMap.put(deptIdName.split(",")[0], deptIdName.split(",")[1]);

 50                         }

 51                     }

 52                 }

 53             } catch (IOException e) {

 54                 e.printStackTrace();

 55             } finally {

 56                 try {

 57                     if (in != null) {

 58                         in.close();

 59                     }

 60                 } catch (IOException e) {

 61                     e.printStackTrace();

 62                 }

 63             }

 64         }

 65 

 66         public void map(LongWritable key, Text value, Context context) throws IOException,         InterruptedException {

 67 

 68             // 对员工文件字段进行拆分

 69             kv = value.toString().split(",");

 70 

 71             // 输出员工姓名为J开头的员工信息，key为员工姓名和value为员工所在部门名称

 72             if (kv[1].toString().trim().startsWith("J")) {

 73                 context.write(new Text(kv[1].trim()), new Text(deptMap.get(kv[7].trim())));

 74             }

 75         }

 76     }

 77 

 78     @Override

 79     public int run(String[] args) throws Exception {

 80 

 81         // 实例化作业对象，设置作业名称

 82         Job job = new Job(getConf(), "Q7NameDeptOfStartJ");

 83         job.setJobName("Q7NameDeptOfStartJ");

 84 

 85         // 设置Mapper和Reduce类

 86         job.setJarByClass(Q7NameDeptOfStartJ.class);

 87         job.setMapperClass(MapClass.class);

 88 

 89         // 设置输入格式类

 90         job.setInputFormatClass(TextInputFormat.class);

 91 

 92         // 设置输出格式类

 93         job.setOutputFormatClass(TextOutputFormat.class);

 94         job.setOutputKeyClass(Text.class);

 95         job.setOutputValueClass(Text.class);

 96 

 97         // 第1个参数为缓存的部门数据路径、第2个参数为员工数据路径和第3个参数为输出路径

 98 String[] otherArgs = new GenericOptionsParser(job.getConfiguration(), args).getRemainingArgs();

 99     DistributedCache.addCacheFile(new Path(otherArgs[0]).toUri(), job.getConfiguration());

100         FileInputFormat.addInputPath(job, new Path(otherArgs[1]));

101         FileOutputFormat.setOutputPath(job, new Path(otherArgs[2]));

102 

103         job.waitForCompletion(true);

104         return job.isSuccessful() ? 0 : 1;

105     }

106 

107     /**

108      * 主方法，执行入口

109      * @param args 输入参数

110      */

111     public static void main(String[] args) throws Exception {

112         int res = ToolRunner.run(new Configuration(), new Q7NameDeptOfStartJ(), args);

113         System.exit(res);

114     }

115 }

3.7.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q7NameDeptOfStartJ.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q7NameDeptOfStartJ.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q7NameDeptOfStartJ.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q7NameDeptOfStartJ.java

把编译好的代码打成jar包，如果不打成jar形式运行会提示class无法找到的错误

jar cvf ./Q7NameDeptOfStartJ.jar ./Q7NameDept*.class

mv *.jar ../..

rm Q7NameDept*.class

3.7.5 运行并查看结果

运行Q7NameDeptOfStartJ时需要输入部门数据路径、员工数据路径和输出路径三个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 部门数据路径：hdfs://hadoop:9000/class6/input/dept，部门数据将缓存在各运行任务的节点内容中，可以提供处理的效率

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out7

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q7NameDeptOfStartJ.jar Q7NameDeptOfStartJ hdfs://hadoop:9000/class6/input/dept hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out7

运行成功后，刷新CentOS HDFS中的输出路径/class6/out7目录

hadoop fs -ls /class6/out7

hadoop fs -cat /class6/out7/part-r-00000

打开part-r-00000文件，可以看到运行结果：

JAMESSALES

JONESRESEARCH

3.8 测试例子8：列出工资最高的头三名员工姓名及其工资

3.8.1 问题分析

求工资最高的头三名员工姓名及工资，可以通过冒泡法得到。在Mapper阶段输出经理数据和员工对应经理表数据，其中经理数据key为0值、value为"员工姓名，员工工资"；最后在Reduce中通过冒泡法遍历所有员工，比较员工工资多少，求出前三名。

3.8.2 处理流程图

3.8.3 编写代码

  1 import java.io.IOException;

  2 

  3 import org.apache.hadoop.conf.Configuration;

  4 import org.apache.hadoop.conf.Configured;

  5 import org.apache.hadoop.fs.Path;

  6 import org.apache.hadoop.io.IntWritable;

  7 import org.apache.hadoop.io.LongWritable;

  8 import org.apache.hadoop.io.Text;

  9 import org.apache.hadoop.mapreduce.Job;

 10 import org.apache.hadoop.mapreduce.Mapper;

 11 import org.apache.hadoop.mapreduce.Reducer;

 12 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 13 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 14 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 15 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 16 import org.apache.hadoop.util.GenericOptionsParser;

 17 import org.apache.hadoop.util.Tool;

 18 import org.apache.hadoop.util.ToolRunner;

 19 

 20 public class Q8SalaryTop3Salary extends Configured implements Tool {

 21 

 22     public static class MapClass extends Mapper<LongWritable, Text, IntWritable, Text> {

 23 

 24         public void map(LongWritable key, Text value, Context context) throws IOException,         InterruptedException {

 25 

 26             // 对员工文件字段进行拆分

 27             String[] kv = value.toString().split(",");

 28 

 29             // 输出key为0和value为员工姓名+","+员工工资

 30             context.write(new IntWritable(0), new Text(kv[1].trim() + "," + kv[5].trim()));

 31         }

 32     }

 33 

 34     public static class Reduce extends Reducer<IntWritable, Text, Text, Text> {

 35 

 36         public void reduce(IntWritable key, Iterable<Text> values, Context context) throws         IOException, InterruptedException {

 37 

 38             // 定义工资前三员工姓名

 39             String empName;

 40             String firstEmpName = "";

 41             String secondEmpName = "";

 42             String thirdEmpName = "";

 43             

 44             // 定义工资前三工资

 45             long empSalary = 0;

 46             long firstEmpSalary = 0;

 47             long secondEmpSalary = 0;

 48             long thirdEmpSalary = 0;

 49 

 50             // 通过冒泡法遍历所有员工，比较员工工资多少，求出前三名

 51             for (Text val : values) {

 52                 empName = val.toString().split(",")[0];

 53                 empSalary = Long.parseLong(val.toString().split(",")[1]);

 54                 

 55                 if(empSalary > firstEmpSalary) {

 56                     thirdEmpName = secondEmpName;

 57                     thirdEmpSalary = secondEmpSalary;

 58                     secondEmpName = firstEmpName;

 59                     secondEmpSalary = firstEmpSalary;

 60                     firstEmpName = empName;

 61                     firstEmpSalary = empSalary;

 62                 } else if (empSalary > secondEmpSalary) {

 63                     thirdEmpName = secondEmpName;

 64                     thirdEmpSalary = secondEmpSalary;

 65                     secondEmpName = empName;

 66                     secondEmpSalary = empSalary;

 67                 } else if (empSalary > thirdEmpSalary) {

 68                     thirdEmpName = empName;

 69                     thirdEmpSalary = empSalary;

 70                 }

 71             }

 72             

 73             // 输出工资前三名信息

 74             context.write(new Text( "First employee name:" + firstEmpName), new Text("Salary:"             + firstEmpSalary));

 75             context.write(new Text( "Second employee name:" + secondEmpName), new                     Text("Salary:" + secondEmpSalary));

 76             context.write(new Text( "Third employee name:" + thirdEmpName), new Text("Salary:"             + thirdEmpSalary));

 77         }

 78     }

 79 

 80     @Override

 81     public int run(String[] args) throws Exception {

 82 

 83         // 实例化作业对象，设置作业名称

 84         Job job = new Job(getConf(), "Q8SalaryTop3Salary");

 85         job.setJobName("Q8SalaryTop3Salary");

 86 

 87         // 设置Mapper和Reduce类

 88         job.setJarByClass(Q8SalaryTop3Salary.class);

 89         job.setMapperClass(MapClass.class);

 90         job.setReducerClass(Reduce.class);

 91         job.setMapOutputKeyClass(IntWritable.class); 

 92         job.setMapOutputValueClass(Text.class);

 93 

 94         // 设置输入格式类

 95         job.setInputFormatClass(TextInputFormat.class);

 96 

 97         // 设置输出格式类

 98         job.setOutputKeyClass(Text.class);

 99         job.setOutputFormatClass(TextOutputFormat.class);

100         job.setOutputValueClass(Text.class);

101 

102         // 第1个参数为员工数据路径和第2个参数为输出路径

103         String[] otherArgs = new GenericOptionsParser(job.getConfiguration(),                     args).getRemainingArgs();

104         FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

105         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

106 

107         job.waitForCompletion(true);

108         return job.isSuccessful() ? 0 : 1;

109     }

110 

111     /**

112      * 主方法，执行入口

113      * @param args 输入参数

114      */

115     public static void main(String[] args) throws Exception {

116         int res = ToolRunner.run(new Configuration(), new Q8SalaryTop3Salary(), args);

117         System.exit(res);

118     }

119 }

3.8.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q8SalaryTop3Salary.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q8SalaryTop3Salary.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q8SalaryTop3Salary.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q8SalaryTop3Salary.java

把编译好的代码打成jar包，如果不打成jar形式运行会提示class无法找到的错误

jar cvf ./Q8SalaryTop3Salary.jar ./Q8SalaryTop3*.class

mv *.jar ../..

rm Q8SalaryTop3*.class

3.8.5 运行并查看结果

运行Q8SalaryTop3Salary运行的员工数据路径和输出路径两个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out8

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q8SalaryTop3Salary.jar Q8SalaryTop3Salary hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out8

运行成功后，刷新CentOS HDFS中的输出路径/class6/out8目录

hadoop fs -ls /class6/out8

hadoop fs -cat /class6/out8/part-r-00000

打开part-r-00000文件，可以看到运行结果：

First employee name:KING Salary:5000

Second employee name:FORD Salary:3000

Third employee name:JONESSalary:2975

3.9 测试例子9：将全体员工按照总收入（工资+提成）从高到低排列

3.9.1 问题分析

求全体员工总收入降序排列，获得所有员工总收入并降序排列即可。在Mapper阶段输出所有员工总工资数据，其中key为员工总工资、value为员工姓名，在Mapper阶段的最后会先调用job.setPartitionerClass对数据进行分区，每个分区映射到一个reducer，每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。由于在本作业中Map的key只有0值，故能实现对所有数据进行排序。

3.9.2 处理流程图

3.9.3 编写代码

 1 import java.io.IOException;

 2 

 3 import org.apache.hadoop.conf.Configuration;

 4 import org.apache.hadoop.conf.Configured;

 5 import org.apache.hadoop.fs.Path;

 6 import org.apache.hadoop.io.IntWritable;

 7 import org.apache.hadoop.io.LongWritable;

 8 import org.apache.hadoop.io.Text;

 9 import org.apache.hadoop.io.WritableComparable;

10 import org.apache.hadoop.mapreduce.Job;

11 import org.apache.hadoop.mapreduce.Mapper;

12 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

13 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

14 import org.apache.hadoop.util.GenericOptionsParser;

15 import org.apache.hadoop.util.Tool;

16 import org.apache.hadoop.util.ToolRunner;

17 

18 public class Q9EmpSalarySort extends Configured implements Tool {

19 

20     public static class MapClass extends Mapper<LongWritable, Text, IntWritable, Text> {

21 

22         public void map(LongWritable key, Text value, Context context) throws IOException,         InterruptedException {

23 

24             // 对员工文件字段进行拆分

25             String[] kv = value.toString().split(",");

26 

27             // 输出key为员工所有工资和value为员工姓名

28             int empAllSalary = "".equals(kv[6]) ? Integer.parseInt(kv[5]) :                             Integer.parseInt(kv[5]) + Integer.parseInt(kv[6]);

29             context.write(new IntWritable(empAllSalary), new Text(kv[1]));

30         }

31     }

32 

33     /**

34      * 递减排序算法

35      */

36     public static class DecreaseComparator extends IntWritable.Comparator {

37         public int compare(WritableComparable a, WritableComparable b) {

38             return -super.compare(a, b);

39         }

40 

41         public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {

42             return -super.compare(b1, s1, l1, b2, s2, l2);

43         }

44     }

45 

46     @Override

47     public int run(String[] args) throws Exception {

48 

49         // 实例化作业对象，设置作业名称

50         Job job = new Job(getConf(), "Q9EmpSalarySort");

51         job.setJobName("Q9EmpSalarySort");

52 

53         // 设置Mapper和Reduce类

54         job.setJarByClass(Q9EmpSalarySort.class);

55         job.setMapperClass(MapClass.class);

56 

57         // 设置输出格式类

58         job.setMapOutputKeyClass(IntWritable.class);

59         job.setMapOutputValueClass(Text.class);

60         job.setSortComparatorClass(DecreaseComparator.class);

61 

62         // 第1个参数为员工数据路径和第2个参数为输出路径

63         String[] otherArgs = new GenericOptionsParser(job.getConfiguration(),                     args).getRemainingArgs();

64         FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

65         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

66 

67         job.waitForCompletion(true);

68         return job.isSuccessful() ? 0 : 1;

69     }

70 

71     /**

72      * 主方法，执行入口

73      * @param args 输入参数

74      */

75     public static void main(String[] args) throws Exception {

76         int res = ToolRunner.run(new Configuration(), new Q9EmpSalarySort(), args);

77         System.exit(res);

78     }

79 }

3.9.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q9EmpSalarySort.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q9EmpSalarySort.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q9EmpSalarySort.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q9EmpSalarySort.java

把编译好的代码打成jar包，如果不打成jar形式运行会提示class无法找到的错误

jar cvf ./Q9EmpSalarySort.jar ./Q9EmpSalary*.class

mv *.jar ../..

rm Q9EmpSalary*.class

3.9.5 运行并查看结果

运行Q9EmpSalarySort运行的员工数据路径和输出路径两个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out9

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q9EmpSalarySort.jar Q9EmpSalarySort hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out9

运行成功后，刷新CentOS HDFS中的输出路径/class6/out9目录

hadoop fs -ls /class6/out9

hadoop fs -cat /class6/out9/part-r-00000

打开part-r-00000文件，可以看到运行结果：

5000 KING

3000 FORD

2975 JONES

2850 BLAKE

......

3.10 测试例子10：求任何两名员工信息传递所需要经过的 中间节点数

3.10.1 问题分析

该公司所有员工可以形成入下图的树形结构，求两个员工的沟通的中间节点数，可转换在员工树中求两个节点连通所经过的节点数，即从其中一节点到汇合节点经过节点数加上另一节点到汇合节点经过节点数。例如求M到Q所需节点数，可以先找出M到A经过的节点数，然后找出Q到A经过的节点数，两者相加得到M到Q所需节点数。

在作业中首先在Mapper阶段所有员工数据，其中经理数据key为0值、value为"员工编号，员工经理编号"，然后在Reduce阶段把所有员工放到员工列表和员工对应经理链表Map中，最后在Reduce的Cleanup中按照上面说所算法对任意两个员工计算出沟通的路径长度并输出。

3.10.2 处理流程图

3.10.3 编写代码

  1 import java.io.IOException;

  2 import java.util.ArrayList;

  3 import java.util.HashMap;

  4 import java.util.List;

  5 import java.util.Map;

  6 

  7 import org.apache.hadoop.conf.Configuration;

  8 import org.apache.hadoop.conf.Configured;

  9 import org.apache.hadoop.fs.Path;

 10 import org.apache.hadoop.io.IntWritable;

 11 import org.apache.hadoop.io.LongWritable;

 12 import org.apache.hadoop.io.NullWritable;

 13 import org.apache.hadoop.io.Text;

 14 import org.apache.hadoop.mapreduce.Job;

 15 import org.apache.hadoop.mapreduce.Mapper;

 16 import org.apache.hadoop.mapreduce.Reducer;

 17 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 18 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 19 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 20 import org.apache.hadoop.util.GenericOptionsParser;

 21 import org.apache.hadoop.util.Tool;

 22 import org.apache.hadoop.util.ToolRunner;

 23 

 24 public class Q10MiddlePersonsCountForComm extends Configured implements Tool {

 25 

 26     public static class MapClass extends Mapper<LongWritable, Text, IntWritable, Text> {

 27 

 28         public void map(LongWritable key, Text value, Context context) throws IOException,         InterruptedException {

 29 

 30             // 对员工文件字段进行拆分

 31             String[] kv = value.toString().split(",");

 32 

 33             // 输出key为0和value为员工编号+","+员工经理编号

 34             context.write(new IntWritable(0), new Text(kv[0] + "," + ("".equals(kv[3]) ? " " : kv[3])));

 35         }

 36     }

 37 

 38     public static class Reduce extends Reducer<IntWritable, Text, NullWritable, Text> {

 39 

 40         // 定义员工列表和员工对应经理Map

 41         List<String> employeeList = new ArrayList<String>();

 42         Map<String, String> employeeToManagerMap = new HashMap<String, String>();

 43 

 44         public void reduce(IntWritable key, Iterable<Text> values, Context context) throws         IOException, InterruptedException {

 45 

 46             // 在reduce阶段把所有员工放到员工列表和员工对应经理Map中

 47             for (Text value : values) {

 48                 employeeList.add(value.toString().split(",")[0].trim());

 49                 employeeToManagerMap.put(value.toString().split(",")[0].trim(),                             value.toString().split(",")[1].trim());

 50             }

 51         }

 52 

 53         @Override

 54         protected void cleanup(Context context) throws IOException, InterruptedException {

 55             int totalEmployee = employeeList.size();

 56             int i, j;

 57             int distance;

 58             System.out.println(employeeList);

 59             System.out.println(employeeToManagerMap);

 60 

 61             // 对任意两个员工计算出沟通的路径长度并输出

 62             for (i = 0; i < (totalEmployee - 1); i++) {

 63                 for (j = (i + 1); j < totalEmployee; j++) {

 64                     distance = calculateDistance(i, j);

 65                     String value = employeeList.get(i) + " and " + employeeList.get(j) + " =                     " + distance;

 66                     context.write(NullWritable.get(), new Text(value)); 

 67                 }

 68             }

 69         }

 70 

 71         /**

 72          * 该公司可以由所有员工形成树形结构，求两个员工的沟通的中间节点数，可以转换在员工树中两员工之间的距离

 73          * 由于在树中任意两点都会在某上级节点汇合，根据该情况设计了如下算法

 74          */

 75         private int calculateDistance(int i, int j) {

 76             String employeeA = employeeList.get(i);

 77             String employeeB = employeeList.get(j);

 78             int distance = 0;

 79 

 80             // 如果A是B的经理，反之亦然

 81             if (employeeToManagerMap.get(employeeA).equals(employeeB) ||                                     employeeToManagerMap.get(employeeB).equals(employeeA)) {

 82                 distance = 0;

 83             }

 84             // A和B在同一经理下

 85             else if  (employeeToManagerMap.get(employeeA).equals(

 86                     employeeToManagerMap.get(employeeB))) {

 87                 distance = 0;

 88             } else {

 89                 // 定义A和B对应经理链表

 90                 List<String> employeeA_ManagerList = new ArrayList<String>();

 91                 List<String> employeeB_ManagerList = new ArrayList<String>();

 92 

 93                 // 获取从A开始经理链表

 94                 employeeA_ManagerList.add(employeeA);

 95                 String current = employeeA;

 96                 while (false == employeeToManagerMap.get(current).isEmpty()) {

 97                     current = employeeToManagerMap.get(current);

 98                     employeeA_ManagerList.add(current);

 99                 }

100 

101                 // 获取从B开始经理链表

102                 employeeB_ManagerList.add(employeeB);

103                 current = employeeB;

104                 while (false == employeeToManagerMap.get(current).isEmpty()) {

105                     current = employeeToManagerMap.get(current);

106                     employeeB_ManagerList.add(current);

107                 }

108 

109                 int ii = 0, jj = 0;

110                 String currentA_manager, currentB_manager;

111                 boolean found = false;

112 

113                 // 遍历A与B开始经理链表，找出汇合点计算

114                 for (ii = 0; ii < employeeA_ManagerList.size(); ii++) {

115                     currentA_manager = employeeA_ManagerList.get(ii);

116                     for (jj = 0; jj < employeeB_ManagerList.size(); jj++) {

117                         currentB_manager = employeeB_ManagerList.get(jj);

118                         if (currentA_manager.equals(currentB_manager)) {

119                             found = true;

120                             break;

121                         }

122                     }

123 

124                     if (found) {

125                         break;

126                     }

127                 }

128 

129                 // 最后获取两只之前的路径

130                 distance = ii + jj - 1;

131             }

132 

133             return distance;

134         }

135     }

136 

137     @Override

138     public int run(String[] args) throws Exception {

139 

140         // 实例化作业对象，设置作业名称

141         Job job = new Job(getConf(), "Q10MiddlePersonsCountForComm");

142         job.setJobName("Q10MiddlePersonsCountForComm");

143 

144         // 设置Mapper和Reduce类

145         job.setJarByClass(Q10MiddlePersonsCountForComm.class);

146         job.setMapperClass(MapClass.class);

147         job.setReducerClass(Reduce.class);

148 

149         // 设置Mapper输出格式类

150         job.setMapOutputKeyClass(IntWritable.class);

151         job.setMapOutputValueClass(Text.class);

152 

153         // 设置Reduce输出键和值类型

154         job.setOutputFormatClass(TextOutputFormat.class);

155         job.setOutputKeyClass(NullWritable.class);

156         job.setOutputValueClass(Text.class);

157 

158         // 第1个参数为员工数据路径和第2个参数为输出路径

159         String[] otherArgs = new GenericOptionsParser(job.getConfiguration(),                     args).getRemainingArgs();

160         FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

161         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

162 

163         job.waitForCompletion(true);

164         return job.isSuccessful() ? 0 : 1;

165     }

166 

167     /**

168      * 主方法，执行入口

169      * @param args 输入参数

170      */

171     public static void main(String[] args) throws Exception {

172         int res = ToolRunner.run(new Configuration(), new Q10MiddlePersonsCountForComm(), args);

173         System.exit(res);

174     }

175 }

3.10.4 编译并打包代码

进入/app/hadoop-1.1.2/myclass/class6目录中新建Q10MiddlePersonsCountForComm.java程序代码（代码页可以使用/home/shiyanlou/install-pack/class6/Q10MiddlePersonsCountForComm.java文件）

cd /app/hadoop-1.1.2/myclass/class6

vi Q10MiddlePersonsCountForComm.java

编译代码

javac -classpath ../../hadoop-core-1.1.2.jar:../../lib/commons-cli-1.2.jar Q10MiddlePersonsCountForComm.java

把编译好的代码打成jar包，如果不打成jar形式运行会提示class无法找到的错误

jar cvf ./Q10MiddlePersonsCountForComm.jar ./Q10MiddlePersons*.class

mv *.jar ../..

rm Q10MiddlePersons*.class

3.10.5 运行并查看结果

运行Q10MiddlePersonsCountForComm运行的员工数据路径和输出路径两个参数，需要注意的是hdfs的路径参数路径需要全路径，否则运行会报错：

l 员工数据路径：hdfs://hadoop:9000/class6/input/emp

l 输出路径：hdfs://hadoop:9000/class6/out10

运行如下命令：

cd /app/hadoop-1.1.2

hadoop jar Q10MiddlePersonsCountForComm.jar Q10MiddlePersonsCountForComm hdfs://hadoop:9000/class6/input/emp hdfs://hadoop:9000/class6/out10

运行成功后，刷新CentOS HDFS中的输出路径/class6/out10目录

hadoop fs -ls /class6/out10

hadoop fs -cat /class6/out10/part-r-00000

打开part-r-00000文件，可以看到运行结果：

7369 and 7499 = 4

7369 and 7521 = 4

7369 and 7566 = 1

7369 and 7654 = 4

7369 and 7698 = 3

......

你可能感兴趣的:(mapreduce)

Hadoop中MapReduce和Yarn相关内容详解
接上一章写的HDFS说，Hadoop是一个适合海量数据的分布式存储和分布式计算的一个平台，上一章介绍了分布式存储，这一章介绍一下分布式计算——MapReduce。一、MapReduce设计理念map——>映射Reduce——>归纳mapreduce是一种必须构建在hadoop之上的大数据离线计算框架。因为mapreduce是给予磁盘IO来计算存储文件的，所以它具有一定的延时性，因此一般用来处理离线
阿里云MaxCompute SQL与Apache Hive区别面面观大模型大数据攻城狮阿里云 odps sql 物化 maxcompute udf开发 sql语法
目录1.引爆开场：MaxCompute和Hive，谁才是大数据SQL的王者？2.架构大比拼：从Hadoop到Serverless的进化之路Hive的架构：老派但经典MaxCompute的架构：云原生新贵3.SQL语法的微妙差异：90%相似，10%决定胜负建表语句分区与分桶函数与UDF4.执行引擎的较量：MapReducevs飞天引擎Hive的MapReduce执行流程MaxCompute的飞天引擎
一文说清楚Hive
Hive作为ApacheHadoop生态的核心数据仓库工具，其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。一、Hive底层分布式计算框架对比Hive本身不直接执行计算，而是将HQL转换为底层计算引擎的任务。目前支持的主流引擎及其特点如下：计算引擎核心原理优点缺点适用场景MapReduce基于“Map→Shuffle→R
解锁Hive：高效数据查找的秘密武器 YangRyeon hive hadoop 数据仓库
Hive是什么？Hive是基于Hadoop的一个数据仓库工具，它能够进行数据提取、转化和加载操作，为存储、查询和分析Hadoop中的大规模数据提供了有效的机制。Hive能将结构化的数据文件映射为一张数据库表，让用户可以通过熟悉的SQL查询功能来处理数据。其内部机制是将SQL语句巧妙地转变成MapReduce任务来执行，大大降低了开发的难度和复杂性。例如，在面对海量的用户行为日志数据时，Hive就能
Yarn 3.x版本容器内存控制功能失效排查极伪 hadoop yarn 内存控制
问题背景Yarn集群中一部分节点的内存被打爆，排查发现作业使用内存超出了NodeManager的最大内存限制找出故障时间点运行的作业，发现作业内存设置不合理，用户只设置了mapreduce.map.java.opts=-Xmx40240m;mapreduce.reduce.java.opts=-Xmx80240m;而没有设置mapreduce.map.memory.mb（默认为1536）mapre
【大数据学习 | Spark-Core】RDD的概念与Spark任务的执行流程 Vez'nan的幸福生活大数据 spark oracle sql json
1.RDD的设计背景在实际应用中，存在许多迭代式计算，这些应用场景的共同之处是，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，目前的MapReduce框架都是把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。显然，如果能将结果保存在内存当中，就可以大量减少IO。RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层
数据库和数据仓库区别 hhhecker Hadoop学习数据仓库数据库 hive
HIve与Mysql对比HiveMysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持（不支持修改和删除）支持（支持增删改查）索引有，但较弱，一般很少用有，经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库与数据仓库对比数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
MapReduce学习笔记
1.MapReduce做什么Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。Reducer负责对map阶段的结果进行汇总。2.MapReduce工作机制实体一：客户端，用来提交MapReduce作业。实体二：JobTracker，用来协调作业的运行。实体三：TaskTracker，用来处理作业划分后的任务。实体四：HDFS，用来在其它实体间共享作业文件。3.编写MapRed
MapReduce 学习 chuanauc mapreduce 学习大数据
MapReduce的过程：mapshufflereduce其中，程序员需要实现的内容是：程序员手动实现Map任务的具体逻辑，将数据根据Map代码进行分割，返回(key,value)键值对然后这些（Key，Values）键值对先会被存放到磁盘，然后由MapReduce按照Key，进行排序，排序原则为，将同一个Key的键值对组织到一起，然后将同Key的键值对组，按照Key排序。而后将每个Map节点上找
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop入门案例WordCount 码喵喵 hadoop mapreduce 大数据
wordcount可以说是hadoop的入门案例，也是基础案例主要体现思想就是mapreduce核心思想原始文件为hadoop.txt，内容如下：hello,javahello,java,linux,hadoophadoop,java,linuxhello,java,linuxlinux,c,javac,php,java在整个文件中单词所出现的次数Hadoop思维：Mapreduce-----》M
Hadoop入门案例 'Wu' 学习日常大数据 hadoop hdfs 大数据
Hadoop的运行流程：客户端向HDFS请求文件存储或使用MapReduce计算。NameNode负责管理整个HDFS系统中的所有数据块和元数据信息；DataNode则实际存储和管理数据块。客户端通过NameNode查找需要访问或处理的文件所在的DataNode，并将操作请求发送到相应的DataNode上。当客户端上传一个新文件时（比如输入某些日志），它会被分成固定大小（默认64MB）并进行数据复
MapReduce分布式计算框架：从原理到实战 AI妈妈手把手 mapreduce 前端大数据分布式计算 python 人工智能
大家好！今天我们来聊聊大数据处理领域的一个重要框架——MapReduce。作为Google提出的经典分布式计算模型，MapReduce极大地简化了海量数据的处理流程。无论你是大数据新手还是有一定经验的开发者，这篇文章都会让你对MapReduce有更深入的理解。我们还会通过实际代码示例来展示它的强大功能！一、MapReduce是什么？想象你有一个装满10亿本书的图书馆，现在需要统计所有书中"大数据"
【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间
MapReduce是一种适合处理大规模数据的分布式计算框架，其核心思想是将计算任务分解为Map（映射）和Reduce（归约）两个阶段。对文件中的数字进行排序，可以利用MapReduce的特性来实现。要使用MapReduce对文件中的数字进行排序，需要实现一个MapReduce作业，将数字作为键处理，利用Hadoop的默认排序机制对键进行排序。以下是实现步骤和示例代码：文章大纲题目一：有一个文件，每
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round