Hadoop入门指南之统计库存实战

Hadoop系列文章索引:

Hadoop入门指南之HDFS介绍

Hadoop入门指南之Linux环境搭建

Hadoop入门指南之Linux软件安装

Hadoop入门指南之Hadoop安装

Hadoop入门指南之hdfs命令行使用.

Hadoop入门指南之MapReduce介绍

Hadoop入门指南之统计库存实战

Hadoop入门指南之分区、规约实战

Hadoop入门指南之排序实战

Hadoop入门指南之分组实战

Hadoop入门指南之表连接操作

Hadoop入门指南之yarn介绍​​​​​​​

介绍完了基本思想和流程,下面需要开始一个实际案例来掌握MapReduce的代码书写方式了。

现在假设有个小商店,有一批库存,需要我们统计仓库里每样商品具体有多少件。当然,不用MapReduce也是可以的,只是想象一下,如果是个大型电商平台,全国各地都有仓储,现在要一个总的统计,甚至更大一些,是一个全球的大型超市连锁,那么这个时候数据量足够大,就很有必要使用Hadoop的MapReduce进行统计计算了。这里只是为了简化,我们假设是个小商店。

他们给的数据是这样的:

p001,2021-01-01,5
p002,2021-01-01,8
p001,2021-01-03,3
p003,2021-01-03,6
p002,2021-01-05,9
p003,2021-01-05,3
p004,2021-01-05,2
p003,2021-01-07,3
p005,2021-01-07,6

其中第一列代表的是商品id,第二列代表的是进货日期,第三列代表的是进货数量。每一列数据逗号隔开。

把这些数据保存成stock.txt,使用rz -E上传到node01,然后在node01运行命令:

你可能感兴趣的:(大数据,hadoop)