思考mapreduce

2018/03/10
尝试写了几个脚本,实现的功能很简单,主要实现想摸清这个流程。
而且使用python写的这个脚本,这部分按说是应该用java写的,可以用python也是利用了一个java的库,让他将这部分的文本转化成流式的数据。然后python脚本从默认输入流进行接收。
这里处理的时候是按照这个逐行的方式进行处理的

import sys
for line in sys.stdin:
    print line

后期,我也想过,如果是想处理这个pcap文件,也是可以用这种方式去处理,只不过就不能说是利用逐行读取文件的方式了。
而且,平时处理这个pcap的方式都是利用C语言写的,可能还需要一点帮助进行相应的转化。


现在对这个mapreduce模型的理解,按照python读取文件的方式,一行是一个记录,map的产物还是需要reduce去理解的,这样的话如果是生成了一些乱七八糟的东西,也是不可行的。
而且最好是,reduce生成的东西还可以继续被reduce所消化,这样就可以中间添加一个combinator的东西。


这里主要还是从思考mapreduce的整体编程来说,就不对具体的其他东西进行分析了。

你可能感兴趣的:(思考mapreduce)