Hadoop - mapreduce
简介
MapReduce就是一个分布式的计算框架,用于并行处理数据。
步骤
分为两步Map和Reduce
- Map阶段:处理输入数据,从HDFS读取数据,映射器处理该数据,并创建中间数据。
- Reduce阶段:Shuffle+Reduce处理映射器中的数据,产生输出,存储在HDFS中。
实例
- 写MapReduce程序
1 | ProcessUnits.java |
- 编译该Java类
1 | javac -classpath xxx -d folder xxx.java |
- 将需要处理的数据存入HDFS
1 | hadoop fs -put xxx |
- 运行MapReduce程序
1 | hadoop jar xxx input_folder output_folder |
hadoop
可以操作MapReduce等其它工作及设置
1 | hadoop cmd |