Edlison is talking here.

“Edlison's blog”

0%

Hadoop - mapreduce

Posted on 01-28-2021 In Notebook Views:

简介

MapReduce就是一个分布式的计算框架，用于并行处理数据。

步骤

分为两步Map和Reduce

Map阶段：处理输入数据，从HDFS读取数据，映射器处理该数据，并创建中间数据。
Reduce阶段：Shuffle+Reduce处理映射器中的数据，产生输出，存储在HDFS中。

实例

写MapReduce程序

1	ProcessUnits.java

编译该Java类

1	javac -classpath xxx -d folder xxx.java

将需要处理的数据存入HDFS

1	hadoop fs -put xxx

运行MapReduce程序

1	hadoop jar xxx input_folder output_folder

hadoop可以操作MapReduce等其它工作及设置

1	hadoop cmd