Hadoop 入門してみた - ぴょんぴょんブログ

# brew
brew install hadoop
hadoop version

# docker
docker pull sequenceiq/hadoop-docker
docker run -it sequenceiq/hadoop-docker /etc/bootstrap.sh -bash
cd $HADOOP_PREFIX # HADOOP_PREFIX = /usr/local/hadoop
bin/hadoop version # dockerでは$HADOOP_PREFIX下でbin/hadoopで実行

2021/5/3現在ではbrewでは3.3.0、dockerでは2.7.1と表示されます。 dockerイメージの方は5年ほど更新されていないようなのでbrewが使える環境であれば3.3.0をインストールしてもいいかもしれないですが、お試しだけなのでどちらも大差ないと思います。

Hadoopにはサンプルが用意されているのでそれを実行してみます。サンプルでできることはAzureのドキュメントにありました。抜粋すると $\pi$ を計算したり(pi)、単語をカウントしたり(wordcaount)、正規表現の一致をカウントしたり(count)できるそうです。ここからは、brewでインストールしたHadoopでの記述になります。 wordcaountを試してみます。

# 入力ファイルの作成
mkdir input
echo "Hello World Hello Hadoop" > input/sample.txt

# 実行
hadoop jar /usr/local/Cellar/hadoop/3.3.0/libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount input output

# 出力確認
cat output/part-r-00000
# 出力
# Hadoop 1
# Hello 2
# World 1

無事単語数が数えられているのが確認できました。 inputに複数ファイル用意すると複数ファイルの単語数の合計が出力されます outputがすでに存在しているとエラーが出るので再度実行するときはoutput以下を削除してください。

Hadoopの簡単なコマンド説明は下の記事にありました。また、Mapper、Reducerを自分が使いやすい言語で記述できるhadoop-streamingについて説明されています。 qiita.com blog.amedama.jp

今回はできませんでしたが、Hadoopには疑似分散モードと完全分散モードがあります。 www.atmarkit.co.jp

この記事では分散処理の要素はどこだって気がするのですが、分散モードで実行してもHadoopがいい感じにしてくれて、スタンドアロンモードと同じように入出力を得られるってことなんだと思います。

感想

Hadoopは日本語の文献が少なかったり、どの情報が最新のものかわかりづらい気がしました（検索能力不足かも）。今から分散処理について学ぶなら最近の情報が多いKubernetesの方がいい気がしますが、具体的にどこが違っててそれぞれどういう利点があるかまで理解できていないので、更に分散処理について更に深堀りするなら何を勉強すればいいのか分からなくなってしまいました。こういうのが勉強すればいいというのがあれば、ぜひ教えて下さい。