一家に一台Hadoopでビッグデータ解析のススメ

タイトル少し盛ってます。そんなには必要ないですが…。

大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されているHadoop分散ファイルシステムは、アメリカYahoo、IBM、Apacheなどがディストリビュートしています。中でもClouderaディストリビューションのパッケージが豊富で汎用性の高いものになっています。

Windowsネイティブでも出始めたようですが、やはりLinuxが最も汎用性が高いです。Windows + Cygwin (Windows上でUnix環境が試せる)という選択肢もなくはないですが、Hiveが使えない(はず、シッタカだったら指摘してください)のでちょっとおすすめできないです。

Windowsで行う場合は、VM(ヴァーチャルマシン)を走らせた上でCentOS(Linux各種、Ubuntu, DebianでもOK)をインストールし、そこにCloudera社のCDH(Hadoop)パッケージなどをインストールするのが現状としてベストと思います。64ビットマシンならばVMバージョンがそのまま使えたり、Cloudera Standardなどオールインワン的な簡単にインストールできるものもありますので、環境が揃っている人は是非試してみてください。CDHはバージョンが4.3、一昔前よりインストールや設定が楽になっています。余って転がっている古いXPマシン等がご家庭にあればLinuxマシンにして練習用にしても良いかもしれません。Linuxの良い勉強になるかと思います。

要求される知識としてはRDBMS、Java、Unixなどの知識が必要でしょうか(取り敢えず一通りか)。広く浅くでもなんとかなるかどうか…やる気次第かと(自戒)。

インストール方法などのおすすめサイトはまた次の機会にでも紹介したいと思いますので乞うご期待。

 

Pocket
このエントリーを Google ブックマーク に追加
LINEで送る
LinkedIn にシェア

コメントを残す