HDInisght
HDInsigntはAzureで動作するHadoopで維持コストが安い
Hadoopは大量データ処理の基盤としてはデファクトスタンダードになっていますので、Windows環境でもBigDataを処理する場合Hadoopを利用することになります。HDInsightはAzure上で利用できるHadoopサービスです。Hortonworksが提供している『Hortonworks Data Platform』(HDP)ベースでWindows上で動作します。
クラウドとHadoopは相性ばっちり
Hadoopはオンプレミスな環境でも実現できますが、ハードウエアの初期費用が多額になる、たまにしか利用しないなど、投資効率が良くありません。これを解決する一番簡単な方法はクラウドでHadoopで動かすことです。クラウドであれば必要な時に必要なリソースを得ることができます。利用しなければ削除してしまうことも簡単にできます。そういう意味ではHDInsightは維持コストのパフォーマンスの良いHadoopになります。
HDInsightを削除してしまうと、保存していたデータも消えてしまうように心配になりますが、HDInsightではBLOBにデータを保存できます。このため、HDInsightを削除してもデータ自体は消えないのです。そうすると、計算処理していない場合はBLOBの費用だけで良いことになります。Hadoopを知る人は、ここで1つ疑問になります。Hadoopはデータのあるところにプログラムを配置して実行することで、ローカルの速いデータアクセスを前提とした並列実行をしています。BLOBにデータあるとデータアクセスが遅くなってしまって効率が悪くならないのかといことです。これについてはWhy use Blob Storage with HDInsight on Azureにより詳しい説明がありますが、計算ノードからBLOBのアクセスは非常に高速で心配しなくてよいとのことです。