Sparkを使用した外部HDFSデータのCassandraへの読み込み
Hadoop HDFSデータは、Sparkを使用してDataStax Enterprise Analyticsノードからアクセスし、Cassandraテーブルに保存できます。
以下のタスクは、DSE AnalyticsノードでSparkを使用してHadoopデータにアクセスし、それをCassandraに保存する方法を示します。
Hadoopデータへのアクセスを簡素化するために、Hadoopクラスターと対話するためのRESTベースのサーバーであるWebHDFSが使用されます。WebHDFSはデータ・ノードへのリダイレクト要求を処理するため、すべてのDSE AnalyticsノードはHadoopノードのホスト名を使用してすべてのHDFSノードにルーティングできるようになっている必要があります。
以下の手順では気象データの例を使用していますが、その原理はCassandraに格納可能なあらゆる種類のHadoopデータに適用できます。
始める前に
必要なもの:
- 有効なHDFSとWebHDFSを実行しているHadoopの実稼働環境のインストール。Hadoopを実行しているマシンのホスト名が必要で、クラスターはDataStax Enterpriseクラスター内のDSE Analyticsノードからアクセスできるようになっている必要があります。
- 有効なDSE Analyticsノードを含む実稼働環境のDataStax Enterpriseクラスター。
- DSE Analyticsノードにインストールされているgit。