DSE Analyticsについて
非常に大きなデータベースを分析するには、DSE Analyticsを使用します。DSE Analyticsは、Apache Sparkと統合できます。
非常に大きなデータベースを分析するには、DSE Analyticsを使用します。DSE Analyticsは、分散並列データ処理エンジンであるApache Sparkとの統合が組み込まれており、リアルタイム分析、ストリーミング分析、およびバッチ分析を提供します。
DSE Analyticsの機能
- 単一障害点なし
- DSE Analyticsでは、Sparkジョブを実行するために、ピアツーピア分散クラスターをサポートしています。クラスターのノードはすべてピアになるため、任意のデータ・ファイルを読み込むことができ、任意の分析ノードでSpark Masterの役割を担うものと想定できます。
- Spark Masterの管理
- DSE Analyticsは、Spark Masterの自動管理機能を備えています。
- ETLなしの分析
- DSE Analyticsを使用すると、Cassandraのデータに対してSparkジョブを直接実行することができます。1つのワークロードが他のワークロードのパフォーマンスに悪影響を与える心配をすることなく、リアルタイムのワークロードと分析ワークロードを同時に実行することができます。一部のクラスター・ノードをAnalyticsノードとして開始し、他のノードを純粋なCassandraリアルタイム・ノードとして開始すると、ノード間のデータが自動的にレプリケートされます。
- DataStax Enterpriseファイル・システム(DSEFS)
- DSEFS(DataStax Enterpriseファイル・システム)はDataStax Enterprise内の新しい分散ファイル・システムで、主にSpark Streamingのユース・ケースとWrite Ahead Logging(WAL)にフォールト・トレランスを提供することを目的としています。DSEFSはCFS(Cassandraファイル・システム)よりもパフォーマンスに優れています。
- 複数のCassandraファイル・システム(CFS)による分析
- Cassandraファイル・システム(CFS)は、Hadoop分散ファイル・システム(HDFS)互換のストレージ層です。DataStax Enterpriseは、HDFSをCFSと置き換えて、ピアツーピアでフォールト・トレランスがあり、スケーラブルなCassandraのアーキテクチャーでSparkジョブを実行します。追加のCFSを作成して、データの整理と最適化を行うことができます。