DSE Analyticsについて

非常に大きなデータベースを分析するにはDSE Analyticsを使用します。DSE Analyticsは、Apache Sparkと統合されています。

DataStax Enterprise(DSE)には、バッチ処理に対応したリアルタイムの運用分析機能とApache Spark™の機能強化バージョンが統合されています。DSE Analyticsを使用すると、非定型レポートを簡単に生成したり、パーソナライズを行って顧客を絞り込んだり、データ・ストリームをリアルタイムで処理することができます。分析ツールセットを使用すると、コードを1回記述しただけで、リアルタイムとバッチ処理の両方のワークロードに使用できます。

DSE Analyticsジョブでは、DataStax Enterpriseファイル・システム(DSEFS)を使用して、分析処理に一般に伴う大量のデータ・セットを処理できます。DSEFSは、CFS(Cassandraファイル・システム)に代わり導入されました。

DSE Analyticsの機能

SparkR
DataStax Enterpriseは、R分析処理用にSparkRをサポートしています。
単一障害点なし
DSE Analyticsでは、Sparkジョブを実行するために、ピアツーピア分散クラスターをサポートしています。クラスターのどのノードもピアになり、データ・ファイルを読み込むことができます。また、どのAnalyticsノードもSparkマスターの役割を担うことができます。
Sparkマスターの管理
DSE Analyticsには、Sparkマスター自動管理機能が用意されています。
ETLなしで分析
DSE Analyticsを使用して、Sparkジョブをデータベース内のデータに対して直接実行します。1つのワークロードが他のワークロードのパフォーマンスに悪影響を与える心配をすることなく、リアルタイムのワークロードと分析ワークロードを同時に実行することができます。一部のクラスター・ノードをAnalyticsノードとして開始し、他のノードを純粋なトランザクションのリアルタイム・ノードとして開始すると、ノード間のデータが自動的にレプリケートされます。
DataStax Enterpriseファイル・システム(DSEFS
DSEFS(DataStax Enterpriseファイル・システム)は、DataStax Enterprise内のフォールト・トレランスな汎用分散ファイル・システムです。チェックポイント処理やログ先行書き込みなど、Spark Streamingアプリケーションのデータ取り込み、データ・ステージング、状態管理に分散ファイル・システムを活用するユース・ケース向けに設計されています。DSEFSはHDFSと似ていますが、HDFSによくあるデプロイ時の複雑さや単一障害点がありません。DSEFSはHDFSと互換性があり、SparkなどのシステムでHDFSの代わりに動作するよう設計されています。