DSEFSについて

DSEFS(DataStax Enterpriseファイル・システム)は、DataStax Enterprise内の分散ファイル・システムです。

DSEFS(DataStax Enterpriseファイル・システム)は、DataStax Enterprise内のフォールト・トレランスな汎用分散ファイル・システムです。チェックポイント処理やログ先行書き込みなど、Spark Streamingアプリケーションのデータ取り込み、データ・ステージング、状態管理に分散ファイル・システムを活用するユース・ケース向けに設計されています。DSEFSはHDFSと似ていますが、HDFSによくあるデプロイ時の複雑さや単一障害点がありません。DSEFSはHDFSと互換性があり、SparkなどのシステムでHDFSの代わりに動作するよう設計されています。

DSEFSはDataStax Enterpriseのデフォルトの分散ファイル・システムであり、すべてのAnalyticsノードで自動的に有効になります。

DSEFSは、ファイル・メタデータ(ファイル・パス、所有権、パーミッションなど)とファイルの内容を別々に格納します。
  • メタデータはデータベースに格納されます。
  • ファイル・データ・ブロックはノードごとにローカルに格納され、複数のノードにレプリケートされます。

    冗長係数はDSEFSディレクトリーまたはファイル・レベルで設定されます。この係数は、データベース内のキースペース・レベルで設定されるレプリケーション係数よりも詳細です。

実稼働クラスターのパフォーマンスを高めるには、DSEFSデータをデータベースとは別の物理デバイスに格納します。開発およびテスト環境では、DSEFSデータをデータベースと同じ物理デバイスに格納できます。

デプロイの概要

  • DSEFSサーバーは、DataStax Enterpriseと同じJVMで実行されます。データベースと同様に、マスター・ノードはありません。DSEFSを実行するノードはすべて同等です。
  • 1つのDSEFSが複数のデータ・センターにまたがることはできません。DSEFSを複数のデータ・センターにデプロイするには、データ・センターごとに個別のDSEFSインスタンスを作成します。
  • 異なるキースペースを使用して1つのデータ・センター内に複数のDSEFSファイル・システムを構成できます。
  • パフォーマンスを最適化するには、ローカルのDSEFSデータをデータベースとは別の物理ドライブに配置します。
  • 暗号化はサポートされていません。オペレーティング・システムのアクセス制御を使用すると、ローカルのDSEFSデータ・ディレクトリーを保護できます。その他の制限事項も適用されます。
  • DSEFSは、LOCAL_QUORUM整合性レベルを使用して、ファイルのメタデータを格納します。DSEFSは、各データ・ブロックをレプリケートされたノードの場所に常に書き込もうとし、書き込みに失敗しても、書き込みを確認応答する前に別のノードにリトライします。DSEFSの書き込みはALL整合性レベルによく似ていますが、フェイルオーバー機能が追加されて高い可用性を確保できます。DSEFSの読み取りは、ONE整合性レベルに似ています。