Cassandraファイル・システム(CFS)について
DSE Analyticsでの使用について、DataStax Enterpriseでは、Cassandraファイル・システム(CFS)と呼ばれるHadoop分散ファイル・システム(HDFS)を用意しています。
DataStax Enterpriseでは、Cassandraファイル・システム(CFS)と呼ばれるHadoop分散ファイル・システム(HDFS)を用意しています。「DataStax Enterpriseファイル・システム(DSEFS)」も参照してください。 DSEFSはDataStax Enterprise内の新しい分散ファイル・システムで、主にSpark Streamingのユース・ケースとWrite Ahead Logging(WAL)を対象としています。
Analyticsノードが起動すると、DataStax Enterpriseによってcfs:/のルートにデフォルトのCFSが作成され、cfs-archive:/のルートにcfs-archiveという名前のアーカイブ・ファイル・システムが作成されます。CFSは、Analyticsノードでのみ使用可能です。Cassandraでは、cfs-archiveファイル・システムおよびその他すべてのCFSファイル・システムに対してキースペースを作成します。キースペース名はファイル・システム名と似ていますが、名前の中のハイフンはアンダースコアに置き換えられます。たとえば、cfs-archiveファイル・システムのキースペースはcfs_archiveです。
デフォルトのCFSキースペースのレプリケーション係数の増加
デフォルトのCFSキースペースのレプリケーション係数を増加して、分析ジョブを実行する際に問題が発生しないようにする必要があります。
CFSスーパーユーザーの構成
CFSスーパーユーザーとは、DataStax Enterpriseを起動するユーザーであるDataStax Enterpriseデーモン・ユーザーです。CQLのCREATE ROLEコマンドを使用して設定するcassandraのスーパーユーザーも、CFSスーパーユーザーです。
CFSスーパーユーザーは、一切の制約を受けずにCFS内のファイルを変更できます。スーパーユーザーがCFSに追加するファイルはパスワードで保護されます。
CFSからのファイルの削除
dse hadoop fs -rm file
コマンドが使用された場合、Cassandraではディスクから即座に削除済みデータを除去しません。その代わりに、削除済みのデータは、Cassandraから削除されたデータと同じように取り扱われます。トゥームストーンが書き込まれ、新しいデータ・ステータスが示されます。トゥームストーンでマークされたデータは、テーブルに設定されたgc_grace_secondsの値に定義された構成期間中存続します。猶予期間が過ぎると、コンパクション・プロセスによってデータが恒久的に削除されます。期限切れのデータを手動で削除する必要はありません。
CFSによるチェックポイント
DataStax Enterpriseでは、CFSのチェックポイントをサポートしていません。
CFSの整合性レベルの管理
CFSのデフォルトの読み取りと書き込みの整合性レベルは、キースペースのレプリケーション・ストラテジがSimpleStrategyまたはNetworkTopologyStrategyのどちらであるかによって、それぞれLOCAL_QUORUMまたはQUORUMになります。整合性レベルを変更するには、core-site.xmlファイル内のdse.consistencylevel.readプロパティとdse.consistencylevel.writeプロパティの値を指定します。
複数のCassandraファイル・システムの使用
- 分析ジョブを分離するため
- キースペースのレプリケーションをジョブごとに構成するため
- 異なる物理データ・センター内のファイル・システムを分離するため
- 分析データをその他の方法で分離するため
手順
追加のCFSを作成するには、次のようにします。