アラート・メトリクス

OpsCenterの[Alerts]領域で、Cassandraクラスター全体、テーブル、オペレーティング・システムのメトリクスについてアラートしきい値を構成します。この予防的な監視機能は、DataStax Enterpriseクラスターに使用できます。

OpsCenterの[Alerts]領域で、Cassandraクラスター全体、テーブル、オペレーティング・システムのメトリクスについてアラートしきい値を構成します。この予防的な監視機能は、DataStax Enterpriseクラスターに使用できます。

一般的に監視されているアラート・メトリクス

一般的に監視されているメトリクスは、[Add Alert]ダイアログの[Notify me when]のメインの選択メニューから選択できます。

メトリクス 定義
Node down ノードが要求に応答しない場合、OpsCenterはダウンしているノードとしてマークします。各エージェントはノードがダウンしているかどうかを判断するために、JMX経由で返されるCassandraからの情報に基づいて、ダウンしている疑いのあるノードのリストを取得します。その情報に基づき、Opscenterdは他のノードから報告されたステータスにより、ノードが本当にダウンしているのか、またはノードでフラッピングが発生しているだけで、他のすべてのノードがダウンしていると誤った報告をしているのかを判断します。ダウン・ステータスとマークされたノードは、[Nodes]のリング・ビューにわかりやすく表示されます。さらに気付きやすくするための詳しい手順については、「ダウンしているノードについてのアラートの追加」を参照してください。
Write requests 1秒あたりの書き込み要求数。指定された期間の書き込み数を監視することで、システムの書き込みワークロードと使用パターンを理解できます。
Write request latency 正常な書き込み操作の応答時間(ミリ秒)。期間は、ノードがクライアントの書き込み要求を受け取った時点から、ノードがクライアントに応答した時点までです。
Read requests 1秒あたりの読み取り要求数。指定された期間の読み取り数を監視することで、システムの読み取りワークロードと使用パターンを理解できます。
Read request latency 正常な読み取り操作の応答時間(ミリ秒)。期間は、ノードがクライアントの読み取り要求を受け取った時点から、ノードがクライアントに応答した時点までです。
CPU usage CPUがビジー状態だった時間の割合。CPUがアイドル状態だった時間の割合を100パーセントから減算して算出します。
Load 負荷は、コンピューター・システムが実行する仕事量を測る基準の1つです。アイドル状態のコンピューターの負荷数は0で、各プロセスがCPU時間を消費している、または処理待ちの状態にあると負荷数が1ずつ増加します。

高度なCassandraアラート・メトリクス

高度なCassandraメトリクスにアクセスするには、[Add Alert]ダイアログで[Advanced] > [Cassandra]を選択します。

メトリクス 定義
Heap max CassandraプロセスのJVMヒープに割り当てられている共有メモリーの最大量。
Heap used CassandraプロセスのJVMヒープで使用されている共有メモリーの量。
JVM CMS collection count JVMが1秒あたりに実行したコンカレント・マーク・スイープ(CMS)のガーベージ・コレクションの数。
JVM ParNew collection count JVMが1秒あたりに実行した新世代のパラレル・ガーベージ・コレクションの数。
JVM CMS collection time CMSガーベージを収集するのにかかった時間(1秒あたりのミリ秒数、ms/sec)。
JVM ParNew collection time ParNewガーベージ・コレクションの実行にかかった時間(ms/sec)。
Data size Cassandraに読み込まれている、または挿入されているテーブル・データのサイズ(ギガバイト)。ストレージ・オーバーヘッドとシステム・メタデータも含まれます。
Compactions pending キューに登録され、実行に必要なシステム・リソースの処理待ちの状態にあるコンパクション操作の数。保留中のコンパクションの最適な数は0(または非常に小さい値)です。0より大きい場合は、読み取り操作がコンパクション操作とのI/O競合状態にあることを示しています。この場合は通常、読み取りパフォーマンスの低下として現れます。
Total bytes compacted コンパクションされたSSTableデータ数(バイト/秒)。
Total compactions 1秒あたりに実行されたコンパクションの数(マイナーまたはメジャー)。
Flush sorter tasks pending フラッシュ・ソーター・プロセスは、SSTableとしてディスクにmemtableをフラッシュするプロセス全体の最初のステップを実行します。保留中のフラッシュの最適な数は0(または非常に小さい値)です。
Flushes pending フラッシュ・プロセスは、SSTableとしてディスクにmemtableをフラッシュします。このメトリクスは、フラッシュ・プロセスのキューに登録されたmemtableの数を示します。保留中のフラッシュの最適な数は0(または非常に小さい値)です。
Gossip tasks pending Cassandraは、ゴシップと呼ばれるプロトコルを使用して、Cassandraクラスターに参加している他のノードの場所と状態に関する情報を探索します。Cassandraでは、ゴシップ・プロセスはノードごとに1秒に1回実行され、クラスター内の最大で3つのノードとの間で状態メッセージを交換します。保留中のゴシップ・タスクは、キューに登録され、送受信の処理待ちの状態にあるゴシップ・メッセージと確認応答の数を示します。保留中のゴシップ・タスクの最適な数は0(または非常に小さい値)です。
Hinted hand-off pending クラスター内のあるノードがオフラインのとき、そのノードを使用できない間に更新された行に関するヒントはクラスター内の他のノードに保存されます。ノードがオンラインに復帰すると、対応するレプリカは欠落している書き込みをそのノードにストリーミングすることで遅れを取り戻します。Hinted hand-off pendingメトリクスは、キューに登録され、障害が発生したノードがオンラインに復帰して配信されるまで待機しているヒントの数を追跡します。しばらくダウンしていたノードがオンラインに復帰すると、保留中のヒントの数が多くなることがよくあります。このメトリクスを表示すると、ノードが復旧して再び整合性が確保された時点を特定するのに役立ちます。
Internal response pending クラスターに対するノードの結合や離脱など、さまざまな内部タスクにおける保留中のタスクの数。
Manual repair tasks pending ノードでアンチエントロピー・リペアを実行する際に、まだ完了していない操作の数。リペアの進行中は、0より大きい値のみが表示されます。リペアの実行中に、保留中のタスク数が大きくなることは珍しくありませんが、タスク数が次第に減っていくことを確認する必要があります。
Memtable postflushers pending memtableポスト・フラッシュ・プロセスは、SSTableとしてディスクにmemtableをフラッシュするプロセス全体の最後のステップを実行します。保留中のフラッシュの最適な数は0(または非常に小さい値)です。
Migrations pending スキーマを変更したシステム・メソッドの保留中のタスクの数。スキーマ更新はすべてのノードに伝播される必要があるので、このメトリクスの保留中のタスクは、スキーマの不一致エラーとして現れることがあります。
Miscellaneous tasks pending 頻繁に実行されないその他の操作の保留中のタスクの数。
Read requests pending クラスターには到着したが、処理待ちの状態にある読み取り要求の数。読み取り負荷が低いか中程度の間は、保留中の読み取り操作の数は0(または非常に小さい値)が表示されます。
Read repair tasks pending キューに登録され、実行に必要なシステム・リソースの処理待ちの状態にある読み取りリペア操作の数。保留中の読み取りリペアの最適な数は0(または非常に小さい値)です。0より大きい場合は、読み取りリペア操作が他の操作とのI/O競合状態にあることを示しています。
Replicate on write tasks pending 行に挿入または更新を書き込む際、影響を受ける行はその行のレプリカを管理する他のすべてのノードにレプリケートされます。これは、ReplicateOnWriteStageと呼ばれます。このメトリクスは、書き込みプロセスのこの段階に関連する保留中のタスクを追跡します。書き込み負荷が低いか中程度の間は、保留中の書き込みレプリケート・タスクの数は0(または非常に小さい値)が表示されます。
Request response pending ブートストラップや使用廃止などの操作時に、あるノードから別のノードに大量の行が送信されると、ノード間でデータのストリーミングが発生します。このメトリクスは、受信ノードから行のストリーミングの進行状況を追跡します。
Streams pending ブートストラップや使用廃止などの操作時に、あるノードから別のノードに大量の行が送信されると、ノード間でデータのストリーミングが発生します。このメトリクスは、送信ノードから行のストリーミングの進行状況を追跡します。
Write requests pending クラスターには到着したが、処理待ちの状態にある書き込み要求の数。書き込み負荷が低いか中程度の間は、保留中の書き込み操作の数は0(または非常に小さい値)が表示されます。

Advanced table alert metrics

高度なテーブル・メトリクスにアクセスするには、[Add Alert]ダイアログで[Advanced] > [Tables]を選択します。

メトリクス 定義
Local writes 1秒あたりの操作数として測定されたテーブルの書き込み負荷。このメトリクスは、他のノードから転送された書き込み要求を含む、指定されたテーブルに対するすべての書き込みが対象となります。
Local write latency テーブルに対する正常な書き込み操作の応答時間(ミリ秒)。期間は、ノードが書き込み要求を受け取った時点から、ノードが応答した時点までです。
Local reads 1秒あたりの操作数として測定されたテーブルの読み取り負荷。このメトリクスは、他のノードから転送された読み取り要求を含む、指定されたテーブルに対するすべての読み取りが対象となります。
Local read latency テーブルに対する正常な読み取り操作の応答時間(ミリ秒)。期間は、ノードが読み取り要求を受け取った時点から、ノードが応答した時点までです。
Table key cache hits キー・キャッシュ内で見つかった要求された行キー内に生成された読み取り要求の数。
Table key cache requests 行キー・キャッシュに対する読み取り要求の総数。
Table key cache hit rate キー・キャッシュ・ヒット率は、キャッシュ・ヒット内で生成されたキャッシュ要求の割合を示し、指定されたテーブルのキー・キャッシュの有効度を表します。
Table row cache hits 行キャッシュで処理された読み取りに生成された読み取り要求の数。
Table row cache requests 行キャッシュに対する読み取り要求の総数。
Table row cache hit rate 行キャッシュ・ヒット率は、キャッシュ・ヒット内で生成されたキャッシュ要求の割合を示し、指定されたテーブルの行キャッシュの有効度を表します。
Table bloom filter space used ディスク上のブルーム・フィルター・ファイルのサイズ。
Table bloom filter false positives ブルーム・フィルターによって行が存在することが報告されたが、実際の絶対数では存在しなかったときに発生する偽陽性の数。
Table bloom filter false positive ratio すべてのブルーム・フィルター・チェックに対する偽陽性の比率。
Live disk used テーブルのライブSSTableの現在のサイズ。時間の経過に伴い、SSTableサイズは書き込み負荷とともに増大することが予想されます。これは、コンパクション・プロセスによりSSTableのサイズが継続的に倍増するためです。このメトリクスとSSTable数を使用して、指定されたテーブルのコンパクションの現在の状態を監視します。
Total disk used 古いオブジェクトによって読み戻されていない領域を含む、テーブルのデータ・ディレクトリーの現在のサイズ。
SSTable count テーブルのSSTableの現在のサイズ。テーブルのmemtableがSSTableとしてディスクに保持されている場合、このメトリクスが構成されている最大値に達すると、コンパクション・サイクルが繰り返されます。このメトリクスと使用中のライブ・ディスク領域を使用して、指定されたテーブルのコンパクションの現在の状態を監視します。
Pending reads and writes テーブルで保留中の読み取りと書き込みの数。保留中の操作がある場合、Cassandraがワークロードに追いついていないことを示しています。値がゼロの場合は、スループットが正常であることを示しています。