WebインターフェースでのSparkの監視

Spark WebインターフェースはDataStax Enterpriseにバンドルされています。Spark Webインターフェースは、Sparkの監視、デバッグ、および管理を容易にします。

DataStax EnterpriseにバンドルされているWebインターフェイスを使用すると、Sparkの監視、デバッグ、および管理を容易に行うことができます。

注: ユーザー認証情報がdseコマンド・ラインでdse -u username -p passwordのようにプレーン・テキストで指定されると、ドライバーがクラスター・モードで実行されているときに認証情報がSparkワーカーのログに表示されます。ヒント:認証情報を複数の方法で提供できます。「認証情報」を参照してください。

Sparkマスター、Sparkワーカー、エグゼキューター、およびドライバーのログには機密情報が含まれている場合があります。機密情報には、コマンド・ラインやSpark構成で渡される、Kerberos認証モード用のパスワードやダイジェスト認証トークンが含まれます。DataStaxでは、VPNやSSHなどの安全な通信チャネルのみを使用してSparkユーザー・インターフェースにアクセスすることを推奨しています。

Spark Webインターフェースの使用

Spark Webインターフェースを使用するには、次の操作を実行します。
  • ブラウザーにSparkマスター・ノードのパブリックIPアドレスを入力し、その後にポート番号7080を入力します。
  • ポートを変更するには、spark-env.sh構成ファイルを変更します。


監視の更新については、Sparkのドキュメントを参照してください。

Sparkワーカー・ノードおよびデバッグのログ 

  • Sparkマスター・ノードのページで、ワーカー・ノードのID(この例ではworker-20140314184018-10.168.193.41-41345)をクリックすると、そのノードに関する[Spark Worker]ページが表示されます。このWebインターフェイスには、実行中のアプリに関する詳細な情報が表示されます。

    この例では、[Workers]セクションには3つの登録済みノードが一覧表示されます。ページ左上隅に表示される、誤解を招く恐れのあるサマリー情報には、アライブ・ワーカーとデッド・ワーカーが含まれています。



  • デバッグ情報を取得するには、[Logs]カラムのstdoutまたはstderrリンクをクリックします。

アプリケーション:Sparkシェル

Sparkコンテキストを起動すると、デバッグに役立つ、ワーカーのステータス情報が表示されます。このインターフェイスには、実行中のアプリに必要なメモリーも表示されるため、どのアプリを実行してニーズを満たすべきかを調整することができます。



Sparkのステージ:アプリケーションの進捗状況

  • 実行中のアプリケーションの進捗状況を表示するには、アプリケーション名をクリックし、実行されたすべてのクエリーの詳細情報を確認します。情報には、デバッグに役立つことのあるデータの分散方法が含まれます。
  • ポートでは、Sparkのステージを確認できます(ポート番号は、ここに示す4040であるとは限りません)。

    複数のアプリケーションを同時に実行する場合、Sparkは4040以降のポート(4040、4041など)の使用を試みます。