WebインターフェースでのSparkの監視
Spark WebインターフェースはDataStax Enterpriseにバンドルされています。Spark Webインターフェースは、Sparkの監視、デバッグ、および管理を容易にします。
DataStax EnterpriseにバンドルされているWebインターフェイスを使用すると、Sparkの監視、デバッグ、および管理を容易に行うことができます。
注: ユーザー認証情報がdseコマンド・ラインで
dse -u username -p
password
のようにプレーン・テキストで指定されると、ドライバーがクラスター・モードで実行されているときに認証情報がSparkワーカーのログに表示されます。ヒント:認証情報を複数の方法で提供できます。「認証情報」を参照してください。Sparkマスター、Sparkワーカー、エグゼキューター、およびドライバーのログには機密情報が含まれている場合があります。機密情報には、コマンド・ラインやSpark構成で渡される、Kerberos認証モード用のパスワードやダイジェスト認証トークンが含まれます。DataStaxでは、VPNやSSHなどの安全な通信チャネルのみを使用してSparkユーザー・インターフェースにアクセスすることを推奨しています。
Spark Webインターフェースの使用
Spark Webインターフェースを使用するには、次の操作を実行します。
監視の更新については、Sparkのドキュメントを参照してください。
- ブラウザーにSparkマスター・ノードのパブリックIPアドレスを入力し、その後にポート番号7080を入力します。
- ポートを変更するには、spark-env.sh構成ファイルを変更します。
監視の更新については、Sparkのドキュメントを参照してください。
Sparkワーカー・ノードおよびデバッグのログ
- Sparkマスター・ノードのページで、ワーカー・ノードのID(この例ではworker-20140314184018-10.168.193.41-41345)をクリックすると、そのノードに関する[Spark Worker]ページが表示されます。このWebインターフェイスには、実行中のアプリに関する詳細な情報が表示されます。
この例では、[Workers]セクションには3つの登録済みノードが一覧表示されます。ページ左上隅に表示される、誤解を招く恐れのあるサマリー情報には、アライブ・ワーカーとデッド・ワーカーが含まれています。
- デバッグ情報を取得するには、[Logs]カラムのstdoutまたはstderrリンクをクリックします。
アプリケーション:Sparkシェル
Sparkコンテキストを起動すると、デバッグに役立つ、ワーカーのステータス情報が表示されます。このインターフェイスには、実行中のアプリに必要なメモリーも表示されるため、どのアプリを実行してニーズを満たすべきかを調整することができます。
Sparkのステージ:アプリケーションの進捗状況
- 実行中のアプリケーションの進捗状況を表示するには、アプリケーション名をクリックし、実行されたすべてのクエリーの詳細情報を確認します。情報には、デバッグに役立つことのあるデータの分散方法が含まれます。
- ポートでは、Sparkのステージを確認できます(ポート番号は、ここに示す4040であるとは限りません)。
複数のアプリケーションを同時に実行する場合、Sparkは4040以降のポート(4040、4041など)の使用を試みます。