リモート・クラスターに対するSparkコマンドの実行

リモート・クラスターに対してSparkコマンドを実行するには、いずれかのリモート・ノードからローカル・クライアント・マシンにDSE構成をエクスポートする必要があります。

リモート・クラスターに対してSparkコマンドを実行するには、いずれかのリモート・ノードからローカル・クライアント・マシンにDSE構成をエクスポートする必要があります。

Hadoop構成ファイルのデフォルトの場所は、インストールのタイプによって異なります。
Installer-Servicesおよびパッケージ・インストール /etc/dse/hadoop/conf

/etc/dse/resources/hadoop2-client/conf

Installer-No Servicesおよびtarボール・インストール install_location/resources/hadoop/conf/

install_location/resources/hadoop2-client/conf

ドライバー・アプリケーションをリモートで実行するには、リモート・ノードとクライアント・マシン間に完全なパブリック・ネットワーク通信が確立されている必要があります。

手順

  1. DataStax Enterpriseクライアント構成をリモート・ノードからクライアント・ノードにエクスポートします。
    1. リモート・ノードで次のコマンドを実行します。
      dse client-tool configuration export dse-config.jar
    2. エクスポートされたJARをクライアント・ノードにコピーします。
      scp dse-config.jar user@clientnode1.example.com:
    3. クライアント・ノードで次のコマンドを実行します。
      dse client-tool configuration import dse-config.jar
  2. Sparkコマンドをリモート・ノードに対して実行します。
    dse spark-submit submit options myApplication.jar

    ドライバーのホストをパブリックでアクセス可能なIPアドレスに設定するには、spark.driver.hostオプションを渡します。

    dse spark-submit --conf spark.driver.host=IP address myApplication.jar