サードパーティ製ツールでのDSE Sparkの使用と統合

dse execコマンドは、Sparkと統合するサードパーティ製ツールの実行に必要な環境変数を設定します。

dse execコマンドは、Sparkと統合するサードパーティ製ツールの実行に必要な環境変数を設定します。

dse exec command

Jupyterとの統合

DSEノードにJupyterノートブックをダウンロードしてインストールします。

Jupyterノートブックを起動するには、次のようにします。
dse exec jupyter notebook

Jupyterノートブックは、正しいPythonパスから始まります。DSEを操作するためのコンテキストを作成する必要があります。LivyやZeppelinとの統合とは対照的に、Jupyterの統合では、コンテキストを作成するインタプリターは起動しません。

Livyとの統合

DSEノードにLivyをダウンロードしてインストールします。デフォルトでは、SparkはLivyでローカル・モードで実行されます。Livyを起動する前に、conf/livy.conf.templateconf/livy.confにコピーして構成ファイルを作成し、コメントを解除するか、次の2つのプロパティを追加します。

livy.spark.master = dse:///
livy.repl.enable-hive-context = true

Livyを起動するには、次のようにします。

dse exec livy-server

RStudioとの統合

すべてのDSE AnalyticsノードにRをダウンロードしてインストールし、いずれかのノードにRStudioデスクトップをインストールしてRStudioを実行します。

dse exec rstudio

RStudioセッションでSparkセッションを開始します。

library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
sparkR.session()
注: これらの手順は、RStudioサーバーではなく、RStudioデスクトップに使用します。マルチユーザー環境では、SparkRではなくAlwaysOn SQLおよびJDBC接続を使用することをお勧めします。

Zeppelinとの統合

DSEノードにZeppelinをダウンロードしてインストールします。Zeppelinサーバーを起動するには、次のようにします。

dse exec zeppelin.sh

デフォルトでは、SparkはZeppelinでローカル・モードで実行されます。[インタプリタ構成]ページで、Sparkセッションでマスター・プロパティをdse:///に更新します。Zeppelinを実行するために構成ファイルを変更する必要はありません。