Spark MLlibデモ・アプリケーションを実行する

Spark MLlibデモ・アプリケーションは、SparkおよびDataStax Enterpriseを使用したマシン・ラーニングによる分析ジョブの実行方法を示します。

Spark MLlibデモ・アプリケーションは、SparkおよびDataStax Enterpriseを使用したマシン・ラーニングによる分析ジョブの実行方法を示します。デモでは、アイリス・フラワー・データ・セットを使用して、従来のアイリスの花の分類の問題を解消します。アプリケーションは、アイリスのフラワー・データ・セットを使用して、4つの機能測定値に基づいて、花を認識するナイーブ・ベイズ分類器を構築します。

始める前に

ご使用のマシンにBLASライブラリをインストールしてから、Spark MLlibジョブを実行することを強く推奨します。ご使用のプラットフォームにBLASライブラリをインストールする手順については、https://github.com/fommil/netlib-java/blob/master/README.md#machine-optimised-system-librariesを参照してください。

ライセンス上の制約により、BLASライブラリはDSEでは分散されませんが、MLlibのパフォーマンスは大幅に向上します。

デモを構築するには、Gradleビルド・ツールをインストールする必要があります。ご使用のOSにGradleをインストールする際の詳細については、https://gradle.org/を参照してください。

手順

ノードを分析モードで起動します。
- パッケージ・インストール：「DataStax Enterpriseをサービスとして起動」を参照してください。
- tarボール・インストール：「DataStax Enterpriseをスタンドアローン・プロセスとして起動」を参照してください。
ターミナルで、Sparkデモ・ディレクトリー内のspark-mlibディレクトリーに移動します。
Sparkのデモのデフォルトの場所は、インストールのタイプによって異なります。
- パッケージ・インストール：/usr/share/dse/demos/portfolio_manager
- tarボール・インストール：installation_location/demos/portfolio_manager
gradleビルド・ツールを使用して、アプリケーションを構築します。
```
gradle
```
spark-submitを使用して、アプリケーションJARを送信します。

Spark MLlibデモ・アプリケーションは、各ノードのSpark demo directory/spark-mllib/iris.csvファイルを読み取ります。このファイルは、各ノードの同じ場所でアクセス可能である必要があります。ローカル・ファイル・パスが異なるノードがある場合は、クラスター内のすべてのノードにアクセス可能な共有ネットワーク・ロケーションを設定します。
各ノードが同じローカルのiris.csvの場所にアクセスできる場所でアプリケーションを実行するには、次のようにします。
```
dse spark-submit NaiveBayesDemo.jar
```
iris.csvの共有された場所を指定するには、次のようにします。
```
dse spark-submit NaiveBayesDemo.jar /mnt/shared/iris.csv
```