Spark MLlibデモ・アプリケーションの実行

Spark MLlibデモ・アプリケーションは、SparkおよびCassandraを使用してマシン・ラーニング分析ジョブを実行する方法を示します。

Spark MLlibデモ・アプリケーションは、SparkおよびCassandraを使用してマシン・ラーニング分析ジョブを実行する方法を示します。このデモでは、アイリスの花のデータ・セットを使用して、典型的なアイリスの花の分類問題を解決します。アプリケーションではアイリスの花のデータ・セットを使用して、4つの特徴の測定に基づいて花を認識するNaive Bayes分類子を構築します。

始める前に

Spark MLlibジョブを実行する前に、BLASライブラリをマシンにインストールすることを強くお勧めします。BLASライブラリをプラットフォームにインストールする方法については、「https://github.com/fommil/netlib-java/blob/master/README.md#machine-optimised-system-libraries」を参照してください。

BLASライブラリはライセンスの制約があるためにDataStax Enterpriseに同梱されていませんが、MLlibのパフォーマンスを大幅に向上させます。

デモを構築するには、Gradle構築ツールがインストールされている必要があります。使用しているOSにGradleをインストールする方法の詳細については、https://gradle.org/を参照してください。

手順

ノードをAnalyticsモードで起動します。
- Installer-Servicesおよびパッケージのインストール：「DataStax Enterpriseをサービスとして起動」を参照してください。
- Installer-No Servicesおよびtarボールのインストール：「DataStax Enterpriseをスタンドアローン・プロセスとして起動」を参照してください。

ターミナルで、Sparkデモ・ディレクトリーに含まれているspark-mlibディレクトリーに移動します。

Sparkデモのデフォルトの場所は、インストールのタイプによって異なります。

Installer-Servicesおよびパッケージ・インストール	/usr/share/dse/demos/spark
Installer-No Servicesおよびtarボール・インストール	`install_location`/demos/spark

gradle構築ツールを使用してアプリケーションを構築します。
```
gradle
```
spark-submitを使用してアプリケーションJARを送信します。

Spark MLlibデモ・アプリケーションが、各ノードにあるSpark demo directory/spark-mllib/iris.csvファイルを読み取ります。このファイルには、各ノードの同じ場所でアクセスできるようになっている必要があります。一部のノードが同じローカル・ファイル・パスを使用していない場合は、クラスター内のすべてのノードにアクセスできる共有ネットワーク場所を設定します。
各ノードがiris.csvの同じローカル場所にアクセスできるアプリケーションを実行するには、次のコマンドを指定します。
```
dse spark-submit NaiveBayesDemo.jar
```
iris.csvの共有場所を指定するには、次のコマンドを実行します。
```
dse spark-submit NaiveBayesDemo.jar /mnt/shared/iris.csv
```