Spark MLlibデモ・アプリケーションを実行する
Spark MLlibデモ・アプリケーションは、SparkおよびDataStax Enterpriseを使用したマシン・ラーニングによる分析ジョブの実行方法を示します。
Spark MLlibデモ・アプリケーションは、SparkおよびDataStax Enterpriseを使用したマシン・ラーニングによる分析ジョブの実行方法を示します。デモでは、アイリス・フラワー・データ・セットを使用して、従来のアイリスの花の分類の問題を解消します。アプリケーションは、アイリスのフラワー・データ・セットを使用して、4つの機能測定値に基づいて、花を認識するナイーブ・ベイズ分類器を構築します。
始める前に
ご使用のマシンにBLASライブラリをインストールしてから、Spark MLlibジョブを実行することを強く推奨します。ご使用のプラットフォームにBLASライブラリをインストールする手順については、https://github.com/fommil/netlib-java/blob/master/README.md#machine-optimised-system-librariesを参照してください。
ライセンス上の制約により、BLASライブラリはDSEでは分散されませんが、MLlibのパフォーマンスは大幅に向上します。
デモを構築するには、Gradleビルド・ツールをインストールする必要があります。ご使用のOSにGradleをインストールする際の詳細については、https://gradle.org/を参照してください。
手順
-
ノードを分析モードで起動します。
- パッケージ・インストール: 「DataStax Enterpriseをサービスとして起動」を参照してください。
- tarボール・インストール: 「DataStax Enterpriseをスタンドアローン・プロセスとして起動」を参照してください。
-
ターミナルで、Sparkデモ・ディレクトリー内のspark-mlibディレクトリーに移動します。
Sparkのデモのデフォルトの場所は、インストールのタイプによって異なります。
- パッケージ・インストール:/usr/share/dse/demos/portfolio_manager
- tarボール・インストール:installation_location/demos/portfolio_manager
-
gradle
ビルド・ツールを使用して、アプリケーションを構築します。gradle
-
spark-submit
を使用して、アプリケーションJARを送信します。Spark MLlibデモ・アプリケーションは、各ノードのSpark demo directory/spark-mllib/iris.csvファイルを読み取ります。このファイルは、各ノードの同じ場所でアクセス可能である必要があります。ローカル・ファイル・パスが異なるノードがある場合は、クラスター内のすべてのノードにアクセス可能な共有ネットワーク・ロケーションを設定します。
各ノードが同じローカルのiris.csvの場所にアクセスできる場所でアプリケーションを実行するには、次のようにします。
dse spark-submit NaiveBayesDemo.jar
iris.csvの共有された場所を指定するには、次のようにします。
dse spark-submit NaiveBayesDemo.jar /mnt/shared/iris.csv