Spark MLlibデモ・アプリケーションを実行する

Spark MLlibデモ・アプリケーションは、SparkおよびDataStax Enterpriseを使用したマシン・ラーニングによる分析ジョブの実行方法を示します。

Spark MLlibデモ・アプリケーションは、SparkおよびDataStax Enterpriseを使用したマシン・ラーニングによる分析ジョブの実行方法を示します。デモでは、アイリス・フラワー・データ・セットを使用して、従来のアイリスの花の分類の問題を解消します。アプリケーションは、アイリスのフラワー・データ・セットを使用して、4つの機能測定値に基づいて、花を認識するナイーブ・ベイズ分類器を構築します。

始める前に

ご使用のマシンにBLASライブラリをインストールしてから、Spark MLlibジョブを実行することを強く推奨します。ご使用のプラットフォームにBLASライブラリをインストールする手順については、https://github.com/fommil/netlib-java/blob/master/README.md#machine-optimised-system-librariesを参照してください。

ライセンス上の制約により、BLASライブラリはDSEでは分散されませんが、MLlibのパフォーマンスは大幅に向上します。

デモを構築するには、Gradleビルド・ツールをインストールする必要があります。ご使用のOSにGradleをインストールする際の詳細については、https://gradle.org/を参照してください。

手順

  1. Analyticsモードで、ノードを起動します。
  2. ターミナルで、Sparkデモ・ディレクトリー内のspark-mlibディレクトリーに移動します。
    Sparkのデモのデフォルトの場所は、インストールのタイプによって異なります。
    • パッケージ・インストールおよびInstaller-Services:/usr/share/dse/demos/portfolio_manager
    • tarボール・インストールおよびInstaller-No Services:installation_location/demos/portfolio_manager
  3. gradleビルド・ツールを使用して、アプリケーションを構築します。
    $ gradle
  4. spark-submitを使用して、アプリケーションJARを送信します。

    Spark MLlibデモ・アプリケーションは、各ノードのSpark demo directory/spark-mllib/iris.csvファイルを読み取ります。このファイルは、各ノードの同じ場所でアクセス可能である必要があります。ローカル・ファイル・パスが異なるノードがある場合は、クラスター内のすべてのノードにアクセス可能な共有ネットワーク・ロケーションを設定します。

    各ノードが同じローカルのiris.csvの場所にアクセスできる場所でアプリケーションを実行するには、次のようにします。

    $ dse spark-submit NaiveBayesDemo.jar

    iris.csvの共有された場所を指定するには、次のようにします。

    $ dse spark-submit NaiveBayesDemo.jar /mnt/shared/iris.csv