Spark MLlibデモ・アプリケーションの実行

Spark MLlibデモ・アプリケーションは、SparkおよびCassandraを使用してマシン・ラーニング分析ジョブを実行する方法を示します。

Spark MLlibデモ・アプリケーションは、SparkおよびCassandraを使用してマシン・ラーニング分析ジョブを実行する方法を示します。このデモでは、アイリスの花のデータ・セットを使用して、典型的なアイリスの花の分類問題を解決します。アプリケーションではアイリスの花のデータ・セットを使用して、4つの特徴の測定に基づいて花を認識するNaive Bayes分類子を構築します。

始める前に

Spark MLlibジョブを実行する前に、BLASライブラリをマシンにインストールすることを強くお勧めします。BLASライブラリをプラットフォームにインストールする方法については、「https://github.com/fommil/netlib-java/blob/master/README.md#machine-optimised-system-libraries」を参照してください。

BLASライブラリはライセンスの制約があるためにDataStax Enterpriseに同梱されていませんが、MLlibのパフォーマンスを大幅に向上させます。

デモを構築するには、Gradle構築ツールがインストールされている必要があります。使用しているOSにGradleをインストールする方法の詳細については、https://gradle.org/を参照してください。

手順

  1. ノードをAnalyticsモードで起動します。
  2. ターミナルで、Sparkデモ・ディレクトリーに含まれているspark-mlibディレクトリーに移動します。
    Sparkデモのデフォルトの場所は、インストールのタイプによって異なります。
    Installer-Servicesおよびパッケージ・インストール /usr/share/dse/demos/spark
    Installer-No Servicesおよびtarボール・インストール install_location/demos/spark
  3. gradle構築ツールを使用してアプリケーションを構築します。
    gradle
  4. spark-submitを使用してアプリケーションJARを送信します。

    Spark MLlibデモ・アプリケーションが、各ノードにあるSpark demo directory/spark-mllib/iris.csvファイルを読み取ります。このファイルには、各ノードの同じ場所でアクセスできるようになっている必要があります。一部のノードが同じローカル・ファイル・パスを使用していない場合は、クラスター内のすべてのノードにアクセスできる共有ネットワーク場所を設定します。

    各ノードがiris.csvの同じローカル場所にアクセスできるアプリケーションを実行するには、次のコマンドを指定します。

    dse spark-submit NaiveBayesDemo.jar

    iris.csvの共有場所を指定するには、次のコマンドを実行します。

    dse spark-submit NaiveBayesDemo.jar /mnt/shared/iris.csv