DataStax EnterpriseでSparkRを使用する

Apache SparkRは、Rプログラミング言語のフロント・エンドで、分析アプリケーションを作成します。DataStax EnterpriseはSparkRを統合し、DSEデータからデータ・フレームの作成をサポートします。

Apache SparkRは、Rプログラミング言語のフロント・エンドで、分析アプリケーションを作成します。DataStax EnterpriseはSparkRを統合し、DSEデータからデータ・フレームの作成をサポートします。

DSEでSparkRを使用できるようにするには、SparkRを使用する際に、最初にRをクライアント・マシンにインストールする必要があります。Rユーザー定義の機能と分散された機能を使用するには、同じバージョンのRをAnalyticsクラスター内のすべてのノードにインストールする必要があります。DSE SparkRは、Rバージョン3.1.1に対して構築されています。多くのLinuxディストリビューションでは、デフォルトで古いバージョンのRがインストールされます。

たとえば、DebianやUbuntuクライアントでは次のようになります。

sudo sh -c 'echo "deb http://cran.rstudio.com/bin/linux/ubuntu trusty/" >> /etc/apt/sources.list' && 
gpg --keyserver keyserver.ubuntu.com --recv-key E084DAB9 && 
gpg -a --export E084DAB9 | sudo apt-key add - && 
sudo apt-get update && 
sudo apt-get install r-base

RedHatやCentOSクライアントでは次のようになります。

sudo yum install R

SparkRの起動

dseコマンドを使用してSparkRシェルを起動し、R内でSparkセッションを自動的に設定します。

  1. dseコマンドを使用して、Rシェルを起動します。
    dse sparkR