DataStax EnterpriseでSparkRを使用する
Apache SparkRは、Rプログラミング言語のフロント・エンドで、分析アプリケーションを作成します。DataStax EnterpriseはSparkRを統合し、DSEデータからデータ・フレームの作成をサポートします。
Apache SparkRは、Rプログラミング言語のフロント・エンドで、分析アプリケーションを作成します。DataStax EnterpriseはSparkRを統合し、DSEデータからデータ・フレームの作成をサポートします。
DSEでSparkRを使用できるようにするには、SparkRを使用する際に、最初にRをクライアント・マシンにインストールする必要があります。Rユーザー定義の機能と分散された機能を使用するには、同じバージョンのRをAnalyticsクラスター内のすべてのノードにインストールする必要があります。DSE SparkRは、Rバージョン3.1.1に対して構築されています。多くのLinuxディストリビューションでは、デフォルトで古いバージョンのRがインストールされます。
たとえば、DebianやUbuntuクライアントでは次のようになります。
sudo sh -c 'echo "deb http://cran.rstudio.com/bin/linux/ubuntu trusty/" >> /etc/apt/sources.list' && gpg --keyserver keyserver.ubuntu.com --recv-key E084DAB9 && gpg -a --export E084DAB9 | sudo apt-key add - && sudo apt-get update && sudo apt-get install r-base
RedHatやCentOSクライアントでは次のようになります。
sudo yum install R
SparkRの起動
dseコマンドを使用してSparkRシェルを起動し、R内でSparkセッションを自動的に設定します。
dse
コマンドを使用して、Rシェルを起動します。dse sparkR