dse spark

Sparkシェルを起動します。

spark-defaults.conf

spark-defaults.confファイルのデフォルトの場所は、インストールのタイプによって異なります。
パッケージ・インストール /etc/dse/spark/spark-defaults.conf
tarボール・インストール installation_location/resources/spark/conf/spark-defaults.conf

対話型のSparkシェルを起動して、基本的なオートコンプリートを提供します。

制約事項: コマンドは、分析ワークロードを実行するノードでのみサポートされています。

構文

dse connection_options spark 
[-framework dse|spark-2.0] [--help] [--verbose]
[--conf name=spark.value|sparkproperties.conf] 
[--executor-memory mem]
[--jars additional-jars]
[--master dse://?appReconnectionTimeoutSeconds=secs]
[--properties-file path_to_properties_file]
[--total-executor-cores cores]
[-i app_script_file]
1. 凡例
構文規則 説明
大文字 リテラル・キーワード。
小文字 リテラル以外。
Italics 変数値。有効なオプションまたはユーザー定義値と置き換えます。
[ ] 任意。角かっこ( [] )で任意のコマンド引数を囲みます。角かっこは入力しないでください。
( ) グループ。丸かっこ(( ))は、選択肢を含むグループを示します。丸かっこは入力しないでください。
| または。縦棒(|)で代替要素を区切ります。要素のいずれかを入力してください。縦棒は入力しないでください。
... 繰り返し可能。省略記号(...)は、構文要素を必要な回数だけ繰り返すことができることを示します。
'Literal string' 単一引用符( ' )でCQL文内のリテラル文字を囲みます。大文字を維持するには、単一引用符を使用します。
{ key:value } マップ・コレクション。中かっこ( { } )でマップ・コレクションまたはキーと値のペアを囲みます。コロンでキーと値を区切ります。
<datatype1,datatype2> セット、リスト、マップ、またはタプル。山かっこ(< >)で、セット、リスト、マップまたはタプル内のデータ型を囲みます。データ型をカンマで区切ります。
cql_statement; CQL文の終了。セミコロン( ; )ですべてのCQL文を終了します。
[ -- ] コマンドライン・オプションとコマンド引数は、2つのハイフン(--)で区切ります。この構文は、引数がコマンドライン・オプションと間違われる可能性がある場合に役立ちます。
' <schema> ...</schema> ' 検索CQLのみ:単一引用符( ' )でXMLスキーマ宣言全体を囲みます。
@xml_entity='xml_entity_type' 検索CQLのみ:スキーマ・ファイルおよびsolrconfigファイル内のXML要素を上書きする実体とリテラル値を示します。

通常、Sparkサブミット引数(--submission_args)は、システム・プロパティである-Dname=valueや、classpathなどの他のVMパラメーターに変換されます。アプリケーション引数(-app_args)はアプリケーションに直接渡されます。

次の引数を使用してSparkシェルを構成します。

--conf name=spark.value|sparkproperties.conf
Spark構成に対する任意のSparkオプション。プレフィックスsparkが付きます。
  • name-spark.value
  • sparkproperties.conf - 構成
--executor-memory mem
アプリケーション用にエグゼキューターが消費できるメモリー容量。Sparkでは、デフォルト値の512MBが使用されます。k、m、gのいずれかのサフィックスを使用して、メモリー引数をJVM形式で指定します。
-framework dse|spark-2.0
Sparkシェルのクラスパス。設定しない場合、デフォルトはdseです。
  • dse - すべてのSparkクラスパスを、DSEサーバーによって使用されるものと同じクラスパスに設定します。
  • spark-2.0 - 元々オープン・ソースのApache Spark用に作成されたアプリケーションに対応するために、オープン・ソースSpark(OSS)2.0リリースで使用されるクラスパスを設定します。BYOS(Bring Your Own Spark)JARと内部依存関係に対する共有リファレンスを使用して、OSS Sparkからアプリを移植する際の複雑さを排除します。
    注: コードがDSEで機能する場合、アプリケーションはSpark-2.0のフレームワークを必要としません。spark-2.0フレームワークのフル・サポートでは、追加の依存関係を指定する必要がある場合があります。例:hadoop-awsはdseサーバー・パスに含まれていますが、OSS Spark-2.0クラスパスには存在しません。この例では、S3または他のAWS APIを使用するアプリケーションは、実行時クラスパスに独自のaws-sdkを含める必要があります。この追加の実行時クラスパスは、DSEクラスパスで実行できないアプリケーションにのみ必要です。
--help
DataStax Enterprise Sparkシェル・オプション以外のすべてのオプションを含むヘルプ・メッセージを表示します。
-i app_script_file
指定されたファイルからスクリプトを実行する、Sparkシェル・アプリケーション引数。
--jars path_to_additional_jars
追加JARファイルへのパスのコンマ区切りリスト。
--master dse://?appReconnectionTimeoutSeconds=secs
アプリケーションを送信する場合はカスタムのタイムアウト値です。Sparkアプリケーションで障害が発生したときに役立ちます。デフォルトのタイムアウト値は5秒です。
--properties-file path_to_properties_file
構成設定が含まれるプロパティ・ファイルの場所。デフォルトで、Sparkはspark-defaults.confから設定を読み込みます。
--total-executor-cores cores
アプリケーションが使用するコアの総数。
--verbose
どの引数がSpark構成オプションとして認識され、どの引数がSparkシェルに転送されるかを表示します。

Sparkシェルを起動する

dse spark

大文字小文字を区別してSparkシェルを起動する

DseGraphFrameとSpark SQLは、デフォルトでは大文字と小文字が区別されません。大文字と小文字のみが異なるカラム名では、競合が起きます。Sparkプロパティのspark.sql.caseSensitive=trueは、大文字小文字の区別の競合を避けます。

dse spark --conf spark.sql.caseSensitive=true

タイムアウト値を10秒に設定する

dse spark --master dse://?appReconnectionTimeoutSeconds=10

トラブルシューティングに便利です。「Detecting Spark application failures(Sparkアプリケーションの障害の検出)」を参照してください。