dse spark
Sparkシェルを起動します。
spark-defaults.conf
spark-defaults.confファイルのデフォルトの場所は、インストールのタイプによって異なります。パッケージ・インストール | /etc/dse/spark/spark-defaults.conf |
tarボール・インストール | installation_location/resources/spark/conf/spark-defaults.conf |
対話型のSparkシェルを起動して、基本的なオートコンプリートを提供します。
制約事項: コマンドは、分析ワークロードを実行するノードでのみサポートされています。
DSEでのSparkの使用の詳細については、以下を参照してください。
構文
dse connection_options spark [-framework dse|spark-2.0] [--help] [--verbose] [--conf name=spark.value|sparkproperties.conf] [--executor-memory mem] [--jars additional-jars] [--master dse://?appReconnectionTimeoutSeconds=secs] [--properties-file path_to_properties_file] [--total-executor-cores cores] [-i app_script_file]
構文規則 | 説明 |
---|---|
大文字 | リテラル・キーワード。 |
小文字 | リテラル以外。 |
Italics |
変数値。有効なオプションまたはユーザー定義値と置き換えます。 |
[ ] |
任意。角かっこ( [] )で任意のコマンド引数を囲みます。角かっこは入力しないでください。 |
( ) |
グループ。丸かっこ(( ) )は、選択肢を含むグループを示します。丸かっこは入力しないでください。 |
| |
または。縦棒(| )で代替要素を区切ります。要素のいずれかを入力してください。縦棒は入力しないでください。 |
... |
繰り返し可能。省略記号(... )は、構文要素を必要な回数だけ繰り返すことができることを示します。 |
'Literal string' |
単一引用符( ' )でCQL文内のリテラル文字を囲みます。大文字を維持するには、単一引用符を使用します。 |
{ key:value } |
マップ・コレクション。中かっこ( { } )でマップ・コレクションまたはキーと値のペアを囲みます。コロンでキーと値を区切ります。 |
<datatype1,datatype2> |
セット、リスト、マップ、またはタプル。山かっこ(< > )で、セット、リスト、マップまたはタプル内のデータ型を囲みます。データ型をカンマで区切ります。 |
cql_statement; |
CQL文の終了。セミコロン( ; )ですべてのCQL文を終了します。 |
[ -- ] |
コマンドライン・オプションとコマンド引数は、2つのハイフン(-- )で区切ります。この構文は、引数がコマンドライン・オプションと間違われる可能性がある場合に役立ちます。 |
' <schema> ...</schema> ' |
検索CQLのみ:単一引用符( ' )でXMLスキーマ宣言全体を囲みます。 |
@xml_entity='xml_entity_type' |
検索CQLのみ:スキーマ・ファイルおよびsolrconfigファイル内のXML要素を上書きする実体とリテラル値を示します。 |
通常、Sparkサブミット引数(--submission_args
)は、システム・プロパティである-Dname=value
や、classpathなどの他のVMパラメーターに変換されます。アプリケーション引数(-app_args
)はアプリケーションに直接渡されます。
次の引数を使用してSparkシェルを構成します。
- --conf name=spark.value|sparkproperties.conf
- Spark構成に対する任意のSparkオプション。プレフィックスsparkが付きます。
- name-spark.value
- sparkproperties.conf - 構成
- --executor-memory mem
- アプリケーション用にエグゼキューターが消費できるメモリー容量。Sparkでは、デフォルト値の512MBが使用されます。k、m、gのいずれかのサフィックスを使用して、メモリー引数をJVM形式で指定します。
- -framework dse|spark-2.0
- Sparkシェルのクラスパス。設定しない場合、デフォルトはdseです。
- dse - すべてのSparkクラスパスを、DSEサーバーによって使用されるものと同じクラスパスに設定します。
- spark-2.0 - 元々オープン・ソースのApache Spark用に作成されたアプリケーションに対応するために、オープン・ソースSpark(OSS)2.0リリースで使用されるクラスパスを設定します。BYOS(Bring Your Own Spark)JARと内部依存関係に対する共有リファレンスを使用して、OSS Sparkからアプリを移植する際の複雑さを排除します。注: コードがDSEで機能する場合、アプリケーションはSpark-2.0のフレームワークを必要としません。spark-2.0フレームワークのフル・サポートでは、追加の依存関係を指定する必要がある場合があります。例:hadoop-awsはdseサーバー・パスに含まれていますが、OSS Spark-2.0クラスパスには存在しません。この例では、S3または他のAWS APIを使用するアプリケーションは、実行時クラスパスに独自のaws-sdkを含める必要があります。この追加の実行時クラスパスは、DSEクラスパスで実行できないアプリケーションにのみ必要です。
- --help
- DataStax Enterprise Sparkシェル・オプション以外のすべてのオプションを含むヘルプ・メッセージを表示します。
- -i app_script_file
- 指定されたファイルからスクリプトを実行する、Sparkシェル・アプリケーション引数。
- --jars path_to_additional_jars
- 追加JARファイルへのパスのコンマ区切りリスト。
- --master dse://?appReconnectionTimeoutSeconds=secs
- アプリケーションを送信する場合はカスタムのタイムアウト値です。Sparkアプリケーションで障害が発生したときに役立ちます。デフォルトのタイムアウト値は5秒です。
- --properties-file path_to_properties_file
- 構成設定が含まれるプロパティ・ファイルの場所。デフォルトで、Sparkはspark-defaults.confから設定を読み込みます。
- --total-executor-cores cores
- アプリケーションが使用するコアの総数。
- --verbose
- どの引数がSpark構成オプションとして認識され、どの引数がSparkシェルに転送されるかを表示します。
例
Sparkシェルを起動する
dse spark
大文字小文字を区別してSparkシェルを起動する
DseGraphFrameとSpark SQLは、デフォルトでは大文字と小文字が区別されません。大文字と小文字のみが異なるカラム名では、競合が起きます。Sparkプロパティのspark.sql.caseSensitive=true
は、大文字小文字の区別の競合を避けます。
dse spark --conf spark.sql.caseSensitive=true
タイムアウト値を10秒に設定する
dse spark --master dse://?appReconnectionTimeoutSeconds=10
トラブルシューティングに便利です。「Detecting Spark application failures(Sparkアプリケーションの障害の検出)」を参照してください。