DataStax StudioでのSpark SQLの使用

DSEクラスターに対するSpark SQLクエリーの記述、テスト、および実行。

DSEクラスターに保存されているデータを分析するには、Spark SQLリレーショナル・クエリーを使用します。Spark SQLは、分散されたデータ・コレクションにまたがって問い合わせを行うための統一リレーショナル・クエリー言語であり、リレーショナル・データベースで使用されるSQL言語のバリエーションをサポートします。

Spark SQLノートブックの特徴は次のとおりです。

DSEクラスターに対するSpark SQLクエリーを対話形式で実行
スキーマ認識コンテンツ支援
構文検証によって迅速なプロトタイピングを促進

StudioでSpark SQLクエリーを実行するには、以下に従ってください。

DSEクラスターでAlwaysOn SQLサービスを構成する。
「サポートされるSpark SQLの構文」をよく読んでおく。
DataStax Studioで、Spark SQL文の末尾にセミコロン（;）を付ける。

AlwaysOnSQLサービスがオンになっている場合、StudioはJDBCインターフェイスを使用してクエリーをDSE Analyticsに渡します。2つのテーブル、graphName_verticesおよびgraphName_edgesは、各グラフのSparkデータベースdse_graphで自動的に作成されます。graphNameは、Studioノートブックに割り当てられた、Studio接続に使用するグラフに置き換えられます。これらのテーブルは、一般的なSpark SQLコマンドを使用してStudioで直接クエリーを実行することも、dse spark-sqlシェルを使用して探索することもできます。Spark SQLを使用したクエリーの詳細については、ドキュメント「Spark SQLを使用したデータのクエリー」を参照してください。

Studioは、ノートブックに関するチュートリアル「SparkSQLの使用」と共にインストールされます。このチュートリアルには、データを作成してSpark SQLコードをノートブックで実行するための実践的な手順が記載されています。構文とドメインの検証にコンテンツ支援機能を使用しながら、SQLスキーマをスキーマ・ビューで探索する方法を学習してください。テーブル・ビューやさまざまなグラフで結果を表示します。