ScalaのSpark SQLを使用したデータベース・データのクエリー

Sparkシェルを起動することによって、ScalaでSpark SQLクエリーを実行できます。Sparkを起動すると、データベース・テーブルに対してSpark SQLクエリーを実行するためのSparkセッション・インスタンスがDataStax Enterpriseによって作成されます。

Sparkを起動すると、データベース・テーブルに対してSpark SQLクエリーを実行するためのSparkセッション・インスタンスがDataStax Enterpriseによって作成されます。セッション・オブジェクトにはsparkという名前が付けられ、org.apache.spark.sql.SparkSessionのインスタンスとなります。sqlメソッドを使用してクエリーを実行します。

手順

  1. Sparkシェルを起動します。
    dse spark
  2. sqlメソッドを使用してクエリーを渡し、結果を変数に格納します。
    val results = spark.sql("SELECT * from my_keyspace_name.my_table")
  3. 返されたデータを使用します。
    results.show()
    +--------------------+-----------+
    |                  id|description|
    +--------------------+-----------+
    |de2d0de1-4d70-11e...|      thing|
    |db7e4191-4d70-11e...|    another|
    |d576ad50-4d70-11e...|yet another|
    +--------------------+-----------+