ScalaのSpark SQLを使用したCassandraデータのクエリー

Sparkシェルを起動することによって、ScalaでSpark SQLクエリーを実行できます。Sparkを起動すると、Cassandraテーブルに対してSpark SQLクエリーを実行するためのコンテキストがDataStax Enterpriseによって設定されます。

Sparkを起動すると、Cassandraテーブルに対してSpark SQLクエリーを実行するためのコンテキストがDataStax Enterpriseによって設定されます。コンテキスト・オブジェクトはsqlContextと名付けられ、HiveContextのインスタンスになります。HiveContextSqlContextのスーパーセットで、Hiveメタストアを使用します。setKeyspaceメソッドを使用してCassandraキースペースに接続し、sqlメソッドを使用してクエリーを実行します。

手順

  1. Sparkシェルを起動します。
    dse spark
  2. setKeyspaceメソッドを使用して、クエリーするキースペースを設定します。
    sqlContext.setKeyspace("my_keyspace_name")
  3. sqlメソッドを使用してクエリーを渡し、結果を変数に格納します。
    val results = sqlContext.sql("SELECT * from my_keyspace_name.my_table")
  4. 返されたデータを使用します。
    results.collect().foreach(println)
    CassandraRow{type_id:1, value: 9685.807}
    CassandraRow{type_id:2, value: -9775.808}