SearchAnalyticsによるウィキペディア・デモの実行

ウィキペディアSolrデモをSearchAnalyticsノードで実行すると、検索クエリーを使用してSpark RDDを取得することができます。

次の手順では、ウィキペディア・デモを使用して、SearchAnalyticsノードのSparkコンソールで検索クエリーを使用する方法について説明します。

始める前に

単一データ・センターのデプロイ・シナリオ」で説明されているように、新しいSearchAnalyticsデータ・センターを作成しておく必要があります。

手順

  1. SearchAnalyticsモードでノード(複数可)を起動します。
  2. dsetool ringを実行して、クラスターが正しく動作していることを確認します。ノード・タイプはSearchAnalyticsにしてください。

    パッケージ・インストール: dsetool ring

    tarボール・インストール: installation_location/bin/dsetool ring

  3. ターミナルで、ウィキペディア・デモのディレクトリーに移動します。
    デフォルトのウィキペディア・デモの場所は、インストールのタイプにより異なります。
    • パッケージ・インストール:/usr/share/dse/demos/wikipedia
    • tarボール・インストール:installation_location/demos/wikipedia
    cd /usr/share/dse/demos/wikipedia
  4. 1-add-schema.shスクリプトを実行してスキーマを追加します。
    ./1-add-schema.sh
  5. 検索インデックスを作成します。
    ./2-index.sh
  6. Sparkコンソールを起動します。
    dse spark
  7. wiki.solrテーブルに基づいてRDDを作成します。
    scala> val table = sc.cassandraTable("wiki","solr")
    table: com.datastax.spark.connector.rdd.CassandraTableScanRDD[com.datastax.spark.connector.CassandraRow] = CassandraTableScanRDD[0] at RDD at CassandraRDD.scala:15
  8. タイトルSolrインデックスを使用してクエリーを実行し、結果を収集します。
    scala> val result = table.select("id","title").where("solr_query='title:Boroph*'").collect
    同等のJSONクエリー:
    where("solr_query='{"q": "title:Boroph*"}'")
    result:
        Array[com.datastax.spark.connector.CassandraRow] = Array(
            CassandraRow{id: 23729958, title: Borophagus parvus},
            CassandraRow{id: 23730195, title: Borophagus dudleyi}, 
            CassandraRow{id: 23730528, title: Borophagus hilli}, 
            CassandraRow{id: 23730810, title: Borophagus diversidens}, 
            CassandraRow{id: 23730974, title: Borophagus littoralis}, 
            CassandraRow{id: 23731282, title: Borophagus orc},
            CassandraRow{id: 23731616, title: Borophagus pugnator}, 
            CassandraRow{id: 23732450, title: Borophagus secundus})

次のタスク

CQLでの検索クエリー構文の使用の詳細については、「CQLクエリー 」を参照してください。