SearchAnalyticsによるウィキペディア・デモの実行

ウィキペディアSolrデモをSearchAnalyticsノードで実行すると、検索クエリーを使用してSpark RDDを取得することができます。

次の手順では、ウィキペディア・デモを使用して、SearchAnalyticsノードのSparkコンソールで検索クエリーを使用する方法について説明します。

始める前に

単一データ・センターのデプロイ・シナリオ」で説明されているように、新しいSearchAnalyticsデータ・センターを作成しておく必要があります。

手順

  1. SearchAnalyticsモードでノード(複数可)を起動します。
  2. dsetool ringを実行して、クラスターが正しく動作していることを確認します。ノード・タイプはSearchAnalyticsにしてください。

    パッケージおよびInstaller-Servicesのインストール: dsetool ring

    tarボールおよびInstaller-No Servicesのインストール: installation_location/bin/dsetool ring

  3. ターミナルで、ウィキペディア・デモのディレクトリーに移動します。
    デフォルトのウィキペディア・デモの場所は、インストールのタイプにより異なります。
    • パッケージ・インストールおよびInstaller-Services:/usr/share/dse/demos/wikipedia
    • tarボール・インストールおよびInstaller-No Services:installation_location/demos/wikipedia
    $ cd /usr/share/dse/demos/wikipedia
  4. 1-add-schema.shスクリプトを実行してスキーマを追加します。
    $ ./1-add-schema.sh
  5. 検索インデックスを作成します。
    $ ./2-index.sh
  6. Sparkコンソールを起動します。
    $ dse spark
  7. wiki.solrテーブルに基づいてRDDを作成します。
    scala> val table = sc.cassandraTable("wiki","solr")
    table: com.datastax.spark.connector.rdd.CassandraTableScanRDD[com.datastax.spark.connector.CassandraRow] = CassandraTableScanRDD[0] at RDD at CassandraRDD.scala:15
  8. タイトルSolrインデックスを使用してクエリーを実行し、結果を収集します。
    scala> val result = table.select("id","title").where("solr_query='title:Boroph*'").collect
    同等のJSONクエリー:
    where("solr_query='{"q": "title:Boroph*"}'")
    結果:Array[com.datastax.spark.connector.CassandraRow] = Array( CassandraRow{id: 23729958, title: Borophagus parvus}, CassandraRow{id: 23730195, title: Borophagus dudleyi}, CassandraRow{id: 23730528, title: Borophagus hilli}, CassandraRow{id: 23730810, title: Borophagus diversidens}, CassandraRow{id: 23730974, title: Borophagus littoralis}, CassandraRow{id: 23731282, title: Borophagus orc}, CassandraRow{id: 23731616, title: Borophagus pugnator}, CassandraRow{id: 23732450, title: Borophagus secundus})

次のタスク

CQLでの検索クエリー構文の使用については、「」を参照してください。