SearchAnalyticsによるウィキペディア・デモの実行

ウィキペディアSolrデモをSearchAnalyticsノードで実行すると、検索クエリーを使用してSpark RDDを取得することができます。

次の手順では、ウィキペディア・デモを使用して、SearchAnalyticsノードのSparkコンソールで検索クエリーを使用する方法について説明します。

始める前に

「単一データ・センターのデプロイ・シナリオ」で説明されているように、新しいSearchAnalyticsデータ・センターを作成しておく必要があります。

手順

SearchAnalyticsモードでノード（複数可）を起動します。
- パッケージ/Services：「DataStax Enterpriseをサービスとして起動」を参照してください。
- tarボール/No Services：「DataStax Enterpriseをスタンドアローン・プロセスとして起動」を参照してください。
dsetool ringを実行して、クラスターが正しく動作していることを確認します。ノード・タイプはSearchAnalyticsにしてください。

パッケージおよびInstaller-Servicesのインストール： dsetool ring

tarボールおよびInstaller-No Servicesのインストール： installation_location/bin/dsetool ring
ターミナルで、ウィキペディア・デモのディレクトリーに移動します。
デフォルトのウィキペディア・デモの場所は、インストールのタイプにより異なります。
- パッケージ・インストールおよびInstaller-Services：/usr/share/dse/demos/wikipedia
- tarボール・インストールおよびInstaller-No Services：installation_location/demos/wikipedia
```
$ cd /usr/share/dse/demos/wikipedia
```
1-add-schema.shスクリプトを実行してスキーマを追加します。
```
$ ./1-add-schema.sh
```
検索インデックスを作成します。
```
$ ./2-index.sh
```
Sparkコンソールを起動します。
```
$ dse spark
```

wiki.solrテーブルに基づいてRDDを作成します。

scala> val table = sc.cassandraTable("wiki","solr")

table: com.datastax.spark.connector.rdd.CassandraTableScanRDD[com.datastax.spark.connector.CassandraRow] = CassandraTableScanRDD[0] at RDD at CassandraRDD.scala:15

タイトルSolrインデックスを使用してクエリーを実行し、結果を収集します。

scala> val result = table.select("id","title").where("solr_query='title:Boroph*'").collect

同等のJSONクエリー：

where("solr_query='{"q": "title:Boroph*"}'")

結果：Array[com.datastax.spark.connector.CassandraRow] = Array( CassandraRow{id: 23729958, title: Borophagus parvus}, CassandraRow{id: 23730195, title: Borophagus dudleyi}, CassandraRow{id: 23730528, title: Borophagus hilli}, CassandraRow{id: 23730810, title: Borophagus diversidens}, CassandraRow{id: 23730974, title: Borophagus littoralis}, CassandraRow{id: 23731282, title: Borophagus orc}, CassandraRow{id: 23731616, title: Borophagus pugnator}, CassandraRow{id: 23732450, title: Borophagus secundus})

次のタスク

CQLでの検索クエリー構文の使用については、「」を参照してください。