SearchAnalyticsによるウィキペディア・デモの実行
ウィキペディアSolrデモをSearchAnalyticsノードで実行すると、検索クエリーを使用してSpark RDDを取得することができます。
次の手順では、ウィキペディア・デモを使用して、SearchAnalyticsノードのSparkコンソールで検索クエリーを使用する方法について説明します。
始める前に
「単一データ・センターのデプロイ・シナリオ」で説明されているように、新しいSearchAnalyticsデータ・センターを作成しておく必要があります。
手順
-
SearchAnalyticsモードでノード(複数可)を起動します。
- パッケージ/Services:「DataStax Enterpriseをサービスとして起動」を参照してください。
- tarボール/No Services:「DataStax Enterpriseをスタンドアローン・プロセスとして起動」を参照してください。
-
dsetool ringを実行して、クラスターが正しく動作していることを確認します。ノード・タイプは
SearchAnalytics
にしてください。パッケージおよびInstaller-Servicesのインストール:
dsetool ring
tarボールおよびInstaller-No Servicesのインストール:
installation_location/bin/dsetool ring
-
ターミナルで、ウィキペディア・デモのディレクトリーに移動します。
デフォルトのウィキペディア・デモの場所は、インストールのタイプにより異なります。
- パッケージ・インストールおよびInstaller-Services:/usr/share/dse/demos/wikipedia
- tarボール・インストールおよびInstaller-No Services:installation_location/demos/wikipedia
$ cd /usr/share/dse/demos/wikipedia
-
1-add-schema.shスクリプトを実行してスキーマを追加します。
$ ./1-add-schema.sh
-
検索インデックスを作成します。
$ ./2-index.sh
-
Sparkコンソールを起動します。
$ dse spark
-
wiki.solr
テーブルに基づいてRDDを作成します。scala> val table = sc.cassandraTable("wiki","solr")
table: com.datastax.spark.connector.rdd.CassandraTableScanRDD[com.datastax.spark.connector.CassandraRow] = CassandraTableScanRDD[0] at RDD at CassandraRDD.scala:15
-
タイトルSolrインデックスを使用してクエリーを実行し、結果を収集します。
scala> val result = table.select("id","title").where("solr_query='title:Boroph*'").collect
同等のJSONクエリー:where("solr_query='{"q": "title:Boroph*"}'")
結果:Array[com.datastax.spark.connector.CassandraRow] = Array( CassandraRow{id: 23729958, title: Borophagus parvus}, CassandraRow{id: 23730195, title: Borophagus dudleyi}, CassandraRow{id: 23730528, title: Borophagus hilli}, CassandraRow{id: 23730810, title: Borophagus diversidens}, CassandraRow{id: 23730974, title: Borophagus littoralis}, CassandraRow{id: 23731282, title: Borophagus orc}, CassandraRow{id: 23731616, title: Borophagus pugnator}, CassandraRow{id: 23732450, title: Borophagus secundus})
次のタスク
CQLでの検索クエリー構文の使用については、「」を参照してください。