Spark SQL Thriftサーバーの使用
Spark SQL Thriftサーバーは、JDBCとODBCのインターフェイスを使用してDSEにクライアント接続します。
Spark SQL Thriftサーバーは、JDBCとODBCのインターフェイスを使用してデータベースにクライアント接続します。
AlwaysOn SQLサービスは、Spark SQL Thriftサーバーの上に構築された高可用性サービスです。Spark SQL Thriftサーバーは、アナリティクス・データ・センター内の単一ノードで手動で起動され、別のノードにフェールオーバーされません。AlwaysOn SQLとSpark SQL Thriftサーバーはどちらも、JDBCとODBCのインターフェイスをDSEに提供し、多くの構成設定を共有します。
hive-site.xml
Sparkを使用する場合のhive-site.xmlファイルのデフォルトの場所:パッケージ・インストール | /etc/dse/spark/hive-site.xml |
tarボール・インストール | installation_location/resources/spark/conf/hive-site.xml |
手順
-
hive-site.xml ファイル内のKerberos認証を使用している場合は、Spark SQL Thriftサーバーの認証資格情報を構成します。
<property> <name>hive.server2.authentication.kerberos.principal</name> <value>thriftserver/_HOST@EXAMPLE.COM</value> </property> <property> <name>hive.server2.authentication.kerberos.keytab</name> <value>/etc/dse/dse.keytab</value> </property>
以下のように、Sparkディレクトリーでhive-site.xmlファイルを使用します。- パッケージ・インストール: /etc/dse/spark/hive-site.xml
- tarボール・インストール: installation_location/resources/spark/conf/hive-site.xml
- サービスとしてSparkを有効にした状態またはスタンドアローンのインストールで、DataStax Enterpriseを起動します。
-
パーミッションを持つユーザーとして、dse spark-sql-thriftserver startコマンドを入力してサーバーを起動し、Sparkディレクトリーに書き込みます。
サーバーのデフォルト設定をオーバーライドするには、--hiveconfオプションを使用して、構成プロパティを渡します。構成プロパティの詳細なリストについては、HiveServer2のドキュメントを参照してください。
dse spark-sql-thriftserver start
デフォルトでは、サーバーは起動したノード上のlocalhostインターフェイスのポート10000をリッスンします。特定のポートで起動するサーバーを指定することができます。たとえば、ポート10001でサーバーを起動するには、--hiveconf hive.server2.thrift.port=10001オプションを使用します。
dse spark-sql-thriftserver start --hiveconf hive.server2.thrift.port=10001
resources/spark/conf/spark-env.shで、ポートを構成して、アドレスをバインドすることができます。
export HIVE_SERVER2_THRIFT_PORT=10001 export HIVE_SERVER2_THRIFT_BIND_HOST=1.1.1.1
--conf
オプションを使用して、一般的なSpark構成設定を指定できます。dse spark-sql-thriftserver start --conf spark.cores.max=4
-
DataFramesを使用して、大量のデータの読み取りや書き込みを行います。たとえば、
table_a
を参照しながら、DataFrameを使用するtable_a_cass_df
テーブルを作成するには、次のようにします。CREATE TABLE table_a_cass_df using org.apache.spark.sql.cassandra OPTIONS (table "table_a", keyspace "ks")
注: DataFramesで、JDBCドライバーでデータを挿入する際、UUID
およびInet
のタイプで互換性の問題が存在します。 - Spark Cassandra Connectorのチューニング・パラメーターを使用して、読み取りと書き込みを最適化します。
-
サーバーを停止するには、dse spark-sql-thriftserver stopコマンドを入力します。
dse spark-sql-thriftserver stop
次のタスク
Simba JDBCドライバーを使用して、ご使用のアプリケーションを次のURIのサーバーに接続できるようになります。jdbc:hive2://ホスト名:ポート番号
。このとき、Simba ODBCドライバーを使用するか、dse beelineを使用します。