Azure Data Factory の連携先サービスを CData Connect で拡張：Elasticsearch 編

f:id:sugimomoto:20201105132107p:plain

こんにちは。CData Software Japan リードエンジニアの杉本です。

今日は Azure のデータ統合サービスである Azure Data Factory と CData Connect を連携し、ElasticsearchのデータをAzure SQLに取り込む方法を紹介したいと思います。

f:id:sugimomoto:20201105112754p:plain

CData Connect とは？

CData Connect は、SaaS ベースで提供されるデータハブサービスです。Salesforce、NetSuite、Dynamics、Marketo、kintone など多様なSaaS、ElasticsearchやMongoDBなどのNoSQL・データストアにBI、アナリティクス、iPaaS、ノーコード開発プラットフォームからアクセスするための仮想エンドポイントです。

連携方法が異なるSaaS や NoSQL をMySQL、SQL Server、OData の3種類のインターフェースに仮想化することで、データ連携をシンプルに実現します。

"SQL as a Service" といっていいかもしれません。

Azure Data Factory へのSaaS データ連携

Azure Data Factory は、Azure SQLやDynamics 365、BigQuery や Snowflake などいろいろなデータをサポートしています。

f:id:sugimomoto:20201105112804p:plain

とはいえ、今回取り上げるようなElasticsearchやKintoneやSansanといったSaaSなど、対応していないデータソースも数多く存在します。

この不足をCData Connect を活用してカバーすることが可能です。

今回はエンタープライズサーチサービスとして有名なElasticsearchをAzure Data Factory経由でRDB（Azure SQL）に取り込む方法をベースにCData Connectの使い方を解説します。

CData Connect を使うポイント

Azure Data Factoryが持つ汎用のAPI プロトコルである、ODataを活用。この1つのコネクタでSalesforce でも Kintone でもElasticsearch でもCData Connect がサポートするコネクタに同じインターフェースでつなぐことができます。
CData Connect がSaaS データ（通常はJSON やXML）をカラムとレコードを持ったテーブルにモデル化。メタデータの検出・付与までを行います。Elasticsearch やkintone のようにカスタムオブジェクト・NoSQLの構造を持つデータソースでもメタデータの動的検出を行います。

これによりデータ加工なしで分析にすぐ利用できるデータとしてAzure Data Factory に渡します。

Elasticsearch の準備

まず対象のElasticsearchの環境を準備します。

今回はElasticCloudを使って、Azureに環境を構築しました。

https://www.elastic.co/jp/elasticsearch/

f:id:sugimomoto:20201105112812p:plain

詳しい環境構築方法は以下のBlogを参照してみてください。

www.cdatablog.jp

CData Connect にElasticsearch データを接続

続いて、CData Connect で Elasticsearchが利用できるように準備をします。

CData Connect （旧CloudHub）のアカウントを取得します。CData Connect はSaaS ですので、アカウントを取得したらインストールやホスティングなどなく、ブラウザからログインすることですぐに使用開始できます。

f:id:sugimomoto:20201105112858p:plain

早速ブラウザからCData Connect にログインします。まず最初に「DATABASE」タブから仮想データベースを設定していきます。

接続するデータソースである Elasticsearch のアイコンをクリックします。

f:id:sugimomoto:20201105112906p:plain

データソース接続画面が開くので、Connection stringを選択し以下のような接続文字列を入力します。

例：Server=https://XXX.eastus2.azure.elastic-cloud.com;Port=9243;User=elastic;Password=XXXX;

プロパティ名	値	備考
Server	https://XXX.eastus2.azure.elastic-cloud.com	ElasticCloudのServer URLを指定します。
Port	9243	Elastic CloudのPort番号を指定します。デフォルトは9243です。
User	elastic	APIアクセス用のUserIdを指定します。Elastic Cloudではデフォルトがelasticになっています。
Password	YOUR_PASSOWRD	APIアクセス用のUser Passwordを指定します。事前に生成されたパスワードを指定ください。