こんにちは。CData Software Japan の色川です。
ここ数年、データ活用の高まりとともに、データ活用を支援するための仕組みとして「メタデータ管理」や「データカタログ」という言葉を耳にする機会が増えてきました。
データカタログとは、そのデータはどんなデータかを表す「メタデータ」を管理することで「欲しいデータがどこにあるか」「このデータはどういう意味か」「このデータを活用するにはどうすればよいか」を支援してくれる仕組みです。
この分野では、AWS Glue Data Catalog やAzure Data Catalog、Google Data Catalog やApache Atlas などをはじめ、多くのサービスや製品が出てきており、まさに「これから」というような勢いを感じます。
政府によるデータカタログサイトにおいても公開データセットは着々と更新され、今ではその数も数万を数えます。
今回は、その中でもデータ連携の領域でHULFT やDataSpider を提供しているセゾン情報システムズのHULFT DataCatalog を使って、kintone にあるデータの情報(メタデータ)を見える化(カタログ)してみました。
この記事は CData Advent Calendar 2021、9日目の記事です。
HULFT DataCatalog とは
HULFT、DataSpider を提供しているセゾン情報システムズの、「誰もが簡単に欲しいデータを探して選べるように、企業内で分散管理される様々なデータの概要(メタデータ)を自動収集してカタログ化する」ソフトウェアです。データの所在や来歴を可視化し、データに関するナレッジを共有することで、データ探索の効率化とデータの“中身”に関する理解を支援します。
昨年、Ver.1.0 がリリースされ、現在はVer.1.1 がリリースされています。
今回のシナリオ
最近は1つの組織でも様々なSaaS やアプリケーションを利用する機会が多いと思います。なにかのデータを探したいとき、出来るだけ多くのSaaS やアプリケーションから横断的に探せたら効率的です。
今回試したHULFT DataCatalog Ver.1.1では、オンプレミス・クラウドの主要なRDB やクラウドストレージ、DataSpider の接続先やプロジェクト、スクリプトに関するメタデータ収集がサポートされています。なお、接続先一覧(グローバルリソース)においては、下記のようにデータベース関連のみサポートされています。
今回のシナリオではそれに加え、ユーザー部門でのデータ活用で人気の高いkintone にあるデータのメタデータを収集するために、HULFT DataCatalog のJDBC インタフェースからCData のkintone JDBC Driver を利用しました。
事前準備
HULFT DataCatalog では、DataSpider Servista のスクリプトを通じて連携されているデータについては、その来歴(データのリネージュ)も参照することができますので、DataSpider Servistaもインストールしています。
今回のシナリオでは以下のバージョンを利用しました。
HULFT DataCatalog Ver.1.1
DataSpider Servista Version.4.3 SP1
それぞれの製品のインストール方法は、製品のマニュアルを参考にしてください。
【公式】HULFT DataCatalog V1 マニュアル
HULFT DataCatalog からDataSpider Servista をクロールできるようにするため、HULFT DataCatalog に付属するmetadata_adapter をDataSpider Servista に忘れず設定します。
DataSpider のインストール先フォルダ
\server\plugin\data_processing\modules\metadata_adapter
CData Drivers のインストールと配置
CData のkintone JDBC Driver をダウンロードしてインストールします。30日間の評価版が提供されていますので、ぜひ試してみてください。
- kintone JDBC Driver
Kintone Drivers | Kintone Connectors - CData Software
HULFT DataCatalog への配置
HULFT DataCatalog からCData のkintone JDBC Driver を利用できるように、JDBC ライブラリファイルをHULFT DataCaltalog のlib フォルダに移動します。
HULFT DataCatalog インストール先フォルダ
\lib
DataSpider Servista への配置
DataSpider Servista からもCData のkintone JDBC Driver を利用できるように、JDBC ライブラリファイルをDataSpider Servista のplugin フォルダに移動します。
DataSpider のインストール先フォルダ
\server\plugin\data_processing\modules\jdbc_adapter
設定
DataSpider のスクリプト
CData JDBC Driver for kintone を利用するJDBC グローバルリソースを設定します。
JDBC 接続文字列の指定の仕方などはこちらを参照してください。
kintone の顧客リストアプリから、SQL Server の顧客テーブルへ連携するスクリプトを作成しました。
もう1つ、CSV ファイルの案件情報から、kintone の案件管理アプリへ連携するスクリプトを作成しました。
HULFT DataCatalog の接続先追加(クロール先の設定)
CData JDBC Driver for kintone でkintone をクロールできるように、JDBC 接続のアセットを登録します。
JDBC 接続文字列の指定の仕方などはこちらを参照してください。
kintone とスキーマ構成以外に、DataSpider で連携しているデータの来歴(リネージュ)が確認できるように、DataSpider Servista のアセットも登録します。
クロールの実行と検索
それぞれのアセットは自動クロールをスケジューリングすることができますが、今回は手動でクロールを実行しました。これでHULFT DataCatalog で検索することができます。
試しに「顧客リスト」で検索してヒットした情報の中で、kintone からクロールされた情報を選択すると、顧客リストアプリに設定されているコメントや、アプリの構成情報、それぞれの列の詳細などを知ることができます。
また、「リネージュ」では、DataSpider のスクリプトで連携した際の来歴(データの流れ)を知ることができます。この顧客リストのデータは、DataSpiderの「root@プロジェクト内のスクリプト(kintone-sqlserver)」によって、kintone の顧客リストアプリから連携されている事が分かります。
同じように「案件管理」で検索してヒットした情報の中で、kintone からクロールされた情報を選択すると、案件化管理アプリに設定されている情報を先ほどと同じように知ることができます。
また、こちらのデータの「リネージュ」では、この案件管理のデータが、DataSpiderの「root@プロジェクト内のスクリプト(csv-kintone)」によって、kintone の案件管理アプリへ連携されている事が分かります。
これで、オンプレミス・クラウドの主要なRDB やクラウドストレージの他に、HULFT DataCatalog でkintone に関連するメタデータも検索して管理できるようになりました。
さいごに
今回のシナリオで試したデータの所在やデータの構成情報はメタデータの中でも基本となる「テクニカル・メタデータ」と呼ばれています。HULFT DataCatalog では、これ以外にも業務で利用する上でのメタデータ(ビジネス・メタデータ)の活用を支援する機能や、HULFT DataCatalog の上でデータの提供者と利用者がナレッジを共有してより良い利活用を支援する機能なども提供されています。
クロール先にJDBC インタフェースを指定できるHULFT DataCatalog と、様々なサービスやアプリケーションのAPI をJDBC でアクセスできるようにするCData JDBC Drivers を上手く組み合わせれば、データ活用の幅をより拡げられそうです。
興味のある方はぜひ試してみてください。
明日は、CData Software Advent Calendar 2021 の10日目です。お楽しみに。