CData Software Blog

クラウド連携のCData Software の技術ブログです。

HULFT DataCatalog を使ってkintone のデータの情報(メタデータ)を見える化(カタログ)する

f:id:irokawah:20211206093712p:plain

こんにちは。CData Software Japan の色川です。

ここ数年、データ活用の高まりとともに、データ活用を支援するための仕組みとして「メタデータ管理」や「データカタログ」という言葉を耳にする機会が増えてきました。

e-words.jp

データカタログとは、そのデータはどんなデータかを表す「メタデータ」を管理することで「欲しいデータがどこにあるか」「このデータはどういう意味か」「このデータを活用するにはどうすればよいか」を支援してくれる仕組みです。

この分野では、AWS Glue Data Catalog やAzure Data Catalog、Google Data Catalog やApache Atlas などをはじめ、多くのサービスや製品が出てきており、まさに「これから」というような勢いを感じます。

政府によるデータカタログサイトにおいても公開データセットは着々と更新され、今ではその数も数万を数えます。

今回は、その中でもデータ連携の領域でHULFT やDataSpider を提供しているセゾン情報システムズHULFT DataCatalog を使って、kintone にあるデータの情報(メタデータ)を見える化(カタログ)してみました。

この記事は CData Advent Calendar 2021、9日目の記事です。

qiita.com

HULFT DataCatalog とは

HULFT、DataSpider を提供しているセゾン情報システムズの、「誰もが簡単に欲しいデータを探して選べるように、企業内で分散管理される様々なデータの概要(メタデータ)を自動収集してカタログ化する」ソフトウェアです。データの所在や来歴を可視化し、データに関するナレッジを共有することで、データ探索の効率化とデータの“中身”に関する理解を支援します。

www.hulft.com

昨年、Ver.1.0 がリリースされ、現在はVer.1.1 がリリースされています。

今回のシナリオ

最近は1つの組織でも様々なSaaS やアプリケーションを利用する機会が多いと思います。なにかのデータを探したいとき、出来るだけ多くのSaaS やアプリケーションから横断的に探せたら効率的です。

今回試したHULFT DataCatalog Ver.1.1では、オンプレミス・クラウドの主要なRDBクラウドストレージ、DataSpider の接続先やプロジェクト、スクリプトに関するメタデータ収集がサポートされています。なお、接続先一覧(グローバルリソース)においては、下記のようにデータベース関連のみサポートされています。

f:id:irokawah:20211205224927p:plain

今回のシナリオではそれに加え、ユーザー部門でのデータ活用で人気の高いkintone にあるデータのメタデータを収集するために、HULFT DataCatalog のJDBC インタフェースからCData のkintone JDBC Driver を利用しました。

f:id:irokawah:20211205224939p:plain

事前準備

HULFT DataCatalog では、DataSpider Servista のスクリプトを通じて連携されているデータについては、その来歴(データのリネージュ)も参照することができますので、DataSpider Servistaもインストールしています。

今回のシナリオでは以下のバージョンを利用しました。

  • HULFT DataCatalog Ver.1.1
  • DataSpider Servista Version.4.3 SP1

それぞれの製品のインストール方法は、製品のマニュアルを参考にしてください。

【公式】HULFT DataCatalog V1 マニュアル

【公式】DataSpider Servista マニュアル

HULFT DataCatalog からDataSpider Servista をクロールできるようにするため、HULFT DataCatalog に付属するmetadata_adapter をDataSpider Servista に忘れず設定します。

DataSpider のインストール先フォルダ\server\plugin\data_processing\modules\metadata_adapter

f:id:irokawah:20211205225438p:plain

CData Drivers のインストールと配置

CData のkintone JDBC Driver をダウンロードしてインストールします。30日間の評価版が提供されていますので、ぜひ試してみてください。

  • kintone JDBC Driver

Kintone Drivers | Kintone Connectors - CData Software

f:id:irokawah:20211205225008p:plain

HULFT DataCatalog への配置

HULFT DataCatalog からCData のkintone JDBC Driver を利用できるように、JDBC ライブラリファイルをHULFT DataCaltalog のlib フォルダに移動します。

HULFT DataCatalog インストール先フォルダ\lib

  • cdata.jdbc.kintone.jar
  • cdata.jdbc.kintone.lic

f:id:irokawah:20211205225028p:plain

DataSpider Servista への配置

DataSpider Servista からもCData のkintone JDBC Driver を利用できるように、JDBC ライブラリファイルをDataSpider Servista のplugin フォルダに移動します。

DataSpider のインストール先フォルダ\server\plugin\data_processing\modules\jdbc_adapter

  • cdata.jdbc.kintone.jar
  • cdata.jdbc.kintone.lic

f:id:irokawah:20211205225017p:plain

設定

DataSpider のスクリプト

CData JDBC Driver for kintone を利用するJDBC グローバルリソースを設定します。

f:id:irokawah:20211205225454p:plain

JDBC 接続文字列の指定の仕方などはこちらを参照してください。

cdn.cdata.com

kintone の顧客リストアプリから、SQL Server の顧客テーブルへ連携するスクリプトを作成しました。

f:id:irokawah:20211205225636p:plain

もう1つ、CSV ファイルの案件情報から、kintone の案件管理アプリへ連携するスクリプトを作成しました。

f:id:irokawah:20211205225646p:plain

HULFT DataCatalog の接続先追加(クロール先の設定)

CData JDBC Driver for kintone でkintone をクロールできるように、JDBC 接続のアセットを登録します。

f:id:irokawah:20211205225654p:plain

JDBC 接続文字列の指定の仕方などはこちらを参照してください。

cdn.cdata.com

kintone とスキーマ構成以外に、DataSpider で連携しているデータの来歴(リネージュ)が確認できるように、DataSpider Servista のアセットも登録します。

f:id:irokawah:20211205225705p:plain

クロールの実行と検索

それぞれのアセットは自動クロールをスケジューリングすることができますが、今回は手動でクロールを実行しました。これでHULFT DataCatalog で検索することができます。

f:id:irokawah:20211205225715p:plain

f:id:irokawah:20211205225725p:plain

試しに「顧客リスト」で検索してヒットした情報の中で、kintone からクロールされた情報を選択すると、顧客リストアプリに設定されているコメントや、アプリの構成情報、それぞれの列の詳細などを知ることができます。

f:id:irokawah:20211205225736p:plain

f:id:irokawah:20211205225747p:plain

また、「リネージュ」では、DataSpider のスクリプトで連携した際の来歴(データの流れ)を知ることができます。この顧客リストのデータは、DataSpiderの「root@プロジェクト内のスクリプト(kintone-sqlserver)」によって、kintone の顧客リストアプリから連携されている事が分かります。

f:id:irokawah:20211205225804p:plain

同じように「案件管理」で検索してヒットした情報の中で、kintone からクロールされた情報を選択すると、案件化管理アプリに設定されている情報を先ほどと同じように知ることができます。

f:id:irokawah:20211205225815p:plain

f:id:irokawah:20211205225827p:plain

また、こちらのデータの「リネージュ」では、この案件管理のデータが、DataSpiderの「root@プロジェクト内のスクリプト(csv-kintone)」によって、kintone の案件管理アプリへ連携されている事が分かります。

f:id:irokawah:20211205225837p:plain

これで、オンプレミス・クラウドの主要なRDBクラウドストレージの他に、HULFT DataCatalog でkintone に関連するメタデータも検索して管理できるようになりました。

さいごに

今回のシナリオで試したデータの所在やデータの構成情報はメタデータの中でも基本となる「テクニカル・メタデータ」と呼ばれています。HULFT DataCatalog では、これ以外にも業務で利用する上でのメタデータ(ビジネス・メタデータ)の活用を支援する機能や、HULFT DataCatalog の上でデータの提供者と利用者がナレッジを共有してより良い利活用を支援する機能なども提供されています。

クロール先にJDBC インタフェースを指定できるHULFT DataCatalog と、様々なサービスやアプリケーションのAPIJDBC でアクセスできるようにするCData JDBC Drivers を上手く組み合わせれば、データ活用の幅をより拡げられそうです。

興味のある方はぜひ試してみてください。

明日は、CData Software Advent Calendar 2021 の10日目です。お楽しみに。