こんにちは、CData Software Japan ローカライザの加藤です。ビッグデータの時代には、日々さまざまなソースから取得する大量のデータを効率よく一カ所に集約して、業務や分析に活かすETL ツールが欠かせません。でもETL ツールは本当に数が多くて、どれをどういった観点で選べばいいのかわからない、という方も多いのではないでしょうか?今回は弊社US のブログから、そんなお悩みに答える記事を翻訳してご紹介します!(元の記事はこちら)
データドリブンな組織では通常、さまざまなソースから複製したデータをホストするデータウェアハウスを、データインフラの基盤として使用します。データウェアハウスの活用を効率化するために企業が必要とするのは、データを統合するツールです。
データパイプラインはさまざまなアプリケーションとデータソースから、データチームが営業活動の集計データとして活用するデータウェアハウスへの、データの移行を最適化します。データ移行用の技術が多数存在する一方、もっとも広く使用される統合の手法はETL(抽出:Extract、変換:Transform、ロード:Load)です。
ETL ソフトウェアは、事業間の処理をつないで道のようなものです。データパイプラインは滞りなく事業を遂行する上で欠かせない役割を果たすのです。
ETL ツールで大事な要素
皆さんならETL ツールに何を求め、どのように評価するでしょうか?
業務にピッタリなETL サービスを調査する上でカギとなる要素を、次にまとめました。
- サポートされるデータソース - 幅広いデータ連携
- 拡張性と将来にわたる製品の継続性と成長性
- 使いやすさ
- ドキュメントとサポート
- セキュリティとコンプライアンス
- バッチ処理とストリーム処理
- 信頼性と安定性
- 価格
- サードパーティーツールとの互換性
- データ変換
- 差分更新
サポートされるデータソース
利用している重要なツールを、できる限り多くサポートするETL サービスを探しましょう。企業内でさまざまなチームが多種のSaaS ツールやデータベースを使っている場合、この選定は難しくなります。
選定したETL ツールの制限によっては、未対応の一部の連携用にカスタムソリューションを作成する必要があるかもしれません。これはさまざまな観点から望ましくないですが、避けられない場合もあります。
連携は欠かせない機能なので、幅広いデータソースをサポートするライブラリを持った、ユニバーサルなデータプラットフォームの選定は最優先事項です。
拡張性と将来にわたる製品の継続性と成長性
データ量の増加に合わせて、サービスを劣化させることなくニーズの増加に対応できるツールが求められます。評価中のデータパイプラインツールが大量のデータをどのようにサポートするのか、チェックしましょう。
通常、ETL プロバイダー側で追加のデータソースを加えることもできますが、自社でデータソースを追加できればなお良いでしょう。
使いやすさ
UI が理解しやすく、連携のセットアップやレプリケーションタスクのスケジュールとモニタが簡単にできる製品がよいでしょう。
- 問題が起きたときのエラーメッセージは明確か?
- 問題は簡単に解決できるか、あるいはベンダーのサポートチームに頼る必要があるか?
ドキュメントとサポート
サポートチームについては徹底的に調査しましょう。各ベンダーのサポートチームに問い合わせ、いろいろな質問をして専門性を評価しましょう。
- サポートチームは十分に問題を扱えるか?
- 素早く回答を提供してくれるか?
- E メール、電話、オンラインチャットなど、どのサポートチャネルが利用できるか?
最後に確認すべき点は、ベンダーのドキュメントが明確で完成度が高く、ツールの利用者に合わせた技術レベルで書かれていることです。
セキュリティとコンプライアンス
あらゆるIT システムにとってセキュリティは極めて重要ですが、クラウドベースのデータパイプラインの場合に考慮すべき点がいくつかあります。
- ベンダーがデータを、移行中と処理後にアプリケーション内でネイティブに暗号化している。
- セキュリティ設定をユーザー側でカスタマイズできるか?
- データソースと同期先に接続する方法にはどのようなものがあるか?
- セキュアDMZ アクセスを有効化して、内部ファイアウォールを保護できるか?
- 強力かつセキュアな認証方法を提供しているか?
- ベンダーはユーザーのデータのコピーを作っているか?ベンダーのシステムにコピーすることなくデータを自社のデータベースに移行したり、そこから取り出すことができるセキュアなソリューションが望ましいでしょう。
- GDPR コンプライアンスに則り、ファイル転送ガバナンスをサポートしているか?
価格
多くのETL ソフトウェアプロバイダーは独自の価格体系を設定しています。複製したデータ量、データソース数、許可するユーザー数などに基づいて価格が決まります。
無償版や、全機能が使用可能な無償評価版を使えばリスクなくプラットフォームを体験できるので、こうしたオプションのある製品は素晴らしい選択肢です。スケーラビリティの考慮や、データ量の増加に合わせて料金がどう変わるか、といった点も重要です。
高性能ELT という選択肢
データウェアハウスはこれまで高価な内製アプリケーションで、データパイプライン内でデータをロードする前に変換する必要がありました。これがETL(抽出:Extract、変換:Transform、ロード:Load)方式ですが、今では状況が違います。
企業が新しいデータウェアハウスをクラウドプラットフォームに組み込むようになり、データチームはデータがシステムにロードされたあとで、変換を実行できるようになりました。これが、ELT(抽出:Extract、ロード:Load、変換:Transform)方式です。データを移す先のデータウェアハウスやデータベースの処理能力を活用したい、という場合もあります。現代のデータレプリケーションソリューションではより素早い抽出、ロード、変換の処理が可能で、データ移行のパイプライン処理を大幅に高速化します。
Flexibility - SQL クエリでのフィルタリングや差分更新
製品が自分のニーズを捉えた手法を用意している、という点も重要です。例えば差分更新機能です。大量のレコードを持つテーブルを利用していると、テーブルに更新がありそれをデータベースに追加したいというとき、毎回テーブル全体をレプリケートしていると時間がかかってしまいます。そんなときに役立つのが差分更新機能で、最終更新日時を保持してそれ以降に変更されたレコードのみを更新する、あるいはINSERT、DELETE といったSQL コマンドのログを保持してそれをもとに更新する、といった方法で、変更があったレコードだけを更新する手法です。こうした手法が用意されていれば、大量のレコードを扱う場合に便利です。
ハンズオン評価
次の項目について、ELT ソリューションを自社のデータと環境で試してみましょう。
- 使いやすさ:今は必要ないが今後ワークフローに取り入れるかもしれない機能も含め、あらゆる機能を試してみましょう。
- 同期と連携:データソースを設定する際の難易度や、ETL ツールがデータを希望する頻度で送信するのに耐えられるかどうか試しましょう。
- タイムライン:すべてのデータを、アナリストのニーズに合うようスケジュール通りに同期先できることを確認しましょう。
- 精度:さまざまなデータソースからいくつかデータセットを作成して、送信したデータが正確かどうか確認しましょう。
CData Sync:ETL を簡単に
CData Sync は、オンプレミスとクラウドデータソースのデータを、従来型のデータベースから新興のものまで幅広いデータベースに、ユーザーが直感的な操作で同期できるようにします。CData Sync は簡単にデータをデータベースに追加したりそこから取り出すことができ、データをCData のシステムにコピーする必要もない、セキュアなソリューションを実現します。CData Sync はデータを複製して業務レポートを支援し、GDPR コンプライアンスとファイル転送ガバナンスに則り、さらに内部ファイアウォールを保護するセキュアなDMZ アクセスを提供します。
CData Sync の無償評価版をダウンロードして、新たなETL ソリューションをお試しください。