本記事ではCData Parquet Power BI Connectorを利用し、Parquet形式のデータをPower BIで可視化する方法を紹介します。

Parquet

ParquetはHadoopの各種プロジェクトで利用できるオープンソースのファイルフォーマットです。カラムナフォーマットと呼ばれるデータ保存形式で、必要なカラムのみを読み込むことでIOを削減し、データアクセス速度の向上を実現します。 CSVのような行ベースのファイルと比較すると、巨大なテーブルから特定の列を読み込むようなクエリに対して優れたパフォーマンスを発揮します。

parquet.apache.org

Parquet形式データの作成方法

Parquet形式のデータを作成する方法はいくつかありますが、Pythonを使う方法が簡単です。以下にCSVファイルをParquetファイルに変換するサンプルコードを載せます。これを実行するにはPandasとPyarrowのインストールが必要です。

Pandasのインストール

> pip install pandas

Pyarrowのインストール

> pip install pyarrow

CSVファイルをParquetファイルに変換するコード

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

df = pd.read_csv('./data.csv')
table = pa.Table.from_pandas(df)
pq.write_table(table, './data.parquet',compression='none')

シナリオ

今回はParquet形式で保存されているデータをCData Parquet Power BI Connectorを通して取得し、Power BI上で可視化します。対象とするデータは5年間の日別の生産(Production)、販売(Sales)、在庫(Inventory)の時系列データです。

f:id:urabe_shintaro:20200819155920p:plain

※上の画像はCSV形式の対象データをExcelで表示したものです。

事前準備：CData Parquet Power BI Connectorのインストール

CData Power BI ConnectorsはMicrosoftが提供するデータ可視化ツール「Power BI」と、Parquetを含む200種類以上のクラウドサービスとのデータ連携を実現するコネクタです。今回はCData Parquet Power BI Connectorを使ってParquetからデータを読み込みます。

CData Software Japan社のCData Parquet Power BI Connectorダウンロードページにアクセスしてください。ダウンロードページの「ベータ版ダウンロード」をクリックすると必要事項入力画面が表示されます。

f:id:urabe_shintaro:20200819160009p:plain

必要事項を入力し、「ダウンロード」をクリックするとCData Parquet Power BI Connector ベータ版のインストーラがダウンロードされます。ダウンロードしたファイルをダブルクリックするとインストーラが起動しますので、ウィザードに従ってインストールしてください。途中、ライセンスサーバーへのオンラインアクティベーションが行われるためネットワーク環境に接続されている必要があります。ライセンスサーバにアクセス出来ないネットワーク環境の場合は、CData Software Japan テクニカルサポートまでお問い合わせください。

ドライバのインストールが完了すると接続設定画面が表示されますので、URIにParquetファイルのパスを設定してください。必須の設定項目についてはヘルプをご覧ください。

f:id:urabe_shintaro:20200819160023p:plain