CData Software Blog

クラウド連携のCData Software の技術ブログです。

「いいデータ」とは?~データハッカソン審査員が考えた5つのポイント~

先日、Datalympic とうハッカソンに弊社でスポンサー賞をださせて頂きました。ファイナル当日には、本社CTO のTomas も(初)来日して、CData 賞のプレゼンターとなりました。

副賞の一つであるCData 賞は「いいデータのチームを選びます。」と事前に決めていました。まあ、我々データを扱うコンポーネントを扱うベンダーですし、「シーデータ だから いーデータ」とゴロもよいので、あまり深く考えずに決めたのでした。

ファイナルが近づくにつれ、「いいデータって何だっけ?」という基本も基本な疑問が湧いてきました。CTO を含むコアメンバーで「いいデータ」について議論して、審査の評価軸(クライテリア)を決めることができました。ハッカソンだけではなく、ビジネスでのデータ分析やデータを使った施策を判断する際の指針にもなると思うので、ここに公開してみます。

f:id:cdatasoftware:20191129102925p:plain
いいデータの5つのポイント

1. データをベースに判断することで得られる価値

良いデータとは判断を導くデータです。そして判断をした結果、なんらかの価値を得ることが必要です。そもそも何のためにデータを集め、使うのか?それは誰かにメリット・価値を与えるためです。直接的に言えば、それは誰かがお金を払う価値のあるメリットか? OR 誰かが支払うお金を減らすことができるか? そしてその大きさは?という質問に回答できるかどうかです。

データが取れるから取って使ってみた。データを駆使すればなにかができると思った、という目的のないデータ活用をしていませんか?何かの判断をするためにデータを集めるのです。何の判断をするかわからない場合は、データ活用は失敗します。

もっと突っ込むと、データが得られた前提でそれをベースに決断して行動を変える勇気はありますか? その判断は今業務として行っていることの軌道修正や否定を含むものであるはずです(同じ路線ならデータ収集もする必要はないわけで)。データがそろっても変化に対する決断ができないのであれば、データ活用プロジェクトなど最初から行う必要はありません。

2. データは信頼できるか?

上記の判断を導くためのデータは信頼できるものでしょうか?「データ・数字は正しい」なんて今どき盲目的に信じる人はいないですね。

データの取得方法や、取得範囲は適切か?オペレーションをしながら自然にたまっていくデータ(ログ、ロケーション、センサーなど)は、より信頼性が高いと言えそうです。人間が入力するデータは、平均3% ぐらいは間違っているらしいですので、信頼性はやや落ちます。よく経営会議で出てくる、課長さんや部長さんが集計したスナップショット的なデータはかなり恣意的です。 まして、単純なアンケートや利害関係や相反関係にある人によるインプットなどは恣意性だらけですので信頼性は相当低そうです。

3. データのコスト

データを扱うためには様々なコストが発生します。

  • データを取得するためのコストは? データをインプットするための設備や費用。既存データではなく新しく取得するデータの場合は大きくなりそうです。テクノロジー的に難しいものは格段にコストが高くなるでしょう(除く、すでにテクノロジーを有している場合)。

  • データを分析可能にするためのコストは? ハイ。CData が解決するのが得意なところです。

  • 分析と判断のためのプラットフォーム・アプリ構築コストは?

コストが低く、メリットが大きいものは当然良いデータです。

今回のDatalympic では、あるチームの「脳波を検知して、オフィスで眠そうな人にドローンの風を当てて起こす。」という素晴らしいもアイディアがありました。しかし、得られる価値「風が当たって眠気が吹っ飛ぶ」に対する脳波をキャッチするデバイスを開発し・各社員に配るという多額のコストがマッチしないところが残念でした。

この点では、「イベント向け混雑把握」というアイディアのチームは秀逸でした。チケット購入データ・入退場はLINE アプリに入れる、さらにLINEアプリでロケーションを把握するということでほぼコストがかからずデータを取得できるアイディアでした。

ビジネスのプロジェクトでもこういうデータ活用プロジェクト多くないですか?面白いけど、価値とコストがマッチしないもの。あるエバンジェリストの知り合いが最近「富士山を上る装備レベルでデータ分析始めるけど、それ必要? あなたの会社は高尾山ぐらいの装備でいいんじゃない?」と言われていました。げにげに。

4. 倫理的に問題はないか

この点でひっかかれば他のポイントがいくら高くても✖になるノックアウトファクター。メリット(利益)があり、コストが低く、正確なデータでも倫理的に問題があるものは悪いデータです。

プライバシーであったり、利益相反であったりいろいろな倫理的問題はあります。

実ビジネスでのリクナビの辞退率データなどはこのケースです。たしかにメリットはありそうで正確ですが(もし事前同意をほかの項目も含めたクリック同意で取っていたとしても)使ってはいけないデータです。

5. データが蓄積された場合、副次的効果があるか

これはワクワクのボーナスポイント的な評価です。だれかの利益のためにデータを収集してりようしながら、それが蓄積されることでビッグデータ的な価値を生むかどうか?です。ワクワクしますよね。

CData 賞を、見事受賞されたチームはこういった点ですばらしいデータを使っていました。

まとめ

まだまだ「いいデータ」正解にたどり着けたとは思っていませんが、上記の5点をデータ活用プロジェクト時に考えてみてはいかがでしょうか?

おまけ:

本当はファイナリストのなかで予選時には「飲み屋のボトルキープのシェアリングアプリ」というアイディアがあったんです。ボトルキープは3か月ぐらいで廃棄される資産なので廃棄ロスを考えればシェアリングにはぴったり。ユーザーには金銭的なメリットがあります。アプリ化すればデータ収集にもさほどコストはかかりません。ボトルに残量計測センサーでも入れれば低コストで正確なデータも取得可能。倫理的にも問題はないどころか廃棄ロス削減なのでいいことです。そして全国の呑兵衛たちのデータが集まればそれは大したビッグデータになります。

と思いきや、このチームファイナルで別のアイディアになっちゃってました。なんでやねん!