東大と日立、ビックデータの匿名を高速処理 個人データの安全活用なるか

2018年11月21日 21:36

印刷

 東京大学と日立製作所は20日、大規模データの匿名加工処理を高速化する技術を開発したと発表した。

 IoT(モノのインターネット)の普及につれて、日々大量のデータが蓄積されている。その蓄積データは、2つに大別できる。従来のデータベースに蓄積可能な規則性がある構造化可能なデータと、非構造化データだ。特に、後者の様々な種類や各種形式のデータ群の研究は、新たな価値を生み、ビックデータ解析と呼ばれる。

 ビックデータの特徴は、Volume(量)、Variety(種類)、Velocity(発生速度)の3つのVで表される。IoTの構成では、センサーノードから逐次取得されるデータの種類は多様だ。センサーの稼働に合わせて少量のデータがリアルタイムに発生。結果として、データ容量は膨大となる。

 ビックデータ解析について、少し掘り下げてみよう。

●データ解析の留意点

 ビックデータ解析の前に、データ解析の留意点を理解することが肝要だ。先ず、データのサンプル変数を増やすとその組み合わせは指数関数的に増えることだ。限られた時間内に解析が終了しないのでは、意味がない。次に、相関と因果の見極めだ。お互いが関係している相関なのか、原因と結果である因果関係なのかを判断する。最後は、予測する場合のデータ欠如部分に対するデータの内挿と外挿が必要なことだ。

●ビックデータ解析の利用方法

 多くのビックデータ解析は、データ分析・解析までの時点で何が起きているかの知見を得る目的までに留まる。データの可視化やデータマイニングがそれに当たる。価値創造は、人間の資質や想像力となる。

 次に、データ分析・解析の結果から、何が起こるかを予測できるようになると、ビックデータ解析の価値は飛躍的に増大する。留意点は、予測にはモデリングが伴い、そのモデルの精度に価値が比例することだ。加えて、KPI(Key Performance Indicator)が明確に定まっていれば、指示的な支援も可能になる。

●ビックデータの匿名化の特長

 地方自治体や公共機関、医療機関、民間企業などが保有する様々なデータを解析することは、新たなサービスの創出につながる一方、個人情報保護の対策が必要だ。具体的には、「事業者間でデータを流通させる場合は、個人を識別できないように加工した匿名加工情報にすること」が、個人情報保護法の改正で規定された。

 この匿名加工を施すには膨大な時間が必要という。そこで匿名加工処理に、大規模データの解析問合せにおいて高速性を発揮してきた非順序型実行原理を適用。約100倍の高速化に成功したという。

 日立は大規模データの利活用の拡大に向けて、2019年度中にデータベースソフトウェア製品である「Hitachi Advanced Data Binder」に本技術を組み込み、実用化する予定だ。(記事:小池豊・記事一覧を見る

関連キーワード

関連記事