ビッグデータ管理: 知っておくべき5つの新常識

デイビッド・ローシン(David Loshin)、Knowledge Integrity社、社長

ビッグデータ・プラットフォームを導入する組織が増えるのに伴い、適切なデータ管理手法の欠如がビッグデータ向けアプリケーションの開発を阻害するケースについての懸念が高まっています。ビッグデータ・プラットフォーム(汎用ハードウェアをHadoopと組み合わせるものなど)に関連してビッグデータ管理のあり方を考えた場合、新しいテクノロジーの登場によってデータ管理に従来とは異なる新しいツールとプロセスが必要になっていることは明らかです。本稿では、分析結果の一貫性と信頼性を確保するために役立つビッグデータ管理のあり方について、いま知っておくべき5つの新常識を紹介します。

1. ビッグデータ管理の一部はビジネスユーザー自身が実行できる

ビッグデータに関して語られる特長の1つは広範なデータの利用です。ビッグデータ活用環境では、元のフォーマットのままで保管された数多くの大規模なデータセットにアクセスできることを前提としています。今日のビジネスユーザーは前の世代よりもテクノロジーに精通しているため、オペレーショナル・データストア、データウェアハウス、データマートを通して統合・整形済みのデータを与えられるのではなく、生のフォーマットのままのデータにアクセスし、必要な準備は自分で行いたいというユーザーも増えています。こうしたビジネスユーザーは、データソースの精査から、レポート作成や分析の実行までを、独自のビジネスニーズに合わせて柔軟に行いたいと考えているのです。

ビッグデータ向けのセルフサービス環境をビジネスユーザーに提供すると、ビッグデータ管理に求められる2つの要件を満たすことができます。

  • ビッグデータを対象としたデータ探索を可能にするには、各ユーザーが自力でデータを精査できる手段を提供する必要があります。
  • 数多くのデータセットから必要な情報を収集し、その結果を分析機能に引き渡せるように、各ユーザーが自力で使用できるデータ準備ツールを提供する必要があります。

2. 十年前とはデータモデルが異なる

レポートや分析のためのデータを収集・保管するプロセスに関する従来のアプローチでは、定義済みの構造に合わせてデータを格納することが中心となります。しかし、ビッグデータ管理の世界で期待されているのは、構造化データセットと非構造化データセットの両方を元の(生の)フォーマットのままで取り込んで保管すること、つまり、定義済みのデータモデルの利用を避けることです。こうすることのメリットは、さまざまなユーザーが各自のニーズに最も適した方法でデータセットを調整できるという点です。

ただし、一貫性の欠如や解釈の食い違いといったリスクを軽減するためには、ビッグデータセットのメタデータ管理を適切な手法で行うことが必要になります。具体的には、ビジネス用語集の文書化、ビジネス用語からデータ要素へのマッピング、コラボレーション環境の運用管理に関して盤石な手続きを確立することにより、分析目的でデータを操作する際の解釈と手法を関係者全員が共有できるようにしなければなりません。

ビッグデータの管理には…(中略)…より幅広いデータのアクセスと操作を可能にする新しいテクノロジーおよびプロセスの枠組みを導入することが欠かせません。

3. データの品質を見極める責任は利用者側にある

従来のシステムでは、定義済みのモデルにデータを保管する前にデータの標準化とクレンジングを適用します。これに対し、ビッグデータ活用環境の特徴の1つは、データを元のフォーマットのままで保管・提供するという性格上、データセットを収集した時点ではクレンジングも標準化も適用しないことです。

これにより、データを利用する方法の自由度は高まりますが、必要なデータ変換を適用するのはデータを利用するユーザー自身の責任となります。そのため、ユーザーによる変換が互いに矛盾しない限りは、1つのデータセットを異なる目的に利用するのも容易です。逆に言うと、異なる変換を管理する手法と、それらが矛盾しない状態を確保する手段が必要になります。そのため、ビッグデータ管理環境には、ユーザーによるデータ変換の結果を収集する方法と、それらが矛盾しておらずデータ解釈の一貫性が保たれている状態を確保する方法が組み込まれていなければなりません。

4. アーキテクチャによってパフォーマンスが改善されることを理解する

ビッグデータ・プラットフォームでは、安価な汎用製品で構築した処理ノードとストレージ・ノードを利用して、分散ストレージを用いた並列計算を実行できます。ただし、SQL-on-Hadoopによるクエリ最適化や実行モデルの詳細を十分に理解していない場合は、応答時間の予想外の長さに失望する結果となりかねません。

例えば、複雑なJOIN(結合)操作では、分散データセットの塊を全てのコンピューティング・ノードにブロードキャストする必要がありますが、これは大量のデータをネットワークに送り出すことになるため、パフォーマンス上の深刻なボトルネックが発生しかねません。解決策は、ビッグデータ・アーキテクチャにおけるデータ編成方法と、データベース実行モデルにおけるクエリ最適化方法を理解することであり、これらの理解があれば、十分にハイパフォーマンスなビッグデータ活用アプリケーションを記述できます。

5. ビッグデータ活用の真髄はストリーミングの世界にあり

以前のデータ活用環境では、分析目的で収集および利用するデータの多くは組織内で生成され、静的なデータ・レポジトリに保管されていました。現在では、ストリーミング・データが爆発的に増え続けています。その中には、ソーシャルメディア・チャネル、ブログ、電子メールなど人間が作成するコンテンツもあれば、無数のセンサー、デバイス、メーター、その他のインターネットに接続されたマシンから流れ込んでくるマシン生成データもあります。また、Webイベントログのような、ITシステムから自動生成されるストリーミング・コンテンツもあります。こうしたストリーミング・ソースの全てが大量のデータを発生させており、それが分析の貴重な情報源となっています。

そして、これこそがビッグデータ活用をめぐる課題の核心です。ですから、ビッグデータ管理戦略には必ず、有意義な情報のスキャン/フィルタリング/選別といったストリーミング処理をサポートするテクノロジーが含まれていなければなりせん。それなしで、ストリーミング・データの収集、保管、その後のアクセス管理を適切に行うことはできません。

ビッグデータ管理に関する考慮事項

ビッグデータを適切に管理するためには、データのモデリングやアーキテクチャに関する従来型アプローチの多くを効果的に活用するのみならず、より幅広いデータのアクセスと操作を可能にする新しいテクノロジーおよびプロセスの枠組みを導入することが欠かせません。ビッグデータ管理戦略には、データ探索、データ準備、セルフサービス方式のデータアクセス、協働作業型のセマンティック・メタデータ管理、データの標準化とクレンジング、ストリーム処理エンジンを実現するための各種ツールの導入が必須です。そして、ここで示した「新常識」を十分に理解していれば、ビッグデータ活用の取り組みから成果を上げるまでの期間を飛躍的に短縮することができます。


David Loshin

デイビッド・ローシン(David Loshin)氏は、Knowledge Integrity社の社長です。データ品質、マスターデータ管理、ビジネス・インテリジェンスの領域におけるソートリーダーおよび熟練したコンサルタントとして知られています。データ管理のベストプラクティスについて、b-eye-network.comのエキスパート・チャネル、数多くの著書、ホワイトペーパー、Webセミナーなどを通じて、極めて精力的に執筆・啓蒙活動を展開しています。