適切なデータ処理を支える5つのデータ管理ベストプラクティス

執筆:シンディ・ターナー(Cindy Turner)、SAS Insights Editor

あなたがどのようなビジネスに従事しているとしても、あなたの会社では何かしらの重要データを遊ばせています。また、あなた自身も大量の重要データを社内外の多種多様な場所に保持しているかもしれません。だとすれば、あなたに欠けている可能性があるのは、すべてのデータにアクセスし、詳しく調べる作業を容易にしてくれる「データ管理のベストプラクティス」です。それらを実践すれば、「全く新しい市場への参入」や「期待を大幅に上回る利益の達成」へと会社を後押ししてくれる洞察の糸口が見えてきます。

しかし、あなたのビジネスにとって有意義なデータは一体どれで、どこにあるのでしょう? 必要なときにすぐにアクセスできるでしょうか? それらのデータの正確性、最新性、クリーン性、完全性を把握しているでしょうか? フォーマットや更新頻度を問わず、すべてのデータを簡単な操作で取りまとめることはできるでしょうか?

ここでの大きな問題は「あなたのデータはビジネス・アナリティクスをサポートする準備が整っているか?」ということです。しばしば無視されがちな真実ですが、アナリティクスで本当にエキサイティングな成果を挙げるためには、その前にまず、データを適切に準備できる必要があります。そのための総合的な取り組みが「データ管理」です。

データ管理のベストプラクティスに関するホワイトペーパー(英語版)をダウンロード

データ管理ベストプラクティスの実践 = アナリティクスの向上

もちろん、多くの企業はこれまでも「アナリティクス向けの準備が真の意味では整っていないデータ」でアナリティクスを実行してきましたが、それらのデータは不完全だった可能性があります。恐らくその企業のインフラは、一部の新しいデータ・フォーマット(例:テキスト・メッセージ由来の非構造化データ)に対応できていませんでした。あるいは、重複したデータ、破損したデータ、陳腐化したデータで作業していた可能性があります。

そうした企業では、データ管理を改善する方法を見つけ出さない限り、アナリティクスの結果は「まあまあ」のレベルに留まり続け、「最適」のレベルに達することはありません。では、フィルタリングされていないデータを適切に管理し、アナリティクス向けに準備する作業は、どれくらい難しいのでしょうか? データサイエンティストに質問した結果によると、彼らのほとんどは、分析モデルの開発にかかる時間の50~80%をデータの準備だけに費やしています。

データをアナリティクス向けに準備するための、5つのデータ管理ベストプラクティス

  • 従来のデータと新しいデータの両方へのアクセスを簡素化する。一般にデータが多いほど優れた予測変数が得られることから、ビジネス分析担当者やデータサイエンティストが利用できるデータ量は多いに越したことはありません。より多くのデータにアクセスできるほど、最も優れた予測をもたらすデータがどれかを素早く判断しやすくなります。SASはこの取り組みを支援するべく、ネイティブなデータアクセス機能を豊富に提供しています。これらの機能により、永遠に増え続けるソース/フォーマット/構造の多種多様なデータを用いた作業が容易になります。
  • 高度なアナリティクス手法でデータサイエンティストの分析力を強化する。SASは、洗練された各種の統計解析機能をETL(抽出/変換/ロード)フローの内側で提供しています。例えば、頻度分析は、平均や中央値などの指標値を歪めかねない外れ値や欠損値の特定に役立ちます。要約統計量は、分析担当者が分布と分散を理解するために役立ちます。なぜなら、現実のデータは必ずしも、多くの統計手法が想定しているような正規分布にはならないからです。相関は、どの変数群がどの程度まで相互に影響し合う可能性があるかという観点での理解に役立ちます。これにより、どの変数またはどの “変数の組み合わせ” が最も有用であるかを、予測力の強さに基づいて判断できるようになります。
  • データ浄化手法を用いて既存のプロセスに品質管理を組み込む。戦略的な取り組みの最大40%は低品質のデータが原因で失敗しています。データ管理のベストプラクティスを中心に据えて設計されたデータ品質プラットフォームがあれば、データ統合フローに適切にデータ・クレンジングを組み込むことができます。処理をデータベースにプッシュダウンしてパフォーマンス向上を図ることもできます。また、使用する分析手法に合わせて無効なデータを取り除くことや、ビン化(狭い間隔のデータをグループ化すること)によってデータを加工することも可能です。
  • 柔軟なデータ操作手法を用いてデータを整形する。アナリティクス向けのデータ準備では、複数のテーブルから収集したソースデータをマージ、変換、非正規化、および場合によっては集計した上で、非常に横幅の広い1つのテーブルに格納する必要があります。このテーブルはしばしば分析ベーステーブル(ABT)と呼ばれます。SASソリューションのデータ変換機能は直感的なグラフィカルなインターフェイスで操作できるため、データの転置も容易です。また、データの再整形に関するその他の変換機能(例:頻度分析、データの追加、データの分割/結合、各種の集計/要約手法)も利用できます。
  • データ管理領域とアナリティクス領域を横断してメタデータを共有する。共通のメタデータ層により、データ準備プロセスを一貫した方法で反復実行することができます。この層はコラボレーションを促進し、データ準備プロセスにリネージ(系統)情報を提供し、モデルのデプロイ(業務実装)を容易にします。その結果、生産性の向上、モデル精度の向上、サイクル時間の短縮、柔軟性の向上、データの監査適合性と透明性の向上が実現することになります。

データ: 意思決定の基盤

アナリティクスは近年、最もホットなITトピックのひとつとなっており、これが非常に魅力的なテクノロジーであることは誰も否定できません。しかし、アナリティクスのマジックについて夢を描く際は、「アナリティクスの基底を支えるのはデータである」という点を忘れないでください。データを適切に処理することの重要性を過小評価してはなりません。

他のインサイト


SASが提供する最新のインサイトをご希望の場合は、SASの「Insights」ニュースレターをご購読ください。あるいは、SAS Insightsページから各トピックのトップページ(アナリティクスビッグデータデータ管理マーケティングリスク管理と不正防止など)に移動して、新着記事のリストを定期的にチェックしてください。

このインフォグラフィックは、MIT SMR Connectionsによる調査結果の重要ポイントを取り上げています。この調査では2,400名のビジネス・マネージャーおよび経営幹部を対象に、所属組織におけるデータ/アナリティクスの取り組みをどのように前進させているかを尋ねました。