一般ユーザーに満足してもらおうとすれば、 ネットで検索して結果が表示されるくらいのスピードが必要だ
スペシャルインタビュー:国立情報学研究所 アーキテクチャ科学研究系 教授 佐藤 一郎氏
グリッド・コンピューティングなどの手法を利用して効率的に大量データを処理する技術が注目を集めている。企業の現状は。大量データを高速に処理できるようになる近い将来のビジネスは。そして、そのための人材育成はどうあるべきか。国立情報学研究所 アーキテクチャ科学研究系 教授 佐藤 一郎氏に話を聞いた。
――データ分析技術の最新トレンドについて教えて下さい。
初めに、高速データ処理と大量データ処理という2つの技術トレンドがあります。前者はスーパーコンピュータや並列コンピュータによる高速な演算処理を駆使するデータ処理手法で、後者はクラウドビジネスの流れをくむ、多数のサーバを使ったデータ処理技術が注目されています。これら2つの技術は全くの別物です。乗り物にたとえると、高速データ処理技術は人を速く運ぶ飛行機で、大量データ処理技術は大勢の人を運ぶ鉄道といったところでしょう。
そして最近話題のビッグデータは後者の技術が主体となっている。なお、グリッド・コンピューティングは15年ぐらい前に流行った技術ですが、分散システムの観点から見ると、最近、主流になりつつあるクラウドコンピューティングと、そのシステム構成こそ似ていますが、技術的には相違点が多いです。
――現在に至るまで、データ分析技術はどのように進化してきたのでしょう。
世界最初のビッグデータ事例は米国の国勢調査でしょう。集計処理が7年近い時間がかかり、1890年に集計処理時間の短縮のために発明されたのが、タビュレーティング・マシン(パンチカード・システム)。これがいまのメインフレームの基礎となり、現在のコンピュータにつながっています。つまり、コンピュータの歴史はデータ分析の歴史と言えます。
ここで重要なことは高性能コンピュータが新しい需要や用途を生んだのではなく、大量なデータの処理、高度なデータ分析に対して需要があるから高性能コンピュータが生まれてきたということです。ですから、ベンダーも「技術があるから使ってください」ではなく、「何かをしたい」と考えているユーザーに対して、「ニーズに合う技術があるから、使ってみてくれませんか」提案することが大切でしょう。ユーザーも、どのようなデータ処理やデータ分析が必要なのかをきちんと認識した上で、必要な技術を選ぶべきです。
――現在、先進的な企業は大量データ処理に強いニーズを感じていますか。
企業が大量データ処理を進める背景のひとつには、データの使い方の変化があります。たとえばマーケティングの世界について見てみましょう。ロングテールという言葉に代表されるように、現在の顧客の関心・嗜好は多岐に広がり、いわゆるマス広告は効果が減っています。むしろ同じ商品を買った顧客が、別に買った商品を勧めた方が販売促進につながります。そうすると、マスに対しての分析ではなく、個々の顧客の行動分析をする必要が出てきます。
たとえばコンビニエンス・ストアは従来、店舗別に各商品の販売数をデータとしていましたが、これからのは顧客A、顧客B……と、顧客別に購入した商品と数を、買い物一回ごとに集める必要があり、データ量は格段に増えることになります。ここで注意してほしいのは、個々の顧客によって行動が相違することから、マスを前提にした分析のように一部の顧客や一部のアイテムだけをサンプリング・収集すると重要なデータを失うことがあります。またデータの種類も多岐にわたります。
ただ、データが大量となることから、すべてのデータを分析できません。そこで、集めた大量データの中から、マーケティング上、必要な分析対象データを選んで分析することになります。この結果、分析対象データを選び、組み合わせることが重要になります。
――市場全体を見ると、一般的な企業はどのような状況にありますか。
一部の先進的な企業は熱心に取り組んでいます、しかし、大半の企業はうまくデータを使えていない状況にあるようです。「思ったことができない」「処理に時間がかかる」という不満はよく聞きます。高額なシステムを購入したものの、成功体験を得られなかった企業の一部は、データ分析の効果について懐疑的になっています。また、経営層がデータ分析を重視しない企業も見かけます。そうした企業の方々は諦めずに、いまのビッグデータのブームを利用して、経営層にデータ分析の重要性を説得するといいかもしれません。
――それらの失敗の主な原因は、処理時間がかかりすぎるところにあるのでしょうか。
実際、BIツールの裾の広げる、例えばユーザー企業内で、BIツールの恩恵を受ける人の数を増やすには処理時間は重要でしょう。データ分析の専門知識を持っている方ならば、いま実行している分析の手間がわかるので、処理が遅くても我慢できるかもしれません。しかし、一般ユーザーは単純な集計も、高度な分析も区別しません。ボタンを押して、すぐに結果が返ってこないと不満に思うのでしょう。究極的にはGoogleで検索して結果が表示されるくらいの速度が必要かもしれません。
ここ20年間でコンピュータはプロセッサ性能は何千倍にもなっていますが、入出力性能は数倍程度しか向上していません。BIツールでも、ハードディスクを前提にしたデータベースが性能的なボトルネックになっていることが多いとされます。ですからインメモリ技術など、低コストで高いパフォーマンスが期待できる技術は重要になるでしょう。
――大量のデータを短時間で処理できるようになることでメリットのある分野はどのようなところでしょう。
多くのある小売り業者は、13カ月分しか販売データを持ちません。これは多いデータにより販売分析をしても、メインフレームによる夜間バッチが朝までに終わらない可能性があるからです。大量データを高速に処理できる技術を活用すれば、数年分の販売データが扱えるようになり、分析精度が向上します。実際、天気に影響を受けやすい小売業者では、1年前の今日は雨だったけれど明日の天気は晴れ、という具合に、数年分のデータを持っていれば、天候のバラエティが増え、予測精度が上がります。
一方、短時間で処理できる能力はリアルタイム性の求められるところにも有効です。大量データを高速に処理する技術を使えば、少ないデータに対する処理は早く終わります。たとえば、いまは6時間くらいかかっているバッチ処理が30分くらいで終わるとしましょう。これくらいの時間差で売上分析ができれば、実質的にリアルタイム分析と言えます。24時間前までのデータを使う場合と比べて、30分前までデータを使えば売上予測精度が大幅に高まることも期待できます。
――企業がデータ分析を利用するとなると、人材育成も課題になってきそうです。
数字を読む才能は持って生まれたものだと考えています。ですから、データ・サイエンティストは、育てようとしても100人に1人か2人くらいしか育たないでしょう。かつて私の上司だった確率論系の教授に、数字が羅列された分厚い紙の束を見せられ、「この乱数表が偏っていると思うのだが、君はどう思う?」と聞かれました。見ただけではわからないので後で解析すると、本当に偏っていたのです。
優れたデータ・サイエンティストを育成するためには、世の中に存在する彼のような人を見つけた上で教育する必要があるでしょう。ただ、統計系の人材は多くありません。一つの可能性は物理の実験をやってきた方々でしょう。彼らは数字を読むのに慣れています。ビジネスにおいて分析の対象は物理世界ですから、物理世界の感性を持っていることは重要な要件ですから。
ここで忘れてはいけないのは現場の人たちのデータ分析能力の向上です。ただ、現場の人たちに、これから統計を勉強してくださいと言うのは現実的ではないでしょう。その代わり、例えばビジュアライゼーションなど、だれもが使いやすいツールを使って、統計について細かいことがわからなくても、それぞれのデータの特徴を見いだし、現場の改善につなげられるようにするべきです。また、データサイエンティストの方々も、現場の気づきをいち早く分析に取り入れる工夫が必要になるでしょう。
――データ分析ツールについて、今後のトレンドはどうなると考えていますか。
「ビッグデータを使って売上を拡大」という記事を見かけることもありますが、それがうまくいっている事例はごくわずかです。実際には、売上を上げるより、損失を縮小する方がパターンが多いですし、効果も高いです。というのは儲かるデータを見つけるのは難しいですが、損が出た事例のデータはもっていますから。クレジットカード会社の不正利用検出などがその代表例で、同様にネットゲームの会社は「退会しそうな顧客をいかに長く引き止めるか」という視点で分析を進めています。
データ分析ツールも「これを使って儲けられるか」というアプローチではなく「これを使えば損をしなくなるか」という視点からデータ分析ツールを見直してみることが重要です。そして次のステップでは、顧客の損を減らすためにデータ分析を使う企業がでてくるでしょう。その結果として、その企業は売り上げが落ちるかもしれませんが、顧客の信頼は高まり、収益の安定化には寄与しますから、要注目なトレンドになるはずです。