Hadoopに関する本格スクープ情報
Cloudera社のマイク・オルソン氏が語る最新の動向、変化、成功方程式
執筆:アン-リンゼイ・ビール(Anne-Lindsay Beall)、「SAS Insights」編集者
マイク・オルソン(Mike Olson)氏は自他共に認めるHadoopのエキスパートです。経営していた新興企業を2008年にOracle社に売却したのち、Cloudera社を共同で創業し、ビジネスでビッグデータから価値を引き出すために必要な機能とサポートをパッケージ化したバージョンのHadoopを販売しています。
The Premier Business Leadership Series(英語)経営者円卓会議に出席された直後のオルソン氏をお迎えして、Hadoopテクノロジー、そしてビジネスにおけるその活用方法が、どのように変わりつつあるかをお聞きしました。
Hadoopが極めて優れたソリューションである理由は、低コストでスケーラビリティが高く、完全な柔軟性を備えていることです。収集・保管することになるであろうデータの種類を事前に予測する必要がありません。
それでは、Hadoopとアナリティクスに関する総合的な展望から始めたいと思います。これらのテクノロジーをめぐって、どのような変化が起きているのでしょうか?
マイク・オルソン氏:まず、最も重要なテーマはイノベーションであり、これが他のあらゆるテーマを牽引しています。Hadoopは10歳になりました。ダグ・カッティング(Doug Cutting)氏とマイク・カファレラ(Mike Cafarella)氏がHDFSとMapReduceの初期バージョンを書いて以来、数々の新しいプロジェクトが爆発的にHadoopの機能を拡張してきました。その機能名リストは奇妙な動物寓話集のようでもあり、Pig(ブタ)、Hive(ミツバチ)、Sentry(見張り番)、Zookeeper(飼育係)、Impala(インパラ)をはじめ、他にも20から30はあります。これらの機能は、取り込みとフィルタリングから、データ品質、SQL、データフロー、Web規模のデータ提供、セキュリティとマルチテナンシー、高速テキスト検索まで、幅広い範囲に及んでおり、データを大規模に活用するための、エンタープライズ・グレードの機能と強力な新しい方法が次々に生み出されてきました。
最近、特に注目に値するのは、対話操作型リアルタイム・サービスの登場です。当初のHadoopはバッチモードでした(そのために随分と非難されました)。今日では、ストリーミング・データの取り込み、イベントの発生とほぼ同時のフィルタリングやアラート、モデルの学習、イベントのスコアリングなどをリアルタイムで実行できるほか、かつてはコストがかかりすぎて難しかったテラバイト規模のデータ処理も行えます。実際、ペタバイト規模のデータを抱えているお客様はもう珍しくありません。
こうしたイノベーションは今後も続くでしょう。Apache Sparkはホットな新プロジェクトであり、当社の「ワン・プラットフォーム・イニシアティブ(One Platform Initiative)」がビッグデータ・エコシステム全体の改良を後押ししています。その結果、SparkはHadoopエコシステムの他の部分と同等のセキュリティ、管理の容易性、スケーラビリティを備えるようになっています。しかし、Sparkが進化の終わりではありません。オープンソース・コミュニティからは今後も新たなアイデアが生まれ続け、さらに多くの価値をビッグデータから引き出せるようになると、私は確信しています。いずれはストレージ機能、処理機能、分析機能の全てを網羅することでしょう。
Hadoopを用いたアナリティクスの企業における活用状況については、どのようにお考えですか?どのようなタイプの結果が得られているのでしょうか?企業がHadoopの導入を開始して以降、アナリティクス・プロジェクトはどのように進化してきたのでしょう?
オルソン氏:2つの大きなトレンドがあります。
第1に、企業の間では、長年にわたり隔離されてきたデータセットを組み合わせる動きが進んでいます。Webやモバイルのインタラクションからユーザー行動の理解を深めることや、それを店舗内やeコマースサイトからのトランザクション・フローと組み合わせること、あるいは、コール/チャット/メールなどのインタラクションから得られた情報をカスタマーサポートに提供することは、いずれも以前は不可能でした。そうしたデータセットの全てをそれぞれ異なるシステムで扱っていたからです。今では、全てを1つの場所に取りまとめた上で、幅広い分析ツールを用いて総合的に収集と分析を行うことができます。
第2に、極めて強力な新しい分析手法を利用できるようになっています。SASユーザーの皆さんはもう長い間、アナリティクスの最前線にいらっしゃいますから、機械学習やハイパフォーマンス統計処理も十分にご存じでしょう。Spark Streamingの登場により、今では、それらの幅広い手法を組み合わせ、複雑なイベント・プロセッシング・フローに適用することも可能になりつつあります。ビジネスユーザーは、こうしたシステムからリアルタイムで得られる結果を活用できればよく、背後でどのようなアルゴリズムが動いているかを知る必要も心配する必要もありません。しかし、これらのツールの分析結果にもとづく的確な意思決定を支援する素晴らしいユーザー・インターフェイスを備えたアプリケーションが利用できるようになっていますから、その点は知っておいていただきたいところです。
Hadoopはビジネスの最新化(モダナイゼーション)計画にどのようにフィットするのでしょう?アナリティクスの領域で、Hadoopがビッグデータ・ストレージ向けの優れたソリューションである理由は何でしょうか?
オルソン氏:Hadoopの背後にある核心的なアイデア(あるいはGoogleがこの手法を考案したときの洞察)は、業界標準の安価なサーバーを大量に連携させ、それらのストレージとCPUを組み合わせて活用すれば、以前には考えられなかったほど大量のデータを劇的に低いコストで収集・処理・分析できるはずだ、というものでした。当時のデータベース業界では、インターネット全体を取り込んで保管できるほど巨大なシステムを構築できると信じる人はいませんでした。Googleは不可能だとの指摘を無視し、見事に実現したのです。
Hadoopが極めて優れたソリューションである理由は、低コストでスケーラビリティが高く、完全な柔軟性を備えていることです。収集・保管することになるであろうデータの種類を事前に予測する必要がありません。システムは、登場したばかりの新しいフォーマットも含め、どのようなフォーマットでも処理できます。この点は非常に重要です。今から5年後あるいは10年後に、どのようなセンサー、どのようなシステム、どのようなデータ・フォーマットが使われることになるかを現時点で予測することはでまきせんから。
Hadoopはビッグデータの保管と処理に関して世界で最も成功しているプラットフォームであり、代替候補には相当な差をつけています。ビジネスの最新化にはビッグデータに関する計画が間違いなく必要ですから、その目的のためにだけでも、今すぐHadoopを選ぶべきです。しかし、Hadoopの柔軟性が意味するのは、長期的な意味でも最良の選択肢である、ということです。新しいデータや新しい分析エンジンが登場しても即座に適応できるため、データセンターの将来性が確保されるのです。
全てのビジネスにHadoopを導入すべきなのでしょうか?それともビッグデータを扱うビジネスだけでよいのでしょうか?Hadoopの導入準備ができているかどうかは、どうすれば判断できるのでしょう?また、準備ができていない場合は、Hadoopの導入準備として何をする必要があるのでしょうか?
オルソン氏:それなりの規模の企業や組織は例外なく導入するべきでしょう。ビジネスでは長い間、意思決定を強化するためにデータを活用してきました。顧客と販売に関する情報を収集し、集めた情報をビジネス・インテリジェンス・ツールで探索し、SASが提供しているような優れた分析ソリューションを活用して過去と現在を理解し、将来を予測しています。ビッグデータが意味するのは、より詳細で、より大量のデータをそうした取り組みに活用できるようになる、ということです。詳細度が高まれば、現在の状況をより緻密に、より役立つ形で把握できるようになり、将来の見通しの信頼性も高まります。
現在では、自分たちにHadoopは不要と考えている(あるいは使用していない)小規模なビジネスや個人であっても、こうした状況から大きな恩恵を受けるようになっています。オンライン・ショッピング、航空機旅行の計画、地図/道順案内サービス、テレビ番組の視聴、インターネットの閲覧などはいずれも、Hadoopによるアナリティクスを実用化し、その成果を活用しているからこそ可能になっています。こうした動きは今後も続き、私たちが利用するサービスのますます多くがビッグデータを基盤とするようになっていくでしょう。現時点でも、医療、自動車、エネルギー、農業、製造などの分野で、数々の素晴らしいビッグデータ活用事例を挙げることができます。
Hadoopに関して、成功方程式のようなものは存在するとお考えでしょうか?
オルソン氏:はい。
まず何よりも、ビッグデータとHadoopは大部分の企業・組織にとって新しいテクノロジーです。新しいものは全てそうですが、実際に試してみる前にそれが何かを学ぶ必要があります。ですから、アドバイス、トレーニング、プロフェッショナル・サービスなどを提供してくれる誰かの力を借りることが最初です。
第2に、何を達成したいのかを事前に明確にすることです。当社の最も成功しているお客様たちも、最初はごく一握りの用途から取り組み始めています。ビッグデータを活用して解決したいビジネス課題を絞り込むのです。当社はこのプラットフォームを熟知していますし、もちろん、お客様はご自身のデータとビジネスをよくご存知です。私たちがよく行っているのは、このプラットフォーム上で成功するであろうプロジェクトのスケッチ(概要)をいくつかご提案し、直接的で測定可能なビジネス価値が期待できると思われるものをお客様に選んでいただくというやり方です。これが重要なのは、成功とは、新しい機能に対する確信と、それを適切に活用できるプロジェクトを計画する方法に関する経験、この両者が揃って初めて実現できるものだからです。
第3に、情報テクノロジー、とりわけコア・プラットフォームに関する意思決定の影響は非常に長期間に及ぶ、という点を忘れないことです。ビッグデータ活用とは、テラバイト規模やペタバイト規模の情報を収集し、それを今だけでなく将来も活用してビジネスを改善し続けていく、ということです。ですから、長続きするプラットフォームとパートナーを選ぶことが重要です。これまでHadoopが大成功を収めてきた最大の理由は、オープンソースであることです。Hadoopプロジェクトは、いかなる企業も乗っ取ることができず、それゆえ市場がどのように変動しても生き残ると、CIOたちは分かっているのです。とはいえ、忘れてならない重要な点は、これまで私がお話ししたイノベーションは両刃の剣でもあることです。将来の改善につながる多くの可能性を開いてくれますが、企業や組織が単独で理解・消化するにはあまりにも複雑です。ですから、利用しやすく、セキュアで、管理・統制の行き届いた方法を通してイノベーションを推進・提供してくれるベンダーが不可欠なのです。