非構造化テキストに潜んでいる未利用のポテンシャル
執筆: メアリー・ベス・ムーア(Mary Beth Moore)、AIおよび言語アナリティクス・ストラテジスト、SAS
あなたは人々が繁華街を行き交う様子や、混雑したコーヒーショップに座っている様子を観察したことがありますか? 最近は、ほぼすべての状況で、人々がスマートフォン、タブレット、ノートPCで文字を入力していることに気づくはずです。
人々がデバイスに没頭しているのを見ると、私は文字が入力されている様子を思い浮かべます。そこでは短縮表現、頭文字語、スペルミス、別文字表現(例:love ⇒ luv)も珍しくありません。
これは、私たちの思考がデジタルワールドに変換されていくプロセスそのものです。私たちの研究、意見、事実、フィードバック、CTA(コール・トゥ・アクション)などは、デバイスのキーボード(の類)を通して人間の言語からデータへと変換されます。しかし、そうしたデータのすべてを使って私たちは何をしているのでしょうか?
非構造化テキストは人間が生み出した最大のデータソースであり、その量は日々、指数関数的に増大しています。私たちがキーボードやモバイルデバイスで入力するフリーフォーム・テキスト(自由形式のテキスト)は、人間が思考を伝達したり、取り組みを文書化したりするための重要な手段です。とはいえ多くの企業は、それが内部レポートか、顧客対応記録か、サービスログか、ケースファイルかを問わず、自社が保有する非構造化データのポテンシャルを有効活用していません。意思決定者は、既存の課題や新たに生じつつある課題に対して有意義なアクションを講じるチャンスを逸失しているのです。
無料のホワイトペーパー
「Text Analytics for Executives」(直訳:経営幹部向けのテキスト・アナリティクス) は、銀行・金融、製造、官公庁をはじめとする多くの業種においてテキスト・アナリティクスがどのように利用されているかを詳しく検討しています。非構造化データは、改善とイノベーションのための巨大な、そしてほとんどが未利用の情報源です。
自然言語処理を用いた革命的アプローチ
自然言語処理(NLP)は、人工知能(AI)の下位分野であり、コンピューターが人間の言語を理解、解釈、操作できるようにする取り組みです。一般的な言葉で説明すると、一連のNLPタスクでは、言語を短い基本要素に分解した上で、要素間の関係を理解することを試み、それらの要素全体がどのように連携して意味を表現しているかを探索します。NLP、機械学習、人間の分野別専門知識の組み合わせは、新しい課題や既存の課題へのアプローチ方法に革命をもたらすポテンシャルを秘めています。
NLPの応用用途は実に多岐にわたっており、NLPは「非構造化テキストを迅速に不眠不休で分析し続ける必要性を伴う状況」のほぼすべてに理想的です。例えば病院のシステムには、永久に増え続ける言語資料(コーパス)が電子カルテの形式で存在しています。すべての個人記録を組み合わせた上で症状のパターンを検出したり、根本原因分析を実行したりすることは、人間にはほぼ不可能でしょう。しかしAIシステムなら、24時間休むことなく、検査の結果、患者の報告、リストされた症状などを分析することができます。NLPは既に「電子カルテ内のデータが敗血症の存在を示唆している場合にそれを予見し、病院スタッフにアラートを発する」という応用用途において、そのパワフルさが実証されています。
ご自分の所属組織に目を向け、どのような非構造化テキストを集積しているか、また、そこに潜んでいるかもしれない新事実について考えてみてください。
データとNLPで致命的疾病を阻止する
Sepsis Allianceによると、敗血症は病院内での死因として筆頭に挙げられます。敗血症の治療では早期の診断と迅速な医療介入が極めて重要ですが、発症初期の段階では必ずしも症状が明白とは限りません。死亡率は治療が1時間遅れるごとに8%ずつ増大します。ケースロード(期間あたりの診察件数)面の負荷状況や、敗血症の初期段階における無症状患者の可能性を考えると、人間の目では「診療記録内のデータ」と「致命的疾患の初期兆候」との間の相関に気づけない可能性があります。しかし、それらの電子カルテのデータにNLPを適用すると、「医師や看護師に『患者が医療介入を必要としている可能性がある旨』を通知するアラートシステムをトリガーするための予測モデル」への重要な入力が得られます。研究によると、発症から180分以内に敗血症向けの完全な治療を施すと、そうしなかった場合に失われる命の80%を救えることが示されています。
また、NLPの応用用途は医療現場以外にも広がっています。NLPは、訴訟事件ファイル、ソーシャルメディアのフィード、コールセンターのログ、研究文献、保証請求などを分析する目的にも利用できます。企業や組織が保有しているデータの大部分は、非構造化テキストの形式です。
この情報全体が示す意味を理解できるようになるためには、以下の3つの機能を組み合わせる必要があります。
- 自然言語処理(NLP): NLPは、機械によるテキストの “読解” を支援するための言語解析を実行します。具体的にはテキストを分析し、テキスト処理やテキスト理解に適した “活用表現を加味した単語” に変換します。これにはトークン化、品詞タグ付け、ステミング、固有表現認識などの手法が含まれます。
- 機械学習: テキストにNLPを適用した後は、その出力データを機械学習がデータマイニングや機械学習アルゴリズムのために利用します。機械学習の目的は、重要な洞察の生成や説明的アナリティクスの実行を自動化/高速化/高度化することです。
- 人間によるインプット: テキストを分析する段階では、人間によるインプットが依然として極めて重要です。例えば、機械による「スラングの認識」、「皮肉の検知」、「関連コンテキストの提供」などを手助けするために、分野別の専門知識を「言語ルール」という形で適用します。
非構造化テキストを分析するテクノロジーは、機械学習と人間の指示とを組み合わせることにより、データの流入と同時並行でそのデータから積極的に学習し、新たな洞察を生成します。最終的な目標は、業務遂行に好影響をもたらすテキスト・アナリティクス・モデルを構築およびデプロイ(業務実装/現場展開)することであり、その手段として、「トピック検出/コンテキスト抽出/ドキュメント分類/センチメント分析などによるテキスト理解」を実現する機能を提供します。
NLPには私たちの生活と働き方を改善するパワーがあります。NLPは「人間とテクノロジーの “パートナーシップ” が存在しなかった時代には変革が低速または困難だった各種領域」に進歩をもたらす取り組みを促進できます。ご自分の所属組織に目を向け、どのような非構造化テキストを集積しているか、また、そこに潜んでいるかもしれない新事実について考えてみてください。そのデータには、サービス提供対象者の声が反映されており、また、「より優れたエクスペリエンスの提供」、「各種ケアの質の向上」、「人間同士の関わり合い方の拡充」を促進するポテンシャルが秘められています。企業や組織の非構造化データには、語られるべきパワフルなストーリーがいくつも眠っています。あなたはそれに耳を傾けていますか?
この記事は当初、insideBIGDATA に掲載されました。
著者紹介
メアリー・ベス・ムーア(Mary Beth Moore)は、SASのAIおよび言語アナリティクス・ストラテジスト。戦略的マーケティングのディレクション責任者であり、人工知能とテキスト・アナリティクスに関するSASのグローバル・メッセージングを統率しています。AI、NLP、SASのData for Good(データを活用した人道支援/社会支援)イニシアチブをはじめとする幅広いテクノロジー・トピックに関して、頻繁に講演や執筆を行っています。SASに入社する前は、米国海兵隊に所属していたほか、米国防総省およびIntelligence Communityで情報分析担当者兼シニア・インストラクターとして数年間勤務し、主に派遣部隊と特殊作戦をサポートしていました。また彼女は、特殊教育の唱道者、障害者権利コンサルタルト、「さまざまな能力を持つ人々に関するコミュニティ・インクルージョン」の支持者でもあります。
推奨資料
- 特集:データサイエンティストのキャリアデータサイエンティストはどのようなスキル・能力を持って、どのように組織の中で活躍するのでしょうか。SAS Forum Japna2018 データサイエンティスト・キャリア・トラックでは、データサイエンティストを活用する組織や、データサイエンティストとして活躍する個人、また、人材育成に取り組む大学や企業の方に、仕事例やキャリア、学生時代に習得すべきスキルなどについて、学生の皆様に向けて講演いただきました。データサイエンティストにも、さまざまな活躍の形、それぞれの役割に応じて求められる能力があります。ここでは、各講演の内容をご紹介します。
- Data-driven health careLearn how five health care providers are tackling global health issues with big data analytics.
- 組織に最適な分析を取り入れる4つのステップ組織が分析技術を有効に活用することで不安要素をなくし、発生前の早い段階から今後起こり得る問題に対処できる仕組みを作り上げるための4つのステップを紹介します。
「Insights」ニュースレターのご購読登録はこちら