SAS® High-Performance Text Mining
全データの活用により、モデルのパフォーマンスを大幅に向上
ソーシャルメディアの何百万もの投稿、質問、記録を分析し、いま何が最も話題になっているかを特定した上で、テキスト変数を組み込んで顧客セグメンテーションの精度を高め、より正確な予測を立てることができます。大規模で多種多様なコンテンツ・ソースから重要な洞察を抽出するのも簡単。SASが提供する各種ビッグデータ・テクノロジーなら、さまざまな可能性を根底から再定義し、大きく拡げることができます。
利点
自動化されたプロセスで、優れた意思決定を迅速に実現
機械学習と自然言語処理により、以前は時間をかけて手作業で行っていた工程を自動化することができます。各種のハイパフォーマンス機能を活用すれば、対象がどれほど大きな集合であっても迅速な評価が可能。これまでにない速さで、総合的な答えと洞察を手にすることができます。
非構造化データと構造化データを高度な分析に融合
サンプリングした一部のデータや集計データではなく、利用できる全データを対象にして、高度な分析を適用することができるため、結果の正確性を高め、より的確かつ効果の高い意思決定を下せるようになります。構造化データとテキストデータを組み合わせて使用することで、これまで知られていなかった関係性を明らかにし、モデルのパフォーマンスをさらに向上させることが可能です。
大規模なテキスト文書を取り込み、予測の精度を改善
数十億の文書で構成されるような大規模なデータセットを短時間で自動的に調査し、より信頼性の高い結果を取得することができます。分散型の並列処理によって分析処理にかかる時間が短縮され、より多くのデータをより迅速に分析できるため、分析作業がビジネス成果に直結するようになります。
アイデアとシナリオのテストを重ね、モデルのパフォーマンスを最適化
マルチコアのコンピューティング環境により、以前は30分かかっていた処理が1分以内で完了するようになりました。実行時間の短縮は、作成できるモデル数の増加と、結果待ちの時間の短縮につながります。その結果、簡単な操作でさまざまなパラメータを用いてモデルを再調整し、モデルのパフォーマンスを速やかに最適化できるようになります。
スクリーンショット
特長
- 自然言語処理
- テキスト処理オプション
- テキストのフィルタリング
- トピック生成
- グラフまたは表形式の出力
- Greenplum、Teradata、Oracle Exadataのアプライアンス上、あるいはApache HadoopまたはClouderaを使用する汎用ハードウェア上で利用可能