SAS Visual Text Analyticsの特長
データの準備と視覚化
データの準備と視覚化
- 分析のためにデータを取り込み、クレンジングと変換を行い、ローカルまたはリモートのファイル・システム、リレーショナルデータベース、クラウドストレージ経由で複数のファイル形式を簡単に受け入れ
- ローカリゼーション/国際化対応やアクセシビリティなどの重要な要素を考慮した直感的なユーザー・インターフェイスを提供
- ネットワーク図またはパス分析を使用して、抽出されたエンティティ、ファクト、および関係をビジュアル化する機能を提供
- 概念ノードからSAS Visual Analyticsに対応した形式にデータを抽出する機能を提供
- 条件マップを使用すると、条件間の関係を視覚的に識別できます。
- グラフィカル・ユーザー・インターフェイスは視覚的プログラミング・フローを提供
- モデルの説明可能性はすべての出力の自然言語生成(NLG)の説明を特長としています。
解析
解析
- 解析アクションは、サポートされているすべての言語ですぐに使用できる機能として提供されます。
- テキスト解析は分散累積をサポートし、累積プロセスのすべての側面をグリッド全体に完全に分散させることによってデータ処理を高速化します。
- トークン化では、文字シーケンスを品詞タグ付けの入力として使用できる個々の文、単語、または形態素に分割できます。
- レンマ化は、単語をその基本形式に関連付けます。
- スペルミス分析では、スペルミスのある単語を、適切なスペルの単語を含む一連のバリアントに関連付けます。
- 品詞タグ付けは、定義とコンテキストに基づいて単語を文法的に分類します。
- 文の境界の曖昧さ回避は、文の開始位置と終了位置を決定します。
- 依存関係の解析は、ディープ・ラーニング・アルゴリズムの適用を通じて、文の単語間の構文上の関係を割り当てます。
トレンド分析
トレンド分析
- 自動トピック検出では、2つの教師なし機械学習手法(特異値分解と潜在ディリクレ割り当て)を使用し、共通テーマに基づいてドキュメントをグループ化します。
- 関連度スコアは、各ドキュメントが各トピックにどの程度属しているかを計算し、バイナリ・フラグは、特定のしきい値を超えるトピック・メンバーシップを示します。
- マシンによって自動的に生成されたトピックをマージまたは分割して(教師なし機械学習)、ユーザー定義のトピック(自動化されたAI出力を絞り込むための主題の専門知識)を作成
情報抽出
情報抽出
- 非構造化または半構造化データ型から構造化情報を自動的に引き出し、エンティティ認識、関係抽出、共参照解決などのタスクを使用して新しい構造化データを作成
- 事前定義済みコンセプトを使用して、名前、組織、場所、時刻、日付、数量、パーセンテージの式などの一般的なエンティティを抽出
- 機械学習に裏打ちされた固有表現認識(NER)モデルを使用してテキスト・データをスコア付けし、テキストから情報を抽出して意思決定を改善およびスピードアップ
- キーワード、ブール演算子、正規表現、述語ロジック、およびさまざまな言語演算子を使用してカスタム概念を作成可能
- カテゴリ化ルールで事前定義済みまたはカスタムのコンセプトを参照して、コンテキストの特異性または範囲をさらに拡大
- 関連する概念ルールと概念の既存のルールに基づくファクト規則を自動的に生成
- 事前定義済みの各カスタムコンセプトに関連付けられたサンドボックスを使用してドキュメント・コレクションに対してモデルの新しいルールとサブセットを素早くテスト
- 複数の言語を含む一連のドキュメント内の言語を識別してグループ化し、より高速で正確なコンテキスト分析を実現
ハイブリッド型のモデリング手法
ハイブリッド型のモデリング手法
- BERTベースの分類を使用して、テキスト内の単語のコンテキストと意味をキャプチャし、従来のモデルと比較して精度を向上。一般的な分類に加えて、BERTベースの分類を使用してセンチメント分析を行うことができます。
- NLP機能では、自動解析、トークン化、形態素解析(および品詞タグ付け)、見出し語化、スペルミス分析をサポート
- スタート・ワードリスト/ストップ・ワードリストを適用可能
- 解析アクションを利用する言語規則で特別なタグ、修飾子、演算子を使用して、精度を高め、再現率/抽象化機能を向上
- ルールベースの言語学的手法を使用して重要な概念を抽出
- 自動解析をディープ・ラーニング・アルゴリズム(リカレント・ニューラル・ネットワーク)と併用し、ドキュメントとセンチメントをより正確に分類
- 教師なし機械学習でトピック生成を自動化
- 教師あり/確率的機械学習モデルには、BoolRule、条件付きランダム・フィールド、確率論的セマンティクスが含まれます。
- BoolRuleでは、ドキュメント分類のルールを自動生成できます。
- 条件付きランダム・フィールドと確率論的セマンティクスは、データのラベル付けとシーケンスに使用され、特定のエンティティのコンテキスト・ルールを学習することでエンティティとリレーションシップの抽出を自動化できます。自動ルールビルダーは、教師あり機械学習を使用してトピックをカテゴリに昇格させます。
センチメント分析
センチメント分析
- 主観的な情報はテキストで識別され、機械学習またはルールベースのアプローチを使用して、肯定的、否定的、または中立としてラベル付けされます。その情報はエンティティに関連付けられ、センチメント・インジケータ表示を通じて視覚的に描写されます。
- センチメントを暗示する用語、語句、および文字列を識別して分析
- ドキュメントまたはトピック・レベルでのセンチメント・インジケーター表示を通じてセンチメントを視覚的に表示
- BERTオープン・フレームワークに基づくセンチメントの最新の機械学習方法を提供
コーパス分析
コーパス分析
- コーパス分析を実行するアクションを実行し、カウントと要約統計量を含む一連の出力テーブルを作成
- 情報の複雑さ、語彙の多様性、情報密度、および事前に定義された参照コーパスと比較メトリックに関するインサイトを表示して理解
- SAS Visual Analyticsで作成されたレポートで、これらの統計を(カウントを使用して)さらに分析またはビジュアル化
柔軟な導入展開
柔軟な導入展開
- SentiConcepts、センチメント、トピック、およびカテゴリのノードは、外部データセットにモデルを展開する上で必要なスコアコードを提供します。
- スコアコードは分散処理に向けてネイティブにスレッド化されていて、極めて大規模なデータセットであっても、コンピューティング・リソースを最大限に活用して結果を得るまでのレイテンシーを削減します。
- 分析ストア(ASTORE)は、特定のモデルまたはアルゴリズムからのスコアリング・ロジックを表すバイナリファイルです。このコンパクトな資産により、スコアコードの移動と既存のアプリケーション・フレームワークとの統合が容易になります。ASTOREのサポートは、Concepts、Sentiment、Categoriesの各ノードで使用できます。
33言語のネイティブサポート
33言語のネイティブサポート
- 多言語コーパス(ドキュメント)で表現された言語を自動的に検出
- 33言語のすぐに使えるテキスト分析:
- アラビア語
- 中国語
- クロアチア語
- チェコ語
- デンマーク語
- オランダ語
- 英語
- ペルシア語
- フィンランド語
- フランス語
- ドイツ語
- ギリシャ語
- ヘブライ語
- ヒンディー語
- ハンガリー語
- インドネシア語
- イタリア語
- 日本語
- カザフ語
- 韓国語
- ノルウェー語
- ポーランド語
- ポルトガル語
- ルーマニア語
- ロシア語
- スロバキア語
- スロベニア語
- スペイン語
- スウェーデン語
- タガログ語
- トルコ語
- タイ語
- ベトナム語
- アプリケーションンがサポートする各言語の既定の停止リスト
- トークン化、見出し語化、スペルミス分析、品詞タグ付け、依存関係解析、文の境界の曖昧性解消などの解析アクションをサポートする組み込みの辞書
オープン・プラットフォーム
オープン・プラットフォーム
- 既存のシステムやオープンソース・テクノロジーとシームレスに統合
- REST APIを使用して、SAS Analyticsの機能を他のアプリケーションに追加
- オープンAPIとマイクロサービス・アーキテクチャにより、ネイティブGUIをバイパスして独自のUIを使用するか、カスタム検索アプリケーションを構築することができます。
- 選択したテキスト分析モデルをMicroanalyticsサービス(MAS)APIに素早く簡単に発行し、オンデマンドの分類と概念抽出のためにWebアプリケーションに埋め込むことができます。
- テキスト要約、テキスト・データ・セグメンテーション、テキスト解析とマイニング、トピック・モデリング、テキスト・ルールの開発とスコアリング、テキスト・ルール検出、用語マッピングとトピック用語マッピング、条件付きランダム・フィールドおよび検索のための、すぐに使用できる分析プログラミング・インターフェース
- データから検出、展開までのアナリティクス・ライフサイクル全体をサポート
- SAS、Python、R、Java、Scala、Luaを含む幅広いプログラミング言語によるコーディング