SAS Visual Statisticsの特長

ビジュアルなデータ探索・データディスカバリ(SAS Visual Analyticsを通じて利用可能)

ビジュアルなデータ探索・データディスカバリ(SAS Visual Analyticsを通じて利用可能)

  • 大規模なデータセットを対象とした予測モデリングの結果に影響を及ぼす、複雑な関係や重要な変数を素早く解釈
  • オブザベーションをフィルタリングし、変数がモデルの全体的なリフトに及ぼす影響レベルを理解
  • 外れ値や影響点を検出した上で、判定、取り込み、後続の分析(モデルなど)からそれらを除外
  • データ探索に棒グラフ、ヒストグラム、ボックスプロット、ヒートマップ、バブルプロット、地理空間マップなどを活用
  • 他のモデリングやビジュアライゼーション(視覚化)のタスクに直接利用できる予測結果やセグメンテーションを生成。出力結果を保存し、モデル作成の権限や機能が与えられていない関係者と共有することも可能
  • データセットが最初に開かれたときに2水準のメジャー変数をカテゴリ変数に自動的に変換することが可能

ビジュアルなインターフェイスを用いた分析手法の活用

ビジュアルなインターフェイスを用いた分析手法の活用

  • クラスタリング:
    • k平均法/kモード/kプロトタイプによるクラスタリング
    • 並列座標プロットにより、クラスターのメンバーシップを対話型操作で評価
    • 入力にクラスター・プロファイルをオーバーレイ表示する散布図(小規模データセット用)とヒートマップ(大規模データセット用)
    • 詳細な要約統計量(例:各クラスターの平均、各クラスター内のオブザベーション数)
    • クラスターIDを新しい列としてオンデマンドで生成
    • モデル評価用のホールドアウトデータ(学習および検証)をサポート
  • 決定木(ディシジョンツリー):
    • 分類木と回帰木をサポート
    • 改良版C4.5アルゴリズム、またはコスト複雑性の刈り込み(cost-complexity pruning)に準拠
    • 対話型操作によるツリーの成長/刈り込み対話型操作によるサブツリーの学習
    • ツリーの深さ、最大分岐数、リーフの大きさ、刈り込みの強度(aggressiveness)などの属性を設定
    • ツリーマップを使用して対話型操作でツリー構造をナビゲート
    • リーフID、予測値、残差を新しい列としてオンデマンドで生成
    • モデル評価用のホールドアウトデータ(学習および検証)をサポート
    • ホールドアウトデータを用いた刈り込みをサポート
    • 「葉のサイズ」に関するオプションを用いた自動チューニングをサポート
    • 対話型ツリーの分岐点の手動修正
  • 線形回帰:
    • 影響度統計量
    • 変数増加法、変数減少法、ステップワイズ法、LASSO法による変数選択をサポート
    • 変数選択のための反復プロット
    • 頻度変数、重み変数
    • 残存診断
    • 各種統計量を含む詳細テーブル(例:全体のANOVA(分散分析)、モデルのディメンション、当てはめ統計量、モデルのANOVA、Type III 検定、パラメータ推定値)
    • 予測値と残差を新しい列としてオンデマンドで生成
    • モデル評価用のホールドアウトデータ(学習および検証)をサポート
  • ロジスティック回帰:
    • ロジットおよびプロビットのリンク関数を用いた二値データ用モデル
    • 影響度統計量
    • 変数増加法、変数減少法、ステップワイズ法、LASSO法による変数選択をサポート
    • 変数選択のための反復プロット
    • 頻度変数、重み変数
    • 残存診断
    • 各種統計量を含む詳細テーブル(例:モデルのディメンション、反復履歴、当てはめ統計量、収束ステータス、Type III検定、パラメータ推定、応答プロファイル)
    • 予測対象のラベル、予測対象のイベントの発生確率を新しい列としてオンデマンドで生成。オブザベーションをイベントまたは非イベントにラベル付けするための予測のカットオフ値の調整
    • モデル評価用のホールドアウトデータ(学習および検証)をサポート
  • 一般化線形モデル:
    • 各種の分布をサポート(例:ベータ、正規、二項、指数、ガンマ、幾何、ポアソン、Tweedie、逆ガウス、負の二項)
    • 変数増加法、変数減少法、ステップワイズ法、LASSO法による変数選択をサポート
    • オフセット変数のサポート
    • 頻度変数、重み変数
    • 残存診断
    • 各種統計量を含む詳細テーブル(例:モデルの要約、反復履歴、当てはめ統計量、Type III検定テーブル、パラメータ推定)
    • 予測変数の欠損値処理に関する情報欠損時オプション
    • 予測値と残差を新しい列としてオンデマンドで生成
    • モデル評価用のホールドアウトデータ(学習および検証)をサポート
  • 一般化加法モデル:
    • 各種の分布をサポート(例:正規、二項、ガンマ、幾何、ポアソン、Tweedie、逆ガウス、負の二項)
    • 1次元および2次元のスプライン効果をサポート
    • 平滑化効果を選択するためのGCV/GACV/UBRE手法
    • オフセット変数のサポート
    • 頻度変数、重み変数
    • 残存診断
    • 各種統計量を含む詳細テーブル(例:モデルの要約、反復履歴、当てはめ統計量、パラメータ推定)
    • モデル評価用のホールドアウトデータ(学習および検証)をサポート
  • ノンパラメトリックなロジスティック回帰:
    • ロジット、プロビット、両対数、C両対数のリンク関数を用いた二値データ用モデル
    • 1次元および2次元のスプライン効果をサポート
    • 平滑化効果を選択するためのGCV/GACV/UBRE手法
    • オフセット変数のサポート
    • 頻度変数、重み変数
    • 残存診断
    • 各種統計量を含む詳細テーブル(例:モデルの要約、反復履歴、当てはめ統計量、パラメータ推定)
    • モデル評価用のホールドアウトデータ(学習および検証)をサポート

プログラミングによる分析手法の活用

プログラミングによる分析手法の活用

  • プログラマーやデータ・サイエンティストは、SAS StudioからSASプロシジャ(PROC)やその他のタスクを用いてSAS Viya(CASサーバー:インメモリ分析エンジン)にアクセス可能
  • プログラマーは、PROC CASを用いてCASアクション(インメモリ処理)を実行することが可能。また、Python、R、Lua、Javaなど他のプログラミング環境を使用することも可能
  • ユーザーは、公開されたREST APIを用いて独自のアプリケーションからSAS Viya(CASサーバー)にアクセスすることも可能
  • Python Pandas(Pythonのデータ解析ライブラリ)DataFrameとのネイティブ統合。Pythonプログラマーは、DataFrameをCASにアップロードし、CASから結果をDataFrameに取り込むことにより、Pandasをはじめとする他のPythonパッケージ(Matplotlib、Plotly、Bokehなど)と情報をやり取りすることが可能
  • SAS/STAT®およびSAS/GRAPH®ソフトウェアが付属
  • 主成分分析(PCA):
    • 主成分の計算により次元削減を実行
    • 固有値分解、NIPALS、ITERGSのアルゴリズムを提供
    • オブザベーションにまたがって主成分スコアを出力
    • スクリープロット(scree plots:固有値の折れ線グラフ)とパターン・プロファイル・プロットを作成
  • 決定木(ディシジョンツリー):
    • 分類木と回帰木をサポート
    • カテゴリ変数と数値変数をサポート
    • 不純度の指標や統計的検定にもとづくノード分割基準を提供
    • ツリーの刈り込みに関するコスト複雑性(cost-complexity)手法と削減済みエラー(reduced-error)手法をサポート
    • 学習用/検証用/テスト用データセットへのデータ分割をサポート
    • 検証データを用いた最良サブツリー選択をサポート
    • テストデータを用いた最終ツリーモデル評価をサポート
    • 欠損値処理用に幅広い手法を提供(代理ルールも含む)
    • ツリーダイアグラムの作成
    • モデルの当てはめを評価するための統計情報を提供。モデルベースの(再代入)統計情報も含む
    • 変数の重要度指標を計算
    • リーフの割り当てとオブザベーションの予測値を出力
  • クラスタリング:
    • 連続(間隔)変数をクラスタリングするためのk平均法アルゴリズムを提供
    • 名義変数をクラスタリングするためのkモード・アルゴリズムを提供
    • 類似度に関する各種の距離指標を提供
    • 適切なクラスター数を推定するためのアラインド・ボックス基準(ABC: aligned box criterion)手法を提供
    • オブザベーションにまたがってクラスターのメンバーシップと距離尺度を出力
  • 線形回帰:
    • 連続変数と分類変数を用いる線形モデルをサポート
    • 分類変数の効果のパラメータ化について各種方法をサポート
    • あらゆる度合いの交互作用とネストされた効果をサポート
    • 多項式効果とスプライン効果をサポート
    • 変数増加法、変数減少法、ステップワイズ法、最小角度回帰、LASSO法による選択手法をサポート
    • モデル選択をコントロールするための情報基準と検証手法をサポート
    • 分類効果の個別レベルでの選択をサポート
    • 複数の効果の階層構造を保持
    • 学習用/検証用/テスト用データセットへのデータ分割をサポート
    • 各種の診断統計量を提供
    • スコアリング用のSASコードを生成
  • ロジスティック回帰:
    • 二値および二項分布の応答変数をサポート
    • 分類変数の効果のパラメータ化について各種方法をサポート
    • あらゆる度合いの交互作用とネストされた効果をサポート
    • 多項式効果とスプライン効果をサポート
    • 変数増加法、変数減少法、高速変数減少法、LASSO法による選択手法をサポート
    • モデル選択をコントロールするための情報基準と検証手法をサポート
    • 分類効果の個別レベルでの選択をサポート
    • 複数の効果の階層構造を保持
    • 学習用/検証用/テスト用データセットへのデータ分割をサポート
    • モデル評価のための各種統計量を提供
    • 最尤推定のための各種最適化手法を提供
  • 一般化線形モデル:
    • 各種の分布(二項、正規、ポアソン、ガンマなど)の応答をサポート
    • 分類変数の効果のパラメータ化について各種方法をサポート
    • あらゆる度合いの交互作用とネストされた効果をサポート
    • 多項式効果とスプライン効果をサポート
    • 変数増加法、変数減少法、高速変数減少法、ステップワイズ法、グループLASSO法による選択手法をサポート
    • モデル選択をコントロールするための情報基準と検証手法をサポート
    • 分類効果の個別レベルでの選択をサポート
    • 複数の効果の階層構造を保持
    • 学習用/検証用/テスト用データセットへのデータ分割をサポート
    • モデル評価のための各種統計量を提供
    • 最尤推定のための各種最適化手法を提供
  • 非線形回帰モデル:
    • 標準的または一般的な分布を用いて非線形回帰モデルを当てはめ
    • より頑健なパラメータ推定のために、ユーザー指定の式の解析的な導関数を計算
    • ESTIMATEおよびPREDICTステートメントを用いて、ユーザー指定の式を評価(プロシジャのみ)
    • PROC NLMODを使用していない場合、CMPアイテムストアを格納しているデータテーブルを要求
    • 最小二乗法を用いてパラメータを推定
    • 最尤法を用いてパラメータを推定
  • 分位点回帰モデル:
    • 1つまたは複数の分位点レベルに対する分位点回帰をサポート
    • 分類変数の効果のパラメータ化について複数の方法をサポート
    • あらゆる度合いの交互作用(クロス効果)とネストされた効果をサポート
    • 複数の効果の階層モデルを選択するための戦略をサポート
    • 複数の効果選択手法を提供
    • 各種の選択基準にもとづく効果選択を提供
    • 終了ルールと選択ルールをサポート
  • 予測部分最小二乗法モデル:
    • 分類変数、連続変数、交互作用、ネスティングを用いるプログラミング構文を提供
    • 多項式効果とスプライン効果を作成するための構文を提供
    • 学習用/テスト用データセットへのデータ分割をサポート
    • 要因の抽出数を決めるためのテスト用データセット検証機能を提供
    • 以下の手法を実装:主成分回帰、縮小ランク回帰、部分最小二乗法(PLS)回帰
  • 一般化加法モデル:
    • 低ランク回帰スプライン法にもとづいて一般化加法モデルを当てはめ
    • ペナルティ付き最尤推定を用いて回帰パラメータを推定
    • Performance iteration法またはOuter iteration法のいずれかを用いて平滑化パラメータを推定
    • 最尤法を用いて回帰パラメータを推定
    • Wald統計量にもとづき、各スプライン項の総合的な寄与度を検定
    • 分類変数、連続変数、交互作用、ネスティングを含めることができるモデル構築構文を提供
    • 複数の変数を用いてスプライン項を組み立てることが可能
  • 比例ハザード回帰:
    • Coxの比例ハザード回帰モデルを生存時間データに当てはめ、変数選択を実行
    • 分類変数、連続変数、交互作用、ネスティングを用いるモデル構築構文を提供
    • 多項式効果とスプライン効果を作成するための構文を提供
    • 最大部分尤度推定、層化分析、変数選択を実行
    • データを学習/検証/テスト用データセットに分割
    • 重み付き分析とグループ分析を提供
  • 統計的工程管理:
    • Shewhart管理図分析を実行
    • 複数の工程変数を分析することにより、統計的管理の外にある工程を特定
    • 管理限界を調整することにより、サイズが不均一なサブグループ群に関する補正を実行
    • データからの管理限界の推定、母数(既知の標準)に関する指定値からの管理限界の算出、あるいは、入力データテーブルからの限界の読み取りが可能
    • 実績パターン(Western Electricルール)にもとづき、特殊原因に関するテストを実行
    • 各種の手法を用いて工程の標準偏差を推定(変数チャートのみ)
    • チャートの統計量と管理限界を出力データテーブルに保存
  • 独立成分分析:
    • 多変量データの成分(因子)の中から、他から独立した成分(因子)を抽出
    • 推定された成分の非ガウス性を最大化
    • 白色化と次元削減をサポート
    • 独立成分と白色化済み変数が格納された出力データテーブルを生成
    • 対称型の無相関化を実装。この手法は全ての独立成分を同時に計算する
    • デフレーション型の無相関化を実装。この手法は独立成分を逐次的に(1つずつ順番に)抽出する
  • 線形混合モデル:
    • 多数の共分散構造をサポート(分散成分、複合対称、非構造、AR(1)、Toeplitz、因子分析などを含む)
    • 特殊な疎密行列アルゴリズムを提供
    • 推定手法としてREML(制限付き最尤法)およびML(最尤法)をサポート。これらの手法は幅広い最適化アルゴリズムとともに実装されている
    • 推論機能を提供(固定効果やランダム効果に関する標準誤差およびt検定を含む)
    • 反復されるメジャーデータをサポート
  • モデルベースのクラスタリング:
    • 多変量ガウス分布の混合を用いてオブザベーション(観測値)をモデル化
    • ノイズ成分と自動モデル選択をサポート
    • 事後スコアリングと結果のグラフィカルな解釈を提供

記述統計

記述統計

  • カーディナリティを理解するためのユニーク値件数カウント
  • 1つ以上の変数に関する値の中心や広がり方、外れ値を評価できるボックスプロット
  • 一連の変数に関してピアソン相関係数を算定する グループ分析と重み付き分析をサポート
  • クロス集計(重み付けのサポートを含む)
  • 分割表(関連度の計算を含む)
  • ヒストグラム(ビン化する値、最大値の閾値、外れ値などの調整機能付き)
  • 1回のデータパスで多次元サマリーを作成
  • 複数の変数に対して百分位を計算
  • 各種の要約統計量:オブザベーションの数、欠損値の数、非欠損値の合計、平均、標準偏差、標準誤差、修正/無修正平方和、最小と最大、変動係数など
  • 正規/tricube/二次カーネル関数を用いたカーネル密度推定
  • 1元からN元の度数表およびクロス集計表を構築

グループ化処理

グループ化処理

  • 個々のグループやセグメントに対し、その都度データの並べ替えやインデックス作成を行わなくても、モデルを構築し、その場で結果を計算/処理
  • 決定木またはクラスタリング分析から、セグメントにもとづくモデルを即座に構築(=層化モデリング)

モデルの比較、評価、スコアリング

モデルの比較、評価、スコアリング

  • 1つ以上のモデルについて、モデル比較サマリー(例:リフトチャート、ROCチャート、C統計量、誤分類表)を生成
  • 予測のカットオフを対話操作型のスライダーで変更して、評価統計値と分類テーブルを自動更新
  • 対話型操作により、異なる百分位でリフトを評価
  • モデルをSAS DATAステップ・コードとしてエクスポートし、他のアプリケーションにモデルを取り込むことが可能。他のモデルから導き出された出力(リーフID、クラスターIDなど)を使用しているモデルの場合、スコアコードは自動的に連結される

モデルのスコアリング

モデルのスコアリング

  • モデルをSASデータステップ・コードとしてエクスポートし、他のアプリケーションにモデルを取り込み
  • 他のモデルから導き出された出力(リーフID、クラスターIDなど)を使用しているモデルの場合、スコアコードは自動的に連結される

SAS Viyaインメモリ・ランタイム・エンジン

SAS Viyaインメモリ・ランタイム・エンジン

  • SAS Cloud Analytic Services (CAS) がメモリ内で処理を実行し、クラスター内のノードに処理を分散する
  • ユーザーの要求(手続き型言語で表現されたもの)は、分散環境での処理に必要なパラメータを設定したアクションに変換される。結果セットとメッセージは、ユーザーによる後続アクションのために当該プロシジャに返される
  • データはブロック単位で管理され、必要に応じてメモリ内にロードされる。テーブルのサイズがメモリ容量を超える場合は、サーバーがブロック単位でディスクにキャッシングする。データと中間結果は、必要に応じて(ジョブやユーザーの境界をまたいで)メモリ内に保持される
  • ジョブに最適なノード数はアルゴリズムによって判断される
  • 通信レイヤーはフォールト・トレランス機能をサポートし、サーバー実行中のノードの削除/追加に対応。高可用性のためにアーキテクチャ内の全てのコンポーネントを複製することが可能
  • 製品をマルチテナント・モードで配置し、共有ソフトウェア・スタックにおいて個々の独立したテナントをセキュアにサポート。