SAS Visual Statistics 功能清單

視覺資料勘查與探索 (透過 SAS Visual Analytics 取得)

視覺資料勘查與探索 (透過 SAS Visual Analytics 取得)

  • 快速解譯會對大型資料集內建模結果造成影響的複雜關係或關鍵變數。
  • 篩選觀測結果,並瞭解變數對整體模型增益的影響程度。
  • 偵測離群值和/或影響點,幫助您從下游分析 (例如,模型) 中加以判定、擷取及移除。
  • 使用長條圖、直方圖、盒狀圖、熱圖、氣泡圖、地圖等探索資料。
  • 衍生可直接用於其他建模或視覺化任務的預測輸出結果或分區。無需模型建置角色和功能,即可儲存輸出結果並傳遞給這些任務。
  • 在首次開啟資料集時,自動將具有兩個級別的測量變數轉換為類別變數。

從視覺化介面存取分析技術

從視覺化介面存取分析技術

  • 群集:
    • K 平均值、k 模式或 k 原型群集。
    • 以平行方式呈現座標圖,以便藉由互動方式評估群集成員資格。
    • 針對小型資料集,使用疊加群集設定檔的輸入內容散布圖,大型資料集則是使用疊加群集設定檔的熱圖。
    • 詳細摘要統計 (每個群集的平均值、在每個群集的觀測次數等)。
    • 產生隨選群集 ID 做為新資料欄。
    • 支援用於模型評估的預留資料 (訓練和驗證)。
  • 決策樹:
    • 支援分類和迴歸樹。
    • 依據修改後的 C4.5 演算法或成本複雜性剪除。
    • 以互動方式增長和剪除樹狀結構。以互動方式訓練子樹。
    • 設定樹狀結構深度、最大分枝、樹葉大小、樹狀結構剪除加強程度等。
    • 使用樹狀結構圖顯示,以便透過互動方式瀏覽樹狀結構。
    • 產生隨選樹葉 ID、預測值和剩餘值,分別做為新資料欄。
    • 支援用於模型評估的預留資料 (訓練和驗證)。
    • 支援預留資料剪除。
    • 支援有樹葉大小選項的自動調整。
    • 讓操作者能夠手動修改互動樹的分叉點。
  • 線性迴歸:
    • 影響統計資料。
    • 支援向前、向後、逐步和套索變數選取。
    • 方便變數選取的反覆運算圖。
    • 頻率和加權變數。
    • 剩餘值診斷。
    • 摘要表包含整體 ANOVA、模型維度、配適統計、模型 ANOVA、III 型測試和參數估計值。
    • 產生隨選預測值和剩餘值,分別做為新資料欄。
    • 支援用於模型評估的預留資料 (訓練和驗證)。
  • 羅吉斯迴歸:
    • 針對二進位資料的模型,其中包含對數與機率連結函數。
    • 影響統計資料。
    • 支援向前、向後、逐步和套索變數選取。
    • 方便變數選取的反覆運算圖。
    • 頻率和加權變數。
    • 剩餘值診斷。
    • 摘要表包含模型維度、反覆運算歷史記錄、配適統計、收斂狀態、III 型測試、參數估計值和回應設定檔。
    • 產生隨選預測標籤和預測事件發生機率,分別做為新資料欄。調整預測截止值,將觀測值標示為事件或非事件。
    • 支援用於模型評估的預留資料 (訓練和驗證)。
  • 廣義線性模型:
    • 支援的分配包括 Beta、常態、二進位、指數、Gamma、幾何、Poisson、Tweedie、逆高斯和負二項。
    • 支援向前、向後、逐步和套索變數選取。
    • 支援位移變數。
    • 頻率和加權變數。
    • 剩餘值診斷。
    • 摘要表包含模型摘要、反覆運算歷史記錄、配適統計、III 型測試表和參數估計值。
    • 資訊遺漏選項,用於處理預測變數遺漏值。
    • 產生隨選預測值和剩餘值,分別做為新資料欄。
    • 支援用於模型評估的預留資料 (訓練和驗證)。
  • 廣義加成模型:
    • 支援的分配包括常態、二進位、Gamma、Poisson、Tweedie、逆高斯和負二項。
    • 支援一維和二維平滑曲線效果。
    • GCV、GACV 和 UBRE 方法,用於選取平滑化效果。
    • 支援位移變數。
    • 頻率和加權變數。
    • 剩餘值診斷。
    • 摘要表包含模型摘要、反覆運算歷史記錄、配適統計和參數估計值。
    • 支援用於模型評估的預留資料 (訓練和驗證)。
  • 無母數羅吉斯迴歸:
    • 針對二進位資料的模型,其中包含對數、機率、雙對數與互補雙對數連結函數。
    • 支援一維和二維平滑曲線效果。
    • GCV、GACV 和 UBRE 方法,用於選取平滑化效果。
    • 支援位移變數。
    • 頻率和加權變數。
    • 剩餘值診斷。
    • 摘要表包含模型摘要、反覆運算歷史記錄、配適統計和參數估計值。
    • 支援用於模型評估的預留資料 (訓練和驗證)。

透過程式存取分析技術

透過程式存取分析技術

  • 程式設計師和資料科學家可藉由使用 SAS 程序 (PROCs) 和其他任務,從 SAS Studio 存取 SAS Viya (CAS 伺服器)。
  • 程式設計師可藉由使用 PROC CAS 來執行 CAS 動作,或使用不同的程式設計環境,例如 Python、R、Lua 和 Java。
  • 使用者還可使用公用 REST API,從自己的應用程式存取 SAS Viya (CAS 伺服器)。
  • 可與 Python Pandas DataFrames 進行原生整合。Python 程式設計師可將 DataFrames t上傳至 CAS,然後從 CAS 取得結果做為 DataFrames,以便與其他 Python 套件 (例如,Pandas、matplotlib、Plotly、Bokeh 等) 進行互動。
  • 包含 SAS/STAT® 和 SAS/GRAPH® 軟體。
  • 主成分分析 (PCA):
    • 藉由計算主成分進行維度縮減。
    • 提供特徵值分解、NIPALS 和 ITERGS 演算法。
    • 輸出考量所有觀測結果的主成分評分。
    • 建立陡坡圖和模式剖面圖。
  • 決策樹:
    • 支援分類樹和迴歸樹。
    • 支援類別特徵和數字特徵。
    • 提供依據雜質測試和統計測試量值的分叉節點準則。
    • 提供剪除樹木的成本複雜度剪除法和減少錯誤剪除法。
    • 支援將資料分割為訓練、驗證和測試三種角色。
    • 支援使用驗證資料以選出最佳子樹。
    • 支援使用測試資料以評估最終樹狀結構模型。
    • 提供各種遺漏值處理方法,包括替代值規則。
    • 建立樹狀圖。
    • 提供用於評估模型配適度的統計資料,包括依據模型的 (重新替代) 統計資料。
    • 計算變數重要性的量值。
    • 輸出依據觀測結果的樹葉指定和預測值。
  • 群集:
    • 提供用於將連續 (等距) 變數群集的 k 平均值演算法。
    • 提供用於將名目變數群集的 k 模式演算法。
    • 提供用於評估相似性的各種距離量值。
    • 提供用於估計群集數目的對齊方塊準則法。
    • 輸出考量所有觀測結果的群集成員資格和距離量值。
  • 線性迴歸:
    • 支援具有連續變數和分類變數的線性模型。
    • 支援確保分類效果的各種參數化。
    • 支援所有程度的互動效果和巢狀效果。
    • 支援多項式效果和平滑曲線效果。
    • 支援向前、向後、逐步、最小角度迴歸和套索選取方法。
    • 支援用於控制模型選取的資訊準則法和驗證法。
    • 提供個別分類效果級別供選取。
    • 維持效果之間的階層。
    • 支援將資料分割為訓練、驗證和測試三種角色。
    • 提供各種診斷統計資料。
    • 產生 SAS 程式碼以執行生產評分。
  • 羅吉斯迴歸:
    • 支援二進位和二項式回應。
    • 支援確保分類效果的各種參數化。
    • 支援所有程度的互動效果和巢狀效果。
    • 支援多項式效果和平滑曲線效果。
    • 支援向前、向後、快速向後和套索選取方法。
    • 支援用於控制模型選取的資訊準則法和驗證法。
    • 提供個別分類效果級別供選取。
    • 維持效果之間的階層。
    • 支援將資料分割為訓練、驗證和測試三種角色。
    • 提供各種統計資料以用於模型評估。
    • 提供各種最佳化方法以進行最大概度估計。
  • 廣義線性模型:
    • 支援回應各種不同的分布,包括二進位、常態、Poisson 和 Gamma。
    • 支援確保分類效果的各種參數化。
    • 支援所有程度的互動效果和巢狀效果。
    • 支援多項式效果和平滑曲線效果。
    • 支援向前、向後、快速向後、逐步和群組套索選取方法。
    • 支援用於控制模型選取的資訊準則法和驗證法。
    • 提供個別分類效果級別供選取。
    • 維持效果之間的階層。
    • 支援將資料分割為訓練、驗證和測試三種角色。
    • 提供各種統計資料以用於模型評估。
    • 提供各種最佳化方法以進行最大概度估計。
  • 非線性迴歸模型:
    • 藉由標準或一般分布,將非線性迴歸模型調整為配適。
    • 計算使用者提供之運算式的分析導數,以實現更穩健的參數估計。
    • 藉由使用 ESTIMATE 和 PREDICT 陳述式 (限用於程序),評估使用者提供的運算式。
    • 如果不使用 PROC NLMOD,則必須有一個包含 CMP 項目存放區的資料表。
    • 藉由使用最小平方法來估計參數。
    • 藉由使用最大概度法來估計參數。
  • 分位數迴歸模型:
    • 支援單個或多個分位數層級的分位數迴歸。
    • 支援確保分類效果的多種參數化。
    • 支援所有程度的互動 (交互作用) 和巢狀效果。
    • 支援效果之間的階層模型選取策略。
    • 提供多種效果選取方法。
    • 提供依據各種選取準則的效果選取。
    • 支援停止規則和選取規則。
  • 偏最小平方法預測模型:
    • 提供包含分類變數、連續變數、互動和巢狀迴圈結構的程式設計語法。
    • 提供包含多項式效果和平滑曲線效果的效果建構語法。
    • 支援將資料分割為訓練和測試兩種角色。
    • 提供測試集驗證,以助選擇擷取因素的數量。
    • 可實作後述方法:主成分迴歸、縮減式等級迴歸和偏最小平方迴歸。
  • 廣義加成模型:
    • 依據低等級迴歸平滑曲線,將廣義加成模型調整為配適。
    • 藉由使用懲罰概度估計來估計迴歸參數。
    • 藉由使用效能反覆運算法或外反覆運算法來估計平滑參數。
    • 藉由使用最大概度技巧來估計迴歸參數。
    • 依據 Wald 統計,測試各個平滑曲線項的總貢獻度。
    • 提供可包含分類變數、連續變數、互動和巢狀迴圈結構的模型建置語法。
    • 讓您能夠使用多個變數來建構平滑曲線項。
  • 比例危險迴歸:
    • 將 Cox 比例危險迴歸模型調整為配適存活資料,然後執行變數選取。
    • 提供包含分類變數、連續變數、互動和巢狀迴圈結構的模型建置語法。
    • 提供包含多項式效果和平滑曲線效果的效果建構語法。
    • 執行最大偏概度估計、分層分析和變數選取。
    • 將資料分割為訓練、驗證和測試三種角色。
    • 提供加權分析和分組分析。
  • 統計流程控制:
    • 執行 Shewhart 管制圖分析。
    • 分析多個流程變數,以識別有哪些流程不在統計控制下。
    • 調整管制界限,以助補正不相等的子群組大小。
    • 從資料中估計管制界限,從總體參數指定值計算管制界限 (已知標準),或從輸入資料表讀取界限。
    • 依據運作模式 (Western Electric 規則),針對特殊原因執行測試。
    • 使用各種方法來估計流程標準差 (僅適用於計量值管制圖)。
    • 將管制圖統計資料和管制界限儲存在輸出資料表中。
  • 獨立成分分析:
    • 從多變量資料擷取獨立成分 (因素)。
    • 最大化估計成分的非高斯特性。
    • 支援白化(whitening)和維度縮減。
    • 產生包含獨立成分和已白化變數 (whitened variables) 的輸出資料表。
    • 實作對稱去相關,此操作會同時計算所有的獨立成分。
    • 實作緊縮去相關,此操作會相繼擷取獨立成分。
  • 線性混合模型:
    • 支援許多共變異數結構,包括變異數成分、複合對稱、非結構化、AR(1)、Toeplitz,因素分析等。
    • 提供專門的密集和稀疏矩陣演算法。
    • 支援 RML 和 ML 估計法,這些方法的實作是藉由各種最佳化演算法。
    • 提供推斷功能,包括用於推斷固定和隨機效果的標準誤差和 t 測試。
    • 支援重複量值資料。
  • 依據模型的群集:
    • 藉由使用混合多變量高斯分布,依據觀測結果進行建模。
    • 允許進行雜訊成分和自動模型選取。
    • 提供結果的後驗評分和圖形解釋。

描述性統計

描述性統計

  • 使用相異計數以理解基數。
  • 使用盒形圖來評估中心性和擴散,包括針對一個或多個變數的離群值。
  • 使用相關性資料來測量一組變數的皮爾森積差相關係數。支援分組和加權分析。
  • 交叉列表,包括支援權重。
  • 列聯表,包括關聯性的量值。
  • 使用包含選項的直方圖,以控制等距分箱值、最大臨界值、離群值等。
  • 資料單次經過處理,即可產生多維摘要。
  • 一個或多個變數的百分位數。
  • 摘要統計,例如,觀測值的數目、遺漏值的數目、非遺漏值的總和、平均值、標準差、標準誤差、已校正與未校正平方和、最小值和最大值,以及變異係數。
  • 使用正規、三次方和二次核函數算出的核密度估計值。
  • 建構單向到 n 向的頻率和交叉列表型表格。

群組依據處理

群組依據處理

  • 即時針對每個群組或區段建置模型、計算和處理結果,而無須每次排序或索引資料。
  • 從決策樹或群集分析中立即建置依據區段的模型 (即分層建模)。

模型比較、評估和評分

模型比較、評估和評分

  • 產生針對一個或多個模型的模型比較摘要,例如,增益圖、ROC 圖表、一致性統計資料,以及不當分類表。
  • 依據互動滑動標定預測截止值,以自動更新評估統計資料和分類表。
  • 依據互動評估不同百分位數的增益。
  • 將模型匯出為 SAS DATA 步驟程式碼,以便將模型與其他應用程式整合。如果模型使用其他模型的衍生輸出結果 (樹葉 ID,群集 ID 等),則會將評分程式碼自動串連。

模型評分

模型評分

  • 將模型匯出為 SAS DATA 步驟程式碼,以便將模型與其他應用程式整合。
  • 如果模型使用其他模型的衍生輸出結果 (樹葉 ID,群集 ID 等),則會將評分程式碼自動串連。

SAS Viya 記憶體內執行階段引擎

SAS Viya 記憶體內執行階段引擎

  • SAS Cloud Analytic Services (CAS) 會在記憶體內執行處理,並將處理分散至群集中的各個節點。
  • 使用者請求 (以程序語言表達) 會轉化為包含必要參數的動作,且其中,以便能在分散式環境中處理。結果集和訊息會傳回給程序,以便使用者執行進一步的動作。
  • 資料是在區塊中管理,並可隨選載入記憶體內。如果資料表超出記憶體容量,伺服器會快取磁碟上的區塊。資料和中繼結果會根據各個工作和使用者界限的要求保存在記憶體內。
  • 透過演算法確定給定作業的最佳節點數。
  • 通訊層支援容錯功能,可讓您從執行中的伺服器移除或新增節點。架構中的所有元件皆可複製,以確保高可用性。
  • 產品可以在多租戶模式下部署,以便能使用共用軟體堆疊來支援安全隔離的租戶。