SAS Visual Data Mining and Machine Learning 功能清單

在 Web 開發環境中進行互動式程式設計

  • 在整個分析生命週期流程使用視覺化介面。
  • 拖放互動式介面不需要編寫程式碼,但也可選擇編寫程式碼。
  • 支援在管道中的各個節點自動化建立程式碼。
  • 選擇最佳做法範本 (基礎、中級或進階),快速開始執行機器學習任務,或充分利用我們的自動化建模流程。
  • 判讀性報告,例如,PD、LIME、ICE,以及 Kernel SHAP。
  • 透過 PDF 報告分享建模洞察。
  • 在 Model Studio 中探索資料,並直接啟動至 SAS Visual Analytics。
  • 在 Model Studio 中編輯從 SAS Visual Analytics 匯入的模型。
  • 檢視 Model Studio 中各個節點內的資料。
  • 在 Model Studio 中執行 SAS® Enterprise Miner 14.3 批次程式碼。
  • 提供一個協作環境,讓不同角色能輕鬆共用資料、程式碼片段、註釋和最佳做法。
  • 透過 SAS Drive 建立、管理和共用內容,以及管理內容權限。
  • SAS 譜系檢視軟體會以視覺化方式顯示決策、模型、資料和決策之間的關係。

智慧自動化搭配人為監督

  • 公用 API 用於自動化執行許多複雜的手動建模步驟,以建置機器學習模型,從資料整頓、特徵工程、演算法選擇到部署。
  • 自動特徵工程節點用於為模型自動清理、轉換和選取特徵。
  • 自動建模節點藉由使用一組跨多種技術的最佳化和自動調整常式,自動選取最佳模型。
  • 以互動方式調整決策樹節點的剪除和分割。
  • 從元學習(meta learning)提供的自動化資料準備建議。
  • 自動化產生管道,包含完整自訂化功能。

產生自然語言

  • 檢視簡單語言呈現的結果,以促進對報告的理解,包括模型評估和判讀性。

對 Python 和 R 語言的內嵌支援

  • 將開放式程式碼內嵌至分析中,並叫用 Model Studio 中的開放式程式碼演算法。
  • Model Studio 中的開放式程式碼節點,不拘使用 Python 或 R 版本。
  • 在 Model Studio 內的通用存放庫中,管理 Python 模型。

運用 Python 進行深度學習 (DLPy)

  • 使用 Jupyter Notebook,對影像、文字、音訊和時間序列資料建置深度學習模型。
  • GitHub 上提供高階 API,適用於:
    • 處理表格式資料的深度類神經網路。
    • 影像分類和迴歸。
    • 物件偵測。
    • 使用 RNN 的任務:分類文字、產生文字,以及標記順序。
    • 使用 RNN 的時間序列處理和建模。
  • 支援預定義的網路架構,例如,LeNet、VGG, ResNet、DenseNet、Darknet, Inception、ShuffleNet、MobileNet、YOLO、Tiny YOLO、Faster R-CNN,以及 U-Net。
  • 匯入和匯出採用 ONNX 格式的深度學習模型。
  • 藉由充分利用 Analytic Store (ASTORE),在各種環境中使用 ONNX 模型,以針對新資料集進行評分

SAS 程序 (PROC) 和 CAS 動作

  • 程式設計介面 (SAS Studio) 讓 IT 或開發人員能存取 CAS 伺服器,直接從 CAS 伺服器載入和儲存資料,以及支援 CAS 伺服器上的本機和遠端處理。
  • Python、Java、R、Lua 和 Scala 程式設計師或 IT 人員可使用 PROC CAS 來存取資料,並針對 CAS 伺服器執行基礎資料操作,或執行 CAS 動作。
  • CAS 動作支援判讀性、特徵工程和建模。
  • 藉由使用 REST API,將 SAS 的強大功能整合並新增至其他應用程式。

高度可擴展的分散式記憶體內分析處理

  • 使用分散式記憶體內的處理方式對大型資料集進行複雜分析計算,可提供低延遲解答。
  • 分析任務會鏈結在一起,成為單一記憶體內工作,無須重新載入資料或將中繼結果寫入磁碟。
  • 許多使用者可同時存取記憶體內的相同資料,可提升效率。
  • 資料和中繼結果會視需要保存在記憶體內,可減少延遲。
  • 內建工作負載管理可確保有效率地使用計算資源。
  • 內建容錯移轉管理確保提交的工作都能完成。
  • 自動化 I/O 磁碟外溢,改善記憶體管理。

模型開發使用現代化機器學習演算法

  • 強化學習:
    • 技術包括 Fitted Q-Network (FQN) 和 Deep Q-Network (DQN)。
    • FQN 可以在預先收集的資料點上訓練模型,不需要與環境進行通訊。
    • 使用重新顯示記憶體和目標網路技術,將非獨立同分布資料點去相關,並穩定化訓練流程。
    • 能夠為狀態-動作配對和報酬指定自訂環境。
  • 決策樹系:
    • 自動整合決策樹,以預測單一目標。
    • 自動分配獨立訓練執行。
    • 支援智慧化自動調整模型參數。
    • 自動產生 SAS 程式碼,以執行生產評分。
  • 梯度提升:
    • 自動反覆搜尋,以找出有關選定標籤變數的最佳資料分區。
    • 根據剩餘值調整權重,自動對輸入資料進行多次重新取樣。
    • 自動產生最終監督模型的加權平均。
    • 支援二進位、常態和等距標籤。
    • 能夠自訂樹狀結構訓練,提供各種選項,包括要增長的樹狀結構數量、要套用的分割準則、子樹深度,以及計算資源。
    • 根據驗證資料評分,自動停止套用準則,以避免過度配適。
    • 自動產生 SAS 程式碼,以執行生產評分。
    • 存取熱門的 lightGBM 開放式程式碼建模套件。
  • 類神經網路:
    • 以智慧方式自動調整參數集,以識別最佳模型。
    • 支援計數資料建模。
    • 大多數類神經網路參數皆有智慧型預設值。
    • 能夠自訂類神經網路架構和權重。
    • 技術包括深度前饋類神經網路 (DNN)、卷積類神經網路 (CNN)、遞歸類神經網路 (RNN),以及自動編碼器。
    • 能夠使用任意數量的隱藏層,以支援深度學習。
    • 支援不同類型的分層,例如,卷積和集區。
    • 自動標準化輸入變數和目標變數。
    • 自動選取和使用驗證資料子集。
    • 自動袋外驗證以達到早期停止,避免過度配適。
    • 支援智慧化自動調整模型參數。
    • 自動產生 SAS 程式碼,以執行生產評分。
  • 支援向量機:
    • 對二進位目標標籤進行建模。
    • 支援用於模型訓練的線性核和多項式核。
    • 能夠納入連續和類別輸入/輸出特徵。
    • 自動縮放輸入特徵。
    • 能夠套用內點法和有效集法。
    • 支援有助於模型驗證的資料分區。
    • 支援有助於懲罰選取的交叉驗證。
    • 自動產生 SAS 程式碼,以執行生產評分。
  • 因子分解機:
    • 支援開發根據使用者 ID 和項目評比兩種疏鬆矩陣的推薦系統。
    • 能夠套用完整配對相互作用張量因子分解。
    • 包括其他類別和數字輸入特徵,以建立更準確的模型。
    • 利用時間戳記、人口統計資料和情境脈絡資訊,增強模型。
    • 支援熱機重新啟動 (透過新交易更新模型,不需要完全重新訓練)。
    • 自動產生 SAS 評分程式碼,以執行生產評分。
  • 貝氏網路:
    • 學習不同的貝氏網路結構,包括單純、樹增強型單純 (TAN)、貝氏網路增強型單純 (BAN)、父系-子系貝氏網路,以及馬可夫覆蓋。
    • 透過獨立測試,執行高效率變數選取。
    • 根據指定參數,自動選取最佳模型。
    • 產生 SAS 程式碼或資料分析存放區,以針對資料進行評分。
    • 從多個節點載入資料,並平行執行計算。
  • Dirichlet 高斯混合模型 (GMM):
    • 可以平行執行群集,並且高度支援多執行緒。
    • 執行軟群集,這不僅提供預測群集評分,還對每個觀測值的群集提供機率分配。
    • 瞭解執行群集程序的最佳群集數量,此程序受 Dirichlet 流程所支援。
    • 使用平行變異貝氏 (VB) 法做為模型推論方法。此方法會概算 (可追溯的) 後驗分配,然後反覆更新模型參數,直到分配達到收斂為止。
  • 半監督式學習運算法:
    • 高度分散和多執行緒。
    • 針對未標記資料表和標記資料表傳回預測標籤。
  • T-分布隨機鄰近嵌入 (t-SNE):
    • 高度分散和多執行緒。
    • 傳回根據 t-SNE 演算法平行實作的低維度嵌入。
  • 生成對抗網路 (GAN)
    • 技術包括用於影像資料的 StyleGAN,以及用於表格式資料的 GAN。
    • 產生用於深度學習模型的合成資料。

分析資料準備

  • 特徵工程最佳做法管道包括最佳轉換。
  • 透過視覺化前端提供分散式資料管理常式。
  • 大規模資料勘查和摘要。
  • 基數剖析:
    • 對輸入資料來源進行大規模資料剖析。
    • 針對變數測量和角色提供智慧建議。
  • 抽樣:
    • 支援隨機抽樣和分層抽樣、針對罕見事件的的過度抽樣,以及針對抽樣記錄的指標變數。

資料勘查、特徵工程和維度縮減

  • T-分布隨機鄰近嵌入 (t-SNE)。
  • 特徵分箱。
  • 利用使用者指定值、平均值、偽中位數和非遺漏值的隨機值,對特徵的遺漏值進行高效能填補。
  • 特徵維度縮減。
  • 大規模主成分分析 (PCA),包括移動視窗和穩健 PCA。
  • 利用群集分析和混合變數群集進行非監督式學習。
  • 群集的區段設定檔。

整合式文字分析

  • 內建支援 33 種當地語言:
    • English
    • 阿拉伯文
    • 中文
    • 克羅埃西亞文
    • 捷克文
    • 丹麥文
    • 荷蘭文
    • 波斯文
    • 芬蘭文
    • 法文
    • 德文
    • 希臘文
    • 希伯來文
    • 印地文
    • 匈牙利文
    • 印尼文
    • 義大利文
    • 日文
    • 哈薩克文
    • 韓文
    • 挪威文
    • 波蘭文
    • 葡萄牙文
    • 羅馬尼亞文
    • 俄文
    • 斯洛伐克文
    • 斯洛維尼亞文
    • 西班牙文
    • 瑞典文
    • 他加祿文
    • 土耳其文
    • 泰文
    • 越南文
  • 所有語言版本皆自動納入和套用停用清單。
  • 自動化剖析、Token 化、詞性標記和詞形還原。
  • 預先定義的概念會擷取常見實體,例如名稱、日期、幣值、測量、人員、位置等。
  • 按照機器產生的主題 (奇異值分解和潛在 Dirichlet 分配),自動進行特徵擷取。
  • 支援在單一專案中使用機器學習法和以規則為基礎的方法。
  • 透過 BoolRule 自動產生規則。
  • 透過深度學習 (遞歸類神經網路),更準確分類文件。

模型評估

  • 自動計算監督學習模型效能統計資料。
  • 針對間隔和類別目標,產生輸出統計資料。
  • 針對間隔和類別目標,建立增益表。
  • 針對類別目標,建立接受者操作特徵 (ROC) 表。
  • 針對有類別目標的監督學習模型,建立事件分類和名目分類圖表。

模型評分

  • 自動產生 SAS DATA 步驟程式碼,以執行模型評分。
  • 將評分邏輯套用至訓練、預留資料和新資料。

SAS Viya 記憶體內引擎

  • CAS(SAS 雲端分析服務)可in memory執行處理,及在叢集中的各個節點之間分佈式處理。
  • 使用者請求(以過程語言表示)可轉換為在分佈式環境中處理參數操作。結果集合與訊息將傳遞回該過程,以供用戶採取進一步的動作。
  • 資料按區塊進行管理,可以按需載入到記憶體中。
  • 如果資料表超出記憶體容量,伺服器會快取磁碟上的區塊。資料和中繼結果會根據各個工作和使用者界限的要求保存在記憶體內。
  • 包含高效的節點間溝通。透過演算法確定給定作業的最佳節點數。
  • 通訊層支援容錯功能,並可讓您在伺服器運行期間從伺服器中刪除或新增節點。所有元件均可複製以實現高可用性。
  • 支援舊版 SAS 程式碼,以及直接與 SAS 9.4M6 用戶端交互操作。
  • 支援多租戶部署,以實現共用軟體疊層,進而以安全的方式支援孤立的租戶。