SAS for Machine Learning & Deep Learning
基于 Web 的开发环境中的交互式编程
- 整个分析生命周期过程的可视化界面。
- 拖放式交互界面,无需编码,但也可以选择编码。
- 支持在管道中的每个节点上自动创建代码。
- 选择最佳实践模板(基础、中级或高级),快速启动机器学习任务或利用我们的自动化建模流程。
- 可解释性报告,例如 PD、LIME、ICE 和 Kernel SHAP。
- 通过 PDF 报告共享建模见解。
- 在 Model Studio 中浏览数据,并将其中的数据直接导入 SAS 可视化分析。
- 在 Model Studio 中编辑从 SAS Visual Analytics 导入的模型。
- 在 Model Studio 中查看每个节点内的数据。
- 在 Model Studio 中运行 SAS® Enterprise Miner™ 14.3 批处理代码。
- 提供一个协作环境,以实现不同人员之间数据、代码片断、注释和最佳实践的轻松共享。
- 通过 SAS Drive 创建、管理和共享内容以及管理内容权限。
- SAS 谱系查看器可以直观地显示决策、模型、数据和决策之间的关系。
人工监督的智能自动化
- 公共 API 可自动执行众多复杂的手动建模步骤,构建全面的机器学习模型,其中包括数据整理、特征工程、算法选择和部署。
- 自动特征工程节点,用于自动清理、转换和选择模型特征。
- 自动建模节点,可使用一组涵盖多种技术的优化和自动调节例程自动选择最佳模型。
- 以交互方式调整决策树节点的修剪和拆分。
- 自动处理元学习中的数据准备建议。
- 使用全面的定制功能,自动生成管道。
自然语言生成
- 以简单语言呈现分析结果,便于理解报告,包括模型评估和解释功能。
Python 和 R 语言的嵌入式支持
- 将开源代码嵌入分析中,并在 Model Studio 中调用开源算法。
- Model Studio 中开源代码节点与 Python 或 R 版本无关。
- 在 Model Studio 的通用储存库中管理 Python 模型。
Deep learning with Python (DLPy)
- 使用 Jupyter Notebook 为图像、文本、音频和时间序列数据构建深度学习模型。
- GitHub 上提供下列高级 API:
- 用于表格式数据的深度神经网络。
- 图像分类和回归。
- 对象检测。
- 基于 RNN 的任务–文本分类、文本生成和序列标注。
- 基于 RNN 的时间序列处理和建模。
- 支持预定义网络基础架构,例如 LeNet、VGG、ResNet、DenseNet、Darknet、Inception、ShuffleNet、MobileNet、YOLO、Tiny YOLO、Faster R-CNN 和 U-Net。
- 以 ONNX 格式导入和导出深度学习模型。
- 通过利用 Analytic Store (ASTORE),使用 ONNX 模型对各种环境中的新数据集进行评分
SAS 程序 (PROC) 和 CAS 操作
- 编程界面 (SAS Studio) 允许 IT 或开发人员访问 CAS 服务器,直接从 CAS 服务器加载和保存数据,并支持 CAS 服务器上的本地和远程处理。
- Python、Java、R、Lua 和 Scala 程序员或 IT 人员可以访问数据并针对 CAS 服务器执行基本数据操作,或者使用 PROC CAS 执行 CAS 操作。
- CAS 操作的可解释性、特征工程和建模支持。
- 使用 REST API 将 SAS 的功能集成并添加到其他应用程序中。
高度可扩展的分布式内存分析处理
- 针对大型数据集的分布式、在内存中进行处理的复杂分析计算可提供延迟率低的答案。
- 将分析任务链接在一起,行程一个单一的内存作业,无需重新加载数据或将中间结果写到磁盘上。
- 允许众多用户同时访问内存中的相同数据,提高效率。
- 数据和中间结果会根据需要保留在内存中,以减少延迟。
- 内置的工作量管理可确保有效利用计算资源。
- 内置的故障转移管理确保提交的作业始终是完成的。
- 自动化 I/O 磁盘溢出,改善内存管理。
使用现代机器学习算法进行模型开发
- 强化学习:
- 包括拟合 Q 网络 (FQN) 和深度 Q 网络 (DQN) 在内的技术。
- FQN 可以在预先收集的数据点上训练模型,而无需与环境进行通信。
- 使用回放内存和目标网络技术执行非 i.i.d. 数据点去相关并稳定训练流程。
- 能够为状态操作对和奖励指定自定义环境。
- 决策林:
- 实现决策树的自动化集成,以预测单个目标。
- 独立训练运行自动化分布。
- 支持模型参数的智能自动调整。
- 自动生成用于生产评分的 SAS 代码。
- 梯度增加:
- 自动化迭代搜索可针对所选标签变量对数据进行最优划分。
- 根据残差调整权重,对输入数据进行几次自动重采样。
- 自动生成最终监督模型的加权平均值。
- 支持二进制、列名型和间隔标签。
- 能够使用针对要增长的树数量、要采用的拆分标准、子树的深度和计算资源的各种选项自定义树训练。
- 基于验证数据评分自动停止标准,以避免过度拟合。
- 自动生成用于生产评分的 SAS 代码。
- 访问热门的开源建模包 LightGBM。
- 神经网络:
- 自动智能调整参数集以识别最佳模型。
- 支持计数数据建模。
- 大多数神经网络参数的智能默认值。
- 能够自定义神经网络架构和权重。
- 包括深度前向神经网络 (DNN)、卷积神经网络 (CNN)、循环神经网络 (RNN) 和自编码在内的技术。
- 能够使用任意数量的隐藏层来支持深度学习。
- 支持不同类型的图层,例如卷积和池化。
- 输入和目标变量的自动标准化。
- 自动选择项和验证数据子集使用。
- 自动进行袋外数据验证,可尽早停止以避免过度拟合。
- 支持模型参数的智能自动调整。
- 自动生成用于生产评分的 SAS 代码。
- 支持向量机:
- 为二值型目标标签建模。
- 支持线性和多项式内核进行模型训练。
- 能够包含连续和分类的输入/输出功能。
- 输入特征的自动缩放。
- 能够应用内点法和有效集法。
- 支持数据分区以进行模型验证。
- 支持交叉验证以进行惩罚选择。
- 自动生成用于生产评分的 SAS 代码。
- 因式分解机:
- 支持基于用户 ID 和项目评级的稀疏矩阵的推荐系统开发。
- 能够应用完整的成对交互张量分解。
- 包含其他分类和数字输入功能,可实现更准确的模型。
- 具有时间戳、人口统计数据和上下文信息的增压模型。
- 支持热重启(无需完全重新培训即可使用新交易更新模型)。
- 自动生成用于生产评分的 SAS 评分代码代码。
- 贝叶斯网络:
- 学习不同的贝叶斯网络结构,包括朴素、树型朴素 (TAN)、贝叶斯网络增强朴素 (BAN)、因果贝叶斯网络和马尔可夫毯。
- 通过独立性测试执行有效的变量选择。
- 从指定参数自动选择最佳模型。
- 生成 SAS 代码或分析存储以对数据进行评分。
- 从多个节点加载数据并执行并行计算。
- 狄利克雷高斯混合模型 (GMM):
- 可以并行执行聚类并且具有高度多线程性。
- 执行软聚类,不仅提供预测集群值,还提供每个观测值在聚类上的概率分布。
- 在聚类过程中学习最佳群集数,由狄利克雷过程支持。
- 使用并行变分贝叶斯 (VB) 方法作为模型推断方法。该方法对(难处理的)后验分布进行估计,然后迭代更新模型参数,直到达到收敛为止。
- 半监督学习算法:
- 高度分布式和多线程。
- 返回未标记数据表和标记数据表的预测标签。
- t-分布随机邻域嵌入 (t-SNE):
- 高度分布式和多线程。
- 返回基于 t-SNE 算法并行实施的低维嵌入。
- 生成对抗网络 (GaN)
- 技术包括用于图像数据的 StyleGans 和用于表格数据的 GaN。
- 为深度学习模型生成合成数据。
分析数据准备
- 包括最佳转换的特征工程最佳实践管道。
- 通过可视化前端提供的分布式数据管理例程。
- 大规模数据探索和总结。
- 基数分析:
- 针对输入数据源的大规模数据分析。
- 针对变量测量和角色的智能推荐。
- 抽样:
- 支持随机和分层抽样,对小概率事件进行过度抽样以及对抽样记录进行指示符变量处理。
数据探索、特征工程和降维
- t-分布随机邻域嵌入 (t-SNE)。
- 特征分箱。
- 对用户指定值、均值、伪中位数和非缺失值随机值特征中的缺失值进行高性能补缺。
- 特征降维。
- 大规模主成分分析 (PCA),包括移动窗口和强大的 PCA。
- 借助聚类分析和混合变量聚类的无监督学习。
- 用于聚类的段剖面。
整合式文字分析
- 支持 33 种本地语言的开箱即用:
- 英语
- 阿拉伯语
- 中文
- 克罗地亚语
- 捷克语
- 丹麦语
- 荷兰语
- 波斯语
- 芬兰语
- 法语
- 德语
- 希腊语
- 希伯来语
- 印地语
- 匈牙利语
- 印度尼西亚语
- 意大利语
- 日语
- 哈萨克语
- 韩语
- 挪威语
- 波兰语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 斯洛伐克语
- 斯洛文尼亚语
- 西班牙语
- 瑞典语
- 他加禄语
- 土耳其语
- 泰语
- 越南语
- 自动包括停用词列表,并适用于所有语言。
- 自动化解析、词语切分、词性标记和词干提取。
- 预定义概念提取常见实体,如名称、日期、货币值、度量、人员、地点等。
- 具有机器生成主题的自动特征提取(奇异值分解和潜在狄利克雷分布)。
- 在单个项目中支持机器学习和基于规则的方法。
- 使用 BoolRule 自动生成规则。
- 借助深度学习(循环神经网络),更准确地对文档进行分类。
模型评估
- 自动计算有监督学习模型的性能统计量。
- 生成间隔和分类目标的输出统计信息。
- 为间隔和分类目标创建提升表。
- 为分类目标创建 ROC 表。
- 为具有分类目标的有监督学习模型创建事件分类和列名型分类图。
模型评分
- 自动生成用于模型评分的 SAS DATA 步代码。
- 将评分逻辑应用于训练、预留数据和新数据。
SAS Viya 内存引擎
- CAS(SAS 云分析服务)在内存中执行处理,并在集群节点之间分配处理。
- 将用户请求(用程序语言表示)转换成含有所需参数的操作,在分布式环境中进行处理。将结果集和消息传回程序供用户进一步采取行动。
- 数据按块进行管理,可根据需要加载到内存中。
- 如果表超过内存容量,服务器将数据块缓存在磁盘上。如果需要,数据和中间结果可跨作业和用户边界保存在内存中。
- 包括高效的节点到节点通信。算法确定给定作业的最佳节点数。
- 通信层支持容错,允许运行过程中删除或添加服务器节点。所有组件可以复制,实现高可用性。
- 支持旧版 SAS 代码以及与 SAS 9.4M6 客户端直接进行互操作。
- 支持多租户部署,允许共享软件堆叠,以安全的方式支持隔离的租户。