Возможности SAS® Visual Data Mining and Machine Learning
Интерактивное программирование в среде веб-разработки
- Визуальный интерфейс для всего аналитического жизненного цикла.
- Перетаскивание интерактивного интерфейса не требует кодирования, хотя кодирование является опцией.
- Поддерживает автоматическое создание кода на каждом узле в конвейере.
- Выберите оптимальные шаблоны (базовый, средний или продвинутый), чтобы быстро приступить к задачам машинного обучения или воспользоваться преимуществами нашего процесса автоматического моделирования.
- Отчеты по интерпретации, такие как PD, LIME, ICE и Kernel SHAP.
- Изучайте данные из Model Studio и запускайте непосредственно в SAS Visual Analytics.
- Редактировать модели, импортированные из SAS Visual Analytics в Model Studio.
- Просмотр данных в каждом узле в Model Studio.
- Запустите пакетный код SAS Enterprise Miner ™ 14.3 в Model Studio.
- Предоставляет среду для совместной работы, позволяющую легко обмениваться данными, фрагментами кода, аннотациями и лучшими практиками среди разных персон.
- Создавайте, управляйте и делитесь контентом, а также управляйте разрешениями на контент через SAS Drive.
- Программа просмотра линии SAS визуально отображает взаимосвязи между решениями, моделями и данными.
Интеллектуальная автоматизация
- Публичный API для автоматизации многих ручных, сложных этапов моделирования для построения моделей машинного обучения - от обработки данных, разработки функций, выбора алгоритмов, до развертывания.
- Узел автоматического проектирования элементов для автоматической очистки, преобразования и выбора элементов для моделей.
- Узел Автоматическое моделирование для автоматического выбора лучшей модели с помощью набора процедур оптимизации и автонастройки по нескольким методикам.
Поколение естественного языка
- Просматривать результаты на простом языке для облегчения понимания докладов, включая оценку моделей и переводимость.
Встроенная поддержка Python и R
- Встраивайте открытый исходный код в анализ и вызывайте алгоритмы с открытым исходным кодом в Model Studio.
- Узел Open Source Code в Model Studio не зависит от версий Python или R.
- Управление моделями Python в общем репозитории Model Studio.
Глубокое обучение с Python (DLPy)
- Создавайте модели глубокого обучения для изображений, текста, аудио и данных временных рядов, используя Jupyter Notebook.
- API высокого уровня доступны на GitHub для:
- Глубокие нейронные сети для табличных данных.
- Классификация изображений и регрессия.
- Обнаружение объекта.
- Задачи на основе RNN - классификация текста, генерация текста и маркировка последовательности.
- Обработка и моделирование временных рядов на основе RNN.
- Поддержка предопределенных сетевых архитектур, таких как LeNet, VGG, ResNet, DenseNet, Darknet, Inception, ShuffleNet, MobileNet, YOLO, Tiny YOLO, Faster R-CNN и U-Net.
- Импорт и экспорт моделей глубокого обучения в формате ONNX.
SAS® процедуры (PROCs) и действия CAS
- Программный интерфейс (SAS Studio) позволяет ИТ-специалистам или разработчикам получать доступ к серверу CAS, загружать и сохранять данные непосредственно с сервера CAS, а также поддерживать локальную и удаленную обработку на сервере CAS.
- Программисты Python, Java, R, Lua и Scala или ИТ-специалисты могут получать доступ к данным и выполнять основные операции с данными на сервере CAS или выполнять действия CAS с помощью PROC CAS.
- Поддержка действий CAS для интерпретируемости, разработки функций и моделирования.
- Интегрируйте и добавьте возможности SAS в другие приложения с помощью API REST.
Масштабируемая, распределенная аналитическая обработка в памяти
- Распределенная обработка в памяти сложных аналитических вычислений на больших наборах данных обеспечивает ответы с низкой задержкой.
- Аналитические задачи объединяются в одно задание в памяти без необходимости перезагружать данные или записывать промежуточные результаты на диски.
- Одновременный доступ к одним и тем же данным в памяти многих пользователей повышает эффективность.
- Данные и промежуточные результаты хранятся в памяти столько времени, сколько требуется, что снижает задержку.
- Встроенное управление рабочей нагрузкой обеспечивает эффективное использование вычислительных ресурсов.
- Встроенное управление отказоустойчивостью гарантирует, что представленные задания всегда завершаются.
- Автоматическое распространение дискового ввода / вывода для улучшенного управления памятью.
Разработка моделей с использованием современных алгоритмов машинного обучения
- Обучение с подкреплением:
- Технологии включают в себя Fitted Q-Network (FQN) и Deep Q-Network (DQN).
- FQN может обучать модель по предварительно собранным точкам данных без необходимости взаимодействия с окружающей средой.
- Использует память воспроизведения и методы целевой сети для декорреляции не-i.i.d. точки данных и стабилизация тренировочного процесса.
- Возможность указать пользовательскую среду для пар состояние-действие и вознаграждений.
- Деревья принятия решений:
- Автоматизированный ансамбль деревьев решений для прогнозирования одной цели.
- Автоматическое распределение независимых тренировочных серий.
- Поддерживает интеллектуальную автонастройку параметров модели.
- Автоматическая генерация кода SAS для производственного скоринга.
- Повышение градиента:
- Автоматический итеративный поиск для оптимального разделения данных относительно выбранной переменной метки.
- Автоматическая повторная выборка входных данных несколько раз с корректировкой весов на основе остатков.
- Автоматическая генерация средневзвешенного значения для окончательной контролируемой модели.
- Поддерживает двоичные, именные и интервальные метки.
- Возможность настройки обучения деревьев с различными вариантами количества деревьев для роста, критериями деления для применения, глубиной поддеревьев и вычислением ресурсов.
- Критерии автоматической остановки, основанные на оценке данных проверки, чтобы избежать переобучения.
- Автоматическая генерация кода SAS для производственного скоринга.
- Нейронные сети:
- Автоматическая интеллектуальная настройка набора параметров для определения оптимальной модели.
- Поддерживает моделирование данных счета.
- Интеллектуальные настройки по умолчанию для большинства параметров нейронной сети.
- Возможность настройки архитектуры и веса нейронных сетей.
- Методы включают нейронную сеть с глубоким переходом (DNN), сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и автоэнкодеры.
- Возможность использовать произвольное количество скрытых слоев для поддержки глубокого обучения.
- Поддержка различных типов слоев, таких как свертывание и объединение.
- Автоматическая стандартизация входных и целевых переменных.
- Автоматический выбор и использование подмножества данных проверки.
- Автоматическая проверка для ранней остановки, чтобы избежать перегрузки.
- Поддерживает интеллектуальную автонастройку параметров модели.
- Автоматическая генерация кода SAS для производственного скоринга.
- Опорные векторные машины:
- Модели двоичных целевых меток.
- Поддерживает линейные и полиномиальные ядра для обучения модели.
- Возможность включения непрерывных и категоричных функций ввода / вывода.
- Автоматическое масштабирование входных объектов.
- Возможность применения метода внутренней точки и метода активного набора.
- Поддерживает раздел данных для проверки модели.
- Поддерживает перекрестную проверку для выбора штрафа.
- Автоматическая генерация кода SAS для производственного скоринга.
- Факторизация машин:
- Поддерживает разработку рекомендательных систем на основе разреженных матриц идентификаторов пользователей и рейтингов предметов.
- Возможность применения полной тензорной факторизации парного взаимодействия.
- Включает в себя дополнительные категориальные и числовые функции ввода для более точных моделей.
- Модели с суперзарядом с отметками времени, демографическими данными и контекстной информацией.
- Поддержка горячего перезапуска (обновление моделей новыми транзакциями без полной переподготовки).
- Автоматическая генерация кода оценки SAS для производственной оценки.
- Байесовские сети:
- Изучает различные структуры байесовской сети, в том числе наивные, дополненные деревьями наивные (TAN), байесовские сети, наивные (BAN), родительские и дочерние байесовские сети и марковское ограждение.
- Выполняет эффективный выбор переменных с помощью тестов независимости.
- Выбирает лучшую модель автоматически из указанных параметров.
- Создает код SAS или хранилище аналитики для оценки данных.
- Загружает данные из нескольких узлов и выполняет вычисления параллельно.
- Модели гауссовой смеси Дирихле (GMM):
- Может выполнять кластеризацию параллельно и является многопоточным.
- Выполняет мягкую кластеризацию, которая обеспечивает не только предсказанную оценку кластера, но и распределение вероятностей по кластерам для каждого наблюдения.
- Изучает лучшее количество кластеров в процессе кластеризации, которое поддерживается процессом Дирихле.
- В качестве метода логического вывода используется параллельный вариационный метод Байеса (VB). Этот метод аппроксимирует (неразрешимое) апостериорное распределение, а затем итеративно обновляет параметры модели, пока не достигнет сходимости.
- Полуконтролируемый алгоритм обучения:
- Сильно распределенный и многопоточный.
- Возвращает предсказанные метки как для таблицы без меток, так и для таблицы данных с метками.
- Т-распределенное стохастическое вложение соседей (t-SNE):
- Сильно распределенный и многопоточный.
- Возвращает низкоразмерные вложения, основанные на параллельной реализации алгоритма t-SNE.
Аналитическая подготовка данных
- Конструктивный анализ лучших практик включает в себя лучшие преобразования.
- Распределенные процедуры управления данными, предоставляемые через визуальный интерфейс.
- Крупномасштабное исследование и обобщение данных.
- Кардинальное профилирование:
- Крупномасштабное профилирование данных источников входных данных.
- Интеллектуальная рекомендация для переменного измерения и роли.
- Отбор проб:
- Поддерживает случайную и стратифицированную выборку, избыточную выборку для редких событий и индикаторные переменные для выборочных записей.
Исследования данных, тематический инжиниринг и сокращение
- T-распределенное стохастическое вложение соседей (t-SNE).
- Функция биннинга.
- Высокопроизводительное вычисление отсутствующих значений в объектах с указанными пользователем значениями, средним значением, псевдомедианой и случайным значением не пропущенных значений
- Уменьшение размеров элемента.
- Крупномасштабный анализ основных компонентов (PCA), включая движущиеся окна и надежный PCA.
- Обучение без учителя с кластерным анализом и смешанной переменной кластеризации.
- Сегментные профили для кластеризации.
Интегрированная аналитика текста
- Поддерживает 33 родных языка:
- английский
- арабский
- китайский
- хорватский
- чешский
- датский
- нидерландский
- фарси
- финский
- французкий
- немецкий
- греческий
- иврит
- хинди
- венгерский
- индонезийский
- итальянский
- японский
- Казахский
- корейский
- норвежский
- польский
- португальский
- румынский
- русский
- словацкий
- словенский
- испанский
- шведский
- тагальского
- турецкий
- тайский
- вьетнамский
- Стоп-листы автоматически включаются и применяются для всех языков.
- Автоматизированный анализ, токенизация, маркировка части речи и лемматизация.
- Предопределенные концепции извлекают общие объекты, такие как имена, даты, значения валют, измерения, люди, места и многое другое.
- Автоматическое извлечение признаков с помощью сгенерированных машиной тем (разложение по сингулярным значениям и скрытое распределение Дирихле).
- Поддерживает машинное обучение и основанные на правилах подходы в рамках одного проекта.
- Автоматическая генерация правил с помощью BoolRule.
- Точная классификация документов с глубоким обучением (периодические нейронные сети).
Модель оценки
- Автоматически рассчитывает статистику производительности модели обучения под наблюдением.
- Производит выходную статистику для интервальных и категориальных целей.
- Создает таблицу подъема для интервала и категориальной цели.
- Создает таблицу ROC для категориальной цели.
- Создает диаграммы событийной и номинальной классификации для моделей обучения под наблюдением с целевым классом.
Оценка модели
- Автоматически генерирует код шага SAS DATA для скоринга модели.
- Применяет логику скоринга к тренировкам, несогласованным данным и новым данным.
SAS ® Viya ® в памяти системы
- CAS (SAS Cloud Analytic Services) выполняет обработку в памяти и распределяет обработку по узлам в кластере.
- Пользовательские запросы (выраженные на процедурном языке) переводятся в действия с параметрами, необходимыми для обработки в распределенной среде. Набор результатов и сообщения передаются обратно в процедуру для дальнейших действий пользователем.
- Данные управляются блоками и могут быть загружены в память и по запросу.
- Если таблицы превышают объем памяти, сервер кэширует блоки на диске. Данные и промежуточные результаты хранятся в памяти столько времени, сколько требуется, через задания и границы пользователя.
- Включает высокоэффективную связь между узлами. Алгоритм определяет оптимальное количество узлов для данной работы.
- Коммуникационный уровень поддерживает отказоустойчивость и позволяет удалять или добавлять узлы с сервера во время его работы. Все компоненты могут быть реплицированы для обеспечения высокой доступности.
- Поддержка устаревшего кода SAS и прямая совместимость с клиентами SAS 9.4M6.
- Поддерживает многопользовательское развертывание, что позволяет совместно используемому программному стеку защищать изолированных пользователей.