Возможности SAS® Visual Data Mining and Machine Learning

Интерактивное программирование в среде веб-разработки

  • Визуальный интерфейс для всего аналитического жизненного цикла.
  • Перетаскивание интерактивного интерфейса не требует кодирования, хотя кодирование является опцией.
  • Поддерживает автоматическое создание кода на каждом узле в конвейере.
  • Выберите оптимальные шаблоны (базовый, средний или продвинутый), чтобы быстро приступить к задачам машинного обучения или воспользоваться преимуществами нашего процесса автоматического моделирования.
  • Отчеты по интерпретации, такие как PD, LIME, ICE и Kernel SHAP.
  • Изучайте данные из Model Studio и запускайте непосредственно в SAS Visual Analytics.
  • Редактировать модели, импортированные из SAS Visual Analytics в Model Studio.
  • Просмотр данных в каждом узле в Model Studio.
  • Запустите пакетный код SAS Enterprise Miner ™ 14.3 в Model Studio.
  • Предоставляет среду для совместной работы, позволяющую легко обмениваться данными, фрагментами кода, аннотациями и лучшими практиками среди разных персон.
  • Создавайте, управляйте и делитесь контентом, а также управляйте разрешениями на контент через SAS Drive.
  • Программа просмотра линии SAS визуально отображает взаимосвязи между решениями, моделями и данными.

Интеллектуальная автоматизация

  • Публичный API для автоматизации многих ручных, сложных этапов моделирования для построения моделей машинного обучения - от обработки данных, разработки функций, выбора алгоритмов, до развертывания.
  • Узел автоматического проектирования элементов для автоматической очистки, преобразования и выбора элементов для моделей.
  • Узел Автоматическое моделирование для автоматического выбора лучшей модели с помощью набора процедур оптимизации и автонастройки по нескольким методикам.

Поколение естественного языка

  • Просматривать результаты на простом языке для облегчения понимания докладов, включая оценку моделей и переводимость.

Встроенная поддержка Python и R

  • Встраивайте открытый исходный код в анализ и вызывайте алгоритмы с открытым исходным кодом в Model Studio.
  • Узел Open Source Code в Model Studio не зависит от версий Python или R.
  • Управление моделями Python в общем репозитории Model Studio.

Глубокое обучение с Python (DLPy)

  • Создавайте модели глубокого обучения для изображений, текста, аудио и данных временных рядов, используя Jupyter Notebook.
  • API высокого уровня доступны на GitHub для:
    • Глубокие нейронные сети для табличных данных.
    • Классификация изображений и регрессия.
    • Обнаружение объекта.
    • Задачи на основе RNN - классификация текста, генерация текста и маркировка последовательности.
    • Обработка и моделирование временных рядов на основе RNN.
  • Поддержка предопределенных сетевых архитектур, таких как LeNet, VGG, ResNet, DenseNet, Darknet, Inception, ShuffleNet, MobileNet, YOLO, Tiny YOLO, Faster R-CNN и U-Net.
  • Импорт и экспорт моделей глубокого обучения в формате ONNX.

SAS® процедуры (PROCs) и действия CAS

  • Программный интерфейс (SAS Studio) позволяет ИТ-специалистам или разработчикам получать доступ к серверу CAS, загружать и сохранять данные непосредственно с сервера CAS, а также поддерживать локальную и удаленную обработку на сервере CAS.
  • Программисты Python, Java, R, Lua и Scala или ИТ-специалисты могут получать доступ к данным и выполнять основные операции с данными на сервере CAS или выполнять действия CAS с помощью PROC CAS.
  • Поддержка действий CAS для интерпретируемости, разработки функций и моделирования.
  • Интегрируйте и добавьте возможности SAS в другие приложения с помощью API REST.

Масштабируемая, распределенная аналитическая обработка в памяти

  • Распределенная обработка в памяти сложных аналитических вычислений на больших наборах данных обеспечивает ответы с низкой задержкой.
  • Аналитические задачи объединяются в одно задание в памяти без необходимости перезагружать данные или записывать промежуточные результаты на диски.
  • Одновременный доступ к одним и тем же данным в памяти многих пользователей повышает эффективность.
  • Данные и промежуточные результаты хранятся в памяти столько времени, сколько требуется, что снижает задержку.
  • Встроенное управление рабочей нагрузкой обеспечивает эффективное использование вычислительных ресурсов.
  • Встроенное управление отказоустойчивостью гарантирует, что представленные задания всегда завершаются.
  • Автоматическое распространение дискового ввода / вывода для улучшенного управления памятью.

Разработка моделей с использованием современных алгоритмов машинного обучения

  • Обучение с подкреплением:
    • Технологии включают в себя Fitted Q-Network (FQN) и Deep Q-Network (DQN).
    • FQN может обучать модель по предварительно собранным точкам данных без необходимости взаимодействия с окружающей средой.
    • Использует память воспроизведения и методы целевой сети для декорреляции не-i.i.d. точки данных и стабилизация тренировочного процесса.
    • Возможность указать пользовательскую среду для пар состояние-действие и вознаграждений.
  • Деревья принятия решений:
    • Автоматизированный ансамбль деревьев решений для прогнозирования одной цели.
    • Автоматическое распределение независимых тренировочных серий.
    • Поддерживает интеллектуальную автонастройку параметров модели.
    • Автоматическая генерация кода SAS для производственного скоринга.
  • Повышение градиента:
    • Автоматический итеративный поиск для оптимального разделения данных относительно выбранной переменной метки.
    • Автоматическая повторная выборка входных данных несколько раз с корректировкой весов на основе остатков.
    • Автоматическая генерация средневзвешенного значения для окончательной контролируемой модели.
    • Поддерживает двоичные, именные и интервальные метки.
    • Возможность настройки обучения деревьев с различными вариантами количества деревьев для роста, критериями деления для применения, глубиной поддеревьев и вычислением ресурсов.
    • Критерии автоматической остановки, основанные на оценке данных проверки, чтобы избежать переобучения.
    • Автоматическая генерация кода SAS для производственного скоринга.
  • Нейронные сети:
    • Автоматическая интеллектуальная настройка набора параметров для определения оптимальной модели.
    • Поддерживает моделирование данных счета.
    • Интеллектуальные настройки по умолчанию для большинства параметров нейронной сети.
    • Возможность настройки архитектуры и веса нейронных сетей.
    • Методы включают нейронную сеть с глубоким переходом (DNN), сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и автоэнкодеры.
    • Возможность использовать произвольное количество скрытых слоев для поддержки глубокого обучения.
    • Поддержка различных типов слоев, таких как свертывание и объединение.
    • Автоматическая стандартизация входных и целевых переменных.
    • Автоматический выбор и использование подмножества данных проверки.
    • Автоматическая проверка для ранней остановки, чтобы избежать перегрузки.
    • Поддерживает интеллектуальную автонастройку параметров модели.
    • Автоматическая генерация кода SAS для производственного скоринга.
  • Опорные векторные машины:
    • Модели двоичных целевых меток.
    • Поддерживает линейные и полиномиальные ядра для обучения модели.
    • Возможность включения непрерывных и категоричных функций ввода / вывода.
    • Автоматическое масштабирование входных объектов.
    • Возможность применения метода внутренней точки и метода активного набора.
    • Поддерживает раздел данных для проверки модели.
    • Поддерживает перекрестную проверку для выбора штрафа.
    • Автоматическая генерация кода SAS для производственного скоринга.
  • Факторизация машин:
    • Поддерживает разработку рекомендательных систем на основе разреженных матриц идентификаторов пользователей и рейтингов предметов.
    • Возможность применения полной тензорной факторизации парного взаимодействия.
    • Включает в себя дополнительные категориальные и числовые функции ввода для более точных моделей.
    • Модели с суперзарядом с отметками времени, демографическими данными и контекстной информацией.
    • Поддержка горячего перезапуска (обновление моделей новыми транзакциями без полной переподготовки).
    • Автоматическая генерация кода оценки SAS для производственной оценки.
  • Байесовские сети:
    • Изучает различные структуры байесовской сети, в том числе наивные, дополненные деревьями наивные (TAN), байесовские сети, наивные (BAN), родительские и дочерние байесовские сети и марковское ограждение.
    • Выполняет эффективный выбор переменных с помощью тестов независимости.
    • Выбирает лучшую модель автоматически из указанных параметров.
    • Создает код SAS или хранилище аналитики для оценки данных.
    • Загружает данные из нескольких узлов и выполняет вычисления параллельно.
  • Модели гауссовой смеси Дирихле (GMM):
    • Может выполнять кластеризацию параллельно и является многопоточным.
    • Выполняет мягкую кластеризацию, которая обеспечивает не только предсказанную оценку кластера, но и распределение вероятностей по кластерам для каждого наблюдения.
    • Изучает лучшее количество кластеров в процессе кластеризации, которое поддерживается процессом Дирихле.
    • В качестве метода логического вывода используется параллельный вариационный метод Байеса (VB). Этот метод аппроксимирует (неразрешимое) апостериорное распределение, а затем итеративно обновляет параметры модели, пока не достигнет сходимости.
  • Полуконтролируемый алгоритм обучения:
    • Сильно распределенный и многопоточный.
    • Возвращает предсказанные метки как для таблицы без меток, так и для таблицы данных с метками.
  • Т-распределенное стохастическое вложение соседей (t-SNE):
    • Сильно распределенный и многопоточный.
    • Возвращает низкоразмерные вложения, основанные на параллельной реализации алгоритма t-SNE.

Аналитическая подготовка данных

  • Конструктивный анализ лучших практик включает в себя лучшие преобразования.
  • Распределенные процедуры управления данными, предоставляемые через визуальный интерфейс.
  • Крупномасштабное исследование и обобщение данных.
  • Кардинальное профилирование:
    • Крупномасштабное профилирование данных источников входных данных.
    • Интеллектуальная рекомендация для переменного измерения и роли.
  • Отбор проб:
    • Поддерживает случайную и стратифицированную выборку, избыточную выборку для редких событий и индикаторные переменные для выборочных записей.

Исследования данных, тематический инжиниринг и сокращение

  • T-распределенное стохастическое вложение соседей (t-SNE).
  • Функция биннинга.
  • Высокопроизводительное вычисление отсутствующих значений в объектах с указанными пользователем значениями, средним значением, псевдомедианой и случайным значением не пропущенных значений
  • Уменьшение размеров элемента.
  • Крупномасштабный анализ основных компонентов (PCA), включая движущиеся окна и надежный PCA.
  • Обучение без учителя с кластерным анализом и смешанной переменной кластеризации.
  • Сегментные профили для кластеризации.

Интегрированная аналитика текста

  • Поддерживает 33 родных языка:
    • английский
    • арабский
    • китайский
    • хорватский
    • чешский
    • датский
    • нидерландский
    • фарси
    • финский
    • французкий
    • немецкий
    • греческий
    • иврит
    • хинди
    • венгерский
    • индонезийский
    • итальянский
    • японский
    • Казахский
    • корейский
    • норвежский
    • польский
    • португальский
    • румынский
    • русский
    • словацкий
    • словенский
    • испанский
    • шведский
    • тагальского
    • турецкий
    • тайский
    • вьетнамский
  • Стоп-листы автоматически включаются и применяются для всех языков.
  • Автоматизированный анализ, токенизация, маркировка части речи и лемматизация.
  • Предопределенные концепции извлекают общие объекты, такие как имена, даты, значения валют, измерения, люди, места и многое другое.
  • Автоматическое извлечение признаков с помощью сгенерированных машиной тем (разложение по сингулярным значениям и скрытое распределение Дирихле).
  • Поддерживает машинное обучение и основанные на правилах подходы в рамках одного проекта.
  • Автоматическая генерация правил с помощью BoolRule.
  • Точная классификация документов с глубоким обучением (периодические нейронные сети).

Модель оценки

  • Автоматически рассчитывает статистику производительности модели обучения под наблюдением.
  • Производит выходную статистику для интервальных и категориальных целей.
  • Создает таблицу подъема для интервала и категориальной цели.
  • Создает таблицу ROC для категориальной цели.
  • Создает диаграммы событийной и номинальной классификации для моделей обучения под наблюдением с целевым классом.

Оценка модели

  • Автоматически генерирует код шага SAS DATA для скоринга модели.
  • Применяет логику скоринга к тренировкам, несогласованным данным и новым данным.

SAS ® Viya ® в памяти системы

  • CAS (SAS Cloud Analytic Services) выполняет обработку в памяти и распределяет обработку по узлам в кластере.
  • Пользовательские запросы (выраженные на процедурном языке) переводятся в действия с параметрами, необходимыми для обработки в распределенной среде. Набор результатов и сообщения передаются обратно в процедуру для дальнейших действий пользователем.
  • Данные управляются блоками и могут быть загружены в память и по запросу.
  • Если таблицы превышают объем памяти, сервер кэширует блоки на диске. Данные и промежуточные результаты хранятся в памяти столько времени, сколько требуется, через задания и границы пользователя.
  • Включает высокоэффективную связь между узлами. Алгоритм определяет оптимальное количество узлов для данной работы.
  • Коммуникационный уровень поддерживает отказоустойчивость и позволяет удалять или добавлять узлы с сервера во время его работы. Все компоненты могут быть реплицированы для обеспечения высокой доступности.
  • Поддержка устаревшего кода SAS и прямая совместимость с клиентами SAS 9.4M6.
  • Поддерживает многопользовательское развертывание, что позволяет совместно используемому программному стеку защищать изолированных пользователей.