SAS^® Visual Data Mining and Machine Learning

Возможности SAS^® Visual Data Mining and Machine Learning

Интерактивное программирование в среде веб-разработки

Визуальный интерфейс для всего аналитического жизненного цикла.
Перетаскивание интерактивного интерфейса не требует кодирования, хотя кодирование является опцией.
Поддерживает автоматическое создание кода на каждом узле в конвейере.
Выберите оптимальные шаблоны (базовый, средний или продвинутый), чтобы быстро приступить к задачам машинного обучения или воспользоваться преимуществами нашего процесса автоматического моделирования.
Отчеты по интерпретации, такие как PD, LIME, ICE и Kernel SHAP.
Изучайте данные из Model Studio и запускайте непосредственно в SAS Visual Analytics.
Редактировать модели, импортированные из SAS Visual Analytics в Model Studio.
Просмотр данных в каждом узле в Model Studio.
Запустите пакетный код SAS Enterprise Miner ™ 14.3 в Model Studio.
Предоставляет среду для совместной работы, позволяющую легко обмениваться данными, фрагментами кода, аннотациями и лучшими практиками среди разных персон.
Создавайте, управляйте и делитесь контентом, а также управляйте разрешениями на контент через SAS Drive.
Программа просмотра линии SAS визуально отображает взаимосвязи между решениями, моделями и данными.

Интеллектуальная автоматизация

Публичный API для автоматизации многих ручных, сложных этапов моделирования для построения моделей машинного обучения - от обработки данных, разработки функций, выбора алгоритмов, до развертывания.
Узел автоматического проектирования элементов для автоматической очистки, преобразования и выбора элементов для моделей.
Узел Автоматическое моделирование для автоматического выбора лучшей модели с помощью набора процедур оптимизации и автонастройки по нескольким методикам.

Поколение естественного языка

Просматривать результаты на простом языке для облегчения понимания докладов, включая оценку моделей и переводимость.

Встроенная поддержка Python и R

Встраивайте открытый исходный код в анализ и вызывайте алгоритмы с открытым исходным кодом в Model Studio.
Узел Open Source Code в Model Studio не зависит от версий Python или R.
Управление моделями Python в общем репозитории Model Studio.

Глубокое обучение с Python (DLPy)

Создавайте модели глубокого обучения для изображений, текста, аудио и данных временных рядов, используя Jupyter Notebook.
API высокого уровня доступны на GitHub для:
- Глубокие нейронные сети для табличных данных.
- Классификация изображений и регрессия.
- Обнаружение объекта.
- Задачи на основе RNN - классификация текста, генерация текста и маркировка последовательности.
- Обработка и моделирование временных рядов на основе RNN.
Поддержка предопределенных сетевых архитектур, таких как LeNet, VGG, ResNet, DenseNet, Darknet, Inception, ShuffleNet, MobileNet, YOLO, Tiny YOLO, Faster R-CNN и U-Net.
Импорт и экспорт моделей глубокого обучения в формате ONNX.

SAS^® процедуры (PROCs) и действия CAS

Программный интерфейс (SAS Studio) позволяет ИТ-специалистам или разработчикам получать доступ к серверу CAS, загружать и сохранять данные непосредственно с сервера CAS, а также поддерживать локальную и удаленную обработку на сервере CAS.
Программисты Python, Java, R, Lua и Scala или ИТ-специалисты могут получать доступ к данным и выполнять основные операции с данными на сервере CAS или выполнять действия CAS с помощью PROC CAS.
Поддержка действий CAS для интерпретируемости, разработки функций и моделирования.
Интегрируйте и добавьте возможности SAS в другие приложения с помощью API REST.

Масштабируемая, распределенная аналитическая обработка в памяти

Распределенная обработка в памяти сложных аналитических вычислений на больших наборах данных обеспечивает ответы с низкой задержкой.
Аналитические задачи объединяются в одно задание в памяти без необходимости перезагружать данные или записывать промежуточные результаты на диски.
Одновременный доступ к одним и тем же данным в памяти многих пользователей повышает эффективность.
Данные и промежуточные результаты хранятся в памяти столько времени, сколько требуется, что снижает задержку.
Встроенное управление рабочей нагрузкой обеспечивает эффективное использование вычислительных ресурсов.
Встроенное управление отказоустойчивостью гарантирует, что представленные задания всегда завершаются.
Автоматическое распространение дискового ввода / вывода для улучшенного управления памятью.

Разработка моделей с использованием современных алгоритмов машинного обучения

Обучение с подкреплением:
- Технологии включают в себя Fitted Q-Network (FQN) и Deep Q-Network (DQN).
- FQN может обучать модель по предварительно собранным точкам данных без необходимости взаимодействия с окружающей средой.
- Использует память воспроизведения и методы целевой сети для декорреляции не-i.i.d. точки данных и стабилизация тренировочного процесса.
- Возможность указать пользовательскую среду для пар состояние-действие и вознаграждений.
Деревья принятия решений:
- Автоматизированный ансамбль деревьев решений для прогнозирования одной цели.
- Автоматическое распределение независимых тренировочных серий.
- Поддерживает интеллектуальную автонастройку параметров модели.
- Автоматическая генерация кода SAS для производственного скоринга.
Повышение градиента:
- Автоматический итеративный поиск для оптимального разделения данных относительно выбранной переменной метки.
- Автоматическая повторная выборка входных данных несколько раз с корректировкой весов на основе остатков.
- Автоматическая генерация средневзвешенного значения для окончательной контролируемой модели.
- Поддерживает двоичные, именные и интервальные метки.
- Возможность настройки обучения деревьев с различными вариантами количества деревьев для роста, критериями деления для применения, глубиной поддеревьев и вычислением ресурсов.
- Критерии автоматической остановки, основанные на оценке данных проверки, чтобы избежать переобучения.
- Автоматическая генерация кода SAS для производственного скоринга.
Нейронные сети:
- Автоматическая интеллектуальная настройка набора параметров для определения оптимальной модели.
- Поддерживает моделирование данных счета.
- Интеллектуальные настройки по умолчанию для большинства параметров нейронной сети.
- Возможность настройки архитектуры и веса нейронных сетей.
- Методы включают нейронную сеть с глубоким переходом (DNN), сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и автоэнкодеры.
- Возможность использовать произвольное количество скрытых слоев для поддержки глубокого обучения.
- Поддержка различных типов слоев, таких как свертывание и объединение.
- Автоматическая стандартизация входных и целевых переменных.
- Автоматический выбор и использование подмножества данных проверки.
- Автоматическая проверка для ранней остановки, чтобы избежать перегрузки.
- Поддерживает интеллектуальную автонастройку параметров модели.
- Автоматическая генерация кода SAS для производственного скоринга.
Опорные векторные машины:
- Модели двоичных целевых меток.
- Поддерживает линейные и полиномиальные ядра для обучения модели.
- Возможность включения непрерывных и категоричных функций ввода / вывода.
- Автоматическое масштабирование входных объектов.
- Возможность применения метода внутренней точки и метода активного набора.
- Поддерживает раздел данных для проверки модели.
- Поддерживает перекрестную проверку для выбора штрафа.
- Автоматическая генерация кода SAS для производственного скоринга.
Факторизация машин:
- Поддерживает разработку рекомендательных систем на основе разреженных матриц идентификаторов пользователей и рейтингов предметов.
- Возможность применения полной тензорной факторизации парного взаимодействия.
- Включает в себя дополнительные категориальные и числовые функции ввода для более точных моделей.
- Модели с суперзарядом с отметками времени, демографическими данными и контекстной информацией.
- Поддержка горячего перезапуска (обновление моделей новыми транзакциями без полной переподготовки).
- Автоматическая генерация кода оценки SAS для производственной оценки.
Байесовские сети:
- Изучает различные структуры байесовской сети, в том числе наивные, дополненные деревьями наивные (TAN), байесовские сети, наивные (BAN), родительские и дочерние байесовские сети и марковское ограждение.
- Выполняет эффективный выбор переменных с помощью тестов независимости.
- Выбирает лучшую модель автоматически из указанных параметров.
- Создает код SAS или хранилище аналитики для оценки данных.
- Загружает данные из нескольких узлов и выполняет вычисления параллельно.
Модели гауссовой смеси Дирихле (GMM):
- Может выполнять кластеризацию параллельно и является многопоточным.
- Выполняет мягкую кластеризацию, которая обеспечивает не только предсказанную оценку кластера, но и распределение вероятностей по кластерам для каждого наблюдения.
- Изучает лучшее количество кластеров в процессе кластеризации, которое поддерживается процессом Дирихле.
- В качестве метода логического вывода используется параллельный вариационный метод Байеса (VB). Этот метод аппроксимирует (неразрешимое) апостериорное распределение, а затем итеративно обновляет параметры модели, пока не достигнет сходимости.
Полуконтролируемый алгоритм обучения:
- Сильно распределенный и многопоточный.
- Возвращает предсказанные метки как для таблицы без меток, так и для таблицы данных с метками.
Т-распределенное стохастическое вложение соседей (t-SNE):
- Сильно распределенный и многопоточный.
- Возвращает низкоразмерные вложения, основанные на параллельной реализации алгоритма t-SNE.

Аналитическая подготовка данных

Конструктивный анализ лучших практик включает в себя лучшие преобразования.
Распределенные процедуры управления данными, предоставляемые через визуальный интерфейс.
Крупномасштабное исследование и обобщение данных.
Кардинальное профилирование:
- Крупномасштабное профилирование данных источников входных данных.
- Интеллектуальная рекомендация для переменного измерения и роли.
Отбор проб:
- Поддерживает случайную и стратифицированную выборку, избыточную выборку для редких событий и индикаторные переменные для выборочных записей.

Исследования данных, тематический инжиниринг и сокращение

T-распределенное стохастическое вложение соседей (t-SNE).
Функция биннинга.
Высокопроизводительное вычисление отсутствующих значений в объектах с указанными пользователем значениями, средним значением, псевдомедианой и случайным значением не пропущенных значений
Уменьшение размеров элемента.
Крупномасштабный анализ основных компонентов (PCA), включая движущиеся окна и надежный PCA.
Обучение без учителя с кластерным анализом и смешанной переменной кластеризации.
Сегментные профили для кластеризации.

Интегрированная аналитика текста

Поддерживает 33 родных языка:
- английский
- арабский
- китайский
- хорватский
- чешский
- датский
- нидерландский
- фарси
- финский
- французкий
- немецкий
- греческий
- иврит
- хинди
- венгерский
- индонезийский
- итальянский
- японский
- Казахский
- корейский
- норвежский
- польский
- португальский
- румынский
- русский
- словацкий
- словенский
- испанский
- шведский
- тагальского
- турецкий
- тайский
- вьетнамский
Стоп-листы автоматически включаются и применяются для всех языков.
Автоматизированный анализ, токенизация, маркировка части речи и лемматизация.
Предопределенные концепции извлекают общие объекты, такие как имена, даты, значения валют, измерения, люди, места и многое другое.
Автоматическое извлечение признаков с помощью сгенерированных машиной тем (разложение по сингулярным значениям и скрытое распределение Дирихле).
Поддерживает машинное обучение и основанные на правилах подходы в рамках одного проекта.
Автоматическая генерация правил с помощью BoolRule.
Точная классификация документов с глубоким обучением (периодические нейронные сети).

Модель оценки

Автоматически рассчитывает статистику производительности модели обучения под наблюдением.
Производит выходную статистику для интервальных и категориальных целей.
Создает таблицу подъема для интервала и категориальной цели.
Создает таблицу ROC для категориальной цели.
Создает диаграммы событийной и номинальной классификации для моделей обучения под наблюдением с целевым классом.

Оценка модели

Автоматически генерирует код шага SAS DATA для скоринга модели.
Применяет логику скоринга к тренировкам, несогласованным данным и новым данным.

SAS ^® Viya ^® в памяти системы

CAS (SAS Cloud Analytic Services) выполняет обработку в памяти и распределяет обработку по узлам в кластере.
Пользовательские запросы (выраженные на процедурном языке) переводятся в действия с параметрами, необходимыми для обработки в распределенной среде. Набор результатов и сообщения передаются обратно в процедуру для дальнейших действий пользователем.
Данные управляются блоками и могут быть загружены в память и по запросу.
Если таблицы превышают объем памяти, сервер кэширует блоки на диске. Данные и промежуточные результаты хранятся в памяти столько времени, сколько требуется, через задания и границы пользователя.
Включает высокоэффективную связь между узлами. Алгоритм определяет оптимальное количество узлов для данной работы.
Коммуникационный уровень поддерживает отказоустойчивость и позволяет удалять или добавлять узлы с сервера во время его работы. Все компоненты могут быть реплицированы для обеспечения высокой доступности.
Поддержка устаревшего кода SAS и прямая совместимость с клиентами SAS 9.4M6.
Поддерживает многопользовательское развертывание, что позволяет совместно используемому программному стеку защищать изолированных пользователей.

Возможности SAS^® Visual Data Mining and Machine Learning

Интерактивное программирование в среде веб-разработки

Интеллектуальная автоматизация

Поколение естественного языка

Встроенная поддержка Python и R

Глубокое обучение с Python (DLPy)

SAS^® процедуры (PROCs) и действия CAS

Масштабируемая, распределенная аналитическая обработка в памяти

Разработка моделей с использованием современных алгоритмов машинного обучения

Аналитическая подготовка данных

Исследования данных, тематический инжиниринг и сокращение

Интегрированная аналитика текста

Модель оценки

Оценка модели

SAS ^® Viya ^® в памяти системы

Follow Us

What is...

Возможности SAS® Visual Data Mining and Machine Learning

Интерактивное программирование в среде веб-разработки

Интеллектуальная автоматизация

Поколение естественного языка

Встроенная поддержка Python и R

Глубокое обучение с Python (DLPy)

SAS® процедуры (PROCs) и действия CAS

Масштабируемая, распределенная аналитическая обработка в памяти

Разработка моделей с использованием современных алгоритмов машинного обучения

Аналитическая подготовка данных

Исследования данных, тематический инжиниринг и сокращение

Интегрированная аналитика текста

Модель оценки

Оценка модели

SAS ® Viya ® в памяти системы

Follow Us

What is...

Возможности SAS^® Visual Data Mining and Machine Learning

SAS^® процедуры (PROCs) и действия CAS

SAS ^® Viya ^® в памяти системы