SAS^® para Machine Learning y Deep Learning

Machine learning y Deep learning.

Programación interactiva en un entorno de desarrollo basado en web

Interfaz visual para todo el proceso del ciclo de vida analítico.
La interfaz interactiva de arrastrar y soltar no requiere codificación, aunque la codificación es una opción.
Admite la creación de código automatizada en cada nodo de la canalización.
Elija plantillas de mejores prácticas (básicas, intermedias o avanzadas) para comenzar rápidamente con las tareas de machine learning o aproveche nuestro proceso de modelado automatizado.
Reportes de interpretación como PD, LIME, ICE y Kernel SHAP.
Comparta insights de modelado a través de un informe en PDF.
Explore los datos desde Model Studio y acceda directamente a SAS Visual Analytics.
Edite modelos importados de SAS Visual Analytics en Model Studio.
Ver datos dentro de cada nodo en Model Studio.
Ejecute el código de lote SAS® Enterprise Miner™ 14.3 dentro de Model Studio.
Proporciona un entorno colaborativo para compartir fácilmente datos, fragmentos de código, anotaciones y mejores prácticas entre diferentes personas.
Cree, administre y comparta contenido y administre permisos de contenido a través de SAS Drive.
El visor de linajes de SAS muestra visualmente las relaciones entre decisiones, modelos, datos y decisiones.

Automatización inteligente con supervisión humana

API pública para automatizar muchos de los pasos de modelado complejos y manuales para crear modelos de aprendizaje automático, desde la disputa de datos hasta la ingeniería de características, la selección de algoritmos y la implementación.
Nodo de ingeniería automática de funciones para limpiar, transformar y seleccionar automáticamente funciones para modelos.
Nodo de modelado automático para seleccionar automáticamente el mejor modelo utilizando un conjunto de rutinas de optimización y ajuste automático a través de múltiples técnicas.
Ajuste de forma interactiva la poda y división de los nodos del árbol de decisión.
Sugerencias de preparación de datos automatizadas de meta aprendizaje.
Generación de canalizaciones automatizada con capacidad de personalización completa.

Generación de lenguaje natural

Vea los resultados en un lenguaje sencillo para facilitar la comprensión de los informes, incluida la interpretación y la evaluación del modelo.

Compatibilidad integrada con lenguajes Python y R

Incruste código fuente abierto dentro de un análisis y llame a algoritmos de código abierto dentro de Model Studio.
El nodo Código fuente abierto en Model Studio es independiente de las versiones de Python o R.
Administre modelos de Python en un repositorio común dentro de Model Studio.

Deep Learning con Python (DLPy)

Cree modelos de aprendizaje profundo para datos de imágenes, texto, audio y series temporales con Jupyter Notebook.
Las API de alto nivel están disponibles en GitHub para:
- Redes neuronales profundas para datos tabulares.
- Clasificación y regresión de imágenes.
- Detección de objetos.
- Tareas basadas en RNN: clasificación de texto, generación de texto y etiquetado de secuencias.
- Procesamiento y modelado de series temporales basado en RNN.
Compatibilidad con arquitecturas de red predefinidas, como LeNet, VGG, ResNet, DenseNet, Darknet, Inception, ShuffleNet, MobileNet, YOLO, Tiny YOLO, Faster R-CNN y U-Net.
Importe y exporte modelos de deep learning en formato ONNX.
Use modelos ONNX para puntuar nuevos conjuntos de datos en una variedad de entornos aprovechando Analytic Store (ASTORE)

Procedimientos SAS (PROC) y acciones CAS

Una interfaz de programación (SAS Studio) permite que el equipo de TI o a los programadores acceder a un servidor CAS, cargar y guardar datos directamente desde un servidor CAS, y dar soporte a procesamiento local y remoto en un servidor CAS.
Los programadores de Python, Java, R, Lua y Scala o el personal de TI pueden acceder a los datos y realizar una manipulación básica de datos en un servidor CAS, o ejecutar acciones CAS utilizando PROC CAS.
Soporte de acciones CAS para interpretabilidad, ingeniería de características y modelado.
Integre y agregue el poder de SAS a otras aplicaciones utilizando API REST.

Procesamiento analítico en memoria distribuido altamente escalable

El procesamiento distribuido en memoria de cálculos analíticos complejos en grandes conjuntos de datos proporciona respuestas de baja latencia.
Las tareas analíticas se encadenan como un solo trabajo en memoria sin tener que recargar los datos o escribir resultados intermedios en los discos.
El acceso simultáneo a los mismos datos en la memoria por parte de muchos usuarios mejora la eficiencia.
Los datos y los resultados intermedios se mantienen en la memoria durante el tiempo necesario, lo que reduce la latencia.
La gestión de carga de trabajo integrada garantiza un uso eficiente de los recursos informáticos.
La gestión de conmutación por error integrada garantiza que los trabajos enviados siempre finalicen.
Desbordamiento de disco de E/S automatizado para mejorar la gestión de la memoria.

Desarrollo de modelos con modernos algoritmos de machine learning

Aprendizaje reforzado:
- Las técnicas incluyen la red Q ajustada (FQN) y la red Q profunda (DQN).
- FQN puede entrenar un modelo sobre puntos de datos recopilados previamente sin necesidad de comunicarse con el entorno.
- Utiliza memoria de reproducción y técnicas de red objetivo para descorrelacionar el no-iid puntos de datos y estabilizar el proceso de entrenamiento.
- Capacidad para especificar un entorno personalizado para recompensas y pares de estado-acción.
Bosques de decisión:
- Conjunto automatizado de árboles de decisión para predecir un solo objetivo.
- Distribución automatizada de carreras de entrenamiento independientes.
- Admite el ajuste automático inteligente de los parámetros del modelo.
- Generación automatizada de código SAS para la puntuación de producción.
Aumento de gradiente:
- Búsqueda iterativa automatizada para la partición óptima de los datos en relación con la variable de etiqueta seleccionada.
- Remuestreo automatizado de datos de entrada varias veces con pesos ajustados basados en residuos.
- Generación automatizada de promedio ponderado para modelo supervisado final.
- Admite etiquetas binarias, nominales y de intervalo.
- Capacidad para personalizar el entrenamiento de árboles con una variedad de opciones para el crecimiento de la cantidad de árboles, criterios de división para aplicar, profundidad de los subárboles y recursos informáticos.
- Criterios de parada automatizados basados en la puntuación de datos de validación para evitar el sobreajuste.
- Generación automatizada de código SAS para la puntuación de producción.
- Acceda a lightGBM, un popular paquete de modelado de código abierto.
Redes neuronales:
- Ajuste inteligente automatizado del conjunto de parámetros para identificar el modelo óptimo.
- Admite el modelado de datos de conteo.
- Valores predeterminados inteligentes para la mayoría de los parámetros de la red neuronal.
- Capacidad para personalizar la arquitectura y los pesos de las redes neuronales.
- Las técnicas incluyen redes neuronales directas profundas (DNN), redes neuronales convolucionales (CNN), redes neuronales recurrentes (RNN) y codificadores automáticos.
- Capacidad de usar un número arbitrario de capas ocultas para apoyar el deep learning.
- Compatibilidad con diferentes tipos de capas, como convolución y agrupación.
- Estandarización automática de variables de entrada y destino.
- Selección automática y uso de un subconjunto de datos de validación.
- Validación automática out-of-bag para parada anticipada para evitar el sobreajuste.
- Admite el ajuste automático inteligente de los parámetros del modelo.
- Generación automatizada de código SAS para la puntuación de producción.
Máquinas de vectores de soporte:
- Modela etiquetas de objetivos binarios.
- Admite núcleos lineales y polinómicos para el entrenamiento de modelos.
- Capacidad para incluir funciones de entrada/salida continuas y categóricas.
- Escalado automatizado de entidades de entrada.
- Capacidad para aplicar el método del punto interior y el método del conjunto activo.
- Admite la partición de datos para la validación del modelo.
- Admite la validación cruzada para la selección de penalizaciones.
- Generación automatizada de código SAS para la puntuación de producción.
Máquinas de factorización:
- Admite el desarrollo de sistemas de recomendación basados en matrices dispersas de ID de usuario y calificaciones de elementos.
- Capacidad para aplicar la factorización de tensor de interacción por pares completa.
- Incluye funciones de entrada categóricas y numéricas adicionales para modelos más precisos.
- Potencie los modelos con marcas de tiempo, datos demográficos e información de contexto.
- Admite reinicio en caliente (modelos de actualización con nuevas transacciones sin reentrenamiento completo).
- Generación automatizada de código de puntuación SAS para puntuación de producción.
Redes bayesianas:
- Aprende diferentes estructuras de red bayesianas, incluidas ingenuas, ingenuas aumentadas por árboles (TAN), ingenuas aumentadas por redes bayesianas (BAN), redes bayesianas padre-hijo y manta de Markov.
- Realiza una selección eficiente de variables a través de pruebas de independencia.
- Selecciona el mejor modelo automáticamente a partir de los parámetros especificados.
- Genera código SAS o un almacén analítico para puntuar datos.
- Carga datos de múltiples nodos y realiza cálculos en paralelo.
Modelos de mezcla gaussiana de Dirichlet (GMM):
- Puede ejecutar clustering en paralelo y es altamente multiproceso.
- Realiza un agrupamiento suave, que proporciona no solo la puntuación de clúster predicha, sino también la distribución de probabilidad sobre los clústeres para cada observación.
- Aprende la mejor cantidad de clústeres durante el proceso de agrupamiento, que es compatible con el proceso de Dirichlet.
- Utiliza un método bayesiano variacional paralelo (VB) como método de inferencia del modelo. Este método aproxima la distribución posterior (intratable) y luego actualiza iterativamente los parámetros del modelo hasta que alcanza la convergencia.
Algoritmo de aprendizaje semisupervisado:
- Altamente distribuido y multiproceso.
- Devuelve las etiquetas pronosticadas tanto para la tabla de datos sin etiqueta como para la tabla de datos etiquetada.
Incrustación de vecinos estocásticos distribuidos en T (t-SNE):
- Altamente distribuido y multiproceso.
- Devuelve incrustaciones de baja dimensión que se basan en una implementación paralela del algoritmo t-SNE.
Redes antagónicas generativas (GAN)
- Las técnicas incluyen StyleGAN para datos de imagen y GAN para datos tabulares.
- Genere datos sintéticos para modelos de deep learning.

Preparación de datos analíticos

La canalización de mejores prácticas de ingeniería de funciones incluye las mejores transformaciones.
Rutinas de gestión de datos distribuidas proporcionadas a través de una interfaz visual.
Exploración y resumen de datos a gran escala.
Perfilado de cardinalidad:
- Perfiles de datos a gran escala de fuentes de datos de entrada.
- Recomendación inteligente para medición de variables y rol.
Muestreo:
- Admite muestreo aleatorio y estratificado, sobremuestreo para eventos raros y variables indicadoras para registros muestreados.

Exploración de datos, ingeniería de funciones y reducción de dimensiones

Incrustación de vecinos estocásticos distribuidos en T (t-SNE).
Clasificación de características.
Imputación de alto rendimiento de valores perdidos en características con valores especificados por el usuario, valor medio, pseudomediano y aleatorio de valores no perdidos.
Reducción de la dimensión de la característica.
Análisis de componentes principales (PCA) a gran escala, incluidas ventanas móviles y PCA robusto.
Aprendizaje no supervisado con análisis de conglomerados y agrupamiento de variables mixtas.
Perfiles de segmento para agrupamiento.

Análisis de texto integrado

Admite 33 idiomas nativos listos para usar:
- Inglés
- Arábica
- Chino
- croata
- checo
- danés
- Holandés
- farsi
- finlandés
- Francés
- Alemán
- Griego
- hebreo
- hindi
- húngaro
- indonesio
- italiano
- Japonés
- kazajo
- coreano
- noruego
- Polaco
- portugués
- rumano
- ruso
- eslovaco
- esloveno
- Español
- sueco
- tagalo
- turco
- tailandés
- vietnamita
Las listas de exclusión se incluyen y aplican automáticamente para todos los idiomas.
Análisis automatizado, tokenización, etiquetado de partes del discurso y lematización.
Los conceptos predefinidos extraen entidades comunes como nombres, fechas, valores de moneda, medidas, personas, lugares y más.
Extracción de características automatizada con temas generados por máquinas (descomposición de valores singulares y asignación de Dirichlet latente).
Admite el machine learning y los enfoques basados en reglas dentro de un solo proyecto.
Generación automática de reglas con BoolRule.
Clasifique documentos con mayor precisión con aprendizaje profundo (redes neuronales recurrentes).

Evaluación del modelo

Calcula automáticamente las estadísticas de rendimiento del modelo de aprendizaje supervisado.
Produce estadísticas de salida para objetivos de intervalo y categóricos.
Crea una tabla de elevación para intervalos y objetivos categóricos.
Crea una tabla ROC para el objetivo categórico.
Crea gráficos de clasificación de eventos y clasificación nominal para modelos de aprendizaje supervisado con un objetivo de clase.

Valuación de modelos

Genera automáticamente el código de paso SAS DATA para la puntuación del modelo.
Aplica la lógica de puntuación al entrenamiento, los datos reservados y los datos nuevos.

Motor en memoria SAS Viya

CAS (SAS Cloud Analytic Services) realiza el procesamiento en la memoria y distribuye el procesamiento entre los nodos de un clúster.
Las solicitudes del usuario (expresadas en un lenguaje procedural) se traducen en acciones con los parámetros que se necesitan procesar en un entorno distribuido. El conjunto de resultados y los mensajes se devuelven al procedimiento para que el usuario ejecute acciones adicionales con ellos.
Los datos se gestionan en bloques y se pueden cargar en memoria y bajo demanda.
Si las tablas superan la capacidad de la memoria, el servidor almacena en caché los bloques en el disco. Los datos y resultados intermedios se alojan en la memoria mientras se requieran, entre los diferentes trabajos y fronteras del usuario.
Incluye comunicación de nodo a nodo altamente eficiente. Un algoritmo determina el número óptimo de nodos de un trabajo determinado.
La capa de comunicación admite la tolerancia a fallas y le permite eliminar o agregar nodos de un servidor mientras se está ejecutando. Todos los componentes se pueden replicar para una alta disponibilidad.
Compatibilidad con código SAS heredado e interoperabilidad directa con clientes SAS 9.4M6.
Admite la implementación de múltiples inquilinos, lo que permite que una pila de software compartida admita inquilinos aislados de manera segura.

Machine learning y Deep learning.

Programación interactiva en un entorno de desarrollo basado en web

Automatización inteligente con supervisión humana

Generación de lenguaje natural

Compatibilidad integrada con lenguajes Python y R

Deep Learning con Python (DLPy)

Procedimientos SAS (PROC) y acciones CAS

Procesamiento analítico en memoria distribuido altamente escalable

Desarrollo de modelos con modernos algoritmos de machine learning

Preparación de datos analíticos

Exploración de datos, ingeniería de funciones y reducción de dimensiones

Análisis de texto integrado

Evaluación del modelo

Valuación de modelos

Motor en memoria SAS Viya

Síganos en

¿Qué es...