Machine learning y Deep learning.
Programación interactiva en un entorno de desarrollo basado en web
- Interfaz visual para todo el proceso del ciclo de vida analítico.
- La interfaz interactiva de arrastrar y soltar no requiere codificación, aunque la codificación es una opción.
- Admite la creación de código automatizada en cada nodo de la canalización.
- Elija plantillas de mejores prácticas (básicas, intermedias o avanzadas) para comenzar rápidamente con las tareas de machine learning o aproveche nuestro proceso de modelado automatizado.
- Reportes de interpretación como PD, LIME, ICE y Kernel SHAP.
- Comparta insights de modelado a través de un informe en PDF.
- Explore los datos desde Model Studio y acceda directamente a SAS Visual Analytics.
- Edite modelos importados de SAS Visual Analytics en Model Studio.
- Ver datos dentro de cada nodo en Model Studio.
- Ejecute el código de lote SAS® Enterprise Miner™ 14.3 dentro de Model Studio.
- Proporciona un entorno colaborativo para compartir fácilmente datos, fragmentos de código, anotaciones y mejores prácticas entre diferentes personas.
- Cree, administre y comparta contenido y administre permisos de contenido a través de SAS Drive.
- El visor de linajes de SAS muestra visualmente las relaciones entre decisiones, modelos, datos y decisiones.
Automatización inteligente con supervisión humana
- API pública para automatizar muchos de los pasos de modelado complejos y manuales para crear modelos de aprendizaje automático, desde la disputa de datos hasta la ingeniería de características, la selección de algoritmos y la implementación.
- Nodo de ingeniería automática de funciones para limpiar, transformar y seleccionar automáticamente funciones para modelos.
- Nodo de modelado automático para seleccionar automáticamente el mejor modelo utilizando un conjunto de rutinas de optimización y ajuste automático a través de múltiples técnicas.
- Ajuste de forma interactiva la poda y división de los nodos del árbol de decisión.
- Sugerencias de preparación de datos automatizadas de meta aprendizaje.
- Generación de canalizaciones automatizada con capacidad de personalización completa.
Generación de lenguaje natural
- Vea los resultados en un lenguaje sencillo para facilitar la comprensión de los informes, incluida la interpretación y la evaluación del modelo.
Compatibilidad integrada con lenguajes Python y R
- Incruste código fuente abierto dentro de un análisis y llame a algoritmos de código abierto dentro de Model Studio.
- El nodo Código fuente abierto en Model Studio es independiente de las versiones de Python o R.
- Administre modelos de Python en un repositorio común dentro de Model Studio.
Deep Learning con Python (DLPy)
- Cree modelos de aprendizaje profundo para datos de imágenes, texto, audio y series temporales con Jupyter Notebook.
- Las API de alto nivel están disponibles en GitHub para:
- Redes neuronales profundas para datos tabulares.
- Clasificación y regresión de imágenes.
- Detección de objetos.
- Tareas basadas en RNN: clasificación de texto, generación de texto y etiquetado de secuencias.
- Procesamiento y modelado de series temporales basado en RNN.
- Compatibilidad con arquitecturas de red predefinidas, como LeNet, VGG, ResNet, DenseNet, Darknet, Inception, ShuffleNet, MobileNet, YOLO, Tiny YOLO, Faster R-CNN y U-Net.
- Importe y exporte modelos de deep learning en formato ONNX.
- Use modelos ONNX para puntuar nuevos conjuntos de datos en una variedad de entornos aprovechando Analytic Store (ASTORE)
Procedimientos SAS (PROC) y acciones CAS
- Una interfaz de programación (SAS Studio) permite que el equipo de TI o a los programadores acceder a un servidor CAS, cargar y guardar datos directamente desde un servidor CAS, y dar soporte a procesamiento local y remoto en un servidor CAS.
- Los programadores de Python, Java, R, Lua y Scala o el personal de TI pueden acceder a los datos y realizar una manipulación básica de datos en un servidor CAS, o ejecutar acciones CAS utilizando PROC CAS.
- Soporte de acciones CAS para interpretabilidad, ingeniería de características y modelado.
- Integre y agregue el poder de SAS a otras aplicaciones utilizando API REST.
Procesamiento analítico en memoria distribuido altamente escalable
- El procesamiento distribuido en memoria de cálculos analíticos complejos en grandes conjuntos de datos proporciona respuestas de baja latencia.
- Las tareas analíticas se encadenan como un solo trabajo en memoria sin tener que recargar los datos o escribir resultados intermedios en los discos.
- El acceso simultáneo a los mismos datos en la memoria por parte de muchos usuarios mejora la eficiencia.
- Los datos y los resultados intermedios se mantienen en la memoria durante el tiempo necesario, lo que reduce la latencia.
- La gestión de carga de trabajo integrada garantiza un uso eficiente de los recursos informáticos.
- La gestión de conmutación por error integrada garantiza que los trabajos enviados siempre finalicen.
- Desbordamiento de disco de E/S automatizado para mejorar la gestión de la memoria.
Desarrollo de modelos con modernos algoritmos de machine learning
- Aprendizaje reforzado:
- Las técnicas incluyen la red Q ajustada (FQN) y la red Q profunda (DQN).
- FQN puede entrenar un modelo sobre puntos de datos recopilados previamente sin necesidad de comunicarse con el entorno.
- Utiliza memoria de reproducción y técnicas de red objetivo para descorrelacionar el no-iid puntos de datos y estabilizar el proceso de entrenamiento.
- Capacidad para especificar un entorno personalizado para recompensas y pares de estado-acción.
- Bosques de decisión:
- Conjunto automatizado de árboles de decisión para predecir un solo objetivo.
- Distribución automatizada de carreras de entrenamiento independientes.
- Admite el ajuste automático inteligente de los parámetros del modelo.
- Generación automatizada de código SAS para la puntuación de producción.
- Aumento de gradiente:
- Búsqueda iterativa automatizada para la partición óptima de los datos en relación con la variable de etiqueta seleccionada.
- Remuestreo automatizado de datos de entrada varias veces con pesos ajustados basados en residuos.
- Generación automatizada de promedio ponderado para modelo supervisado final.
- Admite etiquetas binarias, nominales y de intervalo.
- Capacidad para personalizar el entrenamiento de árboles con una variedad de opciones para el crecimiento de la cantidad de árboles, criterios de división para aplicar, profundidad de los subárboles y recursos informáticos.
- Criterios de parada automatizados basados en la puntuación de datos de validación para evitar el sobreajuste.
- Generación automatizada de código SAS para la puntuación de producción.
- Acceda a lightGBM, un popular paquete de modelado de código abierto.
- Redes neuronales:
- Ajuste inteligente automatizado del conjunto de parámetros para identificar el modelo óptimo.
- Admite el modelado de datos de conteo.
- Valores predeterminados inteligentes para la mayoría de los parámetros de la red neuronal.
- Capacidad para personalizar la arquitectura y los pesos de las redes neuronales.
- Las técnicas incluyen redes neuronales directas profundas (DNN), redes neuronales convolucionales (CNN), redes neuronales recurrentes (RNN) y codificadores automáticos.
- Capacidad de usar un número arbitrario de capas ocultas para apoyar el deep learning.
- Compatibilidad con diferentes tipos de capas, como convolución y agrupación.
- Estandarización automática de variables de entrada y destino.
- Selección automática y uso de un subconjunto de datos de validación.
- Validación automática out-of-bag para parada anticipada para evitar el sobreajuste.
- Admite el ajuste automático inteligente de los parámetros del modelo.
- Generación automatizada de código SAS para la puntuación de producción.
- Máquinas de vectores de soporte:
- Modela etiquetas de objetivos binarios.
- Admite núcleos lineales y polinómicos para el entrenamiento de modelos.
- Capacidad para incluir funciones de entrada/salida continuas y categóricas.
- Escalado automatizado de entidades de entrada.
- Capacidad para aplicar el método del punto interior y el método del conjunto activo.
- Admite la partición de datos para la validación del modelo.
- Admite la validación cruzada para la selección de penalizaciones.
- Generación automatizada de código SAS para la puntuación de producción.
- Máquinas de factorización:
- Admite el desarrollo de sistemas de recomendación basados en matrices dispersas de ID de usuario y calificaciones de elementos.
- Capacidad para aplicar la factorización de tensor de interacción por pares completa.
- Incluye funciones de entrada categóricas y numéricas adicionales para modelos más precisos.
- Potencie los modelos con marcas de tiempo, datos demográficos e información de contexto.
- Admite reinicio en caliente (modelos de actualización con nuevas transacciones sin reentrenamiento completo).
- Generación automatizada de código de puntuación SAS para puntuación de producción.
- Redes bayesianas:
- Aprende diferentes estructuras de red bayesianas, incluidas ingenuas, ingenuas aumentadas por árboles (TAN), ingenuas aumentadas por redes bayesianas (BAN), redes bayesianas padre-hijo y manta de Markov.
- Realiza una selección eficiente de variables a través de pruebas de independencia.
- Selecciona el mejor modelo automáticamente a partir de los parámetros especificados.
- Genera código SAS o un almacén analítico para puntuar datos.
- Carga datos de múltiples nodos y realiza cálculos en paralelo.
- Modelos de mezcla gaussiana de Dirichlet (GMM):
- Puede ejecutar clustering en paralelo y es altamente multiproceso.
- Realiza un agrupamiento suave, que proporciona no solo la puntuación de clúster predicha, sino también la distribución de probabilidad sobre los clústeres para cada observación.
- Aprende la mejor cantidad de clústeres durante el proceso de agrupamiento, que es compatible con el proceso de Dirichlet.
- Utiliza un método bayesiano variacional paralelo (VB) como método de inferencia del modelo. Este método aproxima la distribución posterior (intratable) y luego actualiza iterativamente los parámetros del modelo hasta que alcanza la convergencia.
- Algoritmo de aprendizaje semisupervisado:
- Altamente distribuido y multiproceso.
- Devuelve las etiquetas pronosticadas tanto para la tabla de datos sin etiqueta como para la tabla de datos etiquetada.
- Incrustación de vecinos estocásticos distribuidos en T (t-SNE):
- Altamente distribuido y multiproceso.
- Devuelve incrustaciones de baja dimensión que se basan en una implementación paralela del algoritmo t-SNE.
- Redes antagónicas generativas (GAN)
- Las técnicas incluyen StyleGAN para datos de imagen y GAN para datos tabulares.
- Genere datos sintéticos para modelos de deep learning.
Preparación de datos analíticos
- La canalización de mejores prácticas de ingeniería de funciones incluye las mejores transformaciones.
- Rutinas de gestión de datos distribuidas proporcionadas a través de una interfaz visual.
- Exploración y resumen de datos a gran escala.
- Perfilado de cardinalidad:
- Perfiles de datos a gran escala de fuentes de datos de entrada.
- Recomendación inteligente para medición de variables y rol.
- Muestreo:
- Admite muestreo aleatorio y estratificado, sobremuestreo para eventos raros y variables indicadoras para registros muestreados.
Exploración de datos, ingeniería de funciones y reducción de dimensiones
- Incrustación de vecinos estocásticos distribuidos en T (t-SNE).
- Clasificación de características.
- Imputación de alto rendimiento de valores perdidos en características con valores especificados por el usuario, valor medio, pseudomediano y aleatorio de valores no perdidos.
- Reducción de la dimensión de la característica.
- Análisis de componentes principales (PCA) a gran escala, incluidas ventanas móviles y PCA robusto.
- Aprendizaje no supervisado con análisis de conglomerados y agrupamiento de variables mixtas.
- Perfiles de segmento para agrupamiento.
Análisis de texto integrado
- Admite 33 idiomas nativos listos para usar:
- Inglés
- Arábica
- Chino
- croata
- checo
- danés
- Holandés
- farsi
- finlandés
- Francés
- Alemán
- Griego
- hebreo
- hindi
- húngaro
- indonesio
- italiano
- Japonés
- kazajo
- coreano
- noruego
- Polaco
- portugués
- rumano
- ruso
- eslovaco
- esloveno
- Español
- sueco
- tagalo
- turco
- tailandés
- vietnamita
- Las listas de exclusión se incluyen y aplican automáticamente para todos los idiomas.
- Análisis automatizado, tokenización, etiquetado de partes del discurso y lematización.
- Los conceptos predefinidos extraen entidades comunes como nombres, fechas, valores de moneda, medidas, personas, lugares y más.
- Extracción de características automatizada con temas generados por máquinas (descomposición de valores singulares y asignación de Dirichlet latente).
- Admite el machine learning y los enfoques basados en reglas dentro de un solo proyecto.
- Generación automática de reglas con BoolRule.
- Clasifique documentos con mayor precisión con aprendizaje profundo (redes neuronales recurrentes).
Evaluación del modelo
- Calcula automáticamente las estadísticas de rendimiento del modelo de aprendizaje supervisado.
- Produce estadísticas de salida para objetivos de intervalo y categóricos.
- Crea una tabla de elevación para intervalos y objetivos categóricos.
- Crea una tabla ROC para el objetivo categórico.
- Crea gráficos de clasificación de eventos y clasificación nominal para modelos de aprendizaje supervisado con un objetivo de clase.
Valuación de modelos
- Genera automáticamente el código de paso SAS DATA para la puntuación del modelo.
- Aplica la lógica de puntuación al entrenamiento, los datos reservados y los datos nuevos.
Motor en memoria SAS Viya
- CAS (SAS Cloud Analytic Services) realiza el procesamiento en la memoria y distribuye el procesamiento entre los nodos de un clúster.
- Las solicitudes del usuario (expresadas en un lenguaje procedural) se traducen en acciones con los parámetros que se necesitan procesar en un entorno distribuido. El conjunto de resultados y los mensajes se devuelven al procedimiento para que el usuario ejecute acciones adicionales con ellos.
- Los datos se gestionan en bloques y se pueden cargar en memoria y bajo demanda.
- Si las tablas superan la capacidad de la memoria, el servidor almacena en caché los bloques en el disco. Los datos y resultados intermedios se alojan en la memoria mientras se requieran, entre los diferentes trabajos y fronteras del usuario.
- Incluye comunicación de nodo a nodo altamente eficiente. Un algoritmo determina el número óptimo de nodos de un trabajo determinado.
- La capa de comunicación admite la tolerancia a fallas y le permite eliminar o agregar nodos de un servidor mientras se está ejecutando. Todos los componentes se pueden replicar para una alta disponibilidad.
- Compatibilidad con código SAS heredado e interoperabilidad directa con clientes SAS 9.4M6.
- Admite la implementación de múltiples inquilinos, lo que permite que una pila de software compartida admita inquilinos aislados de manera segura.