Lista de funciones de estadísticas visuales de SAS
Exploración y descubrimiento de datos visuales (disponible a través de SAS Visual Analytics)
Exploración y descubrimiento de datos visuales (disponible a través de SAS Visual Analytics)
- Interprete al instante relaciones complejas o variables clave que influencien resultados del proceso de generación de modelos en conjuntos de datos grandes.
- Filtre las observaciones y comprenda el nivel de influencia de una variable en el levantamiento general del modelo.
- Detecte valores atípicos y/o puntos de influencia para ayudarlo a determinarlos, capturarlos y eliminarlos del análisis posterior (por ejemplo, modelos).
- Explore datos utilizando gráficos de barras, histogramas, diagramas de caja, mapas de calor, diagramas de burbujas, mapas geográficos y más.
- Derive resultados o segmentaciones predictivos que se puedan utilizar directamente en otras tareas de modelado o visualización. Los resultados se pueden guardar y pasar a aquellos usuarios que no tengan funciones y capacidades de generación de modelos.
- Convierta automáticamente variables de medida con dos niveles en variables de categoría cuando se abre un conjunto de datos por primera vez.
Acceso a técnicas analíticas por medio de una interfaz visual
Acceso a técnicas analíticas por medio de una interfaz visual
- Agrupación en clúster:
- Agrupación en clúster por medios k, modos k o prototipos k.
- Gráficos coordenados paralelos para evaluar la membresía de clústeres de forma interactiva.
- Gráficos de dispersión de entradas con perfiles de clúster superpuestos para conjuntos de datos pequeños y mapas de calor con perfiles de clúster superpuestos para conjuntos de datos grandes.
- Estadísticas de resumen detalladas (medios de cada clúster, número de observaciones en cada clúster, etc.).
- Genere el ID de clúster on-demand como una nueva columna.
- Admite datos de oposición (capacitación y validación) para la evaluación de modelos.
- Árboles de decisión:
- Admite árboles de clasificación y regresión.
- Basado en un algoritmo C4.5 modificado o poda de complejidad de costos.
- Haz crecer y poda un árbol de forma interactiva. Entrenar interactivamente un subárbol.
- Establezca la profundidad del árbol, la rama máxima, el tamaño de la hoja, la agresividad de la poda de árboles y más.
- Utilice visualizaciones de mapas de árbol para navegar de forma interactiva por la estructura de árbol.
- Genere ID de hojas a pedido, valores predichos y residuales como nuevas columnas.
- Admite datos de oposición (capacitación y validación) para la evaluación de modelos.
- Admite la poda con datos reservados.
- Admite autoajuste con opciones para el tamaño de la hoja.
- Habilita la modificación manual de los puntos de división para el árbol interactivo.
- Regresión lineal:
- Estadísticas de influencia.
- Permite la selección de variables hacia adelante, hacia atrás, por paso y enlace.
- Gráfico de iteración para la selección de variables.
- Variables de frecuencia y peso.
- Diagnósticos residuales.
- La tabla de resumen incluye ANOVA global, dimensiones del modelo, estadísticas de ajuste, ANOVA de modelo, prueba Type III y estimados de parámetros.
- Genere valores y residuos anticipados on-demand como nuevas columnas.
- Admite datos de oposición (capacitación y validación) para la evaluación de modelos.
- Regresión logística:
- Modelos para datos binarios con funciones de enlace logit y probit.
- Estadísticas de influencia.
- Permite la selección de variables hacia adelante, hacia atrás, por paso y enlace.
- Gráfico de iteración para la selección de variables.
- Variables de frecuencia y peso.
- Diagnósticos residuales.
- La tabla de resumen incluye dimensiones del modelo, historia de iteraciones, estadísticas de ajuste, estado de convergencia, pruebas Type III, estimados de parámetros y perfil de respuesta.
- Genere etiquetas anticipadas on-demand y probabilidades de eventos anticipadas como nuevas columnas. Ajuste el recorte de la predicción para etiquetar una observación como evento o no evento.
- Admite datos de oposición (capacitación y validación) para la evaluación de modelos.
- Modelos lineales generalizados:
- Las distribuciones permitidas incluyen beta, normal, binaria, exponencial, gama, geométrica, Poisson, Tweedie, Gaussiana inversa y binomial negativa.
- Permite la selección de variables hacia adelante, hacia atrás, por paso y enlace.
- Soporte a variables de compensación.
- Variables de frecuencia y peso.
- Diagnósticos residuales.
- La tabla de resumen incluye resumen de modelo, historia de iteraciones, estadísticas de ajuste, tabla de pruebas Type III y estimados de parámetros.
- Opción de faltantes informativa para el tratamiento de valores faltantes en la variable predictora.
- Genere valores y residuos anticipados on-demand como nuevas columnas.
- Admite datos de oposición (capacitación y validación) para la evaluación de modelos.
- Modelos aditivos generalizados:
- Las distribuciones permitidas incluyen normal, binaria, gama, Poisson, Tweedie, Gaussiana inversa y binomial negativa.
- Permite efectos de ranura en una y dos dimensiones.
- Métodos GCV, GACV y UBRE para seleccionar los efectos de suavizado.
- Soporte a variables de compensación.
- Variables de frecuencia y peso.
- Diagnósticos residuales.
- La tabla de resumen incluye resumen de modelo, historia de iteraciones, estadísticas de ajuste y estimados de parámetros.
- Admite datos de oposición (capacitación y validación) para la evaluación de modelos.
- Regresión logística no paramétrica:
- Modelos de datos binarios con funciones de enlace logit, probit, log-log y c-log-log.
- Permite efectos de ranura en una y dos dimensiones.
- Métodos GCV, GACV y UBRE para seleccionar los efectos de suavizado.
- Soporte a variables de compensación.
- Variables de frecuencia y peso.
- Diagnósticos residuales.
- La tabla de resumen incluye resumen de modelo, historia de iteraciones, estadísticas de ajuste y estimados de parámetros.
- Admite datos de oposición (capacitación y validación) para la evaluación de modelos.
Acceso por programación a técnicas analíticas
Acceso a la programación de técnicas analíticas
- Los programadores y científicos de datos pueden acceder a SAS Viya (servidor CAS) desde SAS Studio utilizando procedimientos SAS (PROCs) y otras tareas.
- Los programadores pueden ejecutar acciones CAS utilizando PROC CAS o bien usar diferentes entornos de programación como Python, R, Lua y Java.
- Asimismo, los usuarios pueden acceder a SAS Viya (servidor CAS) desde sus aplicaciones utilizando APIs REST públicas.
- Provee integración nativa con Python Pandas DataFrames. Los programadores que usan Python pueden cargar DataFrames a CAS y buscar resultados de CAS como DataFrames para interactuar con otros paquetes Python, como Pandas, matplotlib, Plotly, Bokeh, etc.
- Incluye software SAS/STAT® y SAS/GRAPH® .
- Análisis de componentes principales (PCA):
- Realiza reducción de dimensión calculando componentes principales.
- Provee la descomposición del valor específico o autovalor, algoritmos NIPALS e ITERGS.
- Produce calificaciones de componentes principales en todas las observaciones.
- Crea diagramas y gráficos de perfil de patrón.
- Árboles de decisión:
- Admite árboles de clasificación y de regresión.
- Admite características categóricas y numéricas.
- Provee criterios para separar nodos con base en medidas de impureza y pruebas estadísticas.
- Provee los métodos de complejidad de costo y error reducido de la poda de árboles.
- Permite la partición de datos en roles de capacitación, validación y prueba.
- Permite el uso de datos de validación para seleccionar el mejor subárbol.
- Permite el uso de datos de prueba para la evaluación del modelo de árbol final.
- Provee diversos métodos de manejo de valores faltantes, incluyendo roles sustitutos.
- Crea diagramas de árbol.
- Proporciona estadísticas para la evaluación del ajuste del modelo, incluyendo estadísticas basadas en modelos (resustitución) .
- Calcula medidas de importancia variable.
- Produce asignaciones de hojas y valores anticipados de observaciones.
- Agrupación en clúster:
- Provee el algoritmo de medios k para la agrupación en clúster de variables continuas (de intervalo).
- Provee el algoritmo de modos k para la agrupación en clúster de variables nominales.
- Provee diversas medidas de distancia por similitud.
- Provee el método de criterio de caja alineada para calcular el número de clústeres.
- Produce membresía de clúster y medidas de distancia entre las observaciones.
- Regresión lineal:
- Admite modelos lineales con variables continuas y de clasificación.
- Permite diversas parametrizaciones para efectos de clasificación.
- Permite cualquier grado de interacción y efectos guardados.
- Admite efectos polinómicos y de ranura.
- Admite métodos de selección hacia adelante, hacia atrás, por paso, de regresión del menor ángulo y lasso.
- Admite criterios de información y métodos de validación para controlar la selección del modelo.
- Ofrece una selección de niveles individuales de efectos de clasificación.
- Preserva la jerarquía entre los efectos.
- Permite la partición de datos en roles de capacitación, validación y prueba.
- Provee diversas estadísticas de diagnóstico.
- Genera código SAS para valuación de la producción.
- Regresión logística:
- Admite respuestas binarias y binomiales.
- Permite diversas parametrizaciones para efectos de clasificación.
- Permite cualquier grado de interacción y efectos guardados.
- Admite efectos polinómicos y de ranura.
- Admite métodos de selección hacia adelante, hasta atrás, hacia atrás rápido y lasso.
- Admite criterios de información y métodos de validación para controlar la selección del modelo.
- Ofrece una selección de niveles individuales de efectos de clasificación.
- Preserva la jerarquía entre los efectos.
- Permite la partición de datos en roles de capacitación, validación y prueba.
- Provee diversas estadísticas para la evaluación de modelos.
- Provee diversos métodos de optimización para la estimación de la máxima probabilidad.
- Modelos lineales generalizados:
- Admite respuestas con diversas distribuciones, incluyendo binaria, normal, Poisson y gama.
- Permite diversas parametrizaciones para efectos de clasificación.
- Permite cualquier grado de interacción y efectos guardados.
- Admite efectos polinómicos y de ranura.
- Admite métodos de selección hacia adelante, hasta atrás, hacia atrás rápido, por paso y lasso en grupo.
- Admite criterios de información y métodos de validación para controlar la selección del modelo.
- Ofrece una selección de niveles individuales de efectos de clasificación.
- Preserva la jerarquía entre los efectos.
- Permite la partición de datos en roles de capacitación, validación y prueba.
- Provee diversas estadísticas para la evaluación de modelos.
- Provee diversos métodos de optimización para la estimación de la máxima probabilidad.
- Modelos de regresión no lineal:
- Ajusta modelos de regresión no lineal con distribuciones estándar o generales.
- Calcula derivadas analíticas de expresiones provistas por el usuario para realizar estimaciones de parámetros más precisas.
- Evalúa expresiones provistas por el usuario utilizando las instrucciones ESTIMATE y PREDICT (sólo procedimiento).
- Requiere una tabla de datos que contenga el almacén de elementos CMP si no se utiliza PROC NLMOD.
- Estima parámetros empleando el método de cuadrados mínimos.
- Estima parámetros empleando el método de máxima probabilidad.
- Modelos de regresión porcentuales:
- Admite la regresión de porcentajes para niveles individuales o múltiples de porcentuales.
- Permite múltiples parametrizaciones para efectos de clasificación.
- Permite cualquier grado de interacciones (efectos cruzados) y efectos guardados.
- Permite una estrategia de selección jerárquica de modelos entre efectos.
- Provee múltiples métodos de selección de efectos.
- Provee selección de efectos basada en diversos criterios de selección.
- Admite reglas de paro y selección.
- Modelos de cuadrados mínimos parciales predictivos:
- Provee sintaxis de programación con variables de clasificación, variables continuas, interacciones y anidaciones.
- Provee sintaxis de construcción de efectos polinómicos y de ranura.
- Permite la partición de datos en roles de capacitación y prueba.
- Provee validación del conjunto de pruebas para elegir el número de factores extraídos.
- Implementa los métodos siguientes: regresión de componentes principales, regresión de rango reducido y regresión parcial de cuadrados mínimos.
- Modelos aditivos generalizados:
- Ajusta modelos aditivos generalizados basados en ranuras de regresión de bajo rango.
- Estima los parámetros de regresión utilizando estimación de probabilidad penalizada.
- Estima los parámetros de suavizado empleando el método de iteración de desempeño o el método de iteración exterior.
- Estima los parámetros de regresión empleando técnicas de máxima probabilidad.
- Prueba la contribución total de cada término de ranura basado en la estadística Wald.
- Provee sintaxis de construcción de modelos que puede incluir variables de clasificación, variables continuas, interacciones y anidaciones.
- Le permite construir un término de ranura utilizando múltiples variables.
- Regresión de peligro proporcional:
- Ajuste el modelo de regresión de peligros proporcionales a datos de supervivencia y realice la selección de variables.
- Provee sintaxis de generación de modelos con variables de clasificación, variables continuas, interacciones y anidaciones.
- Provee sintaxis de construcción de efectos polinómicos y de ranura.
- Realiza estimación de probabilidad parcial máxima, análisis estratificado y selección de variables.
- Particiona datos en funciones de capacitación, validación y prueba.
- Provee análisis ponderado y análisis agrupado.
- Control del Proceso Estadístico:
- Realice un análisis de diagrama de control Shewhart.
- Analice múltiples variables de proceso para identificar procesos que están fuera de control estadístico.
- Ajuste límites de control para compensar tamaños de subgrupos desiguales.
- Estime límites de control a partir de los datos, calcule límites de control a partir de valores especificados de parámetros de población (estándares conocidos) o bien lea límites de una tabla de datos de entrada.
- Realice pruebas para causas especiales basadas en patrones de ejecución (reglas de Western Electric).
- Estime la desviación estándar del proceso empleando diversos métodos (sólo diagramas de variables).
- Guarde estadísticas de diagramas y límites de control en tablas de datos de salida.
- Análisis de componentes independientes:
- Extrae componentes independientes (factores) de datos multivariados.
- Maximiza la no gaussianidad de los componentes estimados.
- Apoya el blanqueamiento y la reducción de dimensiones.
- Produce una tabla de datos de salida que contiene componentes independientes y variables blanqueadas.
- Implementa la descorrelación simétrica, que calcula todos los componentes independientes simultáneamente.
- Implementa la descorrelación deflacionaria, que extrae los componentes independientes sucesivamente.
- Modelos mixtos lineales:
- Admite muchas estructuras de covarianza, incluidos componentes de varianza, simetría compuesta, no estructurada, AR(1), Toeplitz, factor analítico, etc.
- Proporciona algoritmos especializados de matriz densa y dispersa.
- Admite métodos de estimación REML y ML, que se implementan con una variedad de algoritmos de optimización.
- Proporciona funciones de inferencia, incluidos errores estándar y pruebas t para efectos fijos y aleatorios.
- Admite datos de medidas repetidas.
- Agrupación basada en modelos:
- Modela las observaciones utilizando una mezcla de distribuciones gaussianas multivariadas.
- Permite un componente de ruido y una selección automática de modelo.
- Proporciona puntuación posterior e interpretación gráfica de los resultados.
Estadísticas descriptivas
Estadísticas descriptivas
- Cuentas diferentes para entender la cardinalidad.
- Diagramas de caja para evaluar centralidad y dispersión, incluyendo valores atípicos de una o más variables.
- Correlaciones para medir el coeficiente de correlación de Pearson para un conjunto de variables. Admite análisis agrupados y ponderados.
- Tabulaciones cruzadas, incluyendo soporte para valores ponderados.
- Tablas de contingencia, incluyendo medidas de asociaciones.
- Histogramas con opciones para controlar valores de sectorización, umbrales de valor máximo, valores atípicos y más.
- Resúmenes multidimensionales en un pase único de los datos.
- Porcentajes de una o más variables.
- Estadísticas de resumen, como número de observaciones, número de valores faltantes, suma de valores no faltantes, media, desviación estándar, errores estándar, sumas de cuadrados corregidas y no corregidas, mínimo y máximo, y el coeficiente de variación.
- Estimados de densidad de kernel utilizando funciones normales, triple cubo y kernel cuadráticas.
- Construye tablas de tabulación cruzada y de frecuencias de una vía a 'n' vías.
Procesamiento por grupo
Procesamiento por grupo
- Construya modelos, calcule y procese resultados al instante para cada grupo o segmento sin tener que clasificar o indizar los datos cada vez.
- Construya modelos basados en segmentos al instante (es decir, modelos estratificados) a partir de un árbol de decisión o análisis de agrupación en clúster.
Comparación, evaluación y valuación de modelos
Comparación, evaluación y valuación de modelos
- Genere resúmenes de comparación de modelos, como diagramas de aumento, diagramas ROC, estadísticas de concordancia y tablas de clasificación errónea de uno o más modelos.
- Deslice de forma interactiva el recorte de la predicción para la actualización automática de estadísticas de evaluación y tablas de clasificación.
- Evalúe el aumento de forma interactiva en diferentes porcentajes.
- Exporte modelos cómo código SAS DATA step para integrar modelos con otras aplicaciones. El código de valuación se enlaza de forma automática si un modelo utiliza resultados obtenidos de otros modelos (ID de hoja, ID de clúster, etc.).
Valuación de modelos
Valuación de modelos
- Exporte modelos cómo código SAS DATA step para integrar modelos con otras aplicaciones.
- El código de valuación se enlaza de forma automática si un modelo utiliza resultados obtenidos de otros modelos (ID de hoja, ID de clúster, etc.).
Motor de tiempo de ejecución en memoria SAS Viya
Motor de tiempo de ejecución en memoria SAS Viya
- SAS Cloud Analytic Services (CAS) realiza procesamiento en memoria y distribuye el procesamiento en todos los nodos de un clúster.
- Las solicitudes del usuario (expresadas en un lenguaje procedural) se traducen en acciones con parámetros necesarios para procesarlos en un entorno distribuido. El conjunto de resultados y los mensajes se devuelven al procedimiento para que el usuario ejecute acciones adicionales con ellos.
- Los datos se gestionan en bloques y se pueden cargar en la memoria bajo demanda. Si las tablas exceden la capacidad de memoria, el servidor aloja los bloques en caché del disco. Los datos y resultados intermedios se alojan en la memoria el tiempo que se requiera, entre diferentes trabajos y fronteras de usuarios.
- Un algoritmo determina el número óptimo de nodos de un trabajo determinado.
- Una capa de comunicación admite la tolerancia a fallas y le permite eliminar o agregar nodos de un servidor mientras se está ejecutando. Todos los componentes de la arquitectura se pueden replicar para una alta disponibilidad.
- Los productos se pueden implementar en modo multiinquilino, lo que permite que una pila de software compartida admita inquilinos aislados de forma segura.