Lista de características de SAS Visual Text Analytics
Preparación y visualización de datos
- Ingiere, limpia y transforma datos para el análisis, aceptando fácilmente múltiples formatos de archivo a través de sistemas de archivos locales o remotos, bases de datos relacionales y almacenamiento en la nube.
- Proporciona una interfaz de usuario intuitiva que tiene en cuenta factores importantes como la localización/internacionalización y la accesibilidad.
- Brinda la capacidad de visualizar entidades extraídas, hechos y relaciones utilizando diagramas de red o análisis de ruta.
- Brinda la capacidad de extraer datos del nodo de conceptos en un formato listo para SAS Visual Analytics.
- El mapa de términos le permite identificar visualmente las relaciones entre los términos.
- La interfaz gráfica de usuario proporciona un flujo de programación visual.
- La explicación del modelo presenta descripciones de generación de lenguaje natural (NLG) para todos los resultados.
análisis
- Las acciones de análisis se proporcionan como funcionalidad lista para usar en todos los idiomas admitidos.
- El análisis de texto admite la acumulación distribuida, lo que conduce a un procesamiento más rápido de los datos al distribuir completamente todos los aspectos del proceso de acumulación en la cuadrícula.
- El proceso de digitalizar (tokenization) divide las secuencias de caracteres en oraciones, palabras o morfemas individuales que luego se pueden usar como entrada para el etiquetado de partes del discurso.
- La lematización asocia palabras con sus formas base.
- El análisis de errores ortográficos asocia las palabras mal escritas con un conjunto de variantes que incluye la palabra correctamente escrita.
- El etiquetado de parte del discurso clasifica gramaticalmente las palabras según su definición y contexto.
- La desambiguación de límites de oraciones determina dónde comienzan y terminan las oraciones.
- El análisis de dependencia asigna relaciones sintácticas entre las palabras de una oración mediante la aplicación de algoritmos de deep learning.
Análisis de tendencia
- El descubrimiento automático de temas utiliza dos métodos de machine learning no supervisados (descomposición de valores singulares y asignación de Dirichlet latente) para agrupar documentos en función de temas comunes.
- Las puntuaciones de relevancia calculan qué tan bien pertenece cada documento a cada tema, y un indicador binario muestra la pertenencia al tema por encima de un umbral determinado.
- Combine o divida temas generados automáticamente por la máquina (machine learning no supervisado) para crear temas definidos por el usuario (experiencia en la materia para refinar la salida de IA automatizada).
Extracción de información
- Extrae automáticamente información estructurada de un tipo de datos no estructurados o semiestructurados para crear nuevos datos estructurados mediante tareas como el reconocimiento de entidades, la extracción de relaciones y la resolución de correferencias.
- Utiliza conceptos predefinidos para extraer entidades comunes, como nombres, organizaciones, ubicaciones, expresiones de tiempo, fechas, cantidades, porcentajes y más.
- Califica datos de texto utilizando modelos de reconocimiento de entidades con nombre (NER) respaldados por machine learning para extraer información del texto para mejorar y acelerar la toma de decisiones.
- Permite crear conceptos personalizados utilizando palabras clave, operadores booleanos, expresiones regulares, lógica de predicados y una amplia gama de operadores lingüísticos.
- Permite hacer referencia a un concepto predefinido o personalizado en una regla de categorización para una especificidad o alcance contextual adicional.
- Genera automáticamente reglas de conceptos relevantes y reglas de hechos basadas en reglas existentes para un concepto.
- Permite usar la zona de pruebas asociada con cada concepto predefinido y personalizado para probar rápidamente nuevas reglas y subconjuntos de su modelo en una colección de documentos.
- Identifique y agrupe idiomas dentro de un conjunto de documentos que contengan varios idiomas para un análisis contextual más rápido y preciso.
Enfoques de modelado híbrido
- La clasificación basada en BERT se usa para capturar el contexto y el significado de las palabras en un texto para mejorar la precisión en comparación con los modelos tradicionales. Además de la clasificación general, la clasificación basada en BERT se puede utilizar para realizar análisis de opinión (sentiment analysis).
- Las capacidades de NLP incluyen análisis automatizado, tokenización, etiquetado de partes del discurso, lematización y detección de errores ortográficos.
- Permite aplicar listas de inicio y finalización.
- Utiliza etiquetas especiales, calificadores y operadores en reglas lingüísticas que aprovechan las acciones de análisis para permitir una mayor precisión o mejores capacidades de recuperación/abstracción.
- Utiliza métodos lingüísticos basados en reglas para extraer conceptos clave.
- El análisis automático se puede utilizar junto con algoritmos de deep learning (redes neuronales recurrentes) para clasificar documentos y opiniones con mayor precisión.
- Automatiza la generación de temas con machine learning no supervisado.
- Los modelos de machine learning supervisado/probabilístico incluyen BoolRule, campo aleatorio condicional y semántica probabilística.
- BoolRule permite la generación automática de reglas para la categorización de documentos.
- El campo aleatorio condicional y la semántica probabilística se utilizan para etiquetar y secuenciar datos y pueden automatizar la extracción de entidades y relaciones aprendiendo las reglas contextuales de una entidad determinada. Los creadores automáticos de reglas promueven temas a categorías con machine learning supervisado.
Análisis de los sentimientos
- La información subjetiva se identifica en el texto y se etiqueta como positiva, negativa o neutral mediante el machine learning un enfoque basado en reglas. Esa información está asociada con una entidad y se proporciona una representación visual a través de una pantalla indicadora de opinión.
- Identifica y analiza términos, frases y cadenas de caracteres que implican sentimientos.
- Representa visualmente el sentimiento a través de la visualización del indicador de sentimiento a nivel de documento o tema.
- Proporciona un método moderno de machine learning para opiniones basado en el marco abierto BERT.
Análisis de corpus
- Ejecute una acción para realizar un análisis de corpus para crear un conjunto de tablas de salida que contengan recuentos y estadísticas de resumen.
- Vea y comprenda información sobre la complejidad de la información, la diversidad del vocabulario, la densidad de la información y las métricas de comparación con un corpus de referencia predeterminado.
- Analice o visualice más a fondo estas estadísticas (utilizando los recuentos) en reportes creados en SAS Visual Analytics.
Implementación flexible
- Los nodos SentiConcepts, Sentiment, Topics y Categories proporcionan el código de puntuación necesario para implementar modelos en un conjunto de datos externo.
- El código de puntuación se enhebra de forma nativa para el procesamiento distribuido, aprovechando al máximo los recursos informáticos para reducir la latencia de los resultados, incluso en conjuntos de datos muy grandes.
- El almacén analítico (ASTORE) es un archivo binario que representa la lógica de puntuación de un modelo o algoritmo específico. Este activo compacto permite el movimiento fácil del código de puntuación y la integración en los marcos de aplicaciones existentes. El soporte de ASTORE está disponible para los nodos Conceptos, Sentimiento y Categorías.
Soporte nativo para 33 idiomas
- Detecta automáticamente los idiomas representados en corpus (documentos) multilingües.
- Análisis de texto listo para usar para 33 idiomas:
- Arábica
- Chino
- croata
- checo
- danés
- Holandés
- Inglés
- farsi
- finlandés
- Francés
- Alemán
- Griego
- hebreo
- hindi
- húngaro
- indonesio
- italiano
- Japonés
- kazajo
- coreano
- noruego
- Polaco
- portugués
- rumano
- ruso
- eslovaco
- Esloveno.
- Español
- sueco
- tagalo
- turco
- tailandés
- vietnamita
- Lista de paradas predeterminadas para cada idioma que admite la aplicación.
- Léxicos incorporados que admiten acciones de análisis como tokenización, lematización, análisis de errores ortográficos, etiquetado de partes del discurso, análisis de dependencia y desambiguación de límites de oraciones.
plataforma abierta
- Se integra perfectamente con los sistemas existentes y la tecnología de código abierto.
- Agregue el poder de SAS Analytics a otras aplicaciones utilizando API REST.
- Las API abiertas y una arquitectura de microservicios le permiten omitir la GUI nativa y usar su propia UI o crear una aplicación de búsqueda personalizada.
- Publique de forma rápida y sencilla modelos de análisis de texto seleccionados en las API de servicios de microanálisis (MAS), que puede integrar en sus aplicaciones web para la categorización y la extracción de conceptos bajo demanda.
- Interfaces de programación analítica listas para usar para resumen de texto, segmentación de datos de texto, análisis y minería de texto, modelado de temas, desarrollo y puntuación de reglas de texto, descubrimiento de reglas de texto, mapeo de términos y mapeo de términos temáticos, campo aleatorio condicional y búsqueda.
- Soporte para todo el ciclo de vida analítico, desde los datos hasta el descubrimiento y la implementación.
- Codifique en una variedad de lenguajes de programación, incluidos SAS, Python, R, Java, Scala y Lua.