SAS Visual Text Analytics 功能列表

数据准备和可视化

数据准备和可视化

  • 摄取、清理和转换数据以进行分析,通过本地或远程文件系统、关系数据库和云存储轻松接收多种文件格式。
  • 提供直观的用户界面,标明重要因素,例如本地化/国际化和可访问性。
  • 借助网络流程图或路径分析,可提供对所提取的实体、事实和关系进行可视化的功能。
  • 提供将概念节点数据提取为 SAS Visual Analytics 可用格式的功能。
  • 术语图让您可以直观地识别术语之间的关系。
  • 图形用户界面提供可视化编程流程。
  • 模型可解释性包含所有输出的自然语言生成 (NLG) 说明。

解析

解析

  • 提供开箱即用的解析操作功能,适用于所有支持语言。
  • 文本解析支持分布式累积,通过在网格上完全分布累积过程的各个方面,实现更快的数据处理速度。
  • 词语切分将字符序列切分成单独的句子、单词或语素,然后可用于词性标注。
  • 词干提取将单词与其基本形式进行关联。
  • 拼写错误分析将拼写错误的单词与包含正确拼写单词在内的一组变体进行关联。
  • 词性标记根据单词的定义和上下文对其进行语法分类。
  • 句子边界歧义消除确定句子的开始和结束位置。
  • 相关性解析通过应用深度学习算法,分配句子与单词之间的句法关系。

趋势分析

趋势分析

  • 自动主题发现采用两种无监督机器学习方法–奇异值分解和潜在狄利克雷分布,根据共同主题对文档进行分组。
  • 相关性评分计算每个文档与每个主题的关联程度,二进制标记表示主题成员关系高于给定阈值。
  • 合并或拆分机器自动生成的主题(无监督机器学习),以创建用户定义主题(主题专业知识,用于优化自动化 AI 结果)。

信息提取

信息提取

  • 使用诸如实体识别、关系提取和指代消解等任务,从非结构化或半结构化数据类型中自动提取结构化信息,以创建新的结构化数据。
  • 使用预定义概念提取常见实体,例如名称、组织、位置、时间表达、日期、数量、百分比等。
  • 使用基于机器学习的命名实体识别 (NER) 模型对文本数据进行评分,提取文本信息以改进和加快决策。
  • 让您能够使用关键字、布尔运算符、正则表达式、谓词逻辑和大量语言运算符创建自定义概念。
  • 让您能够参考分类规则中预定义或自定义概念,增加上下文特异性或覆盖范围。
  • 根据概念的现有规则自动生成相关的概念规则和事实规则。
  • 让您可以使用与每个预定义和自定义概念相关联的沙箱,针对文档集合快速测试新规则和模型子集。
  • 对包含多种语言的文档集中的语言进行识别和分组,以便更快速、更准确地进行上下文分析。

混合建模方法

混合建模方法

  • 与传统模型相比,基于 BERT 的分类可用于捕获文本中词语的上下文和含义,有助于提高准确性。除了一般分类,基于 BERT 的分类还可用于进行情感分析。
  • NLP 功能包括自动解析、词语切分、词性标记、词干提取和拼写错误检测。
  • 让您可以应用起止列表。
  • 使用利用解析操作的语言规则特殊标记、限定符和操作符,实现更精确或更好的调用/抽象能力。
  • 使用基于规则的语言学方法可以提取关键概念。
  • 自动解析可与深度学习算法(循环神经网络)一起使用,以更准确地对文档和情感进行分类。
  • 通过无监督机器学习自动生成主题。
  • 有监督/概率机器学习模型包括 BoolRule、条件随机场和概率语义。
  • BoolRule 可实现自动规则生成,以进行文档分类。
  • 条件随机场和概率语义用于对数据进行标记和排序,并且可以通过学习给定实体的上下文规则来自动提取实体和关系。自动规则生成器通过监督式机器学习将话题提升到类别。

情感分析

情感分析

  • 使用机器学习或基于规则的方法识别文本中的主观信息,并将其标记为正面、负面或中立。该信息与实体相关联,可视化描述是通过情绪指标显示屏提供的。
  • 对暗示情感的术语、短语和字符串进行识别和分析。
  • 通过文档或主题显示的情感指标直观描述情感。
  • 提供一种基于 BERT 开放框架的现代情感机器学习方法。

语料库分析

语料库分析

  • 运行执行语料库分析的操作,以创建一组包含计数和汇总统计量的输出表。
  • 查看和了解有关信息复杂性、词汇多样性、信息密度以及相对于预定参考语料库的比较指标的实用信息。
  • 进一步分析或显示 SAS Visual Analytics 所创建报告中的统计信息(使用计数)。

灵活部署

灵活部署

  • 概念、情感、主题和分类节点可提供基于外部数据集进行模型部署所需的评分代码。
  • 评分代码是用于分布式处理的原生线程,最大限度利用计算资源,减少结果等待时间,即使数据集非常大的情况下。
  • 分析存储 (ASTORE) 是一个二进制文件,其给出特定模型或算法中的评分逻辑。这种紧凑型资产可以轻松实现评分代码移动和向现有应用程序框架中集成。ASTORE 支持可用于概念、情感和类别节点。

本地支持 33 种语言。

本地支持 33 种语言。

  • 自动检测多语言语料库(文档)中表示的语言。
  • 33 种语言开箱即用文本分析:
    • 阿拉伯语。
    • 汉语。
    • 克罗地亚语。
    • 捷克语。
    • 丹麦语。
    • 荷兰语。
    • 英语。
    • 波斯语。
    • 芬兰语。
    • 法语。
    • 德语。
    • 希腊语。
    • 希伯来语。
    • 印地语。
    • 匈牙利语
    • 印度尼西亚语。
    • 意大利语。
    • 日语。
    • 哈萨克语。
    • 韩语。
    • 挪威语。
    • 波兰语。
    • 葡萄牙语。
    • 罗马尼亚语。
    • 俄语。
    • 斯洛伐克语。
    • 斯洛文尼亚语。
    • 西班牙语。
    • 瑞典语。
    • 他加禄语。
    • 土耳其语。
    • 泰语。
    • 越南语。
  • 每种应用支持语言的默认停止列表。
  • 支持解析操作(例如词语切分、词干提取、拼写错误分析、词性标记、相关性解析和句子边界歧义消除)的内置词库。

开放式平台

开放式平台

  • 无缝集成现有系统和开源技术。
  • 使用 REST API 将 SAS 分析的功能添加到其他应用程序中。
  • 开放式 API 和微服务架构让您能够绕过本地 GUI 并使用自己的 UI 或构建自定义搜索应用程序。
  • 快速、轻松地将选定的文本分析模型发布到 Microanalytics 服务 (MAS) API,您可以将其嵌入到 Web 应用程序中,实现按需分类和概念提取。
  • 开箱即用的分析编程接口支持文本摘要、文本数据分割、文本解析和挖掘、主题建模、文本规则开发和评分,文本规则发现、术语映射和主题术语映射、条件随机场和搜索。
  • 支持从数据到发现和部署的整个分析生命周期。
  • 代码使用多种编程语言编写,包括 SAS、Python、R、Java、Scala 和 Lua。