SAS^® Visual Text Analytics

SAS Visual Text Analytics 특장점 목록

데이터 준비 및 시각화

분석용 데이터를 수집, 정제, 변환하여 로컬 또는 원격 파일 시스템, 관계형 데이터베이스, 클라우드 스토리지 등을 통해 여러 파일 출력 형식을 간편하게 지원합니다.
현지화/국제화, 접근성 등 중요한 요소를 반영한 직관적인 사용자 인터페이스를 제공합니다.
네트워크 다이어그램 또는 경로 분석을 사용하여 추출된 엔터티, 팩트 및 관계를 시각화하는 기능을 제공합니다.
컨셉 노드에서 데이터를 추출하여 SAS Visual Analytics에서 사용할 수 있는 형식으로 변환하는 기능을 제공합니다.
용어 맵을 지원하므로 용어 간의 관계를 시각적으로 식별할 수 있습니다.
그래픽 UI는 시각화 프로그래밍 흐름을 제공합니다.
모델 설명 기능은 모든 출력에 대해 자연어 생성(NLG) 설명을 제공합니다.

파싱

파싱 작업은 지원되는 모든 언어에서 즉시 사용 가능한 기능이며, 기본으로 제공됩니다.
텍스트 파싱은 분산 누적을 지원하므로 누적 프로세스의 모든 측면을 그리드 전체에 완전히 분산시켜 데이터의 처리를 가속화할 수 있습니다.
토큰화는 문자 시퀀스를 개별 문장, 단어 또는 형태소로 잘라내어 품사 태그 지정을 위한 입력으로 사용할 수 있게 해줍니다.
표제어 추출은 단어를 그에 해당하는 원형과 연관시킵니다.
철자 오류 분석은 잘못 표기된 단어를 표기가 올바른 단어가 포함된 대상의 세트와 연관시킵니다.
품사 태그 지정은 그에 해당하는 정의와 문맥에 따라 단어를 문법적으로 분류합니다.
문장 경계 명확화는 문장이 시작되고 끝나는 위치를 결정합니다.
종속 관계 파싱은 딥 러닝 알고리즘을 적용하여 여러 문장 단어들 간의 구문론적 관계를 할당합니다.

트렌드 분석

자동 주제 검색은 문서들을 공통 주제를 기준으로 그룹화하기 위해 단일값 분해(singular value decomposition), 잠재 디리클레 할당(latent Dirichlet allocation)이라는 두 종류의 비지도 머신 러닝 방법을 사용합니다.
연관성 스코어는 각각의 문서가 각 주제에 대해 어느 정도 연관이 있는지 계산하고, 바이너리 플래그는 주어진 임계값을 초과하는 주제 멤버십을 보여줍니다.
머신(비지도 머신 러닝)에서 자동으로 생성된 주제를 병합하거나 분할하여 사용자 정의 주제(자동화된 AI 출력을 구체화하기 위한 주제 전문 지식)를 생성합니다.

정보 추출

비정형 또는 반정형 데이터 유형에서 정형 정보를 자동으로 추출한 다음 엔터티 인식, 관계 추출, 상호참조 해결과 같은 작업을 사용하여 새로운 정형 데이터를 생성합니다.
사전 정의된 컨셉을 사용하여 이름, 조직, 위치, 시간 표현, 날짜, 수량, 백분율 등의 공통 엔터티를 추출합니다.
머신 러닝이 적용된 개체명 인식(NER) 모델을 사용하여 텍스트 데이터에 스코어를 부여하고 텍스트에서 정보를 추출하여 의사결정 프로세스를 개선하고 가속화합니다.
키워드, 부울 연산자, 정규 표현식, 술어 논리 및 다양한 종류의 언어 연산자를 적용하여 사용자 정의 컨셉을 생성할 수 있습니다.
추가적인 컨텍스트 특이도 또는 도달 범위(reach)를 위해 분류 규칙을 참조하여 사전 정의되었거나 사용자가 정의한 컨셉을 사용할 수 있습니다.
컨셉에 대한 기존 규칙을 기반으로 관련성 있는 컨셉 규칙 및 팩트 규칙을 자동으로 생성합니다.
사전 정의된 각 사용자 정의 컨셉과 연동된 샌드박스를 통해, 현재 모델의 새로운 규칙과 서브셋을 문서 컬렉션과 대조하여 곧바로 테스트할 수 있습니다.
보다 빠르고 정확한 컨텍스트 분석을 위해 여러 언어가 포함된 문서 세트 내에서 언어를 식별하고 그룹화합니다.

하이브리드 모델링 접근법

BERT 기반 분류는 텍스트에서 단어의 맥락과 의미를 파악하여 기존 방식의 모델보다 정확도를 높이는 데 사용됩니다. 일반적인 분류뿐 아니라 BERT 기반 분류를 통해 성향 분석도 수행할 수 있습니다.
자연어 처리(NLP) 기능에는 자동화된 파싱, 토큰화, 품사 태그 지정, 표제어 추출, 철자 오류 감지가 포함됩니다.
START 및 STOP 리스트를 적용할 수 있습니다.
파싱 작업을 활용하는 언어 규칙에 특수 태그, 한정자, 연산자를 적용하여 더 정밀하거나 뛰어난 재현율/추상화 기능을 구현할 수 있습니다.
규칙 기반의 언어학적 방법을 사용하여 핵심 컨셉을 추출합니다.
자동 파싱 기능을 딥 러닝 알고리즘(순환 신경망)과 함께 사용하여 문서와 성향을 훨씬 정확하게 분류할 수 있습니다.
비지도 머신 러닝을 통해 주제 생성 작업을 자동화합니다.
지도/확률적 머신 러닝 모델의 종류에는 BoolRule, 조건부 임의 필드, 확률적 의미론이 포함됩니다.
BoolRule을 사용하면 문서 분류를 위한 자동 규칙 생성이 가능합니다.
데이터에 레이블을 지정하고 순서를 지정하기 위해 조건부 임의 필드 및 확률적 의미론이 사용됩니다. 이를 통해 주어진 엔터티의 컨텍스트 규칙을 학습하여 엔터티 및 관계 추출 작업을 자동화할 수 있습니다. 자동 규칙 빌더는 지도 머신 러닝을 통해 주제를 카테고리로 승격시킵니다.

감성 분석

텍스트에서 주관적인 정보를 식별한 다음 머신 러닝 또는 규칙 기반 접근법을 사용하여 긍정, 부정 또는 중립으로 라벨링합니다. 이러한 정보는 엔터티와 연결되며, 성향 표시기 디스플레이를 통해 시각적으로 묘사하여 보여줍니다.
대상의 성향을 암시하는 용어, 문구, 문자열 등을 식별하여 분석합니다.
성향 표시기 디스플레이를 통해 대상의 성향을 문서 또는 주제 수준에서 시각적으로 묘사합니다.
BERT 개방형 프레임워크를 기반으로 성향에 대한 최신 머신 러닝 접근법을 제공합니다.

코퍼스 분석

코퍼스 분석을 위한 작업을 실행하여 카운트 및 요약통계량이 포함된 출력 테이블 세트를 생성합니다.
사전 설정된 참조 코퍼스와 대조하여 정보의 복잡도, 어휘 다양성, 정보 밀도, 비교 메트릭에 대한 인사이트를 보고 이해할 수 있습니다.
SAS Visual Analytics로 생성된 리포트에서 이러한 통계를 추가로 분석하거나(카운트 사용) 시각화합니다.

유연한 배포

SentiConcepts, Sentiment, Topics, Categories 노드는 외부 데이터셋에 모델을 배포하기 위해 필요한 스코어 코드를 제공합니다.
분산형 프로세싱을 위해 기본적으로 스레드 처리된 스코어 코드는 컴퓨팅 자원을 최대한 활용하여 심지어 대용량 데이터 세트에서도 결과 도출까지 걸리는 지연시간을 줄여줍니다.
Analytic Store(ASTORE)는 특정 모델이나 알고리즘의 스코어링 로직을 나타내는 바이너리 파일입니다. 이 콤팩트한 자산을 이용하여 스코어 코드를 손쉽게 이동시키고 기존 애플리케이션 프레임워크에 통합할 수 있습니다. ASTORE 지원은 Concepts, Sentiment, Categories 노드에 사용이 가능합니다.

33개 언어 기본 지원

다국어 코퍼스(문서)로 표현되어 있는 언어를 자동으로 감지합니다.
33개 언어에 대해 즉시 사용 가능한 텍스트 분석:
- 아랍어
- 중국어
- 크로아티아어
- 체코어
- 덴마크어
- 네덜란드어
- 영어
- 페르시아어
- 핀란드어
- 프랑스어
- 독일어
- 그리스어
- 히브리어
- 힌두어
- 헝가리어
- 인도네시아어
- 이탈리아어
- 일본어
- 카자흐어
- 한국어
- 노르웨이어
- 폴란드어
- 포르투갈어
- 루마니아어
- 러시아어
- 슬로바키아어
- 슬로베니아어
- 스페인어
- 스웨덴어
- 타갈로그어
- 터키어
- 태국어
- 베트남어
애플리케이션이 지원하는 각 언어별 기본 설정 STOP 리스트가 제공됩니다.
토큰화, 표제어 추출, 철자 오류 분석, 품사 태그 지정, 종속성 파싱 분석, 문장 경계 명확화와 같은 파싱 작업을 지원하는 어휘 목록을 기본으로 제공합니다.

개방형 플랫폼

기존 시스템 및 개방형 소스 기술에 완전히 통합됩니다.
REST API를 사용하여 SAS Analytics의 강력한 기능을 다른 애플리케이션에 추가할 수 있습니다.
개방형 API와 마이크로서비스 아키텍처를 통해 네이티브 GUI를 우회하여 자체적인 고유 UI를 사용하거나, 맞춤형 검색 애플리케이션을 구축할 수 있습니다.
필요 시, 분류 및 컨셉 추출을 위해 기존 웹 애플리케이션에 임베드가 가능한 Microanalytics Services(MAS) API에 원하는 텍스트 분석 모델을 쉽고 빠르게 게시할 수 있습니다.
텍스트 요약, 텍스트 데이터 분할, 텍스트 파싱 및 마이닝, 주제 모델링, 텍스트 규칙 개발 및 스코어링, 텍스트 규칙 탐색, 용어 매핑 및 주제 용어 매핑, 조건부 임의 필드, 검색을 위한 즉시 사용 가능한 분석 프로그래밍 인터페이스를 지원합니다.
데이터, 발견, 배포에 이르는 전체 분석 라이프사이클을 지원합니다.
SAS, Python, R, Java, Scala, Lua를 포함한 다양한 프로그래밍 언어로 코딩할 수 있습니다.

SAS Visual Text Analytics 특장점 목록

데이터 준비 및 시각화

파싱

트렌드 분석

정보 추출

하이브리드 모델링 접근법

감성 분석

코퍼스 분석

유연한 배포

33개 언어 기본 지원

개방형 플랫폼

Follow Us

What is...