SAS Visual Text Analytics 특장점 목록
데이터 준비 및 시각화
- 분석용 데이터를 수집, 정제, 변환하여 로컬 또는 원격 파일 시스템, 관계형 데이터베이스, 클라우드 스토리지 등을 통해 여러 파일 출력 형식을 간편하게 지원합니다.
- 현지화/국제화, 접근성 등 중요한 요소를 반영한 직관적인 사용자 인터페이스를 제공합니다.
- 네트워크 다이어그램 또는 경로 분석을 사용하여 추출된 엔터티, 팩트 및 관계를 시각화하는 기능을 제공합니다.
- 컨셉 노드에서 데이터를 추출하여 SAS Visual Analytics에서 사용할 수 있는 형식으로 변환하는 기능을 제공합니다.
- 용어 맵을 지원하므로 용어 간의 관계를 시각적으로 식별할 수 있습니다.
- 그래픽 UI는 시각화 프로그래밍 흐름을 제공합니다.
- 모델 설명 기능은 모든 출력에 대해 자연어 생성(NLG) 설명을 제공합니다.
파싱
- 파싱 작업은 지원되는 모든 언어에서 즉시 사용 가능한 기능이며, 기본으로 제공됩니다.
- 텍스트 파싱은 분산 누적을 지원하므로 누적 프로세스의 모든 측면을 그리드 전체에 완전히 분산시켜 데이터의 처리를 가속화할 수 있습니다.
- 토큰화는 문자 시퀀스를 개별 문장, 단어 또는 형태소로 잘라내어 품사 태그 지정을 위한 입력으로 사용할 수 있게 해줍니다.
- 표제어 추출은 단어를 그에 해당하는 원형과 연관시킵니다.
- 철자 오류 분석은 잘못 표기된 단어를 표기가 올바른 단어가 포함된 대상의 세트와 연관시킵니다.
- 품사 태그 지정은 그에 해당하는 정의와 문맥에 따라 단어를 문법적으로 분류합니다.
- 문장 경계 명확화는 문장이 시작되고 끝나는 위치를 결정합니다.
- 종속 관계 파싱은 딥 러닝 알고리즘을 적용하여 여러 문장 단어들 간의 구문론적 관계를 할당합니다.
트렌드 분석
- 자동 주제 검색은 문서들을 공통 주제를 기준으로 그룹화하기 위해 단일값 분해(singular value decomposition), 잠재 디리클레 할당(latent Dirichlet allocation)이라는 두 종류의 비지도 머신 러닝 방법을 사용합니다.
- 연관성 스코어는 각각의 문서가 각 주제에 대해 어느 정도 연관이 있는지 계산하고, 바이너리 플래그는 주어진 임계값을 초과하는 주제 멤버십을 보여줍니다.
- 머신(비지도 머신 러닝)에서 자동으로 생성된 주제를 병합하거나 분할하여 사용자 정의 주제(자동화된 AI 출력을 구체화하기 위한 주제 전문 지식)를 생성합니다.
정보 추출
- 비정형 또는 반정형 데이터 유형에서 정형 정보를 자동으로 추출한 다음 엔터티 인식, 관계 추출, 상호참조 해결과 같은 작업을 사용하여 새로운 정형 데이터를 생성합니다.
- 사전 정의된 컨셉을 사용하여 이름, 조직, 위치, 시간 표현, 날짜, 수량, 백분율 등의 공통 엔터티를 추출합니다.
- 머신 러닝이 적용된 개체명 인식(NER) 모델을 사용하여 텍스트 데이터에 스코어를 부여하고 텍스트에서 정보를 추출하여 의사결정 프로세스를 개선하고 가속화합니다.
- 키워드, 부울 연산자, 정규 표현식, 술어 논리 및 다양한 종류의 언어 연산자를 적용하여 사용자 정의 컨셉을 생성할 수 있습니다.
- 추가적인 컨텍스트 특이도 또는 도달 범위(reach)를 위해 분류 규칙을 참조하여 사전 정의되었거나 사용자가 정의한 컨셉을 사용할 수 있습니다.
- 컨셉에 대한 기존 규칙을 기반으로 관련성 있는 컨셉 규칙 및 팩트 규칙을 자동으로 생성합니다.
- 사전 정의된 각 사용자 정의 컨셉과 연동된 샌드박스를 통해, 현재 모델의 새로운 규칙과 서브셋을 문서 컬렉션과 대조하여 곧바로 테스트할 수 있습니다.
- 보다 빠르고 정확한 컨텍스트 분석을 위해 여러 언어가 포함된 문서 세트 내에서 언어를 식별하고 그룹화합니다.
하이브리드 모델링 접근법
- BERT 기반 분류는 텍스트에서 단어의 맥락과 의미를 파악하여 기존 방식의 모델보다 정확도를 높이는 데 사용됩니다. 일반적인 분류뿐 아니라 BERT 기반 분류를 통해 성향 분석도 수행할 수 있습니다.
- 자연어 처리(NLP) 기능에는 자동화된 파싱, 토큰화, 품사 태그 지정, 표제어 추출, 철자 오류 감지가 포함됩니다.
- START 및 STOP 리스트를 적용할 수 있습니다.
- 파싱 작업을 활용하는 언어 규칙에 특수 태그, 한정자, 연산자를 적용하여 더 정밀하거나 뛰어난 재현율/추상화 기능을 구현할 수 있습니다.
- 규칙 기반의 언어학적 방법을 사용하여 핵심 컨셉을 추출합니다.
- 자동 파싱 기능을 딥 러닝 알고리즘(순환 신경망)과 함께 사용하여 문서와 성향을 훨씬 정확하게 분류할 수 있습니다.
- 비지도 머신 러닝을 통해 주제 생성 작업을 자동화합니다.
- 지도/확률적 머신 러닝 모델의 종류에는 BoolRule, 조건부 임의 필드, 확률적 의미론이 포함됩니다.
- BoolRule을 사용하면 문서 분류를 위한 자동 규칙 생성이 가능합니다.
- 데이터에 레이블을 지정하고 순서를 지정하기 위해 조건부 임의 필드 및 확률적 의미론이 사용됩니다. 이를 통해 주어진 엔터티의 컨텍스트 규칙을 학습하여 엔터티 및 관계 추출 작업을 자동화할 수 있습니다. 자동 규칙 빌더는 지도 머신 러닝을 통해 주제를 카테고리로 승격시킵니다.
감성 분석
- 텍스트에서 주관적인 정보를 식별한 다음 머신 러닝 또는 규칙 기반 접근법을 사용하여 긍정, 부정 또는 중립으로 라벨링합니다. 이러한 정보는 엔터티와 연결되며, 성향 표시기 디스플레이를 통해 시각적으로 묘사하여 보여줍니다.
- 대상의 성향을 암시하는 용어, 문구, 문자열 등을 식별하여 분석합니다.
- 성향 표시기 디스플레이를 통해 대상의 성향을 문서 또는 주제 수준에서 시각적으로 묘사합니다.
- BERT 개방형 프레임워크를 기반으로 성향에 대한 최신 머신 러닝 접근법을 제공합니다.
코퍼스 분석
- 코퍼스 분석을 위한 작업을 실행하여 카운트 및 요약통계량이 포함된 출력 테이블 세트를 생성합니다.
- 사전 설정된 참조 코퍼스와 대조하여 정보의 복잡도, 어휘 다양성, 정보 밀도, 비교 메트릭에 대한 인사이트를 보고 이해할 수 있습니다.
- SAS Visual Analytics로 생성된 리포트에서 이러한 통계를 추가로 분석하거나(카운트 사용) 시각화합니다.
유연한 배포
- SentiConcepts, Sentiment, Topics, Categories 노드는 외부 데이터셋에 모델을 배포하기 위해 필요한 스코어 코드를 제공합니다.
- 분산형 프로세싱을 위해 기본적으로 스레드 처리된 스코어 코드는 컴퓨팅 자원을 최대한 활용하여 심지어 대용량 데이터 세트에서도 결과 도출까지 걸리는 지연시간을 줄여줍니다.
- Analytic Store(ASTORE)는 특정 모델이나 알고리즘의 스코어링 로직을 나타내는 바이너리 파일입니다. 이 콤팩트한 자산을 이용하여 스코어 코드를 손쉽게 이동시키고 기존 애플리케이션 프레임워크에 통합할 수 있습니다. ASTORE 지원은 Concepts, Sentiment, Categories 노드에 사용이 가능합니다.
33개 언어 기본 지원
- 다국어 코퍼스(문서)로 표현되어 있는 언어를 자동으로 감지합니다.
- 33개 언어에 대해 즉시 사용 가능한 텍스트 분석:
- 아랍어
- 중국어
- 크로아티아어
- 체코어
- 덴마크어
- 네덜란드어
- 영어
- 페르시아어
- 핀란드어
- 프랑스어
- 독일어
- 그리스어
- 히브리어
- 힌두어
- 헝가리어
- 인도네시아어
- 이탈리아어
- 일본어
- 카자흐어
- 한국어
- 노르웨이어
- 폴란드어
- 포르투갈어
- 루마니아어
- 러시아어
- 슬로바키아어
- 슬로베니아어
- 스페인어
- 스웨덴어
- 타갈로그어
- 터키어
- 태국어
- 베트남어
- 애플리케이션이 지원하는 각 언어별 기본 설정 STOP 리스트가 제공됩니다.
- 토큰화, 표제어 추출, 철자 오류 분석, 품사 태그 지정, 종속성 파싱 분석, 문장 경계 명확화와 같은 파싱 작업을 지원하는 어휘 목록을 기본으로 제공합니다.
개방형 플랫폼
- 기존 시스템 및 개방형 소스 기술에 완전히 통합됩니다.
- REST API를 사용하여 SAS Analytics의 강력한 기능을 다른 애플리케이션에 추가할 수 있습니다.
- 개방형 API와 마이크로서비스 아키텍처를 통해 네이티브 GUI를 우회하여 자체적인 고유 UI를 사용하거나, 맞춤형 검색 애플리케이션을 구축할 수 있습니다.
- 필요 시, 분류 및 컨셉 추출을 위해 기존 웹 애플리케이션에 임베드가 가능한 Microanalytics Services(MAS) API에 원하는 텍스트 분석 모델을 쉽고 빠르게 게시할 수 있습니다.
- 텍스트 요약, 텍스트 데이터 분할, 텍스트 파싱 및 마이닝, 주제 모델링, 텍스트 규칙 개발 및 스코어링, 텍스트 규칙 탐색, 용어 매핑 및 주제 용어 매핑, 조건부 임의 필드, 검색을 위한 즉시 사용 가능한 분석 프로그래밍 인터페이스를 지원합니다.
- 데이터, 발견, 배포에 이르는 전체 분석 라이프사이클을 지원합니다.
- SAS, Python, R, Java, Scala, Lua를 포함한 다양한 프로그래밍 언어로 코딩할 수 있습니다.