SAS Visual Text Analytics 功能清單
資料準備和視覺化
資料準備和視覺化
- 擷取、清理和轉換資料以進行分析,透過本機或遠端檔案系統、關聯式資料庫和雲端儲存,輕鬆接受多種檔案格式。
- 提供直覺化使用者介面,考量本地化/國際化和可存取性等重要因素。
- 能夠使用網路圖或路徑分析,視覺化呈現擷取的實體、事實和關係。
- 能夠從概念節點擷取資料,轉換為可立即用於 SAS Visual Analytics 的格式。
- 詞彙對應讓您能以視覺化方式識別詞彙之間的關係。
- 圖形化使用者介面提供視覺化程式設計流程。
- 模型判讀性會針對所有輸出,提供自然語言產生 (NLG) 描述。
剖析
剖析
- 以所有支援語言版本立即可用功能的形式,提供剖析動作。
- 文字剖析支援分散式累積,藉由將累積流程的各個層面完全分散在網格上,實現更快的資料處理。
- Token 化會將字元序切割為個別句子、單字或詞素,然後可用做詞性標記的輸入。
- 詞形還原會將單字與其基本詞形相關聯。
- 拼字錯誤分析會將拼錯的單字與一組變數相關聯,其中會包含正確拼字。
- 詞性標記會根據單字的定義和上下文,依文法將單字分類。
- 句子邊界消歧義會判定句子的起頭和結尾。
- 相依性剖析會透過套用深度學習演算法,指定句子中單字之間的語法關係。
趨勢分析
趨勢分析
- 自動主題探索使用兩種非監督式機器學習方法 (奇異值分解和潛在 Dirichlet 分配),根據常見主題將文件分組。
- 相關性評分會計算每個文件歸屬到每個主題的適當程度,而二進位旗標則會顯示超過指定臨界值的主題成員數量。
- 對機器自動產生的主題進行合併或分割 (非監督式機器學習),以建立使用者定義的主題 (主題專業知識,以精簡自動化 AI 輸出)。
資訊擷取
資訊擷取
- 使用實體辨識、關係擷取和指代消解等任務,自動從非結構化或半結構化資料類型中提取出結構化資訊,以建立新的結構化資料。
- 使用預先定義的概念,擷取常見實體,例如名稱、組織、位置、時間/日期/數量/百分比的運算式等。
- 使用支援機器學習的具名實體識別 (NER) 模型,對文字資料進行評分,以從文字中擷取資訊,進而改善和加快決策制定。
- 可讓您使用關鍵字、布林運算子、規則運算式、述詞邏輯和各種語言運算子,建立自訂概念。
- 讓您能引用分類規則中的預先定義或自訂概念,以增加語境特定性或觸及範圍。
- 根據概念的現有規則,自動產生相關概念規則和事實規則。
- 使用與每個預先定義和自訂概念相關聯的沙盒,針對您對文件集合所建立的模型,快速測試新規則和子集。
- 在包含多種語言的一組文件中,識別其中語言並將語言分組,以進行更快、更準確的語境分析。
混合建模方法
混合建模方法
- 使用基於 BERT 的分類,以擷取文字單字的語境和意義,進而改善相較於傳統模型的準確性。除了一般分類,基於 BERT 的分類還可用於進行情緒分析。
- NLP 功能包含自動化剖析、Token 化、詞性標記、詞形還原和拼字錯誤偵測。
- 可讓您套用開始和停用清單。
- 使用語言規則中的特殊標記、限定詞和運算子,充分利用剖析動作以實現更精確或更好的回收/抽象化功能。
- 使用以規則為基礎的語言方法,以擷取關鍵概念。
- 自動剖析功能可與深度學習演算法 (遞迴類神經網路) 搭配使用,以更準確分類文件和情緒。
- 透過非監督式機器學習,自動產生主題。
- 監督/概率機器學習模型包括 BoolRule、條件隨機域和概率語意。
- BoolRule 能自動為文件分類產生規則。
- 條件隨機域和概率語意用於為資料指定標籤和排定序列,並可藉由學習特定實體的語境規則,自動化實體和關係擷取。自動規則產生器會透過監督機器學習,將主題推廣至類別。
情緒分析
情緒分析
- 使用機器學習或以規則為基礎的方法,識別文字中的主觀資訊,並標記為正面、負面或中性。將該資訊與某個實體相關聯,然後透過情緒指示器顯示,賦予視覺化描述。
- 識別並分析暗示情緒的詞彙、詞組和字元字串。
- 透過文件或主題層級的情緒指示器顯示,以視覺化方式描述情緒。
- 根據 BERT 開放式架構,提供針對情緒的現代化機器學習方法。
語料庫分析
語料庫分析
- 執行語料庫分析動作,以建立一組包含計數和摘要統計資料的輸出表格。
- 檢視並瞭解關於資訊複雜性、字彙多樣性、資訊密度以及對比預先定義參考語料庫的比較指標的洞察。
- 在 SAS Visual Analytics. 建立的報表中,進一步分析或視覺化這些統計資料 (使用計數)。
靈活的部署
靈活的部署
- SentiConcepts、情緒、主題和類別節點提供在外部資料集上部署模型所需的評分程式碼
- 評分程式碼為原生執行緒形式,能執行分散式處理,即使是在極大型資料集上,依然可充分利用運算資源,以減少結果延遲。
- 分析儲存區 (ASTORE) 是二進位檔案,代表來自特定模型或演算法的評分邏輯。這種精實的資產有助於輕鬆移動評分程式碼,以及將其程式碼整合至現有的應用程式架構中。ASORE 支援「概念」、「情緒」和「類別」節點。
對 33 種語言提供原生支援
對 33 種語言提供原生支援
- 自動偵測多種語言語料庫 (文件) 中的表示語言。
- 支援 33 種語言的立即可用文字分析:
- 阿拉伯文。
- 中文。
- 克羅埃西亞文。
- 捷克文。
- 丹麥文。
- 荷蘭文。
- 英文。
- 波斯文。
- 芬蘭文。
- 法文。
- 德文。
- 希臘文。
- 希伯來文。
- 印地文。
- 匈牙利文。
- 印尼文。
- 義大利文。
- 日文。
- 哈薩克文。
- 韓文。
- 挪威文。
- 波蘭文。
- 葡萄牙文。
- 羅馬尼亞文。
- 俄文。
- 斯洛伐克文。
- 斯洛維尼亞文。
- 西班牙文。
- 瑞典文。
- 他加祿文。
- 土耳其文。
- 泰文。
- 越南文。
- 應用程式支援每種語言版本預設停用清單。
- 內建語彙支援剖析動作,例如,Token 化、詞形還原、拼字錯誤分析、詞性標記、相依性剖析,以及句子邊界消歧義。
開放式平台
開放式平台
- 與現有系統和開放式程式碼技術順暢整合。
- 藉由使用 REST API,將 SAS Analytics 的強大功能新增至其他應用程式。
- 開放式 API 和微服務架構讓您能略過原生 GUI,使用自己的 UI 或建立自訂搜尋應用程式。
- 快速輕鬆地將選定文字資料分析模型發布至微資料分析服務 (MAS) API,您可以將 API 內嵌至 Web 應用程式,以進行隨選分類和概念擷取。
- 立即可用的分析程式設計介面可用於文字摘要、文字資料區段劃分、文字剖析和採礦、主題建模、文字規則開發和評分、文字規則探索、詞彙對應和主題詞彙對應、條件隨機域和搜尋。
- 支援從資料到探索和部署的整個資料分析生命週期。
- 可使用各種程式設計語言編寫程式碼,包括,SAS、Python、R、Java、Scala 和 Lua。