รายการคุณสมบัติของ SAS Visual Text Analytics
การเตรียมข้อมูลและการแสดงภาพ
การเตรียมข้อมูลและการแสดงภาพ
- นำเข้า ทำความสะอาด และแปลงข้อมูลสำหรับการวิเคราะห์ รับไฟล์หลายรูปแบบอย่างง่ายดายผ่านระบบไฟล์ในเครื่องหรือจากระยะไกล ฐานข้อมูลเชิงสัมพันธ์ และที่เก็บข้อมูลบนคลาวด์
- มีอินเทอร์เฟซผู้ใช้งานที่ใช้ง่ายซึ่งคำนึงถึงปัจจัยต่างๆ ที่สำคัญ เช่น การแปลเป็นภาษาท้องถิ่น/เป็นภาษาสากล และการเข้าถึงได้
- มีความสามารถในการแสดงเอนทิตี ข้อเท็จจริง และความสัมพันธ์ที่ถูกแยกออกมาโดยใช้แผนภาพเครือข่ายหรือการวิเคราะห์พาธ
- และมีความสามารถในการดึงข้อมูลจากโหนดแนวคิดเป็นรูปแบบที่พร้อมสำหรับ SAS Visual Analytics
- แผนผังคำช่วยให้คุณสามารถระบุความสัมพันธ์ระหว่างคำได้
- อินเทอร์เฟซผู้ใช้งานแบบกราฟิกมีโฟลว์การเขียนโปรแกรมแบบภาพ
- ความสามารถในการอธิบายโมเดลมีคำอธิบายการสร้างภาษาธรรมชาติ (NLG) สำหรับเอาต์พุตทั้งหมด
การแจกแจงรูปประโยค
การแจกแจงรูปประโยค
- การดำเนินการแจกแจงรูปประโยคเป็นฟังก์ชันที่พร้อมใช้งานทันทีกับทุกภาษาที่รองรับ
- การวิเคราะห์ข้อความแบบแจกแจงรองรับการเก็บรวบรวมข้อมูลแบบกระจายซึ่งทำให้การประมวลผลข้อมูลด้วยการกระจายทุกองค์ประกอบของกระบวนการรวบรวมบนกริด
- การแปลงเป็นโทเค็นจะตัดลำดับอักขระให้กลายเป็นประโยค คำ หรือหน่วยคำที่สามารถใช้เป็นอินพุตสำหรับการแท็กส่วนของคำพูดได้
- การแทรกคำย่อจะเชื่อมโยงคำกับรูปแบบเดิมของคำ
- การวิเคราะห์การสะกดผิดจะเชื่อมโยงคำที่สะกดผิดกับชุดรูปแบบที่มีคำที่สะกดถูกต้อง
- การติดแท็กชนิดของคำจะจำแนกประเภทของคำตามหลักไวยากรณ์โดยอิงตามความหมายและบริบท
- การระบุและแยกข้อความออกเป็นประโยคจะกำหนดตำแหน่งเริ่มต้นและสิ้นสุดของประโยค
- การวิเคราะห์ความสัมพันธ์ของคำในประโยค จะกำหนดความสัมพันธ์ระหว่างคำในประโยคตามหลักวากยสัมพันธ์ผ่านการประยุกต์ใช้อัลกอริธึมการเรียนรู้เชิงลึก
วิเคราะห์แนวโน้ม
วิเคราะห์แนวโน้ม
- การค้นหาหัวข้อโดยอัตโนมัติใช้วิธีการเรียนรู้ด้วยเครื่องแบบไม่มีผู้ดูแลสองวิธี ได้แก่ การแยกส่วนค่าเอกพจน์และการจัดสรร Dirichlet ที่แฝงอยู่ เพื่อจัดกลุ่มเอกสารตามธีม
- คะแนนความเกี่ยวข้องจะคำนวณว่าแต่ละเอกสารเข้ากับแต่ละหัวข้อได้ดีเพียงใด และแฟล็กไบนารีจะแสดงความเป็นสมาชิกของหัวข้อเหนือเกณฑ์ที่กำหนด
- รวมหรือแยกหัวข้อที่เครื่องสร้างขึ้นโดยอัตโนมัติ (การเรียนรู้ของเครื่องที่ไม่มีผู้ดูแล) เพื่อสร้างหัวข้อที่ผู้ใช้กำหนด (ความเชี่ยวชาญเฉพาะเรื่องเพื่อปรับแต่งเอาต์พุต AI อัตโนมัติ)
การสกัดข้อมูล
การสกัดข้อมูล
- ดึงข้อมูลที่มีโครงสร้างออกจากประเภทข้อมูลที่ไม่มีโครงสร้างหรือกึ่งมีโครงสร้างโดยอัตโนมัติ เพื่อสร้างข้อมูลที่มีโครงสร้างใหม่โดยใช้งาน เช่น การจดจำเอนทิตี การดึงข้อมูลความสัมพันธ์ และการแก้ไขแกนกลาง
- ใช้คอนเซปต์ที่กำหนดไว้ล่วงหน้าเพื่อแยกเอนทิตีที่เหมือนกัน เช่น ชื่อ องค์กร สถานที่ แสดงเวลา วันที่ ปริมาณ เปอร์เซ็นต์ และอื่นๆ
- ให้คะแนนข้อมูลประเภทข้อความโดยใช้โมเดล Named Entity Recognition (NER) ที่ได้รับการสนับสนุนโดยการเรียนรู้ของเครื่องเพื่อดึงข้อมูลจากข้อความเพื่อเพิ่มคุณภาพและเร่งความเร็วให้กระบวนการตัดสินใจ
- ให้คุณสร้างคอนเซปต์ที่กำหนดเองโดยใช้คำสำคัญ, ตัวดำเนินการบูลีน, Regular Expression, ตรรกะเพรดิเคต และตัวดำเนินการทางภาษาที่หลากหลาย
- คุณจะสามารถอ้างอิงแนวคิดที่กำหนดไว้ล่วงหน้าหรือกำหนดเองในกฎการจัดหมวดหมู่สำหรับความเฉพาะเจาะจงตามบริบทหรือการเข้าถึงเพิ่มเติมได้
- สร้างกฎแนวคิดที่เกี่ยวข้องและกฎข้อเท็จจริงโดยอัตโนมัติตามกฎที่มีอยู่สำหรับแนวคิด
- ให้คุณใช้ Sandbox ที่เชื่อมโยงกับคอนเซปต์ที่กำหนดไว้ล่วงหน้าและกำหนดเองแต่ละรายการเพื่อทดสอบกฎใหม่และชุดย่อยของโมเดลกับคอลเล็กชันเอกสารได้อย่างรวดเร็ว
- ระบุและจัดกลุ่มภาษาภายในชุดเอกสารที่มีหลายภาษาเพื่อการวิเคราะห์บริบทที่รวดเร็วและแม่นยำยิ่งขึ้น
แนวทางการสร้างโมเดลแบบไฮบริด
แนวทางการสร้างโมเดลแบบไฮบริด
- การจัดประเภทตาม BERT ใช้เพื่อจับบริบทและความหมายของคำในข้อความเพื่อปรับปรุงความแม่นยำเมื่อเทียบกับโมเดลดั้งเดิม นอกจากการจำแนกประเภททั่วไปแล้ว การจำแนกประเภทตาม BERT ยังสามารถนำมาใช้ในการวิเคราะห์ความคิดเห็นได้อีกด้วย
- ความสามารถของ NLP ได้แก่ การแจกแจงรูปประโยค, การแปลงเป็นโทเค็น, การติดแท็กชนิดของคำ, การแทรกคำย่อ และการตรวจจับการสะกดผิด
- คุณสามารถใช้รายการเริ่มและหยุดได้
- ใช้แท็ก ตัวระบุ และตัวดำเนินการพิเศษในกฎทางภาษาที่ใช้ประโยชน์จากการดำเนินการแจกแจงรูปประโยคเพื่อให้มีความแม่นยำมากขึ้นหรือสามารถจำ/สร้างโมเดลให้สอดคล้องกับความจริงได้ดีขึ้น
- ใช้วิธีการทางภาษาตามกฎเพื่อแยกแนวคิดหลัก
- คุณสามารถใช้การแจกแจงรูปประโยคอัตโนมัติร่วมกับอัลกอริธึมการเรียนรู้เชิงลึก (โครงข่ายประสาทเทียมแบบวนกลับ) เพื่อจำแนกเอกสารและความคิดเห็นได้อย่างแม่นยำยิ่งขึ้น
- การสร้างหัวข้อโดยอัตโนมัติด้วยการเรียนรู้ของเครื่องที่ไม่มีผู้ดูแล
- โมเดลการเรียนรู้ของเครื่องแบบมีผู้ดูแล/ตามความน่าจะเป็น ได้แก่ BoolRule, Conditional Random Field และ Probabilistic Semantics
- BoolRule ทำให้คุณสามารถสร้างกฎอัตโนมัติสำหรับการจัดหมวดหมู่เอกสารได้
- ฟิลด์ Conditional Random Fields และ Probabilistic Semantics จะถูกนำมาใช้เพื่อติดป้ายกำกับและจัดลำดับข้อมูล และสามารถทำให้เอนทิตีและการแยกความสัมพันธ์เป็นโดยอัตโนมัติได้โดยการเรียนรู้กฎตามบริบทของเอนทิตีที่กำหนด เครื่องมือสร้างกฎอัตโนมัติจะเลื่อนระดับหัวข้อเป็นหมวดหมู่ด้วยการเรียนรู้ของเครื่องภายใต้การดูแล
การวิเคราะห์ความคิดเห็น
การวิเคราะห์ความคิดเห็น
- ข้อมูลอัตวิสัยจะได้รับการระบุว่าเป็นข้อความและจำแนกว่าเป็นเชิงบวก ลบ หรือเป็นกลางโดยใช้การเรียนรู้ของเครื่องหรือแนวทางตามกฎ ข้อมูลดังกล่าวเชื่อมโยงกับเอนทิตี และการแสดงภาพจะแสดงผ่านการแสดงตัวบ่งชี้ความคิดเห็น
- ระบุและวิเคราะห์คำศัพท์ วลี และสตริงอักขระที่บ่งบอกถึงความคิดเห็น
- บรรยายความคิดเห็นด้วยภาพผ่านตัวแสดงตัวบ่งชี้ความรู้สึกที่ระดับเอกสารหรือหัวข้อ
- ให้วิธีการเรียนรู้ของเครื่องที่ทันสมัยสำหรับความคิดเห็นตามเฟรมเวิร์กเปิดของ BERT
การวิเคราะห์คลังข้อมูลภาษา
การวิเคราะห์คลังข้อมูลภาษา
- รันการดำเนินการเพื่อวิเคราะห์คลังข้อมูลภาษา เพื่อสร้างชุดของตารางผลลัพธ์ที่มีจำนวนและสถิติสรุป
- ดูและทำความเข้าใจข้อมูลเชิงลึกเกี่ยวกับความซับซ้อนของข้อมูล ความหลากหลายของคำศัพท์ ความหนาแน่นของข้อมูล และเกณฑ์การเปรียบเทียบกับคลังข้อมูลภาษาสำหรับอ้างอิงที่กำหนดไว้ล่วงหน้า
- วิเคราะห์เพิ่มเติมหรือแสดงภาพสถิติเหล่านี้ (โดยใช้จำนวน) ในรายงานที่สร้างขึ้นใน SAS Visual Analytics
การใช้งานที่ยืดหยุ่น
การใช้งานที่ยืดหยุ่น
- โหนด SentiConcepts, Sentiment, Topics และ Categories ให้รหัสคะแนนที่จำเป็นในการปรับใช้โมเดลในชุดข้อมูลภายนอก
- รหัสคะแนนเป็นแบบเนทีฟสำหรับการประมวลผลแบบกระจาย โดยใช้ประโยชน์จากทรัพยากรการประมวลผลสูงสุดเพื่อลดเวลาแฝงของผลลัพธ์ แม้ในชุดข้อมูลที่มีขนาดใหญ่มาก
- Analytic Store (ASTORE) เป็นไฟล์ไบนารีที่แสดงตรรกะการให้คะแนนจากโมเดลหรืออัลกอริธึมเฉพาะ เนื้อหาที่มีขนาดกะทัดรัดนี้ช่วยให้สามารถเคลื่อนย้ายรหัสคะแนนได้ง่ายและรวมเข้ากับเฟรมเวิร์กแอปพลิเคชันที่มีอยู่ การสนับสนุน ASTORE พร้อมใช้งานสำหรับโหนดแนวคิด ความรู้สึก และหมวดหมู่
รองรับ 33 ภาษาโดยพื้นฐาน
รองรับ 33 ภาษาโดยพื้นฐาน
- ตรวจหาภาษาที่แสดงจากคลังข้อมูลหลายภาษา (เอกสาร) โดยอัตโนมัติ
- การวิเคราะห์ข้อความแบบพร้อมใช้งานสำหรับ 33 ภาษา:
- ภาษาอาหรับ
- ภาษาจีน
- ภาษาโครเอเชีย
- ภาษาเช็ก
- ภาษาเดนมาร์ก
- ภาษาดัตช์
- ภาษาอังกฤษ
- ภาษาฟาร์ซี
- ภาษาฟินแลนด์
- ภาษาฝรั่งเศส
- ภาษาเยอรมัน
- ภาษากรีก
- ภาษาฮีบรู
- ภาษาฮินดี
- ภาษาฮังการี
- ภาษาอินโดนีเซีย
- ภาษาอิตาเลียน
- ภาษาญี่ปุ่น
- ภาษาคาซัค
- ภาษาเกาหลี
- ภาษานอร์เวย์
- ภาษาโปแลนด์
- ภาษาโปรตุเกส
- ภาษาโรมาเนีย
- ภาษารัสเซีย
- ภาษาสโลวัก
- ภาษาสโลวีเนีย
- ภาษาสเปน
- ภาษาสวีเดน
- ภาษาตากาล็อก
- ภาษาตุรกี
- ภาษาไทย
- ภาษาเวียตนาม
- รายการตัวหยุดที่เป็นค่าเริ่มต้นสำหรับแต่ละภาษาที่แอปพลิเคชันรองรับ
- อภิธานคำศัพท์ในตัวที่รองรับการแจกแจงรูปประโยค เช่น การแปลงเป็นโทเค็น, การแทรกคำย่อ, การตรวจจับการสะกดผิด, การติดแท็กชนิดของคำ, การวิเคราะห์ความสัมพันธ์ของคำในประโยค และการแก้ความกำกวมของประโยค
แพลตฟอร์มเปิด
แพลตฟอร์มเปิด
- ผสานการทำงานกับระบบที่มีอยู่และเทคโนโลยีโอเพ่นซอร์สได้อย่างลงตัว
- ผสานพลังของ SAS Analytics ให้กับแอปพลิเคชันอื่นๆ โดยใช้ REST API
- API แบบเปิดและสถาปัตยกรรมบริการแบบไมโครช่วยให้คุณสามารถข้าม GUI ดั้งเดิมและใช้ UI ของคุณเองหรือสร้างแอปพลิเคชันการค้นหาที่กำหนดเองได้
- เผยแพร่โมเดลการวิเคราะห์ข้อความที่เลือกไปที่ Microanalytics Services (MAS) API ได้อย่างรวดเร็วและง่ายดาย ซึ่งคุณสามารถฝังในโปรแกรมประยุกต์บนเว็บของคุณเพื่องานด้านการจัดหมวดหมู่ตามต้องการและการแยกคอนเซปต์ได้
- อินเทอร์เฟซการเขียนโปรแกรมการวิเคราะห์แบบพร้อมใช้งานสำหรับการสรุปข้อความ การแยกเซกเมนต์ข้อมูลประเภทข้อความ, การแจกแจงรูปประโยคและการทำเหมืองข้อความ, การพัฒนาและให้คะแนนกฎข้อความ, การค้นพบกฎข้อความ, การแมปคำศัพท์และการแมปหัวข้อ, Conditional Random Field และการค้นหา
- รองรับทั้งวงจรชีวิตการวิเคราะห์ ตั้งแต่ข้อมูลไปจนถึงการค้นพบและการปรับใช้
- โค้ดดิ้งในภาษาการเขียนโปรแกรมที่หลากหลาย เช่น SAS, Python, R, Java, Scala และ Lua