เทคโนโลยี Computer Vision
นิยามและความสำคัญ
เทคโนโลยี computer vision นั้น เป็นแขนงหนึ่งของวิทยาการปัญญาประดิษฐ์หรือ AI ซึ่งทำการฝึกฝนคอมพิวเตอร์ และระบบให้สามารถเข้าใจและตอบสนองต่อข้อมูลภาพได้อย่าง ชาญฉลาด ด้วยภาพดิจิทัลจากกล้องถ่ายภาพและวิดีโอต่าง ๆ และแบบจำลอง deep learning นั้น อุปกรณ์ต่าง ๆ จะสามารถเรียนรู้ที่จะระบุและทราบถึงวัตถุต่าง ๆ จากนั้นจะสามารถทำการตอบสนองต่อสิ่งที่มัน "มองเห็น" ได้ต่อไป
ประวัติและความเป็นมาของเทคโนโลยี computer vision
การทดลองรุ่นแรกเริ่มที่เกี่ยวข้องกับเทคโนโลยี computer vision นั้น เริ่มต้นขึ้นในทศวรรษ 1950 โดยใช้ประโยชน์จากนวัตกรรม neural networks รุ่นแรกสุด ด้วยความพยายามที่จะค้นหาขอบและมุมของวัตถุต่าง ๆ และจัดหมวดหมู่ให้แก่รูปทรงอย่างง่าย เช่น รูปทรงกลม หรือรูปสี่เหลี่ยม เป็นต้น ต่อมาในช่วงทศวรรษ 1970 นั้น ได้มีการนำเทคโนโลยีนี้มาใช้เพื่อการพาณิชย์เป็นครั้งแรกโดยการตีความตัวอักษรที่ถูกเขียนหรือพิมพ์ ด้วยเทคนิคการประมวลผลที่เรียกว่า optical character recognition ซึ่งนำไปสู่การตีความตัวหนังสือและข้อความที่เกิดจากการเขียนหรือสิ่งตีพิมพ์ให้แก่ผู้พิการทางสายตา
การพัฒนาสู่จุดสูงสุดของอินเทอร์เน็ตในช่วงทศวรรษที่ 1990 นั้นส่งผลให้รูปภาพปริมาณมหาศาลถูกนำขึ้นยังระบบออนไลน์และสามารถถูกนำมาทำการวิเคราะห์ได้อย่างไม่หยุดยั้ง ซึ่งเป็นปัจจัยกระตุ้นชั้นดีสำหรับการเติบโตของโปรแกรมการจดจำใบหน้า ข้อมูลปริมาณนับไม่ถ้วนเหล่านี้เติบโตอยู่ตลอดเวลา และช่วยให้อุปกรณ์ต่าง ๆ สามารถทำการระบุตัวตนและจดจำผู้คนต่าง ๆ ได้จากภาพถ่ายและวิดีโอ
ในทุกวันนี้ มีหลายปัจจัยที่เป็นผลบวกต่อการพัฒนาอย่างก้าวกระโดดในวิทยาการด้าน computer vision ซึ่งได้แก่:
อุปกรณ์พกพาและโทรศัพท์ ซึ่งมีกล้องถ่ายภาพในตัว ได้ทำให้โลกปัจจุบันนี้เต็มไปด้วยภาพถ่ายและวิดีโอต่าง ๆ ปริมาณนับไม่ถ้วน
ระบบประมวลผลที่มีประสิทธิภาพสูงมีต้นทุนที่ต่ำลงมาก และผู้เล่นรายต่าง ๆ สามารถเข้าถึงเทคโนโลยีดังกล่าวได้มากกว่าในอดีต
อุปกรณ์ฮาร์ดแวร์ที่ออกแบบมาสำหรับงานด้าน computer vision และการวิเคราะห์ด้วยระบบคอมพิวเตอร์นั้นยังมีการแพร่หลายและเข้าถึงได้มากกว่าที่เคยมีมาอีกด้วย
อัลกอริทึมที่ทันสมัยเช่น convolutional neural networks สามารถใช้ประโยชน์จากพลังของฮาร์ดแวร์และซอฟท์แวร์ที่ทันสมัยในยุคปัจจุบันได้อย่างเต็มศักยภาพ
ผลของความก้าวหน้าทางเทคโนโลยีเหล่านี้ต่อการพัฒนาด้าน computer vision นั้น เห็นได้อย่างชัดเจน อัตราความแม่นยำของการระบุวัตถุต่าง ๆ และการจัดหมวดหมู่ข้อมูลได้ยกระดับขึ้นจากความแม่นยำร้อยละ 50 มาอยู่ที่ร้อยละ 99 ภายในเวลาไม่ถึงหนึ่งทศวรรษ และระบบในปัจจุบันนี้สามารถตรวจจับและตอบสนองต่อข้อมูลเชิงภาพต่าง ๆ ได้อย่างแม่นยำยิ่งกว่ามนุษย์แล้ว
การทำงานของเทคโนโลยี computer vision นั้นมีหลักการเดียวกันกับตัวต่อจิ๊กซอว์
คอมพิวเตอร์นั้นวิเคราะห์ภาพด้วยหลักการเดียวกันกับที่คุณต่อตัวต่อจิ๊กซอว์นั่นเอง
ลองนึกภาพการต่อตัวต่อภาพหรือจิ๊กซอว์ ซึ่งคุณมีชิ้นส่วนต่าง ๆ กระจัดกระจายอยู่ โดยคุณต้องการนำชิ้นส่วนเหล่านี้มาปะติดปะต่อให้เป็นรูปภาพที่สมบูรณ์ การต่อภาพแบบนี้มีความคล้ายคลึงกันกับการทำโครงข่ายประสาทสำหรับ computer vision (คอมพิวเตอร์วิทัศน์) ซึ่งคือการที่คอมพิวเตอร์จำแนกแยกแยะชิ้นส่วนต่าง ๆ ของภาพ จากนั้นจึงปะติดปะต่อชิ้นส่วนย่อยเข้าด้วยกัน เพื่อให้คอมพิวเตอร์สามารถเข้าใจภาพได้ การทำงานนี้ประกอบด้วยขั้นตอนต่าง ๆ มากมาย เช่น การคัดกรองข้อมูล โดยการทำงานผ่านเครือข่ายแบบ deep network หลายระดับชั้น เพื่อหาความเชื่อมโยงระหว่างชิ้นส่วนย่อยของภาพในรูปแบบเดียวกันกับที่คุณต่อตัวต่อจิ๊กซอว์
ทั้งนี้ คอมพิวเตอร์จะไม่ได้รับภาพผลลัพธ์ที่เป็นเสมือน "เฉลย" เหมือนกับที่เราได้เห็นบนกล่องตัวต่อจิ๊กซอว์ แต่การฝึกฝนให้ระบบสามารถแยกแยะสิ่งต่าง ๆ ได้นั้น จะใช้การป้อนภาพนับร้อย ๆ หรือพัน ๆ ภาพ จนกว่าระบบจะสามารถระบุวัตถุเป้าหมายได้
ตัวอย่างเช่น หากเราต้องการให้คอมพิวเตอร์สามารถระบุได้ว่าภาพใดคือแมว แทนที่เราจะสอนให้ระบบมองหาหนวดแมว หาง และหูของแมว โปรแกรมเมอร์จะป้อนภาพของแมวเป็นล้าน ๆ ภาพให้ระบบทำการศึกษา จนในที่สุดคอมพิวเตอร์จะเรียนรู้ที่จะมองหาคุณลักษณะรูปร่างของสิ่งที่เป็นแมวขึ้นได้ด้วยตนเอง
ความก้าวหน้าของการแยกแยะภาพด้วยคอมพิวเตอร์ในโลกปัจจุบัน
ในทุกวันนี้ ขีดความสามารถในการแยกแยะภาพของคอมพิวเตอร์หรือ computer vision นั้น ไม่ด้อยไปกว่าความสามารถของมนุษย์เลย ไม่ว่าจะเป็นการจดจำใบหน้าของผู้คนไปจนถึงการประมวลผลภาพเคลื่อนไหวเช่นการแข่งขันฟุตบอล
ความสัมพันธ์ระหว่าง deep learning และ computer vision
หากคุณกำลังสนใจว่า เทคโนโลยี deep learning ช่วยในการสอนคอมพิวเตอร์ให้ประมวลผลภาพได้อย่างไร เราได้รวบรวมข้อมูลว่า neural networks แบบต่าง ๆ ทำงานอย่างไรและมีประโยชน์ต่อการใช้งานด้าน computer vision อย่างไรบ้าง
ความสัมพันธ์ของ image analysis และ AI
รับชมข้อมูลพื้นฐานเกี่ยวกับการวิเคราะห์ภาพ และเรียนรู้เกี่ยวกับเทคนิคการวิเคราะห์ต่าง ๆ ที่คุณสามารถนำไปใช้งานกับข้อมูลเชิงรูปภาพได้
ตัวอย่างการทำงานด้านการจดจำใบหน้า
รับชมข้อมูลเกี่ยวกับเทคนิคและขั้นตอนการทำงานด้านการประมวลผลข้อมูลที่จำเป็นต่องานด้านการจดจำใบหน้าและการทำ computer vision โดยตัวอย่างของเราจะแสดงการทำงานของแบบจำลองของ SAS® Viya® ในการตรวจหา จับคู่ จำลองผล และจัดหมวดหมู่ใบหน้าของบุคคลต่าง ๆ
ผู้ใช้งานหลักของเทคโนโลยี computer vision
เทคโนโลยี computer vision นั้น กำลังถูกนำมาใช้งานในหลากหลายภาคอุตสาหกรรมเพื่อยกระดับประสบการณ์ทางบวกของผู้บริโภค ลดต้นทุน และเพิ่มความปลอดภัยและเชื่อมั่น
ภาคอุตสาหกรรมการผลิต
ในภาคการผลิตนั้น ธุรกิจต่าง ๆ นำ computer vision มาใช้เพื่อให้สามารถตรวจพบสินค้าหรือผลิตภัณฑ์ที่บกพร่องได้ในทันทีแบบเรียลไทม์ โดยในขณะที่ผลิตภัณฑ์แต่ละชิ้นถูกผลิตออกมาจากสายการผลิตนั้น คอมพิวเตอร์จะทำหน้าที่ประมวลผลภาพหรือวิดีโอ และตรวจหารูปแบบความผิดปกติหรือบกพร่องของสินค้าแต่ละชิ่้น ซึ่งขีดความสามารถนี้สามารถทำได้แม้แต่กับวัตถุที่มีขนาดเล็กมากก็ตาม
ภาคการแพทย์และบริการด้านสุขภาพ
ในด้านการแพทย์นั้น ระบบจะใช้ประโยชน์จากเทคโนโลยี computer vision ในการพิจารณาภาพผลตรวจต่าง ๆ ไม่ว่าจะเป็น MRI, CAT scan หรือภาพเอ็กซ์เรย์ของคนไข้ เพื่อตรวจหาความผิดปกติใด ๆ ได้อย่างรวดเร็ว โดยมีความชำนาญเทียบเท่ากับแพทย์ นอกจากนี้ ผู้เชี่ยวชาญทางการแพทย์ยังนำเทคโนโลยี neural networks มาใช้กับการวิเคราะห์ภาพสามมิติเช่นภาพอัลตร้าซาวนด์ เพื่อตรวจความผิดปกติหรือการเปลี่ยนแปลงต่าง ๆ เช่นอัตราการเต้นของหัวใจ และอื่น ๆ
ภาคการประกันภัย
ในภาคการประกันภัยนั้น บริษัทประกันภัยต่างๆ ใช้ประโยชน์จากcomputer visionเพื่อประเมินความเสียหายด้านอุบัติเหตุรถยนต์ที่มีความแม่นยำและให้ผลลัพธ์ที่ได้มาตรฐานกว่าที่เคยมีมาในอดีต เทคโนโลยีนี้กำลังช่วยในการลดการเอาประกันโดยมิชอบและการทุจริต และช่วยเพิ่มประสิทธิภาพแก่ระบบการเอาประกันภัยในภาพรวม
ภาคความมั่นคงและความปลอดภัย
ในสภาพการทำงานที่ต้องการความปลอดภัยในระดับสูงเช่นธนาคารหรือแม้แต่คาสิโนนั้น ได้มีการนำเทคโนโลยี computer vision มาใช้เพื่อการระบุตัวตนที่แม่นยำของลูกค้าแต่ละราย โดยเฉพาะอย่างยิ่งเมื่อมีการถอนหรือทำธุรกรรมทางการเงินในปริมาณมาก เนื่องจากแทบเป็นไปไม่ได้ที่พนักงานรักษาความปลอดภัยจะดูและวิเคราะห์วิดีโอนับร้อย ๆ รายการในเวลาพริบตาเดียว ซึ่งอัลกอริทึมจากระบบ computer vision สามารถทำได้อย่างไม่ยากเย็น
เรียนรู้เพิ่มเติมเกี่ยวกับการใช้เทคโนโลยีรายธุรกิจ
- Automotive
- Banking
- Capital Markets
- Casinos
- Communications
- Consumer Goods
- Defense & Security
- Government
- Health Care
- Health Insurance
- High-Tech Manufacturing
- Higher Education
- Hotels
- Insurance
- Life Sciences
- Manufacturing
- Media
- Midsize Business
- Oil & Gas
- P-12 Education
- Retail Analytics
- Sports Analytics
- Travel & Transportation
- Utilities
เทคโนโลยีคอมพิวเตอร์วิทัศน์หรือ computer vision นับได้ว่าเป็นหนึ่งในนวัตกรรมที่ยอดเยี่ยมที่สุดในแวดวงของเทคโนโลยีด้าน deep learning และ AI เลยทีเดียว ความก้าวหน้าที่เกิดขึ้นจาก deep learning ต่อวิทยาการด้าน computer vision นั้น ยิ่งส่งเสริมให้สาขาดังกล่าวมีความเข้มแข็งและโดดเด่นยิ่งขึ้นอีก Wayne Thompson SAS Data Scientist
การนำ computer vision มาใช้เพื่อการอนุรักษ์สัตว์ป่าสงวน
ขอเชิญคุณรับชมว่า แบบจำลองที่ใช้พลังของ computer vision ที่ถูกออกแบบมาเพื่อวิเคราะห์รอยเท้าหรือร่องรอยของสัตว์ทำงานได้อย่างไร และเป็นที่น่าสนใจว่า คอมพิวเตอร์จะสามารถระบุข้อมูลต่าง ๆ ของสัตว์ เช่นเดียวกับที่นักแกะรอยสัตว์ผู้เปี่ยมประสบการณ์สามารถทำได้หรือไม่ เราขอเชิญคุณรับชมว่า คอมพิวเตอร์จะประมวลผลข้อมูลในหลาย ๆ ระดับเข้าด้วยกัน เพื่อประเมินว่าสัตว์เจ้าของร่องรอยนั้นเป็นชนิดใด และแม้แต่เพศใด ในวิดีโอนี้ คุณ Jared Peterson ซึ่งเป็นผู้จัดการอาวุโสของแผนกวิจัยของ SAS Advanced Analytics ของเราจะสาธิตให้คุณดูว่า เทคโนโลยี neural networks อยู่เบื้องหลังความสำเร็จของ computer vision อย่างไรบ้าง
การทำงานของ computer vision
เทคโนโลยีการแยกแยะและจดจำภาพนี้มีขั้นตอนการทำงานพื้นฐานสามขั้นด้วยกัน ดังนี้:
การจับภาพหรือนำเข้าข้อมูลภาพ
ภาพต่างๆ หรือแม้แต่รูปภาพจำนวนมากสามารถที่จะถูกนำเข้าในระบบได้ผ่านวิดีโอ ภาพถ่าย หรือแม้แต่ภาพสามมิติ เพื่อทำการวิเคราะห์ในขั้นต่อไป
การประมวลผลจากภาพ
โดยมากแล้ว แบบจำลอง deep learning จะทำงานในขั้นตอนนี้โดยอัตโนมัติ อย่างไรก็ตาม แบบจำลองที่จะสามารถทำงานได้ดังกล่าว จะต้องได้รับการ "ฝึกฝน" เสียก่อน ด้วยการป้อนข้อมูลภาพจำนวนหลายพันภาพ โดยมีการให้เฉลยหรือ labels หรือมีการระบุวัตถุในภาพก่อนในขั้นตอนของการเรียนรู้
การทำความเข้าใจเพื่อตีความภาพ
ขั้นตอนสุดท้ายของการทำงานคือการตีความ ซึ่งวัตถุที่ปรากฏจะถูกระบุชนิดหรือจัดประเภทในขั้นตอนนี้
ระบบ AI ในปัจจุบันนั้น มีประสิทธิภาพสูง และสามารถดำเนินการต่อยอดจากผลลัพธ์ที่ได้รับ และนำข้อมูลจากการทำความเข้าใจภาพมาใช้ให้เกิดประโยชน์ต่อไปได้ ซึ่งมีรูปแบบของเทคโนโลยี computer vision หรือคอมพิวเตอร์วิทัศน์หลายรูปแบบ และมีการใช้งานในหลายสถานการณ์ตามไปด้วย ดังนี้:
- Image segmentation - คือการแยกส่วนของภาพออกเป็นหลาย ๆ ส่วนหรือชิ้นองค์ประกอบย่อย ๆ เพื่อพิจารณาแยกส่วนกัน
- Object detection - หรือการตรวจหาวัตถุแบบเฉพาะเจาะจงในภาพแต่ละภาพ ซึ่งมีการทำงานในระดับสูงที่สามารถระบุวัตถุหลายชิ้นในภาพเดียวกันได้ เช่น ในภาพของการแข่งขันฟุตบอลนั้น อาจระบุวัตถุต่าง ๆ ได้แก่ สนามฟุตบอล ผู้เล่นฝั่งทีมรุก ผู้เล่นฝั่งทีมรับ ฯลฯ โดยการทำงานของแบบจำลองการวิเคราะห์นี้อาศัยการทำจุดพิกัดตามแกน X และ Y เพื่อสร้างกล่องสำหรับการพิจารณา และระบุวัตถุทุกชิ้นที่อยู่ในในพื้นที่กล่องแต่ละกล่องที่กำหนดขึ้น
- Facial recognition - หรือการจดจำใบหน้า เป็นรูปแบบการระบุวัตถุขั้นสูงที่มิได้ทำแค่การระบุว่ามีใบหน้าของมนุษย์อยู่ในภาพเท่านั้น แต่ยังสามารถแยกแยะบุคคลแต่ละบุคคลออกจากกันและระบุบุคคลที่เจาะจงได้อีกด้วย
- Edge detection - เป็นเทคนิคการระบุหาขอบหรือมุมของวัตถุ หรือภาพทิวทัศน์ เพื่อให้ทราบได้ง่ายขึ้นว่าองค์ประกอบในภาพมีสิ่งใดบ้าง
- Pattern detection - คือการระบุวัตถุจากรูปทรง หรือสี หรือสิ่งบ่งชี้ต่าง ๆ ที่พบในภาพ ที่เป็นรูปแบบเดียวกันซ้ำ ๆ สำหรับวัตถุประเภทนั้น ๆ
- Image classification - ทำงานด้วยการจัดกลุ่มภาพออกเป็นหมวดหมู่ต่าง ๆ
- Feature matching - เป็นรูปแบบหนึ่งของการตรวจหารูปแบบหรือ pattern detection ที่ระบุจุดที่เหมือนหรือคล้ายคลึงกันในภาพต่าง ๆ เพื่อจัดหมวดหมู่แก่วัตถุและภาพเหล่านั้น
การใช้งานอย่างง่ายสำหรับ computer vision นั้น อาจใช้เทคนิคที่กล่าวมาเพียงไม่กี่ประเภทเท่านั้น แต่สำหรับการทำงานที่ซับซ้อนอย่างยิ่ง เช่น ยานพาหนะที่ขับเคลื่อนด้วยตัวเองหรือ self-driving vehicles นั้น จำเป็นต้องอาศัยเทคนิคหลากหลายแบบผสมผสานกัน
ความก้าวหน้าในอนาคต
ขอเชิญชมว่า computer vision นั้น มีบทบาทต่อการพัฒนาด้าน AI ได้อย่างไรบ้าง
ผลิตภัณฑ์เด่นด้าน computer vision
SAS® Visual Data Mining and Machine Learning
ผลิตภัณฑ์นี้ของเรา นอกจากจะออกแบบมาสำหรับการทำงานด้าน deep learning แล้ว ยังรองรับการทำงานที่หลากหลายไม่ว่าจะเป็น clustering, การใช้งานแบบจำลองสมการถดถอยรูปแบบต่าง ๆ, แบบจำลองแบบ random forests, แบบจำลอง gradient boosting models, การใช้งาน support vector machines และ sentiment analysis โดยแสดงผลการทำงานในรูปแบบที่พร้อมตอบสนองต่อคุณ และแสดงผลของโครงการหรือเป้าหมายแต่ละรายการด้วยชุดภาพสีต่าง ๆ ที่จัดเรียงลำดับตามขั้นตอนการทำงาน
Recommended reading
- บทความ Three steps for conquering the last mile of analyticsPutting your analytical models into production can be the most difficult part of the analytics journey. It’s no surprise that this last mile of analytics – bringing models into deployment – is the hardest part of digital transformation initiatives for organizations to master, yet it’s the most crucial.
- บทความ AI in manufacturing: New opportunities for IT and operationsAn AI survey reveals that leaders and early adopters in AI are making important advances and are identifying and expanding on what works as they use AI in more ways and more parts of their organizations.
- Research Nerd in the herd: protecting elephants with data scienceA passionate SAS data scientist uses machine learning to detect tuberculosis in elephants. Find out how her research can help prevent the spread of the disease.
ตั้งแต่ปี 1976 บริษัทต่างๆ ทั่วโลกไว้วางใจใน SAS