資料科學
何謂資料科學? 為何資料科學如此重要?
資料科學是一個跨領域的學科,目標是從資料中提取出有價值的見解。與更專業的資料相關領域 (例如資料探勘或資訊工程) 不同,資料科學的過程,包含從轉換原始資料為可用的資訊,到將這些資訊應用於生產端等等的完整生命週期。
資料科學的演變
當我們追溯資料科學的起源,許多人會回想起1962 年,數學家 John Tukey 曾在其開創性論文《The Future of Data Analysis》中就提過該學科。在這篇論文中,提到了一種涉及從資料中學習的科學,卻「尚未被認可」。
Big Data 時代的來臨 (處理和儲存大量資料能力的大幅度提升) 為我們帶來了前所未有的機會,去揭示資料中隱藏的規律,並利用這些見解來改善重要決策。但為了達成這個目標,我們首先需要收集、處理、分析,並共享這些資料。資料科學的本質就是管理這個資料生命週期。
如今,在商業世界及其他領域中,資料科學無處不在。《哈佛商業評論》甚至將資料科學家稱為 21 世紀最誘人的職缺。如果資料科學家是實踐者,那麼資料科學就是實踐所需的技術。
將最好的AI模型部署到產線中
USG作為全球建築材料製造商,目標是以實惠的價格提供高品質的產品。透過 SAS® Model Manager,Sheetrock 產線以最佳AI模型挑選出最適合的原材料配方,並即時地調整製造流程,成功實現商業目標。
當今世界的資料科學
一睹現代資料科學
誰在使用資料科學?
你很難找到任何一個關鍵業務中,資料科學派不上用場的行業。以下是一些有趣的使用情境。
資料科學產出的成果
透過檢視下列常見的目標和成果,有助於了解資料科學為各企業/組織所帶來的影響。
- 預測 (e.g. 機台設備何時會損壞/停機)。
- 分類 (e.g. 晶片瑕疵的分類)。
- 推薦 (e.g. "你可能也喜歡這個")。
- 異常偵測 (e.g. 信用卡偽冒交易)。
- 識別 (包含影像、文字、音訊、影片等)。
- 有價值的見解 (e.g. 視覺化儀表板、戰情室)。
- 自動化決策流程 (e.g. 信用卡申請自動審核)。
- 評分和排名 (e.g. 信用/信貸評分)。
- 分群 (e.g. 客戶分群用以精準行銷)。
- 最佳化 (e.g. 物流最佳化)。
- 時序預測 (e.g. 預測下一期消費者需求與銷售額)。
如果你希望能更好地掌握、部署和管理AI模型,加強資料科學相關技術,那麼你的理想就是接受更多的 AI 和 ML 的相關培訓。 Ronald van Loon Principal Analyst CEO of Intelligent World
複合式 AI
大多數 AI 專案都結合了不只一種資料科學技術,包括機器學習、統計、進階分析、資料探勘、時序預測、最佳化、自然語言處理、電腦視覺等。根據 Gartner,透過結合不同 AI 技術而獲得更佳的結果,被稱為「複合式 AI」。
透過複合式 AI,我們可以從問題著手,使用適合的資料和工具來解決問題。這個流程將會包含並使用多種資料科學技術。
複合式 AI 在資料科學界越來越熱門。如何正確選擇要使用的 AI 技術並非易事,首先需要深入了解要解決的業務問題,並掌握可用的資料。這種業務和專業知識的結合正是資料科學的精髓所在。
資料科學如何運作
資料科學透過多種不同的工具和技術,從結構化、非結構化資料中獲取有意義的資訊。透過以下常見案例,我們能了解資料科學家如何將原始資料(raw data)轉變成真正有價值的見解。
資料管理是釋放資料潛力的關鍵步驟。真正有效的資料管理方式需要明訂管理策略,包含存取、整合、清理、治理、儲存和準備資料等步驟,讓資料得以進行後續分析。
機器學習能自動建構分析模型。如非監督式的機器學習演算法,不須事前貼標註記即可發現資料中的隱藏資訊與見解,其中使用的技術來自類神經網路、統計學、作業研究和物理學等的方法。
類神經網路是一種受人腦運作方式啟發的機器學習演算法。它是由相互連接的單元 (就像是神經元) 組成的計算系統,將外部輸入的資訊當成神經刺激,以在每個單元之間傳遞資訊。
深度學習是包含多層處理單元的巨大類神經網路,受益於電腦算力、訓練技術的進步,可以學習資料中更為複雜的模式(patterns)。常見的應用領域包括影像、語音識別。
電腦視覺依靠深度學習來識別圖片或影片中的內容。當機器可以處理、分析並理解影像時,電腦就可以即時捕捉圖像或影片代表的涵義,並解讀周圍環境。
自然語言處理讓電腦能分析、理解並產生人類所說的語言 (包括語音) 。NLP 的下一階段是自然語言互動(natural language interaction),讓我們能使用一般日常對話與電腦互動以交辦任務。
資料視覺化透過圖形或圖表將資料顯示出來,以便我們更容易進行分析。對於已經建立資料驅動文化(data driven)的組織來說尤為重要。
流行的資料科學編程語言
正如人類使用各種各樣的語言一樣,資料科學家也是如此。當今有數百種編程語言可用,選擇正確的編程語言取決於您要完成的工作。以下是一些頂級資料科學編程語言。
Python 是一種面向對象、具有動態語義的解釋性進階編程語言。其進階內建資料結構結合了動態類型和動態綁定,對於快速應用程式開發以及連線現有組件的腳本或粘合語言非常有吸引力。
R 是免費的統計計算軟體,由 The R Foundation 提供相關支援。R 語言在統計學家和資料科學家中被廣泛用於開發統計軟體和資料分析。
SQL 是一種用於管理資料的程式設計語言,主要用來管理"關聯式資料庫" (RDBMS) 中保存的資料,在處理結構化資料時特別有用。
SAS 是受到全球資料科學家信賴的一種程式語言。透過 SAS Viya 平台,您能夠將組織中各種技術系統和程式語言的優勢都結合起來,開發並部署更好的分析模型。瞭解 SAS Viya 如何幫助企業使用AI模型以做出更好的業務決策。
資料科學解決方案
SAS Viya 資料科學平台具有強大的資料管理、視覺化、進階分析和模型管理功能,加速組織的資料科學發展。
SAS 視覺化機器學習平台讓你能透過單一、整合、協作的解決方案平台來解決最複雜的分析問題。
SAS 視覺化分析提供一種快速建立互動式報表的方法,以視覺化方式自助探索資料並執行分析。
這些解決方案建立於 SAS Viya 平台,SAS Viya 是市場領先的資料科學平台,可在現代、可擴展的雲端架構上運行。