資料探勘

這是什麼 & 為什麼重要

資料探勘是在大型資料集中尋找異常、模式和相關性的過程,以預測結果。 使用各種技術,您可以使用這些資訊來增加收入、降低成本、改善客戶關係、降低風險等。

資料探勘歷史 & 當前進展

挖掘資料以發現隱藏連線並預測未來趨勢的過程已有很長的歷史。 有時被稱為在數據庫中的知識發現,這個術語 " 資料探勘 " 直到 1990 年代才出現。 但它的基礎包括三個相互交織的科學領域:統計(數據關係的數字研究),人工智慧(軟體和/或機器顯示的類似人類智慧)和機器學習(可以從數據中學習以做出預測的算法)。 由於資料探勘技術不斷發展,以及大數據的無限潛力和經濟實惠的計算能力,因此舊的東西再次變得新。

在過去十年中,處理能力和速度的進步使我們能夠遠離手動、繁瑣且耗時的做法,轉向快速、簡單且自動化的資料分析。 收集的資料集越複雜,發現相關見解的潛力就越多。 零售商、銀行、製造商、電信供應商和保險公司等,正在利用資料探索各種關係,從價格優化、促銷和人口統計,到經濟、風險、競爭和社交媒體如何影響他們的商業模式、收入、營運和客戶關係。

 

為什麼資料探勘很重要?

那麼為什麼資料探勘很重要? 您已經看到了令人驚訝的數字 —— 產生的數據量每兩年都會增加一倍。 僅非結構化資料就佔了數位世界的 90%。 但是更多資訊並不一定意味著更多的知識。

資料探勘可讓您:

  • 篩選數據中的所有混亂和重複雜噪音。
  • 了解什麼是相關的,然後充分利用該資訊來評估可能的結果。
  • 加快做出明智決策的速度。

進一步了解資料探勘技術的資料探勘技術,這篇論文展示組織如何使用預測分析和資料探勘來揭示資料中的新見解。

當今世界中的資料探勘

資料探勘是分析的基石,可協助您開發可以發現數百萬或數十億筆記錄中的連接的模型。 了解資料探勘如何塑造我們生活的世界。

揭開石油中的資料探勘 & 天然氣運營

探索如何在石油和天然氣營運中使用資料探勘以及預測建模和即時分析。 本文探討實用的方法,工作流程和所使用的技術。

閱讀摘要

大數據的交點 & 資料探勘

資料探勘專家Jared Dean寫了有關資料探勘的書。 他說明如何使用高效能運算和進階分析來最大化您的分析程式。

閱讀摘要

 

資料探勘軟體

SAS 的資料探勘軟體採用經過驗證的頂尖演算法,旨在協助您解決最大的挑戰。

進一步了解 SAS 的資料探勘軟體

誰在使用它?

資料探勘是各種行業和領域的分析工作的核心。

電信、媒體和科技

在競爭激烈的市場過載中,答案通常在您的消費者數據中。 電信、媒體和科技公司可以使用分析模型來理解大量客戶數據,幫助他們預測客戶行為,並提供高度針對性和相關的宣傳活動。

保險

憑藉分析專業知識,保險公司可以解決詐欺、合規、風險管理和客戶消耗等複雜問題。 公司已利用資料探勘技術在跨業務領域更有效地定價產品,並找到新的方法,為其現有客戶群提供具競爭力的產品。

教育

教育工作者透過統一、資料導向的學生進度檢視,可以在學生踏進課堂之前預測學生表現,並制定干預策略,讓他們保持正常。 資料探勘可協助教育工作者存取學生資料、預測成就水平,並確定需要額外關注的學生或學生群組。

製造

將供應計劃與需求預測一致是至關重要的,以及早發現問題、品質保證以及投資品牌權益。 製造商可以預測生產資產的耗損並預測維護,這可以最大限度地提高正常運行時間並保持生產線按時間。

銀行業務

自動化算法可幫助銀行了解其客戶群以及金融系統核心的數十億筆交易。 資料探勘可協助金融服務公司更好地了解市場風險、更快偵測詐欺、管理法規遵循義務,並從行銷投資獲得最佳回報。

零售業

大型客戶數據庫存在隱藏的客戶洞察力,可以幫助您改善關係,優化行銷活動和預測銷售。 通過更準確的數據模型,零售公司可以提供更有針對性的宣傳活動,並找到對客戶最大影響的優惠。

 

資料探勘軟體

SAS 資料探勘軟體使用經過驗證的尖端演算法,旨在協助您解決最大的挑戰。

進一步了解 SAS 的資料探勘軟體

運作方式

資料探勘作為綜合學科,代表了不同分析功能中使用的各種方法或技術,可以滿足組織各種需求、提出不同類型的問題,並使用不同程度的人力輸入或規則來做出決定。

 

描述性建模:它發現歷史資料中的共用相似性或分組,以確定成功或失敗背後的原因,例如按產品偏好或情緒對客戶進行分類。 樣品技術包括:

叢集
將類似記錄分組在一起。
異常偵測
識別多維異常值。
關聯規則學習
偵測記錄之間的關係。
主要元件分析
偵測變數之間的關係。
關聯分組
將具有共同興趣或類似目標的人分組(例如,購買 X 的人經常購買 Y,可能是 Z)。

 

預測建模:此模型更深入地分類未來的事件或估計未知的結果 — 例如,使用信用評分來確定個人還款貸款的可能性。 預測建模也有助於找出關於客戶流失、廣告活動回應或信用預設值等事項的見解。 樣品技術包括:

回歸
一個從屬變量和一系列獨立變量之間關係強度的測量。
神經網絡
檢測模式,做出預測和學習的計算機程序。
決策樹
樹形圖,其中每個分支代表一個可能的發生。
支持向量機器
帶有相關學習算法的監督學習模型。


規範建模
:隨著來自網絡、評論欄位、書籍、電子郵件、PDF、音訊和其他文本來源的非結構化數據的增長,文本挖掘作為與資料探勘相關的領域也顯著增長。 您需要能夠成功解析、篩選和轉換非結構化資料,才能將其納入預測模型中,以提高預測準確度。

最後,您不應將資料探勘視為一個獨立的獨立實體,因為預處理(數據準備、數據探索)和後處理(模型驗證、評分、模型性能監控)同樣重要。 規範建模會考慮內部和外部變數和限制,以建議一或多個行動方式 — 例如,確定要發送給每個客戶的最佳行銷報價。 樣品技術包括:

預測分析加上規則
從模式開發 if/then 規則並預測結果。
行銷優化
即時模擬最有利的媒體組合以獲得最高的投資報酬率。