数据挖掘
它是什么,它为什么重要
数据挖掘是在大型数据集中查找异常、模式和相关性以预测结果的过程。通过使用广泛的技术,您可以利用此信息来增加收入、削减成本、改善客户关系、降低风险等等。
数据挖掘的历史和最新进展
在数据进行挖掘以发现隐藏的联系并预测未来趋势的过程由来已久。"数据挖掘"这个术语直到 20 世纪初才被创造出来,它有时也被称为"数据库中的知识发现"。而它的基础包括三个相互交织的科学学科:统计学(对数据关系的数值研究)、人工智能(由软件和/或机器显示的类人智能)和机器学习(可以从数据中学习以进行预测的算法)。随着数据挖掘技术不断发展以跟上大数据的无限潜力和经济实惠的计算能力出现,这一旧有事物又焕发了新颜。
在过去的十年中,处理能力和速度的提高让我们从人工、繁琐和耗时的实践转向了快速、轻松和自动化的数据分析。收集的数据集越复杂,发现相关洞察的潜力就越大。零售商、银行、制造商、电信提供商和保险公司等都在使用数据挖掘来发现各事项之间的关系,从价格优化、促销和人口统计到经济、风险、竞争和社交媒体如何影响其业务模式、收入、运营和客户关系。
为什么数据挖掘很重要?
那么为什么数据挖掘很重要?您已经看到了惊人的数字–生成的数据量每两年翻一番。仅非结构化数据就占到了数字世界的 90%。但是,更多的信息并不一定意味着更多的知识。
数据挖掘让您能够:
- 筛选掉数据中所有混乱和重复的噪音。
- 了解相关内容,然后充分利用这些信息来评估可能的结果。
- 加快做出明智决策的步伐。
阅读《从 A 到 Z 的数据挖掘》(Data Mining From A to Z),了解数据挖掘技术的更多信息,该论文展示了组织如何使用预测分析和数据挖掘来从数据中揭示新的洞察。
当今世界的数据挖掘
数据挖掘是分析的基石,可帮助您开发可揭示数百万或数十亿条记录中的联系的模型。了解数据挖掘如何影响我们所生活的世界。
谁在使用它?
数据挖掘是各个行业和学科分析工作的核心。
通讯技术
在竞争激烈的超负荷市场中,答案通常存在于您的消费者数据中。多媒体和电信公司可以使用分析模型来解析大量的客户数据,帮助其预测客户行为并提供具有高度针对性和相关性的营销活动。
保险
借助分析知识,保险公司可以解决与欺诈、合规、风险管理和客户流失有关的复杂问题。各公司已经使用数据挖掘技术来在各业务线更有效地为产品定价,并找到了向现有客户群提供竞争产品的新方法。
Learn More About Industries Using This Technology
在[数据挖掘和]预测分析正确完成时,这些分析并非达到预测目的的手段;相反,所需的预测会成为获取分析洞察和发现的一种手段。我们在分析我们真正需要分析的东西和预测我们真正想要预测的东西方面做得更好。
摘自 Michael Schrage 在来自哈佛商业评论洞察力中心的报告:《实践中的预测分析》(Predictive Analytics in Practice) 中的叙述
工作方式
数据挖掘作为一门综合学科,代表了用于不同分析能力的各种方法或技术,这些方法或技术可满足组织的各种需求、提出不同类型的问题并使用不同水平的人工输入或规则来做出决策。
描述性建模:发现历史数据中共享的相似性或分组,以确定成功或失败的原因,例如根据产品偏好或情感对客户进行分类。示例技术包括:
聚类 | 将类似的记录分为一组。 |
异常检测
| 识别多维离群值。
|
关联规则学习
| 检测记录之间的关系。
|
主成分分析
| 检测变量之间的关系。 |
相关性分组 | 对具有共同兴趣或相似目标的人进行分组(例如,购买 X 的人经常购买 Y,甚至可能购买 Z)。 |
预测建模:此建模会更深入地对未来事件进行分类或估计未知结果–例如,使用信用评分来确定个人偿还贷款的可能性。预测建模还有助于发现关于诸如客户流失、营销活动响应或信用违约等事项的洞察。示例技术包括:
回归 | 衡量一个因变量和一系列自变量之间关系强度的度量。 |
神经网络 | 用于检测模式、进行预测和学习的计算机程序。 |
决策树 | 树形图,其中每个分支代表一个可能出现的情况。 |
支持向量机 | 有监督学习模型以及相关的学习算法。 |
规范性建模:随着来自网络、评论字段、书籍、电子邮件、PDF 文件、音频和其他文本源的非结构化数据的增长,作为数据挖掘相关学科的文本挖掘也越来越多地为人所采用。您需要能够成功解析、过滤和转换非结构化数据,以便将其包含在预测模型中,以提高预测准确性。
最后,不应将数据挖掘视为一个单独、孤立的实体,因为预处理(数据准备、数据探索)和后处理(模型验证、评分、模型性能监测)同等重要。说明性建模着眼于内部和外部变量以及约束条件,以推荐一种或多种行动方案,例如,确定要发送给每位客户的最佳营销方案。示例技术包括:
预测分析和规则 | 根据模式制定 if/then 规则并预测结果。 |
营销优化 | 实时模拟最有利的媒体组合,以实现最高的投资回报。 |
阅读有关此主题的更多信息
- Nerd in the herd: protecting elephants with data scienceA passionate SAS data scientist uses machine learning to detect tuberculosis in elephants. Find out how her research can help prevent the spread of the disease.
- Machine learning for beginners and beyondWhether you’re an experienced data scientist or a machine learning beginner, you’ll appreciate these 10 tips for getting started with machine learning.
- When it matters: Safeguarding your organization from the insideWith evolving threats, fraud detection technologies have to be flexible and nimble, and automated risk detection is a crucial component of decision advantage.
- Applying machine learning to IoT dataLet’s move beyond theoretical discussions about machine learning and the Internet of Things – and talk about practical business applications instead.