机器学习

它是什么,它为什么重要

机器学习是一种将分析模型构建自动化的数据分析方法。它是人工智能的一个分支,其依据是系统可以从数据中学习、识别模式并以最少的人工干预做出决策。

机器学习的演变

如今的机器学习采用了新的计算技术,因此与过去的机器学习有所不同。它源于模式识别和计算机无需编程即可进行学习以执行特定任务的理论;对人工智能感兴趣的研究人员希望了解计算机是否可以从数据中学习。机器学习的迭代方面很重要,因为当模型接触新数据时,它们能够独立进行适应。它们从以前的计算中学习,以得出可靠、可重复的决策和结果。这不是一门新科学,而是一门获得了崭新动力的科学。

尽管许多机器学习算法已经存在了很长时间,但将复杂的数学计算反复多次、越来越快地自动应用于大数据的能力却是最近才发展起来的。以下是一些您可能熟悉的被广泛宣传的机器学习应用示例:

  • 被大肆宣传的自动驾驶 Google 汽车?机器学习的本质。
  • 在线推荐优惠,例如来自 Amazon 和 Netflix 的优惠?日常生活中的机器学习应用。
  • 了解客户在 Twitter 上对您的评价?机器学习与语言规则创建相结合。
  • 欺诈侦测?当今世界上较为明显、重要的用途之一。

 

机器学习与人工智能

人工智能 (AI) 是模仿人类能力的广泛科学,而机器学习是 AI 的特定子集,指训练机器进行学习。观看此视频,以更好地了解 AI 与机器学习之间的关系。通过有用的示例和一些有趣的旁白,您将会了解到这两种技术是如何工作的。

为什么机器学习很重要?

促使人们对机器学习重燃兴趣的因素也让数据挖掘和贝叶斯分析前所未有地受欢迎。这些因素包括诸如不断增长的可用数据数量和种类、更便宜、更强大的计算处理以及可负担的数据存储等。

所有这些都意味着有可能快速、自动生成可以分析更大、更复杂的数据并提供更快、更准确的结果(即使规模非常大)的模型。通过建立精确的模型,组织可以更好地识别获利的机会或避免未知的风险。

 

创建良好的机器学习系统需要什么?

  • 数据准备功能。
  • 基本和高级算法。
  • 自动化和迭代过程。
  • 可扩展性。
  • 集成建模。
机器学习信息图

您知道吗?

  • 在机器学习中,目标称为标签。
  • 在统计中,目标称为因变量。
  • 统计中的变量在机器学习中称为特征。
  • 统计中的转换在机器学习中称为的特征创建。

当今世界的机器学习

通过使用算法来构建揭示连接的模型,组织可以在无需人工干预的情况下做出更好的决策。了解有关影响我们所生活世界的技术的更多信息。

白皮书

商业中的机器学习机遇与挑战

该 O'Reilly 白皮书提供了在您组织中实施机器学习应用的实用指南。

阅读看书

扩展您的技能组合

获得深入的指导并免费使用 SAS 软件,构建您的机器学习技能。课程包括:14 小时的课程时间,90 天的免费云端软件访问,灵活的在线学习形式,无需具备编程技能。 

机器学习课程

机器学习会改变您的组织吗?

这份《哈佛商业评论洞察中心报告》探讨了机器学习将如何改变公司以及我们管理公司的方式。

下载报告

将机器学习应用于 IoT

机器学习可用于实现更高水平的效率,尤其是将其应用于物联网时。本文对该主题进行了探讨。

阅读 IoT 文章

Advanced analytics from SAS


Machine learning isn't a specific technology per se; it involves software such as data mining and advanced analytics to comb through large amounts of data and unearth insights. SAS® solutions are infused with innovative algorithms that easily get the job done.

Learn more about analytics solutions from SAS

谁在使用它?

大多数处理大量数据的行业已经认识到机器学习技术的价值。通过从数据中(通常是实时)收集洞察,组织可以更有效地工作或获得超越竞争对手的优势。

金融服务

金融行业中的银行和其他企业使用机器学习技术的两个主要目的是:识别数据中的重要洞察和预防欺诈。这些洞察可以识别投资机会,或帮助投资者知道应何时进行交易。数据挖掘还可以识别具有高风险个人资料的客户,或使用网络监控来确定欺诈的警告信号。

政府

政府机构(例如公共安全和公共事业)对机器学习有特殊的需求,因为它们有多种可供挖掘以获取洞察的数据源。例如,通过分析传感器数据来确定提高效率和节省资金的方法。机器学习还可以帮助检测欺诈并最大程度地减少身份盗用。

医疗保健

能够使用数据实时评估患者健康的可穿戴设备和传感器的出现,让机器学习成为医疗保健行业中一个快速增长的趋势。该技术还可以帮助医学专家分析数据,以识别可能促成诊断和治疗改进的趋势或危险信号。

零售业

网站根据之前的购买历史来推荐您可能喜欢的商品,这些网站正在使用机器学习来分析您的购买历史。零售商依靠机器学习来捕获数据、对其进行分析并将其用于个性化购物体验、营销活动实施、价格优化、商品供应计划以及客户洞察

石油和天然气

寻找新能源。分析地下的矿物。预测炼油厂传感器故障。简化石油经销,使其更高效、更具成本效益。该行业的机器学习用例数量众多,并且还在不断增加。

交通运输

分析数据以识别模式和趋势是交通运输行业的关键,这取决于让路线更高效并预测潜在问题以提高盈利能力。机器学习的数据分析和建模这两方面是快递公司、公共交通和其他运输组织的重要工具。

有哪些常见的机器学习方法?

最广泛采用的机器学习方法中的两种是有监督学习无监督学习–不过还有其他的机器学习方法。以下是对最常见的类型的概述。

有监督学习算法使用标记的示例进行训练,比如已知所需输出的输入。例如,一台设备可能具有标记为“F”(失败)或“R”(运行)的数据点。学习算法接收一组输入以及相应的正确输出,该算法通过将其实际输出与正确输出进行比较以发现错误来进行学习。然后,它会相应地修改模型。有监督学习通过分类、回归、预测和梯度增加等方法,使用模式来预测其他未标记数据上的标记值。有监督学习通常用于通过历史数据预测未来可能发生事件的应用。例如,它可以预测信用卡交易何时可能是欺诈,或者哪个保险客户可能提出索赔。

无监督学习用于没有历史标签的数据。系统未被告知“正确答案”。该算法必须判断出所显示的内容。其目的是探索数据并在其中找寻一些结构。无监督学习在事务数据上的工作效果很好。例如,它可以识别具有相似特性的客户细分,之后可以在市场营销活动对这些客户采取类似措施。或者,它可以找到将客户群体彼此区分开来的主要特性。常见的技术包括自组织映射、最近邻映射、k 均值聚类和奇异值分解。这些算法还用于细分文本主题、推荐项目并识别数据离群值。

半监督学习用于与有监督学习相同的应用。但是,它同时使用标记和未标记的数据进行训练,通常使用的是少量标记数据和大量未标记数据(因为未标记数据的价格较低,并且更容易获得)。这种类型的学习可以与分类、回归和预测之类的方法一起使用。当因标记相关成本太高而无法进行完全标记的培训过程时,半监督学习将非常有用。早期的示例包括在网络摄像头上进行人脸识别。

强化学习通常用于机器人技术、游戏和导航。借助强化学习,该算法可以通过反复试验发现哪些动作会产生最大回报。这种类型的学习具有三个主要组成部分:代理(学习者或决策者)、环境(代理与之交互的所有内容)和动作(代理可以做的事情)。代理的目标是选择在给定的时间内最大化预期回报的操作。代理将通过遵循良好的政策,更快地达到目标。因此,强化学习的目标是学习最佳政策。

人们通常每周可以创建一个或两个良好模型;机器学习每周可以创建数千个模型。

Thomas H. Davenport,分析思想领袖
摘录自《华尔街日报》

数据挖掘、机器学习和深度学习之间有什么区别?

尽管所有这些方法的目标都是相同的,即提取可用于决策的洞察、模式和关系,但它们具有不同的方法和能力。

数据挖掘

数据挖掘可以被视为从数据中提取洞察的许多不同方法的超集。它可能涉及传统的统计方法和机器学习。数据挖掘应用来自许多不同领域的方法,从数据中识别以前未知的模式。这可以包括统计算法、机器学习、文本分析、时间序列分析和分析的其他领域。数据挖掘还包括对数据存储和数据处理的研究和实践。

 


机器学习

机器学习与其他两者的主要区别在于,其目标就像统计模型一样,是理解数据的结构–将理论分布与已被充分理解的数据进行匹配。因此,对于统计模型,模型背后存在一种在数学上得到了证明的理论,但这也要求数据必须满足某些强有力的假设。机器学习是基于使用计算机探测数据结构的能力而开发的,即使我们没有任何关于该结构样子的理论。机器学习模型测试是对新数据进行验证错误,而不是证明无效假设的理论测试。由于机器学习通常使用迭代方法从数据中学习,所以学习可以轻松实现自动化。直到找到稳健模式为止,都将对数据进行遍历。


深度学习

深度学习将计算能力的进步与特殊类型的神经网络相结合,以从大量数据中学习复杂模式。深度学习技术是当前用于从图像中识别对象和从声音中识别单词的最先进技术。目前,研究人员正在寻求将这些成功的模式识别应用到更复杂的任务中,例如自动语言翻译、医学诊断以及许多其他重要的社会和商业问题。

工作方式

为了从机器学习中获得最大价值,您需要知道如何将最佳算法与正确的工具和流程结合在一起。SAS 将统计和数据挖掘中丰富、复杂的传统方法与新的架构进步相结合,确保您的模型即使在大型企业环境中也能尽快运行。

算法 :SAS 图形用户界面可帮助您建立机器学习模型并实施迭代机器学习过程。您不必是先进的统计学家。我们提供全面的机器学习算法选择,可帮助您从大数据中快速获取价值,许多 SAS 产品中都包含这些选择。SAS 机器学习算法包括:

神经网络
 
决策树
 
随机森林
 
关联和序列发现
 
梯度增加和自助聚合 (bagging)
 
支持向量机
 
最近邻映射
 
k 均值聚类
 
自组织映射
 
本地搜索优化方法(例如遗传算法)
 
预期最大化
 
多元自适应回归样条。
 
贝叶斯网络
 
核密度估计
 
主成分分析
 
奇异值分解
 
高斯混合模型
 
顺序覆盖规则建立
 

 

工具和过程:据我们目前所知,算法并不是唯一。最终,从大数据中获得最大价值的秘诀在于将适用于手头任务的最佳算法与下列内容进行匹配:

全面的数据质量和管理
 
用于构建模型和过程流的 GUI
 
交互式数据探索和模型结果可视化
 
比较不同机器学习模型以快速确定最佳选择   
 
自动的集成模型评估,识别最佳表现者
 
模型部署简单,因此您可以快速获得可重复的、可靠的结果
 
集成的端到端平台,用于数据决策流程的自动化
 

您需要有关各种机器学习算法用途的一些基本指导吗?SAS 的数据科学家 Hui Li 撰写的博客为您提供了一个方便的速查表。