数据科学
它是什么,它为什么重要
数据科学是一个跨学科领域,大致可描述为使用数据来产生洞察的学科。与数据挖掘或数据工程等更专门的数据相关领域不同,数据科学涵盖了将原始数据转化为可用信息,并将其应用以提高生产力的完整生命周期。
数据科学的演变
在追溯数据科学的起源时,许多人会想到 1962 年。当时数学家 John Tukey 在其开创性的论文《数据分析的未来》(The Future of Data Analysis) 中便预示了这门学科的诞生。在这篇文章中,他描述了一门“未被承认的科学”的存在,而这门科学便涉及到从数据中学习。
然而,在现代世界的背景中审视数据科学可能更有裨益。得益于处理和存储能力的飞跃,大数据成为可能,其为大小组织带来了前所未有的机会,其能揭示数据中的隐藏规律,并帮助组织利用这种洞察来做出更明智的决策。但要做到这一点,他们必须首先收集、处理、分析和分享这些数据。管理这个数据生命周期便是数据科学的本质。
今天,数据科学在商业世界中无处不在,甚至远超商业世界的范畴,以至于《哈佛商业评论》将数据科学家称作是 21 世纪最性感的职业。如果将数据科学家比作医生的话,那么数据科学本身便既是行医技能,又是行医工具。
将最佳模型部署到生产中
USG 是一家全球建筑材料制造商,其必须以合理的价格生产高质量的产品。在部署 SAS® Model Manager 之后,这家石膏灰胶纸夹板生产商可以挑选出最佳的原材料配方,并以近乎实时的方式调整其生产流程,以实现这一目标。
当今世界的数据科学
了解现代数据科学世界的冰山一角。
谁在使用数据科学?
您很难找到一个不将数据科学注入关键业务职能的行业。以下是几个最有趣的使用案例。
数据科学成果
查看一些常见的数据科学目标和交付成果,有利于了解数据科学对组织的多种影响。
- 预测(资产何时失效)。
- 分类(新客户或现有客户)。
- 建议(喜欢的话,就试试这个)。
- 异常检测(欺诈性购买)。
- 识别(图像、文本、音频、视频,等等)。
- 可付诸实践的洞察(仪表盘、报告、可视化)。
- 自动化流程和决策(信用卡审批)。
- 计分和排名(信用评分)。
- 市场细分(目标营销)。
- 优化(制造改进)。
- 预测(预测销售和收入)。
如果您想通过更好地选择、部署并管理模型来改善您的数据科学工作,那么我们建议您探索人工智能和机器学习主题的更多培训内容。 Ronald van Loon Principal Analyst CEO of Intelligent World
组合式 AI
今天,大多数人工智能项目都依赖于多种数据科学技术。Gartner 将组合式 AI 定义为:使用不同人工智能技术的组合来实现最佳结果。
借助组合式 AI,您从分析问题开始,然后应用合适的数据和工具来解决问题。这通常包括使用一系列数据科学技术组合,包括机器学习、统计、高级分析、数据挖掘、预测、优化、自然语言处理、计算机视觉等等。
组合式 AI 逐渐成为了数据科学的代名词。这是因为选择使用正确的 AI 技术往往并非那么容易。这需要深入了解您要解决的业务问题和可用于解决该问题的数据。这种业务和技术技术的结合才是数据科学的本质。
数据科学如何发挥作用
数据科学涉及使用多种工具和技术而从结构化和非结构化数据中获取有意义的信息。以下是数据科学家用来将原始信息转化为改变业务的洞察力的一些常见做法。
数据管理是管理数据的做法,其能够为组织释放潜力。有效地管理数据需要数据战略和可靠的方法,从而访问、整合、清理、管理、存储和准备用于分析的数据。
机器学习会自动建立分析模型。通过无监督式机器学习,该技术使用神经网络、统计学、运筹学和物理学的方法来寻找数据中隐藏的洞察,而无需明确编程去指定寻找哪里,或得出什么样的结论。
神经网络是一种机器学习类型,受人类大脑的工作方式启发。该计算系统由相互连接的单元(类似于神经元)组成,这些单元通过响应外部输入、在各个单元之间中继信息来处理信息。
深度学习使用具有多层处理单元的巨大神经网络,利用计算能力的进步和改进的训练技术来学习海量数据中的复杂模式。常见的应用包括图像和语音识别。
计算机视觉依靠模式识别和深度学习来识别图片或视频中的内容。当机器能够处理、分析和理解图像时,它们可以实时捕捉图像或视频,并对周围环境进行解读。
自然语言处理,是计算机分析、理解和生成人类语言(包括语音)的能力。NLP 的下一个阶段是自然语言交互,即允许人类使用日常语言与计算机进行沟通以执行任务。
数据可视化 是指将数据以图画或图形的形式呈现出来,以便进行分析。为了帮助组织根据数据科学成果做出业务决策,这尤为重要。
广泛使用的数据科学编程语言
就像人类会使用各种语言一样,数据科学家亦是如此。目前存在数百种编程语言,选择正确的语言取决于您的目的是什么。下面我们来看看一些顶级的数据科学编程语言。
Python 是一种解释型、面向对象、具有动态语义的高级编程语言。它具有高级内置数据结构,结合动态定型和动态绑定,使它对快速应用开发极具吸引力,同时也是连接现有组件的脚本或胶水语言。
R 是由 R 统计计算基金会 (R Foundation for Statistical Computing) 支持的统计计算和图形免费软件环境。R 语言被统计学家和数据挖掘专家广泛用于开发统计软件和数据分析中。
SQL 是一种特定领域的编程语言,旨在管理关系数据库管理系统 (RDBMS) 中的数据,或用于进行关系数据流管理系统 (RDSMS) 中的流处理。它在处理结构化数据方面有显著的作用,结构化数据是指包含实体和变量之间关系的数据。
SAS 是全球数十万数据科学家信赖的编程语言。SAS Viya 平台可以帮助您结合企业中每个技术系统和编程语言的优势,从而更好地开发和部署分析模型。请阅读并了解 SAS Viya 如何将您的建模大熔炉转化为更明智的商业决策。
数据科学解决方案
SAS Viya 数据科学产品具有强大的数据管理、可视化、高级分析和模型管理功能,能够加快几乎任何组织的数据科学进程。
SAS Visual Data Mining 和 Machine Learning 能够帮助您借助单一集成式协作解决方案来解决最为复杂的分析问题,现已推出自动建模 API。
SAS Visual Analytics 可帮助您快速准备互动式报告,通过可视化显示屏探索您的数据,并进行自助式分析。
这些解决方案由 SAS Viya 提供支持,是 SAS 市场前沿的数据科学平台,运行于现代、可扩展的云架构之上。