生成式AI

它是什么,为什么重要

生成式人工智能 (AI) 从现有数据中学习,然后生成具有类似特征的数据。例如,它可以生成文本、图像、音频、视频和计算机代码。

生成式AI的演变

传统AI和机器学习系统通过识别数据中的模式做出预测。但生成式AI不仅提供预测——它会生成新的数据作为主要结果。想象一下,给聊天机器人(如ChatGPT)几个词描述您的想法,您在几秒钟后就能收到演讲的全文。从基于文字的描述生成音乐、艺术或图像。或使用生成式AI工具通过对话式的来回“提示”制定业务策略。

从何处开始?

与流行观点相反,生成式AI并不是新事物 – 它形成于我们用了几十年的技术,包括AI、机器学习和统计方法。生成式AI的三大核心技术分别是数字孪生、大型语言模型和合成数据生成。

虽然生成式AI的起源可以追溯到更远,但我们将1966年世界上发布首台聊天机器人ELIZA作为其诞生之年。

Joseph Weizenbaum创造ELIZA是为了模仿Rogerian心理医师根据患者陈述给出治疗方法。ELIZA使用模式匹配来完成这一壮举。ELIZA是最早尝试图灵测试的程序之一,这是一款模拟游戏,测试机器表现出类似人类智能行为的能力。

随着非结构化文本数据分析方法的演进,上世纪70到90年代,语义网络、本体论、递归神经网络等领域不断发展。2000年到2015年,语言建模和单词嵌入器得到改进,谷歌翻译 (Google Translate) 应运而生。

2014年,Ian Goodfellow与同事一起开发出生成对抗网络 (GAN),建立两个神经网络相互竞争(即训练)。一个网络生成数据,另一个网络确定数据真伪。2017年推出转换 (Transformer) 模型。其中包含自注意力机制,可以在做预测时权衡输入不同部分的重要性。BERT和ELMo等架构也开始流行起来。

接下来出现了生成式预训练转换 (GPT) 模型,第一个GPT模型于2018年问世。这个模型是用互联网大量文本数据训练的。利用1.17亿个参数,模型可以生成风格和内容与训练数据相似的文本。到2023年,大型语言GPT模型已经发展到可以熟练应对困难考试的程度,如律师资格考试

生成式AI技术快速崛起

作为一项颠覆性技术,生成式AI的影响堪比电力和印刷机的发明。ChatGPT等对话式AI模型具有大幅提高生产力的潜力,在商业和民用用户中迅速流行,并引发了人们对数据隐私、AI偏见、伦理和准确性的担忧。全球生成式AI市场规模预计2030年将增长到1,108亿美元

政策制定者使用数字孪生技术确定新税收措施对公民的影响

对比利时联邦财政部来说,实施法规之前,确定潜在税收变化的成败至关重要。当需要快速、准确的答案时,联邦财政部使用处理国家所得税的数字孪生计算平台Aurora模拟未来债务改革。模拟能力的提高意味着决策者对问题了解更深入,可以取得更好的结果。

当今世界的生成式AI

拥抱可信赖的人工智能

消费者更加信任那些以可信任、符合伦理的方式使用AI的组织。了解为什么采用以人为本、包容和负责任的可信赖AI系统至关重要。

生成式AI的好处和风险

是否想了解生成式AI的工作方式,以及使用之前的考虑因素?参见技术说明,了解生成式AI工具的应用框架,并考虑是否以及如何使用这项技术。

探索AI在教育中的应用

学生们已经使用生成式AI创建内容和图形、编写代码、构建移动应用并解决问题。虽然生成式AI有趣而实用,但我们需要人类发现并纠正错误答案或“幻觉”。

虚幻现实:生成式AI的状态

生成的图像激增会产生不真实感,让人类走向失败吗?了解 “深度伪造”(deepfake)一词的真正含义,了解如何将深度伪造用于正当用途,并了解新兴技术如何帮助侦测识别生成的媒体。

查看流行AI工具,了解它们的使用方法

新闻报导中有很多流行的AI工具。但知道吗,市场上类似工具多达1,500多种,其中包括生成式AI工具?

谁在使用生成式AI?

生成式AI涵盖了世界各地广泛的行业和商业功能。随着越来越流行,这项技术同时在个人、企业和政府实体中引发兴奋和恐惧。让我们看看当今一些行业如何使用生成式AI。

银行

银行和其他金融服务组织可以使用生成人工智能来改进决策,降低风险,提高客户满意度。经过学习模式而发现异常的训练后,生成式AI模型可以实时标记可疑活动。通过创建用于压力测试和场景分析的模拟数据,生成式AI可以帮助银行预测未来的金融风险并防止损失。虚拟助理(如聊天机器人)可以全天候提供人性化的客户服务。

保险

保险公司可以使用合成数据进行定价、准备金和精算建模。例如,保险公司可以使用类似历史保单和理赔信息的合成数据来训练和测试定价模型,帮助他们在不使用客户个人敏感信息的情况下,评估不同定价策略的表现。合成数据还有助于评估地震或飓风等低概率事件。

生命科学

生成式AI在生命科学领域有许多具有前景的应用。在药物发现方面,它可以加快识别新的潜在候选药物的过程。在临床研究中,生成式AI可以从复杂数据中提取信息,以创建合成数据和代表个人的数字孪生体(一种保护隐私的方式)。其他应用包括识别安全信号或发现现有治疗方式的新用途。

制造

制造商可以使用生成式AI帮助优化运营、维护、供应链,甚至能源的使用,以降低成本、提高生产力和可持续性。生成式AI模型将通过现有性能、维护和传感器数据、预测、外部因素等进行学习,然后提出建议改进策略。

公共事业

自然语言处理 (NLP) 和聊天机器人可帮助公共事业部门的工作人员更快地响应公民的需求,例如,改善洪涝易发地区的紧急服务,或帮助服务水平低下的社区。生成式AI技术–如预测模型和模拟–可以分析大量历史数据、公众情绪和其他指标,然后生成减少拥堵、改善基础设施规划和调配资源的建议。

零售

零售业的成功需要了解购物者需求,设计吸引顾客的购物体验,并确保供应链可靠稳定供货。例如,一些零售商使用基于数字孪生技术的生成式AI,让规划者对潜在情况一目了然,如供应链中断或资源限制。先进的AI模拟和数据建模可以为此提供支持。

从核心来讲,生成式AI的结果是我们人类的反映。...用户与对话式AI互动,必须不断运用批判性思维,避免自动化偏见(认为技术系统比人类更准确,更真实)。 Reggie Townsend SAS数据伦理实践副总裁

生成式AI模型的考虑因素

模型运行成本高昂,需要大量算力和数据。部署生成式AI模型之前,应仔细评估投资回报,以及伦理方面的问题。数据来自哪里?谁拥有这些数据?是否值得信赖?您确切了解模型是如何构建的吗?

生成式AI工作方式

生成式AI技术的一些常见例子包括DALL-E,这是一种根据文本输入创建图像的图像生成系统,另外还有ChatGPT(文本生成系统)、谷歌Bard聊天机器人和微软的AI搜索引擎必应 (Bing)。另一个例子是使用生成式AI创建系统、业务流程甚至个人的数字表示,如同动态表示某人当前和未来健康状况一样。

生成技术主要有三种类型(数字孪生、大型语言模型和合成数据生成)。

数字孪生

数字孪生是以历史、现实、合成数据,或系统反馈回路数据构建真实对象或系统的虚拟模型。它们是利用软件、数据以及生成和非生成式模型构建的,这些模型与物理系统(如实体、过程、系统或产品)镜像同步。数字孪生用于测试、优化、监控或预测。例如,数字孪生供应链可以帮助公司预测何时可能出现缺货。

大型语言模型

大型语言模型 (LLM) 是一种强大的机器学习模型,可以处理和识别自然语言中的复杂关系,生成文本并与用户对话。这些模型依赖深度学习和神经网络等技术。LLM被定义为自然语言处理AI模型,它利用大量文本数据进行训练。由此产生的模型具有高达数十亿的参数。OpenAI的ChatGPT是流行的大型语言模型的一个例子。

合成数据生成

合成数据生成是指由算法或规则按需、自助或自动生成的数据,而不是从现实环境中收集的数据。合成数据通常是为了满足缺乏真实数据的条件而生成的。它会复现与训练所用真实环境数据相同的统计特性、概率、模式和特征。许多组织使用合成数据来保护隐私,或克服收集使用真实环境数据面临的其他挑战,如成本、耗时的数据准备过程或偏见。

许多其他技术赋能支持生成式AI:

算法是完成特定任务或解决某个问题的分步指令。许多计算机程序是以计算机能够理解的方式编写的一系列算法。随着算法开始补充或取代人类决策,我们必须探索它们的公平性,并要求它们的开发方式透明。

人工智能让机器可以从经验中学习,适应新的输入并像人一样完成任务。AI通常在很大程度上依赖于深度学习和自然语言处理 (NLP)。使用这些技术,可以训练计算机通过处理大量数据并识别数据中的模式来完成特定任务。

深度学习是机器学习的一种类型,用于训练计算机执行类似于人类的任务,如识别语音、图像识别和进行预测。它提高了使用数据进行分类、识别、检测和描述的能力。GAN和变分自编码器 (VAE) 等深度学习模型经过海量数据集的训练,可以生成高质量数据。StyleGANs和转换模型等较新技术可以创建逼真的视频、图像、文本和语音。

机器学习是一种自动建立分析模型的数据分析方法。它是人工智能的一个分支,用来训练机器如何学习。机器学习基于这样一种概念,即系统可以从数据中学习,识别数据中的模式并在最少的人工干预下做出决策。

自然语言处理是人工智能的一个分支,帮助计算机理解、解释和处理人类语言。NLP涉及许多学科,包括计算机科学和计算语言学,以填补人类交流和计算机理解之间的空白。

神经网络是具有互连节点的计算系统,其工作原理与人脑中的神经元非常相似。神经网络使用算法来识别原始数据中的隐藏模式和相关性,对其进行聚类和分类,并随着时间的推移不断学习和改进。

强化学习是一种算法,通过反复试错发现哪些行为产生最大回报。作为一种机器学习模型,强化学习依赖其反馈机制的奖励信号,逐步学习最佳(或最大回报)的策略或目标。它经常用于机器人、游戏和导航。

微调模型的5个步骤

生成式AI依赖许多不同的AI算法和技术生成与学习数据具有相似概率分布和特征的数据。您可以按照以下五个步骤来微调预先训练的基础大型语言模型,而不是从头开始构建模型。

1. 定义任务。

选择适用的经过预先训练的大型语言模型,并明确定义进行微调的任务。可以是文本分类(即实体识别)、文本生成等。

2. 准备数据。

收集并预处理特定任务的数据–用于分类、格式化和标记等任务。创建训练和验证(可能包括测试)数据集。

3. 微调。

使用训练数据集更新模型的权重,根据特定任务数据训练修改后的模型。

4. 评估和测试。

训练结束后,在验证集上评估微调模型,并根据结果进行必要的调整。取得满意结果后,在测试集上测试模型,获得性能的无偏见估计。

5. 部署。

相信模型性能后,将其部署到预期用途。这可能涉及将模型集成到应用、网站或其他平台中。

什么是合成数据?

数据对于构建模型至关重要,但高质量的数据要么很难找到,要么有偏见或成本高昂。解决这些问题的一种方法是使用人工创建的合成数据(通常使用算法创建)。如果我们使用真实世界的数据集来生成额外的合成数据–具有构建良好机器学习模型的相应属性–我们几乎可以为任何目的训练模型,比如研究一种罕见疾病。

下一步

了解AI解决方案如何增强人类的创造力和创新力。

与 SAS 联系,了解我们能为您做些什么。