NLP自然语言处理
自然语言处理是什么,为什么重要
自然语言处理 (NLP) 是人工智能一个分支,可帮助计算机理解、解释和操纵人类语言。NLP 从包括计算机科学和计算语言学在内的多学科提取内容,致力于填补人类交流与计算机理解之间的差距。
自然语言处理的演变
尽管自然语言处理不是一门新科学,但由于人们对人机通信的兴趣日益浓厚,再加上大数据的可用性、强大的计算能力和增强的算法,该技术正在迅速发展。
作为人类,您可能会说或写英语、西班牙语或中文。但是,计算机的本地语言(即机器代码或机器语言)对大多数人来说是很难理解的。在您设备的最低级别上,通信不是通过单词,而是通过由数百万个零和一生成逻辑操作来进行的。
事实上,70 年前的程序员使用打孔卡与第一台计算机进行通信。只有相对较少数的人能理解这种艰巨的人工操作过程。现在,您可以说:“Alexa,我喜欢这首歌”,然后您家中播放音乐的设备会降低音量,并用人声回答:“确定。评分已保存”。当您下次收听该音乐台时,它会调整其算法以播放该歌曲以及其他类似歌曲。
让我们仔细看看这种交互。您的设备在听到您说话时便启动了,理解了评论中未表明的意图,执行了一项操作并使用符合语法规则的英语句子进行了反馈,完成所有这些操作大约需要五秒钟时间。NLP 以及其他 AI 元素(例如机器学习和深度学习)让完整的交互成为可能。
NLP 为什么重要?
大量文本数据
自然语言处理可以帮助计算机用它们自己的语言与人类进行交流,并扩展其他与语言相关的任务。例如,NLP 让计算机可以阅读文本、听语音、解释语音、衡量情感并确定重要部分。
如今的机器可以比人类分析更多基于语言的数据,而不会产生疲劳并且能以一致、公正的方式进行分析。考虑到每天从医疗记录到社交媒体产生的大量非结构化数据,自动化对于有效、全面地分析文本和语音数据来说将至关重要。
构建高度非结构化的数据源
人类的语言非常复杂而多样。我们以无限的方式(口头和书面)表达自我。我们不仅有数百种语言和方言,而且每种语言中都有一套独特的语法和语法规则、术语和俚语。在写作时,我们常常会拼写错误或缩写单词,或者省略标点符号。当我们讲话时,会带有地方口音,我们会讲话含糊、结结巴巴,并借用其他语言的词汇。
虽然有监督和无监督学习,尤其是深度学习,现在已广泛用于人类语言建模,但还需要在这些机器学习方法中不一定存在的句法和语义理解以及领域专业知识。NLP 很重要,因为它有助于消除语言上的歧义,并为许多下游应用(例如语音识别或文本分析)在数据中添加有用的数字结构。
当今世界的 NLP
了解有关多个行业中自然语言处理的更多信息
NLP 如何工作?
分解语言的基本组成部分
自然语言处理包括许多用于解释人类语言的技术,范围涵盖从统计和机器学习方法到基于规则的方法和算法方法。我们需要各种各样的方法,因为基于文本和语音的数据与实际应用相差很大。
基本的 NLP 任务包括词语切分和解析、词干提取/取词干、词性标记、语言检测和语义关系识别。如果您曾经在小学时用图解法表示过一些句子,那么您从前就已经手动完成过这些任务。
一般而言,NLP 任务将语言分解成较短的基本部分,尝试理解各个部分之间的关系,并探索这些部分如何协同工作以创造意义。
这些基础任务通常用于更高级别的 NLP 功能,例如:
- 内容分类。基于语言的文档摘要,包括搜索和索引编制、内容警报和重复检测。
- 主题发现和建模。准确地捕获文本集合中的含义和主题,并将高级分析应用于文本,例如优化和预测。
- 上下文提取。自动从基于文本的来源中提取结构化信息。
- 情感分析。识别大量文本中的情绪或主观意见,包括平均情感和观点挖掘。
- 语音到文本和文本到语音的转换。将语音命令转换为书面文本,反之亦然。
- 文档摘要。自动生成大块文本正文的提要。
- 机器翻译。自动将文本或语音从一种语言翻译成另一种语言。
在所有这些情况下,总体目标都是获取原始语言输入,并使用语言学和算法来转换或丰富文本,从而提供更大的价值。
NLP 方法和应用
计算机如何理解文本数据
NLP 和文本分析
自然语言处理与文本分析并驾齐驱,对单词进行计数、分组和分类,以从大量内容中提取结构和含义。文本分析用于探索文本内容并从原始文本中获取新变量,这些变量可能会被可视化、过滤或用作预测模型或其他统计方法的输入。
NLP 和文本分析在许多应用中共同发挥作用,包括:
- 调查发现。识别电子邮件或书面报告中的模式和线索,以帮助发现和解决犯罪问题。
- 主题专业知识。将内容分类为有意义的主题,以便您可以采取行动并发现趋势。
- 社交媒体分析。跟踪对特定主题的认知和情感,并确定关键影响者。
日常 NLP 示例
NLP 在我们的日常生活中有许多常见的实际应用。除了与 Alexa 或 Siri 等虚拟助手交谈外,这里还有一些其他示例:
- 您是否曾经查看过垃圾邮件文件夹中的电子邮件,并且发现其主题行有相似之处?您所看到的贝叶斯垃圾邮件过滤是一种统计性 NLP 技术,可将垃圾邮件中的单词与有效电子邮件进行比较以识别垃圾邮件。
- 您是否曾经错过来电并在电子邮件收件箱或智能手机应用中阅读语音邮件的自动文字记录?这就是语音到文本的转换,一种 NLP 功能。
- 您是否曾经通过使用网站的内置搜索栏或选择推荐的主题、实体或类别标签来浏览网站?那么您就已使用过 NLP 方法来进行搜索、主题建模、实体提取和内容分类。
自然语言理解 (NLU) 是 NLP 的一个分支领域,因其在认知和 AI 应用中的潜力而开始流行起来。NLU 不局限于对语言的结构性理解,以便解释意图、消除上下文和单词歧义,甚至自行生成符合语法规则的人类语言。NLU 算法必须解决极其复杂的语义解释问题,即是说,要理解口头或书面语言的意向含义,以及我们人类能够理解的所有巧妙措辞、上下文含义和推论。
NLP 向 NLU 的演进对企业和消费者来说都具有许多重要意义。想象一个具有强大功能的算法,它可以理解从医学到法律到教室的众多情况中人类语言含义和细微差别。随着非结构化信息量的成倍增长,我们将受益于计算机这种不知疲倦的能力,它可以帮助我们理解所有信息。
阅读以下内容
- 5 ways to measure beehive health with analytics and hive-streaming dataThis analytical approach to understanding bee hive health can automatically alert beekeepers to changes in hive weights, temperatures, flight activity and more.
- IoT in health care: Unlocking true, value-based careGiven the potential of IoT – and the challenges of already overburdened health care systems around the world – we can’t afford not to integrate IoT in health care.
- Big data in government: How data and analytics power public programsBig data generated by government and private sources coupled with analytics has become a crucial component for a lot of public-sector work. Why? Because using analytics can improve outcomes of public programs.
- 人工智能、机器学习、深度学习及其他人工智能、机器学习、深度学习都在改变我们的生活和工作方式。它们是如何关联,又是如何改变我们这个世界的?
- 5 machine learning mistakes and how to avoid themMachine learning is not magic. It presents many of the same challenges as other analytics methods. Learn how to overcome those challenges and incorporate new techniques into your analytics strategy.
- 数据共享能否帮助治疗癌症?癌症治疗令人倍受折磨,没人愿意忍受不必要的痛苦却得不到治疗效果。有时,可以通过医学扫描来衡量疗效,但当患者终于知道一种方案是否有效时往往为时已晚,一切都已无济于事。
- Analytic simulations: Using big data to protect the tiniest patientsAnalytic models help researchers discover the best way to care for babies in the NICU, saving lives (and millions of dollars) in the process.
- Smart cities, smart energy solutions – thanks to the IoTFind out how Envision America and CPS Energy are using the IoT and analytics to make cities smarter and transform energy programs.