自然语言处理(NLP)是应用程序自动纠正我们的查询或完成我们的一些句子的原因,它是对话式人工智能应用程序的核心,如聊天机器人、虚拟助手和谷歌的新LaMDA。
2018年,全球自然语言处理(NLP)市场估计约为50亿美元,预计2025年将达到约430亿美元,收入增长近8.5倍。这种增长是由深度学习的持续发展,以及当今几乎每个行业的众多应用和用例所引领的。
在这篇文章中,我们为商业专业人士提供了一份完整的NLP指南,帮助他们了解技术,并通过强调使用案例指出一些可能的投资机会。
什么是自然语言处理?
自然语言处理(NLP)是一种人工智能技术,它使机器能够理解文本或语音形式的人类语音,以便与人类交流我们自己的自然语言。
NLP的第一块基石是由阿兰-图灵在20世纪50年代确定的,他提出,如果一台机器能够成为与人类对话的一部分,它将被认为是一台 “有思想 “的机器。
不久之后,不同的应用出现了,如1966年的ELIZA,它是第一个使用模式匹配和反应选择模仿心理治疗师的医疗聊天机器人。
后来在1971年,美国国防部高级研究计划局(DARPA)将NLP用于Robust Automatic Transcription of Speech(RATS),以执行与通过极其嘈杂和/或高度扭曲的通信渠道收到的含语音信号有关的任务。
像这样的应用激发了语言学和计算机科学领域的合作,创造了我们今天所知的人工智能中的自然语言处理子领域。
NLP如何工作?
一般来说,NLP技术包括4个主要步骤:
- 词汇分析: 将一个句子分割成被称为 “标记” 的词或小单元的过程,以确定它的含义和它与整个句子的关系。
- 句法分析: 识别一个句子中不同的词和短语之间的关系,规范它们的结构,并以层次结构来表达这些关系的过程。
- 语义分析: 将句法结构,从短语、分句、句子和段落的层次到整个写作的层次,与它们的语言无关的含义联系起来的过程。
- 输出转换: 在对文本或语音进行语义分析的基础上,生成符合应用目标的输出的过程。
根据NLP的应用,输出将是一个翻译或完成一个句子,一个语法纠正,或基于规则或训练数据生成的反应。
在现代NLP应用中,深度学习在过去几年中得到了广泛的应用。例如,谷歌翻译在2016年采用了著名的深度学习,导致其结果的准确性有了很大进步。
NLP的五大使用案例是什么?
NLP使计算机能够理解和生成人类的语音,因此它有许多应用。以下是自然语言处理的一些顶级用例:
1. 语法/拼写检查
最早的语法检查工具(如Writer’s Workbench)旨在检测标点符号错误和风格错误。NLP和机器学习的发展使人们能够更准确地检测语法错误,如句子结构、拼写、句法、标点符号和语义错误。
语法检查是通过3种方法完成的:
- 基于规则: 这种方法依靠语言学专家设计准确的规则来拆分文本,分配语篇(PoS)标签,并根据 “匹配” 规则进行检查,以识别错误。
- 基于机器学习: 这种方法依赖于在大型数据集上训练的有监督的机器学习算法,使其能够对一个句子进行统计分析,并根据以前的例子来检测错误。
- 混合:这种方法是规则和机器学习技术的结合,以提高系统的性能。它通常利用规则来处理标准的语法错误(如 “a” 或 “an” 的用法)和ML来对句子进行语义分析。
2. 翻译
现代翻译应用可以利用基于规则和ML技术。基于规则的技术使字与字之间的翻译很像字典。
另一方面,ML通过理解输入句子的整体含义,增强句子或段落的整体翻译,生成字对字的翻译,并根据训练数据调整输出以产生准确的翻译。
3. 聊天机器人
聊天机器人是一种软件,它使人类能够与机器互动,提出问题,并以自然对话的方式获得回应。
聊天机器人依靠NLP和意图识别来理解用户的查询。根据聊天机器人的类型(如基于规则的、基于人工智能的、混合型的),它们会根据理解的查询来制定答案。
在5年的时间里,人们对聊天机器人的兴趣几乎增加了5倍,由于其众多的好处和在几乎所有行业的多样化应用,如酒店、银行、房地产和零售业,它们的受欢迎程度一直在上升。
聊天机器人还可以整合其他人工智能技术,如分析和观察用户讲话的模式,以及图像或地图等非对话功能,以提高用户体验。
4. 句子补全
在谷歌搜索引擎中句子补全
我们日常使用的最流行的NLP应用之一是句子完成。这种应用将NLP与一些机器学习算法结合起来,如::
- 递归神经网络(RNN): RNN算法通常用于深度学习应用中。他们模拟人脑神经元连接的活动,这些神经元从复发性事件中学习。递归神经网络识别数据的顺序和时间特征,并使用模式和反馈回路,以预测一个词或句子的下一个可能情况。
- 潜在语义分析(LSA): LSA算法依赖于分析语音令牌之间的关系。该算法将把一个句子或段落分成若干标记,在它们之间建立一个关系矩阵,以了解标记相互之间的出现模式,并根据分布假设预测下一个句子,该假设指出: “意义相近的词会出现在类似的文本中”。
更简单的句子完成方法将依赖于有监督的机器学习算法和大量的训练数据集。然而,这些算法将完全基于训练数据来预测完成词,而这些数据可能是有偏见的、不完整的或特定主题的。
最近的一个例子是OpenAI建立的GPT模型,它能够创造出类似人类的文本完成,尽管没有使用人类语音中的典型逻辑。
5. 数据分析
分析是指从结构化和非结构化数据中提取洞察力的过程,以便在商业或科学中做出数据驱动的决策。在其他人工智能应用中,NLP正在使分析的能力成倍增长。NLP在数据分析中特别有用,因为它可以对用户的文本或语音进行提取、分类和理解。
NLP的挑战有哪些?
自然语言是困难的。即使作为人类,有时我们在解释对方的句子或纠正我们的文字错误时也会发现困难。NLP面临着不同的挑战,使其应用容易出错和失败。
NLP的一些主要挑战包括:
- 讽刺
- 句子的模糊性
- 俚语或街头语言
- 特定领域的语言
- 训练数据中的偏见
然而,随着NLU、深度学习和社区训练数据的进步,这些挑战如今正在得到解决,这些数据为算法观察现实生活中的文本和语音并从中学习创造了机会。
关于NLP的更多信息
NLP是对话式人工智能的基石。要了解更多关于对话式人工智能的信息,请随时阅读我们的深度文章: