人工智能正在以各种用例颠覆各个行业,而内容自动化就是其中的一个应用。自然语言生成(NLG)是文本内容自动化背后的人工智能技术,它有能力将数据转换为单词、句子、文章甚至电影剧本。
在这篇文章中,我们强调了NLG的所有重要方面,包括它为什么重要、它如何工作、挑战、应用和适用领域。
什么是自然语言生成?
自然语言生成(NLG)是自然语言处理(NLP)的一个子类别,是一个将结构化数据自动转换为人类可读文本的软件过程。
使用NLG,企业可以在几分钟内使用正确的数据以正确的格式生成数千页的数据驱动的叙述。NLG是内容自动化的一个子类别,侧重于文本自动化。
为什么自然语言生成很重要?
大约35%的客户在决定购买哪种产品之前会阅读博客和网站。对于许多电子商务和零售公司来说,为每个产品手动生成内容是很困难的。NLG技术可以使这个过程自动化。因此,改善公司的整体营销/销售工作。
NLG市场也有潜力,因为:
- 可用的数据在不断增加,而文本比数据更容易消化,可以帮助更有效地沟通数据。
- 在数字化和人工智能时代,消费者期待个性化,而NLG可以大规模地提供这种服务。
NLG是如何工作的?
一个自动化的文本生成过程包括6个阶段。为了简单起见,我们将以机器人记者的足球比赛新闻为例来解释每个阶段:
1. 内容确定
应确定内容的界限。数据往往包含超过必要的信息。在足球新闻的例子中,有关进球、出牌和判罚的内容对读者来说会很重要。
2. 数据解释
对分析的数据进行解释。由于机器学习技术,可以在处理后的数据中识别出模式。这就是数据被放入背景的地方。例如,在这个阶段,诸如比赛的赢家、进球者和助攻、进球的时间等信息被识别。
3. 文件规划
在这个阶段,数据中的结构被组织起来,目的是建立一个叙述性的结构和文件计划。
足球新闻一般以一段话开始,指出比赛的比分,并附上评论,描述比赛的激烈程度和竞争性,然后作者提醒各队的赛前排名,在接下来的段落中描述比赛的其他亮点,最后是球员和教练的采访。
4. 句子聚合
这也被称为微观规划,这个过程是为最终用户选择每个句子的表达方式和词语。换句话说,这个阶段是将不同的句子因其相关性而在上下文中进行聚合。
例如,下面,前两个句子提供了不同的含义。然而,如果第二个事件正好发生在半场结束前,那么这两个句子就可以像第三句那样被聚合起来:
- “[X队]保持领先进入中场休息。”
- “VAR推翻了判给[Y队]的[足球运动员Z]一个点球的决定,因为回放显示[足球运动员T]的明显踢球没有连接。”
- “[X队]在VAR推翻了对[Y队]的[足球运动员Z]的判罚,因为回放显示[足球运动员T]的明显踢球没有踢中后,他们将领先优势保持到半场结束。”
5. 语法化
语法化阶段确保整个报告遵循正确的语法形式、拼写和标点符号。这包括根据句法、词法和正字法的规则对实际文本进行验证。例如,足球比赛要用过去式来写。
6. 语言实施
这个阶段包括将数据输入模板,并确保文件以正确的格式和根据用户的喜好输出。
自然语言生成的前7个应用领域?
由于NLG的目的是使数据有意义,并创建人类可读的见解,因此它可以应用于处理报告、内容创建和内容个性化的所有领域。
1. 零售和批发
NLG解决方案可以为在线购物和电子商务提供产品描述和分类,并帮助通过聊天机器人进行个性化的客户沟通。AX Semantics的首席执行官Steven Morell正在解释一个电子商务网站如何利用AX Semantics的NLG工具自动完成他们的产品描述编写过程。
2. 银行和金融
银行业高度依赖数据和洞察力来进行业绩报告。此外,利润和损失报告也可以通过NLG系统实现自动化。NLG技术可以用来支持与客户互动的金融科技聊天机器人,以提供个人财务管理建议。
3. 制造业
随着物联网应用在生产现场更广泛地实施,它们产生了大量对性能改进和维护有用的数据。NLG可以自动沟通重要的发现,如物联网设备状态和维护报告,以便员工能够更快地采取行动。
4. 媒体
NLG解决方案可以帮助总结和创建内容。特别是体育和金融新闻(也称为机器人记者)往往遵循类似的模板,解释此类事件的文本可以很容易地创建。
关于机器人记者和其他AI在媒体中的应用的更多信息,请随时查看我们的相关文章。
5. 保险
NLG解决方案可以帮助改善对客户的个性化计划的沟通。
6. 交通
聊天机器人可以提供有关延误和时间表的提醒。NLG工具可以用来创建个性化的、易于阅读的旅行计划。
7. 政治
最危险的用例可能是使用NLG解决方案来传播个性化的宣传和错误信息。不幸的是,这有可能使当前的政治虚假信息流变得更加危险和个性化。
有哪些得益于NLG的真实世界内容自动化案例?
下面是一些使用NLG的真实世界的内容自动化例子:
- GPT-3是OpenAI开发的一个语言模型。这里有一篇关于 “机器人和平而来” 的文章,是由OpenAI的语言生成器GPT-3编写的。虽然GPT-3创造了写得很好的叙述,但它在逻辑理解方面有所欠缺,这使得它的文章容易出现错误。
- LaMDA是谷歌在2021年中期推出的对话应用的语言模型。它在大量的数据上进行了训练,并作为一个人工智能被介绍给公众人群,它假装是冥王星,和一个纸飞机。
- 悟道是中国的GPT-3的 “改进版”,在4.9兆字节的高质量图像和中英文文本上进行训练。它能够生成文本和图像,并以能够写诗、绘画和作曲的虚拟学生的形式介绍给众人。
- 2019年,Springer出版了第一本机器生成的书。
- Gmail的 “智能撰写”(Smart Compose)为电子邮件中接下来应该输入的内容提供建议。它还会从你的选择中学习,以加强对即将到来的电子邮件的推荐算法。
- 使用NLG的转述工具QuillBot。
- 所有对话式人工智能/聊天机器人应用也是NLG的例子。
新闻
- 美联社使用NLG自动创建企业收益报告。
- 华盛顿邮报正在使用他们内部的自动讲故事技术,称为Heliograf,每周报道所有华盛顿特区的高中橄榄球比赛。
- 这是一个展示所有足球和冰球的网站,在瑞典。所有关于每场比赛的文章,从儿童比赛到顶级联赛,都由Lingmill的文字机器人撰写。
用NLG实现内容自动化的挑战是什么?
1. 数据的可用性和质量
自动化的内容需要高质量的结构化数据。因此,内容自动化很适合金融、体育或天气等领域,在这些领域中,数据提供者会确保数据的准确性和可靠性。
2. 原创性和写作质量
自然语言生成仅限于通过分析给定的数据为预先写好的问题提供答案。算法不能提出新的问题,检测需求,识别威胁,解决问题,或对社会和政策变化等话题给出自己的想法和解释。
由于机器学习和数据增强技术,NLG内容的质量可能会不断提高。然而,自动生成的文章往往不如人写的文章具有原创性。
3. 偏见
NLG算法依赖于数据和假设。人工智能的偏见会产生有偏见的算法和结果。