根据IBM在2021年对IT专业人士的调查,超过50%的人考虑将自然语言处理用于商业用例。NLP为企业打开的一个关键洞察力是通过情感分析将原始的、非结构化的文本数据转化为可解释的商业洞察力。然而,企业领导人并不总是清楚情感分析有哪些切实的用例,以及这种方法的基本步骤是什么。在这项研究中,我们总结了最重要的商业用例,提供了一步一步的指南,也提供了情感分析的首要挑战。
什么是情绪分析?
情绪分析是测量文本中的消极、中立或积极态度的做法。使用自然语言处理,关于某个关键词的在线文本数据被分析为它们所包含的负面或正面词语的强度。情感分析的结果可以是整体积极性的平均分,也可以是文本中最受欢迎的词语的词云,或者是可以从数据中推断出的详细的关联分析。
情感分析的顶级商业用例是什么?
- 在客户满意度方面精益求精
- 将网络数据转化为市场情报
- 成为雇主的首选
情感分析是如何工作的?
第1步)获取数据
情感分析应用于文本数据,这通常需要严格的清理和处理。不管是使用抓取API还是网络抓取机器人,从网络上收集的文本数据首先需要清理掉没有意义的部分,如 “the “或一个词的变体。之后,文本需要被标记为可以被标记为正面或负面的词或词组。
第2步)选择你的模型
- 基于规则的模型是最简单的情感分析方法,即数据标签,可以是手动的,也可以使用数据注释工具。数据标签将提取的文本中的单词分类为负面或正面。例如,包含 “好的、伟大的、惊人的 ” 这些词的评论将被标记为正面评论,而包含 “坏的、糟糕的、无用的” 的评论将被标记为负面的词。这种启发式的想法可以很快给出一个高层次的想法,但会漏掉那些包含不那么频繁的词语或包含负面和正面词语的复杂含义的评论。
- 机器学习模型在建立模型的过程中需要一点人工努力,但随着时间的推移,会给出更准确和自动化的结果。一旦你有大量的文本数据需要分析,你会把其中的某一部分拆开作为测试集,并手动将每条评论标记为正面或负面。后来,机器学习模型将处理这些输入,并将新的评论与现有的评论进行比较,根据相似性将它们归类为正面或负面的词语。该模型的一个优点是,由于训练数据将涵盖更多不太常见的单词或具象短语的例子,该模型将能够识别新数据中的这些模式,并对更复杂的评论进行准确分类。
第3步)分析和评估
基于规则的模型和机器学习模型都可以随着时间的推移而改进。例如,负面和正面词汇的字典可以被更新,作为一个活的参考来源,以更准确地对新数据进行分类。同样,有多个机器学习模型,你可以在你的数据上应用,并相互比较,以便随着时间的推移微调你的模型。
情感分析的挑战
语气和标点符号
人类语言的表达非常丰富。特别是随着表情符号的普及,在线文本数据中的标点符号带有大量的含义。同样,不同版本的笑脸可以传达不同强度的感受。
建议:利用开源字典,可以使你以自然语言处理算法能够理解的方式记录标点符号或表情符号。
虚假评论和错误信息
虚假的产品评论或机器人生成的内容是许多企业越来越关注的问题。当你处理大量的文本数据时,可能很难识别这种编造的内容,以及它是否是你的数据中的重要部分,最终可能偏离你的分析结果。
建议: 使用最新的提示,当场识别并传播虚假评论,使它们既不是你的数据集的一部分,也不被你的客户看到。
过度拟合
所有机器学习算法的一个常见缺陷是过度拟合,这意味着你的模型会很好地适应你的训练数据,以至于它认为该数据集是可能的实例的完整样本,并且在新的数据集上表现不佳。这可能是由于许多原因造成的,例如样本太小或训练数据的高方差。
建议:比较不同的模型。这就是为什么 “分析和评估” 这一步对机器学习模型特别重要,因为这一步可以帮助检测过拟合,并通过使用各种方法对模型进行微调,如使用交叉验证、数据增量或保留部分数据。