作者:雷红、汪顺玉(西安外国语大学外国语言学及应用语言学研究中心)
主要方法
情感分析的传统方法主要有两类:机器学习法和情感词典法。机器学习法又分为有监督学习法、无监督学习法、半监督学习法。它们之间的区别在于,是否基于大量有标注的数据训练模型。在有监督学习法中,学习过程基于有标注的训练数据集进行,试图通过将输入映射到输出,学习输入和输出关系函数,用于推断新数据集的情感分类。其中,常用的情感分类器有朴素贝叶斯、支持向量机、最大熵等。但是,这些分类器只能通过有标注的数据集来进行训练,而这样的数据集通常需要有经验的标注者进行人工标注,耗时耗力,不易获得。无监督学习法可以解决这个问题,它借助种子词等启发式信息,通过聚类在未分类的数据集中找到潜在的结构,不需要人工参与。常用的聚类方法有分层聚类、划分聚类等。此外,也可以采用半监督学习法,使用少量有标注的数据和大量无标注的数据训练分类器。
具体应用
近20年来,社交媒体的普及极大促进了参与性文化的发展。从中了解到的群体和公众情感,是各种社会决策的重要参考依据。消费者在购买产品和服务前,希望了解其他消费者对产品和服务的看法;而企业也希望了解消费者或公众对产品和服务的意见。公众在社交媒体发表对政府政策和举措的看法,各级政策决策者可以据此确定公众的意见,应对快速变化的社会、经济和政治事态。公众意见已越发成为人文社会科学领域的核心议题,而大数据时代的研究者也有待突破传统,应用自然语言处理方法有效推动学科进步。目前,情感分析已在人文社会科学的诸多领域初见端倪。
在政治领域,用于情感分析的数据包括社交媒体帖文、政治人物的采访和演讲、新闻报道等。情感分析被广泛应用于了解公众对某个政治问题或政治人物的看法,从而预测现实世界政治事件的走向,预测候选人在选举中的受欢迎程度,继而预判选举结果。更重要的是,随着社交媒体成为普通民众发表意见的流行渠道,监测社交媒体,及时发现公众的情绪和关切,可以成为政府洞察民意和制定政策的依据。
未来展望
在过去的20年里,情感分析在人文社会科学领域的影响力不断提升,除了上述主要应用领域外,其身影也陆续出现在文学作品赏析、社会关系分析、学术写作等越来越多的研究中。两者的融合具有广阔的发展空间,是值得系统探究的议题,以下两个方面的努力至关重要。
第一,自然语言处理技术有待持续创新和发展,为大数据文本分析提供有力支撑。现有的情感分类方法准确率还不够高,算法无法完全处理情感词及对其简单解析之外的复杂语言现象,如复指与共指消解、语义消歧等问题。而涉及情感的问题往往复杂多样,因为人们似乎能用无限多的方式来表达积极和消极情感。比如,讽刺是常见的日常表达,而其复杂性和模糊性使得讽刺识别极具挑战性。再比如,事实性的表述也可能蕴含情感,而目前的情感分析方法通常针对的是主观陈述,从而忽视了这种客观陈述。此外,目前大多数情感分析技术的开发主要针对英文数据。由于不同语言的差异,对英文数据验证可行的技术不一定适用于其他语种数据。因此,构建用于情感分析的多语语料库至关重要。
第二,情感研究是一个跨学科问题,未来可以在多个领域(尤其是计算机科学与技术和人文社会科学)的研究者之间开展合作。这样不仅能推动情感分析技术的创新和发展,也会对不同领域的研究乃至整个社会作出重大贡献。一方面,当前许多人文社会科学领域研究者,尤其是语言学研究者,已经意识到社交媒体分析和大数据情感分析的潜力。情感是自然语言语义的一个重要方面,从自然语言处理的角度来发展语义学理论,可以有效补充和推进传统语言学研究。另一方面,自然语言处理技术的开发也需要人文社会科学的视角(如心理学家、社会学家关于情感概念的阐释,语言学家关于语言结构的理论),为基于算法的情感和语义分析提供必要的补充。
(本文系国家社科基金重点项目“基于文本挖掘的中国政治话语国际传播研究”(18AYY006)阶段性成果)