基于自注意力的门控卷积神经网络的要素类情感分类研究
张颖,郑建国
东华大学旭日工商管理学院,上海
收稿日期:2020年11月4日;录用日期:2020年11月19日;发布日期:2020年11月26日
摘要
关键词
要素类提取,要素类情感分类,自注意力机制,门控卷积神经网络
ResearchonAspectCategorySentimentClassificationBasedonGatedConvolutionNeuralNetworkCombinedwithSelf-AttentionMechanism
YingZhang,JianguoZheng
SchoolofManagement,DonghuaUniversity,Shanghai
Received:Nov.4th,2020;accepted:Nov.19th,2020;published:Nov.26th,2020
ABSTRACT
[Purpose/Significance]Inrecentyears,acommonmethodforaspectcategorysentimentclassificationistocombineLSTMmodelwithattentionmechanism.Comparedtothat,thegatedconvolutionalneuralnetworkmodelnotonlyhasasimplestructure,fewerparametersandshortertrainingtime,butalsoachieveshigherclassificationaccuracybeingabletoextractaspectfeaturesandemotionfeatures.[Method/Process]Consideringthatthequalityofaspectcategoryiscrucialforaspectcategorysentimentclassification,thispapercoupledaspectcategoryextractionandaspectcategorysentimentclassification,andputforwardGatedConvolutionalNeuralNetworkwithSelfAttention-basedAspectEmbedding(GCAE_SelfAtt)modeltorelatetheaspectcategoryembeddingstocorrespondingcontext,andtoachieveahigheraccuracy.[Result/Conclusion]TheexperimentonSemEvaldatasetshowsthatGCAE_SelfAttmodeldoeshelptoextractmorecoherentaspectcategoriesandachievehigheraccuracyforsentimentclassification.
Keywords:AspectCategoryExtraction,AspectCategorySentimentClassification,Self-AttentionMechanism,GatedConvolutionalNueralNetwork
ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).
1.引言
传统的文本情感分类技术主要分为基于规则的方法和基于统计的机器学习方法[2],然而前者没有考虑上下文的语义信息、容易受限于人工制定的规则与提供的情感词典,后者存在表达能力弱、高度依赖特征工程、无法自动从数据中提取有意义的特征的缺点。深度学习凭借其强大的特征学习能力,大大减少了特征的设计与抽取工作量,近年来被广泛应用于情感分类任务,取得了比传统方法更优的分类效果[3][4]。例如,Socher等人[5]提出的递归神经网络模型,在正负情感倾向性分类和细粒度情感分类任务上都取得了优异表现;Kim[6]将文本转化为word2vec词向量并输入CNN模型,显著提高了分类精度;Wang等人[7]采用LSTM模型来保留文本中词语之间的依赖关系,实现文本情感分类;Mnih等人[8]将注意力机制与LSTM模型结合,以解决远距离词的情感信息获取问题。
Table1.Summaryonaspect-levelsentimentclassificationresearchbasedondeeplearning
3.融合自注意力机制下的要素类特征的门控卷积神经网络模型
Figure1.SchematicdiagramofGCAE_SelfAttmodel
类特征的门控卷积神经网络模型(GatedConvolutionalNeuralNetworkwithSelfAttention-basedAspectEmbedding,GCAE_SelfAtt),由结合自注意力机制的神经网络和门控卷积神经网络构成。其中,要素类提取任务的最终目的是学习一组要素类嵌入,使得每个要素类可以通过词嵌入空间附近的代表性词语来解释。
3.1.任务定义
3.2.构建词向量输入层
由于词嵌入会将经常共同出现在同一上下文语境的词语映射在词嵌入空间中的相近位置上,本文将语料库中句子的每个词语都映射为低维的、连续的实值向量,即词向量,实现词共现分布的编码。所有的词向量构成了一个词向量矩阵,矩阵的行数表示词向量纬度,矩阵的列数表示词典中词语个数。
3.3.句子表示层
Figure2.Schematicdiagramofvectorrepresentationofsentencesbasedonself-attentionmechanism
3.4.句子重构层
3.5.卷积层与GTRU
在经过要素类提取实验之后,句子重构层的要素类嵌入矩阵T形成了基于上下文优化后的要素类词向量。考虑到要素类情感分类和要素类提取采用同一套数据集,保证词嵌入空间的一致性有利于模型的效果,因此本文采用优化后的文本词向量作为要素类情感分类的输入层。
3.6.池化层
3.7.情感分类层
其中,W是全连接层权重矩阵,B是偏置。
3.8.模型训练
4.实验
4.1.实验数据
Table2.Datadistributionofthedatasets
4.2.实验参数设置
文本中词向量的维度、要素类词向量的维度都为300。要素类提取实验以keras作为实验框架,以Adam作为优化器,负采样样本数为6,dropout为0.5,初始学习率为0.01,训练轮数为50轮,批数据大小为256,正则项权重为0.001。要素类情感分类实验以pytorch作为实验框架,以Adam作为优化器,设置窗口大小为2、3、4的滤波器各100个,dropout为0.5,初始学习率为0.01,训练轮数为30轮,批数据大小为256。
4.3.要素类提取实验结果与实验分析
Figure3.VisualizationdiagramoftherepresentativewordsoftheaspectcategoriesofABAEmodel
Figure4.VisualizationdiagramoftherepresentativewordsoftheaspectcategoriesofSABAEmodel
鉴于要素类提取的目标之一是识别出的要素类能符合人类用户的标准,因此对模型识别出的要素类进行用户评估是有必要的,本文通过人工裁判来判定是否每个要素类的TopN代表词中的大多数都能较一致地表示该要素类。根据Chen等人[24]和He等人[13]的实验设置,本文招募了三名人类裁判,分别对ABAE模型和SABAE模型所识别出的8个要素类及其代表词进行用户评估。对单个要素类而言,如果有不少于2个人类裁判都认为该要素类的前30个代表词中的大多数都一致地表示同一个要素类,则将该要素类标记为具有一致性的要素类。ABAE模型的一致性要素类的用户评估数量为4,SABAE模型的一致性要素类的用户评估数量为6。
Figure5.Averageaccuracyofrepresentativewordsbasedonuserevaluation
4.4.要素类情感分类实验结果
要素类情感分类采用准确率(accuracy)作为评价指标,准确率越高说明模型的分类精度越高。
消融实验是深度学习常用的一种控制变量实验,即通过单变量控制来验证某个条件或参数的改变对模型的实验结果的影响,最早出现在FasterR-CNN模型[25]的对比实验中。由于深度学习一般采用随机初始化的方法指定模型参数,固定随机种子使得实验运行时每次产生相同的随机数从而在一定程度上降低算法结果的随机性,因此,本文的消融实验固定了超参数和随机种子。出于了解基于上下文优化后的要素类嵌入是否能提高要素类情感分类精度的目的,将本文提出的融合自注意力机制下的要素类特征的门控卷积神经网络模型与以下两种方法在Restaurant数据集上进行实验。
实验1:GCAE模型。尽管要素类词向量和文本词向量都由word2vec预训练的词向量进行初始化,但无论是在单要素类文本数据集上还是多要素类文本数据集上,其分类精度都优于将要素类词向量连接到文本词向量上的结合注意力机制的LSTM(ATAE-LSTM)模型、标准的卷积神经网络(CNN)模型与不含要素类嵌入的门控卷机神经网络(GCN)模型[2]。
实验2:GCAE_ATT模型。输入门控卷积神经网络模型的要素类向量和文本词向量由结合注意力机制的神经网络模型提取出的要素类嵌入矩阵和优化后的文本词向量进行初始化。
实验3:GCAE_SelfATT模型。输入门控卷积神经网络模型的要素类向量和文本词向量由结合自注意力机制的神经网络模型提取出的要素类嵌入矩阵和优化后的文本词向量进行初始化。
Table3.Accuracyandtrainingtimeofaspectcategorysentimentclassificationundertheablationexperiment
5.总结
针对要素类情感分类任务中,大多数方法没有对要素类信息和情感信息进行有效的结合,本文构建了融合自注意力机制下的要素类特征的门控卷积神经网络模型,通过引入自注意力机制获得基于上下文优化后的要素类向量表示,然后将优化后的要素类向量和文本词向量通过门控卷积神经网络模型进行训练,从而进行特性融合。当给出文本中不同的主题时,该模型能够获取到文本中的不同信息。通过在SemEval数据集上的消融实验表明,本文提出的模型所提取的要素类更一致、可解释性更强,对要素类进行情感分类的准确率更高。
本文以流水线的形式先实现要素类提取,再对提取的要素类进行情感极性预测,没有完全利用两个子任务的联合信息。因此,本文的下一步研究重点是多任务学习,同步提取要素类和进行要素类的情感分类。
基金项目
本文系上海市自然科学基金项目“基于自适应的多阶段差分进化计算研究”(项目编号:15ZR1401600)研究成果之一。
作者贡献
张颖:数据获取和论文撰写;郑建国:提出研究方向和方法。