*点链接报名第九届“泰迪杯”数据挖掘挑战赛
源丨第八届“泰迪杯”数据挖掘挑战赛获奖作品
摘要
关键词:BERT深度模型;智慧政务;文本分类;AP聚类;命名实体识别;热点挖掘;答复质量评价
Abstract
Basedonthemilestonetechnologyinlanguageintelligence:BERT,focusedonthetopic“governmentadministrationIntelligence”,thispapercompleted3tasks:(1)automaticmessageclassification,(2)hotspotsmining,(3)evaluatingthequalityofreply.Fortask(1),theF-scoreofBERTontestsetreached92.89%,whichissuperiortobaselineLSTMandFasttextmodel.Fortask(2),weputforwardanewstrategywhichfirstlydidmessageclusteringusingAffinityPropagationalgorithm,thenfurtherexcludedoutliersthroughNamedEntityRecognition.Wecombined3features:duration,thenumberofmessages,andthenumberof“like”and“dislike”votes,thusevaluatingthedegreeofheatofeverytopic.Fortask(3),takingcorrelation,interpretabilityandintegrityintoconsideration,weputforward9featurestoassesseachreply.Thissystemishelpfultoreflectthequalityofeachreplyobjectivelyandcompletely,andimprovetheworkinglevelofcivilservantsandthesatisfactionofpeople.
Keywords:BERTdeepmodel;governmentadministrationIntelligence;textclassification;APclustering;NamedEntityRecognition;hotspotsmining;theevaluationofreply
一、绪论
1.1“智慧政务”文本挖掘的意义
近年来,随着“互联网+政务”服务的推进,市长信箱、民意留言板、阳光热线等网络问政平台逐步成为政府已经成为政府了解民情、听取民声、体察民意、汇聚民智的一个重要桥梁。同时,随着大数据、云计算、人工智能特别是语言智能等技术的不断突破,建立起基于自然语言处理(NaturalLanguageProcessing,NLP)技术的智慧政务系统,已成为社会治理创新发展的迫切需求与新趋势。如何运用NLP技术,批量、智能、高效地处理海量的政务文本,进而建立智能化的电子政务系统,是服务型政府建设中的一个重要子课题。这对于提升政府的施政效率与治理水平,增强人民群众的幸福感,促进社会和谐,都具有重大的积极意义。
1.2“智慧政务”文本挖掘的目标
“智慧政务”文本挖掘的目标主要包含3部分,分别是(1)群众留言的自动分类;(2)群众留言的热点话题发现;(3)留言答复意见的质量评价。
(1)群众留言的自动分类
许多网络问政平台,每天都会接收大量的群众留言。平台的工作人员首先按照预先设置的分类体系,对留言进行归类。这便于将数目浩繁的留言分派至相应的职能部门处理,对症下药。目前,大部分政务系统的群众留言,还依赖于人工凭直觉分类。不仅工作量大、效率低,而且差错率高。因此,利用自然语言处理中的文本分类(Textclassification)技术实现留言自动分类,能极大地减轻政务工作人员的负担。
(2)群众留言的热点话题发现
在海量的群众留言中,存在着许多反映共同问题、表达共同诉求的留言。对它们进行针对性地处理,有利于分清民情诉求的轻重缓急,提升政府服务的质量与效率。这属于NLP中的话题检测与跟踪(TopicDetectionandTracking,TDT)的课题范畴。因此,我们需要探索如何从大量留言中,自动发现某一时段内群众集中反映的热点问题。
(3)留言答复意见的质量评价
1.3语言智能的里程碑技术:BERT深度语言模型介绍
基于神经网络架构的深度学习算法由于其能自动提取数据特征,以及其强大的拟合泛化能力,已经在计算机视觉(CV)、自然语言处理(NLP)、机器人(robotics)、推荐系统(recommendationsystem)等多个人工智能领域取得了重大突破。自从2013年谷歌的Mikolov团队提出词汇语义表示模型word2vec[1]后,海量文本中的每一个词都被表示为一个稠密、低维的实值向量,自然语言处理领域也进入了深度学习时代。
近年来,NLP界以ELMo[2]、BERT[3]代表的预训练深度语言模型(Pre-trainedLanguageModel)在以往神经网络模型的基础上,进一步改善了文本语义表示的效果,并在文本分类、命名实体识别、信息抽取、人机对话、机器翻译、阅读理解等NLP各项下游任务中取得了重大突破,频繁且大幅度刷新了之前地最好结果。例如2018年Google团队发布的BERT模型,在11项不同的NLP测试中,均表现出最佳效果,将通用语言理解评估(GLUE)基准提升至80.4%,超出以往最佳模型7.6%[4]。以BERT为代表的深度语言模型已经成为NLP里程碑式的技术。
预训练深度模型应用于下游任务,主要分为两种策略:
一是基于特征的(featurebased)策略,即固定的语言特征向量从模型中提取出来服务于后续任务,以ELMo模型为代表。
二是微调(Fine-tuning)策略,即在模型顶部添加着眼于具体任务的分类层,并且模型所有的参数也随着下游任务的训练适度优化。微调策略实质上是一种迁移学习(TransferLearning),可以充分利用已训练的深度模型,迁移到新的任务上。与从零开始训练模型相比,微调不仅节省了大量的计算开销,也显著提高了模型的精度。而BERT模型就是采用微调策略的预训练模型的代表[3]。
BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种基于Transformer架构的预训练深度学习语言模型,其结构主要如图1所示:
图1BERT模型基本架构
另外,为增强语义表示的能力,BERT提出了两个预训练的目标任务:遮罩语言模型(MaskedLM,MLM)和下句预测(NextSentencePrediction,NSP)。MLM实质是一个完型填空任务,中文语料中15%的字会被选中,其中的80%被替换为[MASK],10%被随机替换为另一个字,剩下的10%保持原字。模型需要根据句中的其他字,生成被选中字位置的向量,经由一个线性分类器,预测被选中的字。被选中的15%的字之所以没有全部替换为[MASK],是因为该遮罩标记在实际下游任务的语料中并不存在。出于与后面任务保持一致的考虑,BERT需按一定的比例在预测的字的位置放置原字或者某个随机字,使得模型更偏向于利用上下文信息预测被选中字。在下句预测任务中,模型选择若干句子对,其中有50%的概率两句相邻,50%的概率两句不相邻。模型通过上述两个目标任务,能够较好地学习到文本中字词和句间的语义信息。
考虑到BERT模型在语言智能领域的显著优势,本文拟将该模型运用到“智慧政务”文本挖掘之中。采取微调(Fine-tuning)的迁移学习策略,在文本分类、文本聚类、命名实体识别(NamedEntityRecognition,NER)等具体任务上,充分发挥BERT中文模型1的功效。
-未完待续-
DIGMORE
量化投资
小白21天押金打卡丨零基础线上特训营丨初阶线上特训营丨多因子策略线上特训营丨线上分析实战研修班丨五一/暑假线下实训营