基于BERT深度语言模型的“智慧政务”文本挖掘应用(一)向量算法聚类神经网络

*点链接报名第九届“泰迪杯”数据挖掘挑战赛

源丨第八届“泰迪杯”数据挖掘挑战赛获奖作品

摘要

关键词:BERT深度模型;智慧政务;文本分类;AP聚类;命名实体识别;热点挖掘;答复质量评价

Abstract

Basedonthemilestonetechnologyinlanguageintelligence:BERT,focusedonthetopic“governmentadministrationIntelligence”,thispapercompleted3tasks:(1)automaticmessageclassification,(2)hotspotsmining,(3)evaluatingthequalityofreply.Fortask(1),theF-scoreofBERTontestsetreached92.89%,whichissuperiortobaselineLSTMandFasttextmodel.Fortask(2),weputforwardanewstrategywhichfirstlydidmessageclusteringusingAffinityPropagationalgorithm,thenfurtherexcludedoutliersthroughNamedEntityRecognition.Wecombined3features:duration,thenumberofmessages,andthenumberof“like”and“dislike”votes,thusevaluatingthedegreeofheatofeverytopic.Fortask(3),takingcorrelation,interpretabilityandintegrityintoconsideration,weputforward9featurestoassesseachreply.Thissystemishelpfultoreflectthequalityofeachreplyobjectivelyandcompletely,andimprovetheworkinglevelofcivilservantsandthesatisfactionofpeople.

Keywords:BERTdeepmodel;governmentadministrationIntelligence;textclassification;APclustering;NamedEntityRecognition;hotspotsmining;theevaluationofreply

一、绪论

1.1“智慧政务”文本挖掘的意义

近年来,随着“互联网+政务”服务的推进,市长信箱、民意留言板、阳光热线等网络问政平台逐步成为政府已经成为政府了解民情、听取民声、体察民意、汇聚民智的一个重要桥梁。同时,随着大数据、云计算、人工智能特别是语言智能等技术的不断突破,建立起基于自然语言处理(NaturalLanguageProcessing,NLP)技术的智慧政务系统,已成为社会治理创新发展的迫切需求与新趋势。如何运用NLP技术,批量、智能、高效地处理海量的政务文本,进而建立智能化的电子政务系统,是服务型政府建设中的一个重要子课题。这对于提升政府的施政效率与治理水平,增强人民群众的幸福感,促进社会和谐,都具有重大的积极意义。

1.2“智慧政务”文本挖掘的目标

“智慧政务”文本挖掘的目标主要包含3部分,分别是(1)群众留言的自动分类;(2)群众留言的热点话题发现;(3)留言答复意见的质量评价。

(1)群众留言的自动分类

许多网络问政平台,每天都会接收大量的群众留言。平台的工作人员首先按照预先设置的分类体系,对留言进行归类。这便于将数目浩繁的留言分派至相应的职能部门处理,对症下药。目前,大部分政务系统的群众留言,还依赖于人工凭直觉分类。不仅工作量大、效率低,而且差错率高。因此,利用自然语言处理中的文本分类(Textclassification)技术实现留言自动分类,能极大地减轻政务工作人员的负担。

(2)群众留言的热点话题发现

在海量的群众留言中,存在着许多反映共同问题、表达共同诉求的留言。对它们进行针对性地处理,有利于分清民情诉求的轻重缓急,提升政府服务的质量与效率。这属于NLP中的话题检测与跟踪(TopicDetectionandTracking,TDT)的课题范畴。因此,我们需要探索如何从大量留言中,自动发现某一时段内群众集中反映的热点问题。

(3)留言答复意见的质量评价

1.3语言智能的里程碑技术:BERT深度语言模型介绍

基于神经网络架构的深度学习算法由于其能自动提取数据特征,以及其强大的拟合泛化能力,已经在计算机视觉(CV)、自然语言处理(NLP)、机器人(robotics)、推荐系统(recommendationsystem)等多个人工智能领域取得了重大突破。自从2013年谷歌的Mikolov团队提出词汇语义表示模型word2vec[1]后,海量文本中的每一个词都被表示为一个稠密、低维的实值向量,自然语言处理领域也进入了深度学习时代。

近年来,NLP界以ELMo[2]、BERT[3]代表的预训练深度语言模型(Pre-trainedLanguageModel)在以往神经网络模型的基础上,进一步改善了文本语义表示的效果,并在文本分类、命名实体识别、信息抽取、人机对话、机器翻译、阅读理解等NLP各项下游任务中取得了重大突破,频繁且大幅度刷新了之前地最好结果。例如2018年Google团队发布的BERT模型,在11项不同的NLP测试中,均表现出最佳效果,将通用语言理解评估(GLUE)基准提升至80.4%,超出以往最佳模型7.6%[4]。以BERT为代表的深度语言模型已经成为NLP里程碑式的技术。

预训练深度模型应用于下游任务,主要分为两种策略:

一是基于特征的(featurebased)策略,即固定的语言特征向量从模型中提取出来服务于后续任务,以ELMo模型为代表。

二是微调(Fine-tuning)策略,即在模型顶部添加着眼于具体任务的分类层,并且模型所有的参数也随着下游任务的训练适度优化。微调策略实质上是一种迁移学习(TransferLearning),可以充分利用已训练的深度模型,迁移到新的任务上。与从零开始训练模型相比,微调不仅节省了大量的计算开销,也显著提高了模型的精度。而BERT模型就是采用微调策略的预训练模型的代表[3]。

BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种基于Transformer架构的预训练深度学习语言模型,其结构主要如图1所示:

图1BERT模型基本架构

另外,为增强语义表示的能力,BERT提出了两个预训练的目标任务:遮罩语言模型(MaskedLM,MLM)和下句预测(NextSentencePrediction,NSP)。MLM实质是一个完型填空任务,中文语料中15%的字会被选中,其中的80%被替换为[MASK],10%被随机替换为另一个字,剩下的10%保持原字。模型需要根据句中的其他字,生成被选中字位置的向量,经由一个线性分类器,预测被选中的字。被选中的15%的字之所以没有全部替换为[MASK],是因为该遮罩标记在实际下游任务的语料中并不存在。出于与后面任务保持一致的考虑,BERT需按一定的比例在预测的字的位置放置原字或者某个随机字,使得模型更偏向于利用上下文信息预测被选中字。在下句预测任务中,模型选择若干句子对,其中有50%的概率两句相邻,50%的概率两句不相邻。模型通过上述两个目标任务,能够较好地学习到文本中字词和句间的语义信息。

考虑到BERT模型在语言智能领域的显著优势,本文拟将该模型运用到“智慧政务”文本挖掘之中。采取微调(Fine-tuning)的迁移学习策略,在文本分类、文本聚类、命名实体识别(NamedEntityRecognition,NER)等具体任务上,充分发挥BERT中文模型1的功效。

-未完待续-

DIGMORE

量化投资

小白21天押金打卡丨零基础线上特训营丨初阶线上特训营丨多因子策略线上特训营丨线上分析实战研修班丨五一/暑假线下实训营

THE END
1.关于2024年第十二届“泰迪杯”数据挖掘挑战赛预报名的通知2024泰迪杯数据挖掘竞赛官网:https://www.tipdm.org:10010/#/competition/1734744522337984512/introduce 官网开题时间:2024年3月8日上午9点(公布赛题与部分示例数据) 官网报名时间:2024年4月12日前 官网提交选题时间:2024年4月23日 官网提交作品截止时间:2024年4月26日 ...https://www.wyu.edu.cn/sxxy/info/1016/3460.htm
2.泰迪杯大数据实验室建设大数据实训平台“泰迪杯”数据分析职业技能大赛是由泰迪杯数据分析职业技能大赛组织委员会主办,广东泰迪智能科技股份有限公司及人民邮电出版社联合承办,广东省工业与应用数学学会和网易联合创新中心协办的面向全国职业类院校学生的科技竞赛活动,目的在于以赛促学,激励学生学习数据分析的积极性,提高学生分析、解决实际问题的职业技能;以赛促教...http://www.tipdm.com/tdb/index.jhtml
3.登录第8届泰迪杯官网(http://www.tipdm.org/tzjingsai/1628.jhtml)下...登录第8届泰迪杯官网(http://www.tipdm.org/tzjingsai/1628.jhtml) 下载A题内容及示例数据,并对数据展开研究,形成初步思路及实现方案。提交word文档,要求大纲目录清晰。https://www.shangxueba.com/ask/20625677.html
4.第三届泰迪杯全国大学生数据挖掘竞赛科技大赛6. 三等奖:约10%,奖励泰迪杯数据挖掘竞赛荣誉证书一本,并提供价值200元的纪念品一份。 7. 特等奖、一、二、三等奖获得者可优先得到泰迪科技实习及推荐工作机会。实习优秀者将获优先签约权。 获奖名单公布 获奖名单将在竞赛网站、广东省工业与应用数学学会、华南师范大学数学科学学院网站及泰迪科技官网上发布。 http://m.52jingsai.com/article-761.html
5.泰迪杯数据挖掘挑战赛张颖峰.ppt泰迪杯数据挖掘挑战赛-张颖峰.ppt,问题及解读 问题四:按照数据中给出的时间、冷却负载、室外温度和湿度,试给出所有可控变量的最优控制策略,以及相应的系统总耗电量和系统效率。 约束条件:时间、室外温度和湿度、冷却负载 优化变量:设备状态和可控设备参数 * 中央空调高https://max.book118.com/html/2017/1229/146354588.shtm
6.泰迪杯:第七届“泰迪杯”数据分析技能赛获奖成绩公示参赛经过两个星期的盲审,并于2024年11月27、28日通过线上的方式进行答辩,评选出本科及以上组、专科组“一等奖并获泰迪杯”队伍4支。 各奖项证书参赛者及指导老师每人一份,证书为电子版,各奖项证书颁奖会结束后(…:*各省根据实际情况可设置省级奖项,分别设置一等奖、二等奖https://www.sohu.com/xtopic/TURBd05EVXpNVEl4
1.第七届“泰迪杯”数据分析技能赛获奖成绩公示2024年(第7届)“泰迪杯”数据分析技能赛于2024年9月7日正式开始,共计有来自全国200多所高校的1592支队伍报名参赛。经过两个星期的盲审,并于2024年11月27、28日通过线上的方式进行答辩,评选出本科及以上组、专科组“一等奖并获泰迪杯”队伍4支。 各奖项证书参赛者及指导老师每人一份,证书为电子版,各奖项证书颁奖...https://blog.csdn.net/tipdm0301/article/details/144207215
2.第五届“泰迪杯”数据分析技能赛火热报名中!2022年,“泰迪杯”数据分析技能赛紧跟新时代高技能人才培养理念,进一步推动“岗课赛证”融通。竞赛以项目的形式考察企业大数据工程技术人员、商务数据分析分析师、数据分析处理工程技术人员等职业所需掌握的数据采集与网络爬虫、数据储存、数据预处理、数据分析、数据可视化等岗位核心能力,覆盖教育部“1+X”大数据应用开发(...http://5iai.com/tipdm/gsxw/20221020/2372.html
3.川北幼儿师范高等专科学校官网(cbyz.edu.cn)近日,历时两个月的第十届“泰迪杯”数据挖掘挑战赛圆满结束,来自全国340多所高校3754支队伍参赛,我校选派的三支参赛队伍荣获挑战赛国家二等奖1项和国家三等奖2项。 据悉,本届竞赛旨在推广高校数据挖掘实践教学,培养学生数据挖掘的应用和创新能力,进一步加强校企交流合作和信息共享,不断提升高校的教学质量和企业的竞争...https://pjw.cbyzsc.cn/info/22060719395067503
4.GitHub北京市高校校园大数据竞赛(新) 2018年国际大学生类脑计算创新应用大赛 TinyMind(新) 天池 Kesci(新) DataCastle Biendata(新) DataFountain 第六届-泰迪杯数据挖掘挑战赛 CCDM-2018 2018机器阅读理解技术竞赛 第二届"讯飞杯"中文机器阅读理解评测 SODA 数据嗨客 数愿 竞技乎 知数学院 第三届数据新闻比赛Active...https://github.com/unknownjing/DataSciComp/tree/acb57b53b15454f21880a1b9ca7cc856a69d8109