基于机器学习对5G潜在客户分析与挖掘AnalysisandMiningof5GPotentialCustomersBasedonMachineLearning

基于机器学习对5G潜在客户分析与挖掘

洪晓晴,潘珈,栾瑶瑶,李敏*

青岛大学数学与统计学院,山东青岛

收稿日期:2023年3月14日;录用日期:2023年4月14日;发布日期:2023年4月25日

摘要

关键词

5G潜在客户识别,随机森林,Catboost模型,LightGBM模型

AnalysisandMiningof5GPotentialCustomersBasedonMachineLearning

XiaoqingHong,JiaPan,YaoyaoLuan,MinLi*

SchoolofMathematicsandStatistics,QingdaoUniversity,QingdaoShandong

Received:Mar.14th,2023;accepted:Apr.14th,2023;published:Apr.25th,2023

ABSTRACT

Keywords:5GPotentialCustomersIdentification,RandomForest,CatboostModel,LightGBMModel

ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).

1.引言

伴随着移动智能设备的大规模普及,移动通信技术在人们的工作和生活中饰演了不同寻常的角色,第五代移动通信技术——5G(5thGenerationWirelessSystems)是目前已投入使用的最为先进的通信技术[1]。近年来,社会转型加速,国家正在加强培育数据要素市场、推进治理体系现代化、推进新型基础设施建设,致力打造全新智慧城市。而5G网络的大规模连接能力、高速率传输能力正是智慧城市建设的有力支撑。

5G可高效将城市系统和服务打通、集成,提升资源运用效率,优化城市管理和服务,改善市民生活质量。加快5G用户增长与城市发展深度融合,通过信息化手段解决城镇化过程中带来的问题,既是城市可持续发展所需,也是产业新动能所在。而如何通过模型精准识别5G需求潜在用户,促进4G时代向5G时代转变,以实现基于5G深度应用的智慧城市建设至关重要。

近些年来,数据挖掘技术快速发展,帮助人们更高效地解决了一些实际问题,机器学习等方法被广泛应用于医学诊断、图像处理等各行各业。机器学习的诸多方法和手段,同样可以为竞争日益激烈的通信运营商领域挖掘潜在用户提供指导。本文选取行业代表性企业作为研究对象,选取了某市5万条数据进行二分类建模分析。针对其个人市场业务,基于它拥有大体量客户及海量客户信息的特点,探讨如何开展精准的客户分群营销,提前预警消费流失客户,做好挽留;同时充分挖掘有消费潜力的客户,拉升消费水平,对个人通信客户的消费能力进行深入挖掘,确保移动公司收入保持较高的增长速度。本论文构建5G潜在用户的识别模型,利用大数据优势建立模型,更精准地找到目标用户,可以有效地降低运营商营销成本,并且拓宽运行商行业发展,实现更多4G用户向5G的转型,提升我国的5G用户使用率和覆盖率。

2.国内外研究现状

国内对于通信行业的发展还是走在世界前列的,通信行业随着网络技术和社会的发展,用户对运营商在各时期有着不同的要求。

2016年,周意[2]利用大数据对江西移动4G营销情况做出分析,对4G终端客户的换机行为、用户画像、场景做出分析及营销策略。2020年,董喆人[3]在5G背景下,探究目前流量增收为先的情况下对公司的流量营销做了精准营销优化的研究,为各大运营商推广流量营销给出一定的借鉴和参考意义。同年,欧阳秀平[4]利用机器学习构建和用户信息构建终端品牌推广模型。在识别潜在用户方面,郭林雪[5]借助关联规则对用户的网上购车行为特征进行分析,并根据此类用户的特点,利用协同过滤算法寻找出与老用户有相似行为特征的潜在用户。2022年,周雅婷[6]首先采用KNN算法填补法等三种方法处理缺失值。在模型搭建前,对数据进行了描述性统计分析,可以系统地了解众多变量的分布特征。并搭建了Logistic回归模型、决策树分类模型、随机森林模型、XGBoost模型和LightGBM模型五种模型,并将各个模型在准确率、召回率、AUC这三个评估指标上的表现进行对比分析。

Figure1.Articlestructureflowchart

4.数据处理与分析

本文通过爬取某省移动大数据平台的信息得到原始数据50,000条,包括44个变量。由于变量较多,为了更好的做可视化处理,我们将44个变量建立10个维度,分别为用户标识、用户基础信息、消费行为信息、超套信息、宽带信息、签约信息、套餐信息、流量饱和度信息、其他信息、标签。

4.2.数据预处理

在数据挖掘过程中,海量的原始数据中往往存在大量的异常数据,这些数据的存在会使得建模的执行效率降低,造成结果的偏差。为了提高数据的质量,得到更好的建模效果,需对原始数据预处理。通过对本文中的数据集进行初步探索,本次操作对数据进行的操作包括数据清洗、去除唯一属性、数据变换等。

4.2.1.数据清洗

数据清理是一道能够发现并纠正数据中可辨别错误的程序,从而提高后续所研究数据集的质量,本研究过程中主要进行的操作包括对缺失和重复数据的处理、一致性检查等。

1)缺失值处理

Table1.Missingvariablesandquantity

2)重复值处理

重复值是指数据集中出现属性值完全相同的数据,即某一条或者多条用户数据重复出现。根据用户编码这一唯一标志对数据集中的数据进行检索,发现其中重复值较少,删除重复数据对整体数据影响不大,故对重复值做去除处理。

3)一致性检查

一致性检查将变量合理的取值范围作为依据,观察数据是否合乎实际要求,及时地发现超出合理范围的数据。如本研究对用户的性别、年龄等属性进行探索,性别为男女两种类型,年龄范围在18~60,均属于正常范围。

4.2.2.去除唯一属性

唯一属性是指唯一标识实体实例的属性,通常是指一些ID属性,这些属性并不能刻画样本本身的分布规律,一般不会用在建模之中,可直接予以删除。例如本研究中的user_id和product_no是随机生成的标志用户的属性,并不具有业务意义,故进行删除处理。

4.2.3.数据变换

Table2.Textdataconversion

5.变量筛选

Figure2.Correlationheatmap

6.模型预测

6.1.模型评价指标

Table3.Obfuscationmatrixexample

1)准确率(Accuracy)是所有类别用户预测正确的比率。

2)召回率(Recall)是真正样本用户中被预测结果为正样本用户的比例,通过该评价指标能够反映少数样本类别(开通5G)被正确预测的比例。本文目标变量的各类别数量相差较大,能否正确识别少数样本类别(开通5G)很重要,因此需要考虑该指标的值。

3)AUC值:ROC曲线下半部分的面积,其范围区间在[0,1]之间,面积越大则模型效果越好,此时曲线尽可能的处在左上角,这就能证明模型在预测正确的概率大于模型预测错误的概率。

6.2.随机森林

随机森林是一种由决策树构成的集成算法,属于集成学习中的Bagging方法。由于单一决策树可能会造成过拟合和较大的误差,该算法尝试将多个不同的决策树结合起来,从而减少单一决策树可能存在的缺陷和判断不准确的问题。本文的任务是对5G潜在用户的识别,属于分类问题。当输入新的样本时,森林中的每一个决策树对其进行判别与分类,对每一颗树的分类结果进行归类汇总,将分类结果最多的那一类作为随机森林的最终结果。

6.3.CatBoost

Catboost算法是一种带有分类特征的无偏增强算法,该算法引入处理分类特征的创新算法以及有序提升方法这两类方法,克服了在当前现有的梯度增强算法,普遍存在的后续梯度增强依赖训练集所产生的梯度偏差问题。

Table4.Optimalparametervaluesforrandomforest

Table5.Randomforestevaluationindexresults

1)分类特征目标统计

传统梯度提升算法,经常将离散变量类别转化为数值型处理,处理时按照特征高低分成两类进行处理,低维特征时可以利用One-hot,当遇到高纬度特征时One-hot转化会造成维度灾难的问题。为解决这个问题,提出分类特征目标统计方法,对统计的目标变量进行分组后,用一个新的变量代替分组有效减少分类维度方法。

2)有序提升方法

预测偏移是由梯度偏差影响造成的,具体表现为在梯度增加的迭代时,训练时梯度偏差误估,导致模型过拟合。有序提升一种增强算法,它不会受到预测偏移中梯度偏差的影响,具体方式表现为在梯度提升的每一步,独立地采样一个新的数据集,通过将当前模型应用于新的训练示例,获得未偏移的残差。

Table6.OptimalparametervaluesforCatboost

Table7.Catboostevaluationmetricsresults

6.4.LightGBM

LightGBM(LightGradientBoostingMachine)是梯度提升算法的一种,能够高效处理海量数据。该算法效率达到如此之快,是基于改进的减少样本角度和减少特征角度两类方法,单边梯度采样GOSS,通过保留较大梯度的样本,排除大量的小梯度样本,从而减少样本量;互斥特征绑定EFB,当样本特征较多时,将非零特征排序计算比率,使用合并特征获得最小比率。这两种方法克服了较流行的GBDT利用二阶导数进行梯度增强,在特征维数较大和数据量较大时,效率和可伸缩性稍差等缺点。

LightGBM算法同XGBoost类似,均属于Boosting集成算法中的一种,即在前一轮预测结果基础上进行改进,但是二者的优化方式不同,XGBoost是按层分裂,进行预排序分割,LightGBM算法则按叶子节点的分裂方式进行决策树分裂,并基于直方图算法将特征值分桶再分割,相比前者而言其运行速度得以提升,内存资源占用更低,能够更快速地处理海量数据。本文选取的样本数量较多,为50,000条用户信息,因此将LightGBM算法应用于潜在用户预测研究中,充分发挥该算法灵活可靠的特点。

Table8.OptimalparametervaluesforLightGBM

Table9.LightGBMevaluationmetricsresults

由上表结果可以看出,lightGBM模型预测效果良好,预测准确度达到了90%。也就是说,利用该模型进行预测,可以较准确的分析出5G潜在客户,可以更精准的定位顾客。

6.5.模型比较

Table10.Comparisonofdifferentmodelevaluationindicatorsfor5Gpotentialusers

Figure3.ROCcurvesforeachmodel

6.6.特征重要性分析

(a)(b)(c)

Figure4.Rankingtheimportanceofeachmodelfeature

7.总结

本文利用某省移动5G用户大数据,挖掘理解用户需求,根据现有5G用户的使用行为信息建立潜在用户数据预测模型,结合5G潜在用户数据的特点,以数据挖掘的流程为主线,在分类算法层面实现了对5G潜在用户的预测。

本文首先对原始数据进行了数据预处理,其中包括缺失值处理、重复值处理、去除唯一属性、数据变换等步骤,并对处理后的数据进行变量筛选,得到24个变量用于后续建模。针对现有的5G潜在用户建立分类预测模型,并考虑样本数据数量多的特点,本文选取的模型有常用机器学习算法:随机森林模型,集成学习算法:CatBoost模型、LightGBM模型,并利用网格搜索法进行模型调参以选取最优参数。结合准确率、召回率、AUC值等指标对各模型的预测效果进行比较发现,CatBoost模型以及lightGBM模型在各方面表现较好。

5G是新一轮科技和产业革命中的核心关键技术之一,截至2022年底,我国5G基站数超过231万个,但是5G的用户使用率仍然偏低,需尽快提升我国的5G用户率。本文通过统计方法与建模正确识别5G潜在用户,为运营商提供参考,对潜在的5G用户提供精准产品推销,实现更多用户从4G向5G的转型,推进我国智慧化城市和数字经济的发展。

THE END
1.用户画像方法论与工程化解决.pdf用户画像-方法论与工程化解决 《用户画像》 方法论与工程化解决方案 讲师:何嘉冰2023/12/6 1 自我介绍 经验: 有多年跨境电商和互联网行业的数据分析经验,熟悉数据应用体系(建模预测、经 营分析、运营分析和供应链分析、搭建指标体系、企业驾驶舱、分析报告、 AB实验分析、用户画像) 荣誉: 证书:CPDA数据分析师...https://m.book118.com/html/2024/0204/8100035134006033.shtm
2.基于用户画像的信息智能推送方法AET将用户画像中各信息本体按照权重排列,采用LBS技术定位用户实时位置,以位置和信息本体为查询条件,查询信息数据库,将查询结果组合、排序,为用户提供符合个人情况的智能信息,如图3。 3结束语 本文提出的信息本体概念利于用户描述和计算机处理,基于行为 主题、主题 词汇及行为 词汇模型的信息本体提取方法和采用对象、时间、地...http://www.chinaaet.com/article/3000057223
3.用户画像标签体系建设指南用户画像是对现实世界中用户的建模,用户画像应该包含目标,方式,组织,标准,验证这5个方面。 目标:指的是描述人,认识人,了解人,理解人。 方式:又分为非形式化手段,如使用文字、语言、图像、视频等方式描述人;形式化手段,即使用数据的方式来刻画人物的画像。 https://www.360doc.cn/article/21693298_1126524705.html
1.大数据分析银行用户画像系统mob64ca12d32849的技术博客在构建一个大数据分析银行用户画像系统的过程中,需要遵循以下步骤。下面是一个概要流程表: 2. 各步骤详细说明 2.1 数据收集 为了收集用户数据,我们可以使用Python的requests库从API获取数据。 importrequests# 定义API的URLurl="# 发起GET请求,获取用户数据response=requests.get(url)# 检查请求是否成功ifresponse.statu...https://blog.51cto.com/u_16213311/12621272
2.推荐阅读如何用大数据构建精准用户画像?谈用户画像数据建模方法 伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深...https://cloud.tencent.com/developer/article/1050630
3.用大模型生成用户画像,让数字化营销更精准高效用户画像是数字化营销中的重要工具,它可以帮助产品经理和运营人员了解用户的需求、偏好和行为,从而提供更个性化和优质的服务。本文介绍了用户画像的生成方法,包括特征提取、模型训练和用户画像生成三个步骤,并重点阐述了人工智能大模型在这些步骤中的作用。大模型是指具有超大规模参数和数据的深度学习模型,它们可以在多个领...https://maimai.cn/article/detail?fid=1813446809&efid=UwNACn2XZMX2FDDFFyZjZQ
4.人工智能入门实战:如何使用人工智能进行用户画像构建数据质量不稳定,可能导致分析结果不准确。 分析方法单一,难以捕捉用户的多样性。 因此,人工智能技术在用户画像构建方面具有很大的潜力。人工智能可以帮助企业更有效地处理大量数据,提高分析效率,同时也可以通过机器学习算法来捕捉用户的多样性,从而更准确地构建用户画像。 https://blog.csdn.net/universsky2015/article/details/135040437
5.用户画像数据建模方法用户画像数据建模方法 ——萝卜网数据分析培训系列之 主讲人:萝卜网特聘讲师 22 大纲 一、什么是用户画像? 二、为什么需要用户画像 三、如何构建用户画像 四、总结 3 一、什么是用户画像? 4 一、什么是用户画像?用户信息标签化 5 一、什么是用户画像?二、为什么需要用户画像 6 二、为什么需要用户画像 三大好处 ...https://doc.mbalib.com/m/view/7368615bc7022a50643c3974ca69c71e.html
6.构建用户画像的步骤方法,首先是数据建模工作中可以利用电动机启动或停止的方法作联系信号。 A. 正确 B. 错误 查看完整题目与答案 任何电动机的运行数据,都不允许超过铭牌值。 A. 正确 B. 错误 查看完整题目与答案 无制造厂规定时,在电动机运行额定转速3000r/min时,振动值(双振幅)不应超过0.085mm A. 正确 B. 错误 查看完整题目与答案...https://www.shuashuati.com/ti/9a61484ebf8e4d96bc853aca9b572603a1.html
7.电力用户画像构建方法泛在电力物联网能源互联网用户画像建模与大数据分析方法 如图7-4所示,基于大数据的电力用户画像分析系统及其建模方法和过程主要包括: (1)数据源系统。用户画像分析系统的数据源主要包括:数据类系统,来自于用电物联网系统的用电数据、用电器的用电状态、新能源的设备设施运行参数、智能电网供用电参数等;互联网渠道系统,主要指用户通过互联网平台...http://www.sgcio.com/technology/pm/67739.html
8.如何构建用户画像,4个方法!青瓜传媒用户画像作为一个很常见的设计工具,在C端已经有一套很成熟的理论了,比如Alen Cooper的“七步人物角色法”,Lene Nielsen的“十步人物角色法”等,这些都是非常专业的构建用户画像方法,值得我们借鉴和学习。企业可以根据自己的业务指标创建用户画像,它可以帮助我们了解用户的需求、体验、行为和目标。 https://www.opp2.com/?p=232705
9.客户画像需要运用哪些方法基础数据分析法指的是,通过对已有的客户数据进行深入研究和分析,提取出重要的客户资料,如用户购买记录、个人信息、活跃度、订单信息、交易行为等等,综合考察多方面的信息因素,对客户进行精准分类和定位,以此为基础制作客户画像。 基础数据方法的优点在于它对企业来说是比较直接可操作的方法,它可以基于已有的客户信息进行...https://www.linkflowtech.com/news/2627
10.如何进行用户画像建模打标签用户画像中用户行为标签是很重要的一块内容,本文将详细讲讲如何打行为标签。 数据仓库 用户画像的应用流程从原始的数据输入到模型应用可分为5块(图1),包括将操作型环境数据经ETL后集中存储在数据仓库,之后经过对数据的建模、挖掘、分析建立用户画像模型,最终将建好用户画像的数据接口调用到BI报表、经营分析、精准营销...http://zuopm.com/data/1379.html
11.百分点科技百分点科技是领先的数据科学基础平台及数据智能应用提供商,以“用数据科学构建更智能的世界”为使命,为政府和企业提供端到端的场景化解决方案,在数字城市、应急、公安、统计、生态环境、零售快消、媒体报业等多个领域,助力客户智能化转型。http://www.baifendian.com/
12.如何进行准确的用户画像分析?教你3分钟看懂用户偏好第三步:构建用户画像 在搜集完用户数据信息之后,企业便可以让专业人士进行用户画像分析,对搜集到的信息建模,进行分类汇总。收集到的信息主要可以分类汇总成以下几个部分: who:区分用户,定位用户信息; when:用户这一消费(浏览)行为主要在什么时间段内发生; https://boardmix.cn/article/yonghuhuaxiang/