在个人金融风控场景,常见的数据除了基础核验外(身份证2要素、银行卡3/4要素、运营商3要素)外,运营商爬虫(现禁用)、央行征信(持牌机构使用较多、助贷机构及金科使用较少)、民间借贷记录、设备行为统计形成的用户画像等,社保、公积金、电商数据由于数据的开放性问题,其实使用的不多。
之前已经分析过航旅数据,这次详细解析覆盖8亿人的铁路数据,希望可以给到各部门伙伴一定的参考。
铁路数据部分字段维度是这样的:
一、覆盖8亿群体的12306历史发展
12306网站于2010年1月30日(2010年春运首日)开通并进行了试运行。用户在该网站可查询列车时刻、票价、余票、代售点、正晚点等信息。
2011年06月12日,京津城际铁路率先试水网络售票。
2011年9月30日,所有动车组线路实施网上订票。
2011年11月20日,Z字头全部直达特快列车车票实施网上订票。
2011年12月23日,铁道部最终兑现在年底前网络售票覆盖所有车次的承诺。
2013年11月20日,12306新增支付宝支付通道。
2013年12月6日,改版后的12306网站上线。
2013年12月8日,12306手机客户端正式开放下载。
自2015年11月26日铁路春运售票工作启动以来,截止12月15日,铁路部门共发售火车票1.7亿张,其中,通过12306网站发售车票突破1亿张,已占到售票总量60%。自2011年推出网络购票以来,12306网站累计发售火车票35亿张。
另外,已经订好的旅客,如果要进行网上退票、改签、变更到站,系统会自动提醒旅客进行退餐,在实体窗口进行了以上操作的旅客,也可在网上自行办理退餐。【意味着,铁路体系的用户餐饮消费记录最早可以溯源到2017年7月。】
2019年5月,来自中国国家铁路集团有限公司的统计显示,系统年售票量已超过31亿张,日售票能力达到1500万张,高峰时每秒售票量达700张,网页浏览量超过1500亿次/天。互联网售票占铁路售票总量的82.8%,12306已经成为世界上规模最大的实时票务交易系统。【10000次浏览量才有1张票成交,万分一的成交率。这其中应该大多都是抢票软件带来的流量。】
中国铁路客票系统作为全球交易量最大的铁路票务系统,已服务8亿人群,并有3亿12306网站注册用户,2亿12306客户端总装机量。
目前,12306互联网售票占比最高超过80%。
铁路客运快速发展积累了大量数据,这些数据产生于系统运行、业务运营、旅客出行等各个环节,对它们的整合和分析可为管理部门提供决策支持,为运营部门业务开展提供支撑,为旅客用户提供更个性化、更好的社会化服务。因此,充分发掘和利用这些数据资产,可为铁路产生巨大的价值。
中国铁路客票团队从2012年开始进行大数据的应用技术研究,针对数据采集、存储、处理、共享、可视化及数据安全等形成技术积累和人才储备,对客运业务及运营需求进行数据归类、模型建立和经验总结,将技术与应用结合实践,搭建小规模的大数据平台,并在部分业务系统中开展试点应用。
【铁道部是在2011年年底前实现网络售票覆盖所有车次,代表铁路+互联网已初步实现,互联网化过程会产生大量线上数据,这就需要铁路部门开始建设相应的数据治理平台及数据在内部应用的尝试】
二、铁路客运用户画像系统
大众出行的工具无非就是自行车、摩托车、汽车、客车、铁路、航空、海运等。铁路作为人们出行的重要交通工具之一,一开始也只是想着或者只提供单一的快速出行服务。但互联网的高速发展、给予了铁路更便捷的购票方式体验,而高速铁路班次的开通为注重出行质量的群体多了一个选择,这样的基础环境下,铁路用户的数量增长很快。
但其实还是会持续面临竞争对手汽运、空运的竞争,并且互联网时代用户都习惯了一条龙的服务。即便是传统的铁路服务也不能不随之升级转变,逐渐往生态合作的方向嵌入出行链前后的产品服务,提升用户体验,提升竞争能力,也为铁路集团延展了更多的收入入口。
例如站车WIFI运营服务、互联网订餐、约车、酒店、旅游等延伸服务系统,延伸服务的开发为铁路客运一站式服务提供了基础。维护客户关系的核心的保障核心服务质量的同时,给与客户出行链条全方位的增值服务。
与之匹配的,将原本的客运决策系统,仅能基于客座率、运行图、旅客出行规律等提供决策服务的,重新升级打造成为增加针对旅客购票行为、出行行为、订餐行为、站车WIFI上网等数据进行深入挖掘的的用户特征的分析系统,满足不同旅客的个性化产品服务需求。
客运用户画像的规划起因:
一方面,铁路企业无法依赖传统的运输服务来分析旅客的特征及分类;另一方面,随着铁路的竞争对手(航空、公路等)对旅客用户标签特征的越来越重视,这种反差会直接导致铁路高价值旅客的大量流失。因此才有铁路公司自行打造客运用户画像系统的念头。2.1系统总体架构设计
铁路客运用户画像系统需要与铁路12306互联网售票系统、客运营销系统、站车WIFI运营服务系统、互联网订餐系统等进行数据交互,考虑跨网数据传输、设备资源分布等情况,铁路用户画像系统主要在铁路服务内网建设。
2.2对接系统及数据
2.3数据处理的类型
2.4铁路系统主要数据源分布
作为数据存储和处理的基础平台,铁路客运用户画像系统需要从多个客运生产、服务系统以及延伸服务系统中进行数据采集。
(1)铁路客票发售和预定系统
铁路客票发售和预定系统(简称“客票系统”)主要包含旅客实名信息、铁路客票数据、订票存根等。
(2)铁路12306互联网售票系统
铁路客运用户画像系统可以从铁路12306互联网售票系统获取旅客购票行为方面的信息。
(3)铁路旅客运输管理信息系统
铁路旅客运输管理信息系统(简称“客管系统”)是以客运管理和服务人员为用户,集客运乘务管理、站车交互、旅客服务于一体的综合管理信息系统,实现了旅客运输管理和服务信息的共享。
(4)铁路旅客运输清算系统
铁路旅客运输清算系统以清算规则为依据,通过创建清算数据库、构建清算模型和规则库进行清算处理,为运输企业提供收入费用的清算和资金结算服务,同时利用智能分析和数据挖掘技术为运输企业提供辅助决策支持。
(5)12306客户服务系统
12306客户服务系统是铁路服务客户的重要窗口,系统采取语音自助、人工在线、网站查询、客户信箱等方式,为社会和铁路客户提供客货运输业务和公共信息查询服务,并受理旅客投诉、咨询和建议,累计了大量的旅客的反馈数据和问题处理方式集。
铁路客运用户画像系统可以从12306客服系统获取旅客咨询、反馈、投诉方面的信息。
(6)铁路财产保险信息系统
铁路财产保险信息系统是为适应铁路保险业务快速发展的需要,以保险核心业务系统、电子商务系统、财务系统为重点,利用既有铁路信息资源,构建的保险信息服务体系,实现了投保、承保、理赔、客户服务等保险业务全流程的电子化、网络化。
【投保理赔方面的数据,用在意外险营销场景比较直接,另外可以根据投保及理赔情况,给与保险机构一定的核保风控参考作用】
(7)短信平台
短信平台与现有交易业务系统紧密结合,提供短信息收发功能,目前主要包括铁路12306互联网售票系统注册用户的注册通知、购票通知、行程通知等数据,有助于提升用户体验和实现精准营销。
铁路客运用户画像系统可以从短信平台获取用户在验证、订票等环节的一些操作信息。
(8)支付平台
电子支付平台为业务系统提供支付功能,支撑客户进行业务办理,如互联网购票、窗口POS购票、办理货运业务等。
(9)延伸服务系统
(10)外部系统
三、基于用户行为的用户画像1.铁路旅客画像
四、铁路用户画像实现步骤
构建用户画像包含以下步骤:
4.1数据源分析
【铁路自身的风控系统,针对防黄牛、薅羊毛、恶意抢占票的数据基本都是以动态数据为主】
4.2客票特征数据
购票日期、购票时刻、上车站、下车站、购买席别、购票方式。
由于标签和标签规则需要业务专家参与进行制定,所以定义好画像的目标是至关重要的。通过对目标的确定和数据的分析,定义出对应的用户标签(兴趣、偏好、需求等),最终为用户打上标签。同时定义出来的标签根据业务的不同,可以分成事实标签、业务标签、模型标签、反馈标签等类型。
反馈标签:有房一族、有车一族、富豪人群、企业高管、出行达人、价格敏感。模型标签:高消费人群、目的预测、消费指数、影响力指数、价值评分、潜在分析。业务标签:旅客定位、活跃度、出行等级、出行规律、接触点、出行喜好。事实标签:人口属性、社会属性、会员属性、消费习惯、出行记录、出行方式。4.5标签计算
(1)标签计算模型参考
(2)基础标签计算参考
用户的基础标签主要包括用户的证件号、姓名、手机号、籍贯、年龄、性别等,其中证件号、姓名、手机号等都可以根据用户的实名制信息或者注册信息直接获得。
(3)统计类标签计算参考
主要是根据旅客交易行为数据进行计算,可以获得旅客的交易频次、出行偏好、消费水平等特征的数字化体现,为旅客群体分类提供了重要的数据基础。在铁路客运用户画像系统中,用户的统计类标签主要包括购票次数、退票次数、购票金额、出行里程等,这些标签根据统计周期分为近一年、近9个月、近半年、近3个月、近7天等5大类。
根据旅客的出行、交易、偏好等信息进行计算,以某旅客为例的统计标签计算如下所示:
用户出行标签:近3月乘车总次数、近1年乘车总次数、近1年车费消费总金额、近1年乘车总里程、近1年总旅行时长、近1年乘车总里程。用户交易标签:近1年订单总数量、近1年交易未支付总张数、近1年作为乘车人退票总次数、近1年作为乘车人改签总次数、近1年车票挂失次数、近1年改签数量、近3月作为乘车人退票总次数、近3月作为乘车人改签总次数。用户偏好标签:近1年普通席别乘车数量、近1年高端席别乘车次数(软卧、高软、特等、商务)、近1年互联网购票比例、近1年手机购票比例、近1年提前0-24小时购票比例、近1年提前24-48小时购票比例、近1年提前48小时以上购票比例、近1年G等级列车乘车比例、近1年D等级列车乘车比例、近1年C等级列车乘车比例。
特征分析举例,近一年提前0-24小时购票比例判断该旅客出行有无计划及频率占比、近一年GDC等级列车乘车比例判断消费水平、近一年手机购票比例判断手机购票频次等。故通过对旅客统计类标签的计算结果进行分析,可以基于某一个特征或者少数特征组合对旅客进行群体划分。
基于以上铁路用户的基本出行标签数据,金融风控环节如何使用?营销环节如何形成用户画像?我们先来看看铁路用户数据背后的含义。
4.6铁路用户特征
铁路用户特征主要包括:性别、年龄、收入水平、职业特点(个体商人、企业老板、公职人员、自由职业),家庭环境等因素。
(1)年龄与性别
(2)职业
旅客出行行为的选择将会在一定程度上受到个人职业的影响。按照职业的不同,大致可以将出行者分为自有职业人员、个体商人出差、政府企事业单位等部门的公务员公务出差,以及中低收入者、学生出行等几大类。
比较来看,公务员在出行过程中喜欢选择快速、舒适、安全、高效的出行方式,对于价格敏感度较低,自有职业人员在出行时对价格敏感程度相对较高。学生群体,因为可以半价乘坐火车的原因,则学生中绝大部分更倾向于选择铁路这一方式出行。
(3)收入
收入高低会直接影响绝大出行者的出行行为。不同收入水平阶层的出行者由于其日常生活习惯的不同,出行行为存在着明显的不同。收入较高、经济能力较强者,鉴于其对生活质量的要求,其在出行中更愿意以高价钱获得更好的、更舒适的出行环境。
出行者会在个人经济承受能力与出行需求之间寻找一个相对的平衡点,此外,出行者的出行目的与出行路线的选择也会直接影响其出行行为。
例如不同的收入水平选择的交通工具肯定不一样,同一区间的收入水平的群体选择相同的交通工具的不同档位的服务肯定有区别。
(4)样本年龄及收入结构
这里收集某调研报告中的调查样本年龄分布数据:
调查样本年龄结构:
4.7铁路用户出行特性
(1)出行工具
市内:步行、自行车、摩托车、小汽车等。
私人交通方式;常规公交、轨道交通、出租车等公共交通方式。目的:通勤、通学、休闲娱乐、购物、回程等。
城市群城际间出行:公路、铁路、水运、航空及城际轨道交通。城市群一般半径为400KM,公路及铁路更具竞争优势。目的:公务、商务、出差、旅游、探亲访友等。
(2)出行距离
出行距离的长短会直接影响到出行者的出行行为。例如在出行距离较短时,出行者大多会选择自驾、乘公共汽车等公路方式出行,公路出行方式的多样性也使得公路交通方式在短距离出行中具有很大的灵活性。
同时公路广泛覆盖的特点可以轻松实现门到门的便利旅行,而对于较长距离的出行,铁路出行则会作为出行者的首要选择,其主要原因是铁路出行相对比较经济、安全、快速与高校。
在运行速度与舒适程度的大大提高使得更多的人们在800-1000公里左右的出行时转向选择铁路交通,但对于1000公里以上或者更远距离的出行,由于铁路覆盖范围的局限性,使得航空运输占有一定的优势。
(3)出行目的
工作、公务、经商、旅游、出差、访友、购物、探亲等。
不同出行目的的出行者,对交通运输服务指标的要求也存在明显的差异。例如:因公务问题的出行者,对价格的敏感性较小,他们更多的追求出行环境的舒适、高速与安全。而经商出行的出行者,则更加注重到达时刻的准时性,同样的访友、购物与探亲等自费出行目的的出行者,会综合考虑更多的因素,即如何在经济能够承受的情况下选择相对快捷及及时的出行方式。
(4)出行费用
出行费用是出行者在整个出行过程中所支付的所有经济开销的一种综合评估,也是影响出行者选择出行方式的主要因素。出行费用分为出发地的市内交通费用、目的地市内交通费用以及城际间的交通费用三个部分。
2009年12月26日起,武广高铁开行23趟列车,依据规定,武广高铁开行高速动车组的车次有个新字母打头,为“G”,寓意为“高速”。目前在设计时速为300公里或350公里的线路上运行时,最高时速为300公里,铁路系统标准念法为“高**次”。例如:G字开头1号车G1001次就是武汉站~广州南站直达列车。
2.城际动车组列车(C字头)
2008年8月1日,京津城际铁路正式对公众运行,新启用车次为C+4位数字,意为城际列车,目前最高时速是300公里,铁路系统标准念法为“城**次”。京津城际的车次范围是C2001~C2282次。例如:武汉城际列车的车次范围是C5001~C5720。
3.普通动车组列车(D字头)
目前,在设计为每小时300公里或每小时350公里的线路上行驶时,最高速度为每小时250公里。当在设计为250公里/小时或200公里/小时的路线上行驶时,最大速度为200公里/小时。
4.直达特快旅客列车(Z字头)
5.特快旅客列车(T字头)
最高时速140公里,铁路系统标准念法为“特**次”。跨局特快全程只停省会城市、副省级市和少量主要地级市等特大站或直达,管内特快全程一般只停地级市。此类列车为空调列车。
6.快速旅客列车(K字头)
最高时速120公里,铁路系统标准念法为“快**次”。全程停靠地级市类的中大站,也有少量直达的。此类列车95%以上为空调列车。其中K1-K2000为跨局列车,K7001-K9850为管内列车。
7.普通旅客快车(普快)
范围是1001-5998,即快速客运列车,停靠在县级市和大多数县级大中型车站,大约有40列这种类型的火车。其中,1001-1998是长途列车跨越3局或更多局的本地列车,2001-2998是跨越2局的列车,4001-5998是短途列车铁路局内的本地列车。
8.普通旅客列车
简称普客,或慢车,正规的说法中没有“普慢”。范围为6001-7598,停靠大部分可以停靠的站点。由于票价低廉,列车基本上“站站停”,很受沿线乘客喜爱。
9.临时旅客列车(L字头)
在客流高峰期间运营的临时快速客运列车停靠在县级市和大多数县级主要车站,铁路系统的标准代码为“临时”。这种火车通常在春夏季和国庆节期间行驶。跨局临时旅客列车通常没有空调,这也被称为“农民工专列”。
10.旅游列车(Y字头)
目前只有北京,天津存在这种列车,运行区间为北京北站~延庆站/沙城站,天津站/北站~宝坻/蓟县。
动车组列车:一等座、二等座、部分列车有商务座;还有部分夜间运行的动车组列车有软卧。直达特快列车:以软卧为主,部分列车挂有硬卧和硬座或高级软卧;特快列车:硬座、硬卧、软卧、部分有高级软卧或软座;快速列车:硬座、硬卧、软卧,很少一部分有软座;临时旅客列车、普通列车与快速列车基本相同;城际动车组列车:一等座、二等座;高速列车:一等座、二等座、商务座。六、指标分析逻辑举例6.1单个指标分析
头等舱的多数有钱人;折扣票据的多是普通阶层且提前有计划的,或出游的或定时出差的;当天往返或隔天往返的基本都是商务出行;节假日往返的多是旅游或探亲。
6.2多指标分析
年龄+价格:低年龄+折扣票据属于正常资质用户层;低年龄+正常票价或头等舱的不是富二代就是创业老板;中年+折扣票据的或是旅游客群或是普通阶层;中年+正常票据属正常阶层;中年+头等舱偏老板阶层(公务舱结合分析类似)。
往返地+身份证归属地:目的地与身份证归属地一致的,一般是回家探亲的;出发地与身份证归属地一致的,一般是常驻城市(可结合出发地次数增强判断)。
出行频率+目的地:出行频率高的,目的地基本一样的,基本是商务出行,且属于高端商务了,业务稳定的;出行频率高,但目的地经常变换的,大部分是开拓市场的或者是经常出游的。
另外,铁路出行黑名单可用来判断用户失信行为,能出现在出行失信名单的用户,证明在出行过程中有出现严重的不良行为,那保不准其在真实贷款后,会有不还款或者在催收环节恶意辱骂催收人员的行为。
只不过这部分人群数量过少,出行黑名单是从2018年下旬才逐渐按月公布,每期公布名单一般几百到上千个失信人度等,当信贷公司每天几万几十万的调用过程,只为查询这个几千个航旅失信名单,实际应用价值不大,也会增加中间的查询耗时,影响用户体验。
6.3通过旅客周转量及客流量做分析
2018年每月份全国铁路旅客周转量及客流量
2018年全国铁路客流量为33.75亿人次,旅客周转量为14147亿人公里,人均运转里程为419公里。
2017年全国铁路客流量为30.84亿人次。
2017年全国铁路旅客周转量为13457亿人公里。
2017年全国铁路旅客人均运转里程为436公里。
2018年一到十二月份全国铁路主要指标完成情况表:
这个数据表可以根据当前建模溯源要求自行补充分析,主要是从月份周期中先定位大部分人群的出行目的、家乡位置等,非特殊月份进行商务、出差、通勤的分析会更精确。另外出行人次及公里数在给政府做人口迁徙流动决策分析时比较有用。
6.4通过客运量做分析
2018年全国各大铁路局的客运量排名:
NO.1上海局(客运量:6.78亿人;客票收入:768亿元)2018年发送旅人人数6.78亿人,(2017年6.28亿人),同比增长7.8%。客票收入方面,2018年768亿元,(2017年703亿元),同比增长9.2%。
NO.2广州局(客运量:4.7亿人;客票收入:579.5亿元)2018年发送旅客人数4.7亿人,(2017年4.134亿人),同比增长13.7%。广州局旅客发送人数增长量排第一,增长幅度排第5。客票收入方面,579.5亿元,(2017年511亿元),同比增长13.4%,增量第一,增幅第六。
NO.3北京局(客运量:3.2亿人;客票收入:456.7亿元)2108年发送旅客3.2亿人,(2017年3.07亿人),同比增长4.3%;客票收入方面,456.7亿元,(2017年430.7亿元),同比增长6%。
NO.4成都局(客运量:2.93亿人;客票收入:289.3亿元)2018年旅客发送人数,2.93亿人,(2017年2.45亿人),同比增长19.4%,增量排名与增幅排名均排第三位。客票收入方面:2018年收入289.3亿元,(2017年222亿元),同比增长30.2%,增幅排第三。
NO.5沈阳局(客运量:2.37亿人;客票收入:185.5亿元)2018年旅客发送人数2.37亿人,(2017年2.35亿人),同比增长1%;客票收入方面185.5亿元,(2017年178.3亿元),同比增长4%。
NO.6南昌局(客运量:2.36亿人;客票收入:230亿元)2018年旅客发送人数2.36亿人,(2017年2.22亿),同比增长6.4%;客票收入方面,230亿元,(2017年210亿元),同比增长9.4%。
NO.7武汉局(客运量:1.84亿人;客票收入:212亿元)2018年旅客发送人数1.84亿人,(2017年1.76亿人),同比增长4.5%;客票收入方面,212亿元,(2017年193.7亿元),同比增长9.5%。
NO.8济南局(客运量:1.46亿人;客票收入:153.8亿元)2018年旅客发送人数1.46亿人,(2017年1.35亿人),同比增长7.4%;客票收入方面,153.8亿元,(2017年145.4亿元),同比增长5.7%。
NO.9郑州局(客运量:1.35亿人;客票收入:146.7亿元)2018年旅客发送人数1.35亿人,(2017年1.27亿人),同比增长6.8%;客票收入方面,146.7亿元,(2017年135亿元),同比增长8.6%。
NO.10南宁局(客运量:1.15亿人;客票收入:99.4亿元)2018年旅客发送人数1.15亿人,(2017年1.03亿人),同比增长12.1%;客票收入方面,99.4亿元,(2017年86.6亿元),同比增长14.7%。
NO.11西安局(客运量:1.11亿人;客票收入:126亿元)2018年旅客发送人数1.11亿人,(2017年9071.6万人),同比增长22.6%,增幅全路第一,增量2054.7万人,增量也排到了第4位;客票收入方面,126亿元,(2017年96.4亿元),同比增长30.6%,客票收入方面,西安局增幅同样位居第一。
NO.12哈尔滨局(客运量:1.1亿人;客票收入:82.7亿元)2018年旅客发送人数1.1亿人,(2017年1.12亿人),同比增长﹣1.3%,18个铁路局里面唯一一个负增长的铁路局;客票收入方面,82.7亿元,(2017年80.7亿元),同比增长2.4%。
NO.13太原局(客运量:7520.7万人;客票收入:50.4亿元)2018年旅客发送人数7520.7万人,(2017年7313万人),同比增长2.8%;客票收入方面,50.4亿元,(2017年45.7亿元),同比增长10.2%。
NO.14兰州局(客运量:6082.7万人;客票收入:56.99亿元)2018年旅客发送人数6082.7万人,(2017年5006万人),同比增长21.4%;客票收入方面,56.99亿元,(2017年48.74亿元),同比增长16.9%。
NO.15昆明局(客运量:5463.5万人;客票收入:56.9亿元)2018年旅客发送人数5463.5万人,(2017年4759.6万人),同比增长14.7%;客票收入方面,56.9亿元,(2017年43.6亿元),同比增长30.5%,客票收入增幅排名第2。
NO.16乌鲁木齐局(客运量:3802.5万人;客票收入:51.2亿元)2018年旅客发送人数3802.5万人,(2017年3557.9万人),同比增长6.8%;客票收入方面,51.2亿元,(2017年46.3亿元),同比增长10.7%。
NO.17呼和浩特局(客运量:3566.6万人;客票收入:24.7亿元)2018年旅客发送人数3566.6万人,(2017年3467万人),同比增长2.8%;客票收入方面,24.7亿元,(2017年24.2亿元),同比增长2.3%。
NO.18青藏铁路公司(客运量:1636.4万人;客票收入:21.5亿元)2018年旅客发送人数1636.4万人,(2017年1480.3万人),同比增长10.5%;客票收入方面,21.5亿元,(2017年19.9亿元),同比增长8.1%。
以上罗列的数据目的是找出铁路出行频率最高的城市集群,然后结合城市集群的经济发展及就业工资分布,可以交叉获取群体的资质能力。出行频率不高的城市集群或者是线下金融机构可以考虑的布点选择或者通过其他出行工具数据补充轨迹信息,获取群体资质能力。
6.5常住地界定
根据联合国经济和社会事务部统计司在《人口和住房普查原则与建议》中的建议,常住地可按照以下标准界定:
基于出行数据识别常驻地:
利用铁路旅客出行数据推断常住地信息,受出行数据质量影响,影响因素主要有:
铁路客运用户画像系统实现对全路局交通场景的信息以及延伸服务产生的数据进行交互、汇集、共享,通过数据清理和挖掘分析,为各种铁路客运服务系统进行资源管理、分析与服务提供支持。同时,根据具体的客运业务系统的需要,进一步开发扩展支撑功能。
增值服务主要针对六个方面:核验服务、精准营销、业务预测、风险识别、征信服务。它们都是构建在精准刻画的用户画像的基础之上,其往往存在目标人群定位不准确、轻视用户行为两个问题。而我们的目标是建立精准的“用户画像”,以来支撑构建出准确的用户分群和利用机器学习算法构建的精准营销(个性化推荐)系统、预测系统、风险识别系统、征信服务系统等。
7.1核验服务
2015年年底央行发布的《非银行支付机构网络支付业务管理办法》。这份新的非银支付管理办法于2016年7月1日起正式实施。其要求支付机构为客户开立支付账户的,应当对客户实行实名制管理[45]。
无论从保障消费者权益、防范非法活动、降低支付风险、促进行业发展等那个角度来看,第三方支付实名制都是一件利国利民的好事。但在推行和实施的过程中,无论监管机构,还是支付机构,如能更好的兼顾用户体验,才能把好事办好。毕竟第三方支付行业胜在高效的支付效率和较低的用户交易成本,而差的用户体验必然增加用户交易成本甚至降低支付成功率。这无疑不利于仍然处于起步阶段的网络支付行业持续发展。
目前铁路互联网售票系统注册用户突破3.5亿,乘车旅客信息超过7个亿,全部旅客信息都是通过实名制核验的。所有的数据都是真实可靠的,所以铁路客运用户画像系统可以对第三方服务平台提供身份核验服务,发挥铁路旅客数据的价值,降低第三方支付平台实名制实施的难度。
当然铁路的身份核验服务肯定不如公安部的身份核验服务覆盖率、准确性及时效性,对于一些非涉及资金及敏感信息的场景,铁路的身份核验服务可以使用。
7.2精准营销
对于互联网的营销原本就属于数据驱动的领域,大数据更是提供了一个前所未有的机会,以大数据为基础的智能营销是行业发展的必然趋势。
随着铁路延伸服务的不断完善,铁路客运互联网产品个数和种类快速增长,信息过载是铁路客运大数据环境下最严重的问题之一。这种浏览大量无关的信息和产品过程,无疑会使淹没在信息过载问题中的用户不断流失。
根据旅客的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。为了解决这些问题,铁路客运用户画像系统需要构建个性化推荐系统。
该系统是建立在海量用户画像系统的应用数据挖掘基础上,进行准确定位产品与用户关系的智能服务系统,常见的算法有:协同过滤、基于内容的推荐、基于人口统计学的推荐,为了兼顾各个算法的优点,采用混合推荐算法,为铁路延伸服务系统传入不同推荐算法的推荐的产品列表,以帮助铁路延伸服务为其用户购买产品提供完全个性化的决策支持和信息服务。
7.3业务预测
(1)旅客流量预测
铁路以其运量大、速度快、低效能、污染少、安全可靠等不可替代的优势,逐渐成为了城市间公共客运系统的骨干架构。然而,单一地考虑某一条线路的走向、站点位置,而未从全局整体规划考虑,就不可避免的造成资源的浪费。
(2)餐饮服务预测大数据应用显现出巨大的经济价值。
正是由于餐饮行业竞争激烈而又利润微薄,要想成功实属不易,不少餐馆开始转向大数据以获得竞争优势。而对于餐饮业,大数据的关键在于数据分析的能力,有效的数据分析能力才可能产生高质量的结果。良好的数据资产将成为未来核心竞争力,一切皆可被数据化,铁路客运系统目前服务的用户量已超过7亿,每天会产生大量的数据,这些数据的积累,有助于企业进行预测和决策。
基于铁路客运用户画像系统收集的用户行为数据,通过深入分析,用户的基本信息、消费频次、点菜口味、消费水平等都会被发现,并将其进行提炼,分析有助于企业进行预测和决策,并将其运用到餐饮行业“进、销、存、管理运营”等四个重要节点。
(3)酒店服务预测
市场预测是酒店开展收益管理工作的基础,其主要作用是为酒店收益管理人员获取市场信息、掌握未来市场的需求变化情况,分析顾客的消费行为、实施客房预订与存量控制,价格决策以及确定超订量等提供必需的数据。同时,也为酒店管理者制定市场战略和进行市场决策提供重要的参考依据。
(4)旅游服务预测
旅游行业是大数据应用前景最广阔的行业之一,对用户的行为分析,可以准确预知客流趋向,进而采取相应的措施疏导客流。可以知道游客喜欢什么样的产品,进而开发建设适销对路的产品;还可以知道游客需要什么样的公共服务,进而改进旅游公共服务。
7.4风险识别
(1)异常购票用户识别
为了识别异常用户主要使用两种方案:用户与客票系统交互日志;用户常用联系人之间的关系网络。
用户行为日志作为铁路互联网售票系统提供服务过程中,用户与系统交互过程中产生的有关用户访问行为的数据,日志数据详细描述用户对互联网售票系统的使用情况,通过对海量的购票日志数据进行数据分析,挖掘并提取出用户异常购票行为特征,建立规则库,根据规则识别出异常购票行为。
基于用户的常用联系人构建关系网络,识别出异常用户的子拓扑图,根据识别出的子拓扑图在全量用户及常用联系人的关系网络中进行相似度计算,识别出危险性较高的用户。
通过离线分析识别出异常购票行为和异常购票用户的识别模型,当用户在铁路互联网售票系统购票过程中,实时的收集该用户的行为日志数据以及基本数据(个人信息、常用联系人信息等),并与离线分析出的识别模型进行匹配,从而达到实时的管控和打击黄牛党刷票等行为的目的,维护了互联网售票交易的公平性。
(2)羊毛党识别
羊毛党以多种形式存在于网络里。虚拟多台电脑设备并使用IP欺骗的方式,用软件同时控制多台智能终端做为肉机,在社区软件里组成关联群、招聘“兼职人员”等等,专业的羊毛党可以用极低的成本获取极高的收入,致使许多电商、O2O平台损失惨重,甚至被搞垮。
八、用户画像系统的应用8.1征信服务
大数据的发展对征信发展起到了非常大的促进作用,征信最早起源于消费分期,没有定量的描述。进入大数据时代,用户的行为数据得到了沉淀和积累,可以使用机器学习和数据统计的模型来计算和评估用户的信用,从而促进社会诚信建设的快速发展。
大数据征信面对的是铁路客运所有的旅客行为数据以及上千个维度的评价指标。为了对铁路客运浩繁复杂的数据进行实时、自动的挖掘和计算,铁路客运用户画像系统借助互联网、大数据、云平台等新技术,需要创建一套以全路数据挖掘、旅客信用计算、对外服务三大核心技术为支撑的大数据征信模式,实现了旅客行为数据采集,行为信用计算的一体化和全自动化。不仅能够为铁路客运提供服务,也可以跟其他企业进行信用业务共享。
在金融风控及用户分层场景,部分金融公司在建模过程也获得不错的反馈。特别一些P2P业务客群通过铁路的标签识别出相对优质的小部分客群,然后对这部分客群往银行等优质金融场景导,其实也是在助贷业务做铺垫。
8.2用户核验系统
用户核验系统主要是根据铁路客运用户画像系统计算出的用户标签为第三方提供用户身份核验服务,发挥铁路旅客数据的价值,降低第三方支付平台实名制实施的难度
设计用户信用值计算模型。目前第三方软件以“预付可提高排名”,“专享100M提速光纤”……为“噱头”,吸引了大量的用户借助其进行购票,严重的影响了公平公正的购票环境,为了打击非正常购票用户,上线了风控系统。
九、铁路数据应用场景及价值
以下围绕铁路数据在社会及经济2个维度,简单罗列相应的应用场景供参考。
9.1社会价值
(1)为政府部门提供宏观经济分析报告
铁路客流大数据及货运大数据均体现覆盖区域的人口流动及经济变动情况,形成全国或区域化的宏观经济分析报告,可为政府部门提供全国及区域经济变动情况,辅助政府部门实施更精确的宏观经济调控策略及手段。
(2)与执法部门实现联防联控
铁路大数据已覆盖全国超过8亿的人口,是人民群众出行的主要交通工具,因此铁路部门可以与执法部门联通,联防联控,及时发现犯罪分子的踪迹,实现快速精确打击抓捕犯罪分子的目的,保障铁路出行安全及社会稳定。
(3)助力智慧城市的发展
通过对铁路大数据的挖掘分析及提取,通过XXX打通各部委数据,打造适合智慧城市需求的数据产品,助力智慧城市的发展,实现对城市的精细化和智能化管理,从而减少资源消耗,降低环境污染,解决交通拥堵,消除安全隐患,最终实现城市的可持续发展。
(4)打造包括铁路、高速、国道及海事等全面的交通运输信用体系
通过整合共享公路建设、水运工程建设、道路运输、水路运输、安全生产、海事执法,以及铁路、民航、邮政等领域的信用信息,与全国信用信息共享平台、国家企业信用信息公示系统等国家级平台进行对接共享。推动奖惩信息在行政许可、招标投标等业务系统中的应用,加快构建“守信者无事不扰,失信者利剑高悬”的奖惩格局。
(5)打造铁路智慧供应链,支撑实现货运跨界收益
(6)为优化交通接驳设施提供决策支持
(7)为打造旅游景点选址提供铁路热力数据支持
政府或投资机构可以选择全国铁路乘客热力数据,从人口集中游玩的区域中挖掘适合打造新的旅游景点的数据支撑,或者为扩充景点区域提供可靠游客流量数据支撑。
(8)为政府实现流动人口监测提供人口流动数据做参考
(9)为物流园区科学布点规划提供运力数据参考
铁路历年货运数据可以支撑货运起始地、中转地及目的地三地的物流园区选择,实现铁转路或路转铁的运力调配最优,降低运输链条上各企业的物流运输成本,提高装卸货及运输的效率。
(10)为物流公司提供铁路运输信用体系的不良运输企业名单,降低合作风险
铁路运输体系中涉及的关联运输企业数量众多,这个合作过程中产生的不良运输企业名单,可以为各物流公司在选择合作伙伴时及时发现潜在风险,降低合作后的损失。
商车保费定价中行驶里程、约定行驶区域、车型、投保车辆数、绝对免赔额等都会影响其定价,与铁路货运长期合作的车辆行驶区域相对稳定,里程也比较清晰,有利于车险公司实现更精确的车险保费定价。
9.2经济价值
(1)为保险机构提供经营决策支持
保险机构根据存量客群在保险机构及铁路场景的活跃度,根据年龄、性别、舱位等级、频次及出发到达地点等维度,打造不同保费、保额及保期的出行意外险甚至健康险或寿险等,实现千人千面千险的产品创新,满足不同保险客群的实际保障需求。
根据中国银保监会发布的2018年保险数据统计报告显示,2018年保险业新增保单件数290.72亿件,同比增长66.13%。其中,寿险本年新增累计保单0.89亿件;健康险32.01亿件,增长417.28%;意外险64.99亿件,增长168.51%。
(2)满足保险机构投保反欺诈需求
保险反欺诈主要针对车险及寿险产品,通过对铁路大数据各维度的挖掘,结合外部风险数据,综合判断新增投保及存量续保客户是否有投保欺诈行为的潜在风险。
而2018年寿险本年新增累计保单0.89亿件,车险4.48亿件,假设其中20%的保单的反欺诈是通过铁路大数据实现的,则可为中铁带来3.2亿元的年收入规模。
(3)为旅游机构提供经营决策支持
2018年国内旅游55.39亿人次,而国家铁路旅客发送量完成33.17亿人次。铁路旅客人次少于旅游人次,则可以铁路人次数据作为评估标准。假设铁路人次中有80%是通过铁路出行旅游的(剩下20%为非旅游需求),则也有26.5亿人次,其中平台20%的用户通过通过铁路大数据优化经营决策转化的,则可以带来15.9亿元的年收入规模。
(4)为银行机构提供经营决策支持
随着居民可支配结余资金的稳定增长,国人们对理财的潜在需求在持续提升。同时,互联网网民人数稳定增长以及支付技术的快速发展等为互联网理财的发展提供了基础。
截至2018年12月,我国购买互联网理财产品的网民规模达1.51亿,则各大平台需要对共15亿的注册用户进行资质分层才能知道哪些是优质客群(转化率按照10%反推计算注册用户数量),则可为中铁带来45亿的年收入规模。
(5)为电商平台提供经营决策支持
截至2018年12月,我国网民规模为8.29亿,假设电商平台用户基本覆盖网民,则电商平台用户总数也为8.29亿元,如每人每年需要消费一次,电商平台需要对这些用户进行资质分层,判断该向平台用户推送什么产品。假设平台20%的用户通过铁路大数据优化经营决策转化的,则可带来近5亿的年收入规模。
(6)为教育机构提供经营决策支持
2013年至2017年,毕业生总数从700万人增至800万人,年复合增长率为3.3%,并将于2022年达到930万人。不断增长的高校毕业生总数使其求职竞争更加激烈,毕业生们对职业技能培训的需求增加。
截至2018年上半年,在线教育人数达1.72亿,按照年30%的增长率,新增部分人数是通过铁路大数据优化经营决策转化的,则可带来1.5亿元的年收入规模。
(7)为酒店平台提供经营决策支持
截至2018年12月,在线旅行预订用户规模达4.10亿,较2017年底增长3423万,增长率为9.1%,占网民整体比例达49.5%。网上预订机票、酒店、火车票和旅游度假产品的网民比例分别为27.5%、30.3%、42.7%和14.5%。则酒店在线预订用户数量有近1.24亿人,假设其中平台30%的用户通过铁路大数据优化经营决策转化的,则可带来1.1亿元的年收入规模。
(8)为网约车平台提供经营决策支持
截至2018年12月,我国网约出租车用户规模达3.30亿,假设其中平台30%的用户通过铁路大数据优化经营决策转化的,则可带来2.97亿元的年收入规模。