最近我一在杭州做外贸生意的老表让我给他推荐一辆车,自己的宝来开了5年多,感觉不香了,这次要我给他从BBA中选一个,落地35万以内落地。我想这做生意稳重一点,35万以内差不多就是奔驰C,宝马3和奥迪A4中选了。至于选哪一个就很头疼了。
我们知道每辆车都有它的特点和受众群体,特别是对于这种有上百年品牌积淀的BBA。奔驰的高逼格,宝马的驾驶感,奥迪的科技感等,但是这些特点不一定是你买它的理由。
每辆车肯定都有缺点,如果这些缺点你无法忍受,那一定是你不买的理由。与其打破脑袋做选择题,不如换个思维方式,用排除法,做“不选”题。
按照这个思路,我就想着怎么样把这三个车的问题搜集出来,对比看看哪个更加无法接受。最后在做出选择。思路有了,问题就有了解决方案了:
搜集各个车型的问题
搜集完后做数据清洗聚合
问题点生成词云对比,更具有视觉效果
好了,说干就干。第一步,问题搜集。要搜集问题,自然要找投诉网站。有个12365车质网就是让用户上报投诉信息的,我们也可以按照车型搜索投诉信息,如图:
搜索后,得到详细的投诉信息列表,很全很强大!
我们只要把这些信息写个爬虫爬下来就可以了。这个简单。按照我们之前写过的爬虫,5分钟,总共不超过20行代码,就把这些数据拿下了。没办法,python爬虫就是这么强大!特别是对于这种第三方机构的网页,基本上没有什么反爬虫措施。爬取后的数据如下,大概10000条:
每一行为一个投诉,每个投诉有车型车款投诉信息和投诉日期等字段,完全够用了。
原材料有了,接下来就开始做菜了。按照需求:“分析每个车型的主要缺点,看看哪个更加无法接受”来搭建数据分析的指标和方法。
我的思路:第一,总体观:先看看哪个车型故障比较多第二,细化到每个车型在看看每个车型的主要问题
总体分析简单,直接用pandas聚合,看看每个车型的投诉总数和占比:
可视化:
这里有一家网站,车主之家,可以按照车型查找到每个月的销量:
同样的,我们用爬虫爬取了2009-2019共11年三个品牌的销量数据:
OK,把这个数据和投诉数据放到一起:
销量可视化:
我靠,这下死的明白了!
宝马11年共卖了近140万辆3系,在三者中最高,但是投诉数量却是最少,从数据上看似乎质量比另外两个可靠。
奥迪A4在销量方面比宝马3系稍逊一筹,超过120万辆,但是投诉数量确是宝马4倍左右。
奔驰的销量和两外两兄弟不在一个级别上,但其实投诉也不少。
我们再来看一下按月份销量走势图:
2009-2015,宝马3系的历年销量都是最高,但是2015年之后不知道发生了什么,这种优越感荡然无存。特别是2019年下半年开始,销量大幅下滑,现在处于稳步复苏阶段。
最近几年(2015-2019),三个车型的销量非常接近,竞争越来越激烈。
再来看一下按照月份的投诉量统计:
基本上每个月奥迪的投诉总量都是最高,宝马最低。
但是要看到宝马和奔驰的投诉数量近几年有增长的趋势
奥迪在2015年前后和2017-2019年有个投诉集中爆发的阶段,其实如果把这些非常高的离群点处理掉,奥迪投诉量没有那么夸张。
综上,从整体数据来看:
宝马3系的投诉总量最低,而且是在销量最高的前提下。但是要看到宝马3系的黄金时期是在2009-2015年间。销量大幅领先且投诉少。最近几年投诉量有上升趋势。
奔驰随着产量销量的上升,投诉量也在增长。
从数据上来看,最不推荐的是奥迪A4,投诉量一直居高不下。
但是:
第一,这只是一家网站的数据,是否全面需要商榷;第二,每个品牌的车主是否都有上网投诉的习惯,这个也是未知。后期打算做一个各个品牌车主的人物画像在深入分析。
这里在此强调以上只是通过数据就事论事。
第二步:各个品牌的缺点画像。
这里的内容主要是用jieba分词来对统计投诉问题做词频统计,之后利用词云工具来展示。因为python有这些第三方库,做这些事情无比简单。别人做好了工具直接调用即可。
首先先看一下总体的情况:
下面我们在分车型看一下:
按照字母顺序,奥迪先来:
异味和烧机油问题突出。看来烧机油是大众的通病。我们在把词分的更细一点看看:
可以看到除了异响异味以外,防冻液和轮胎也很突出。
在看一下奔驰C:
对比奥迪,奔驰C发动机故障灯亮和4S商家服务问题突出一点。细分在看一下可以看到提到比较多有故障灯,凸轮轴等
最后看一下宝马:
宝马和奥迪一样,都有严重的烧机油问题,但是宝马的似乎和气门机构有关系,这里漏油。
宝马车主还提到发动机控制模块故障和高速熄火问题,这个挺严重
综上:
有了这些问题,在怎么选择,就看个人了。
制作各种复杂报表,搭建数据决策分析系统
企业级数据分析平台,人人都是数据分析师
全方位高时效融合各种数据,打破数据孤岛
轻松制作管理驾驶舱,可视化经营决策监控
提供500+BI模板,20+业务分析体系方案,快速打造高效美观的业务报告与可视化仪表板,一站式解决您的数据分析需求!