大数据分析——酒店预订需求数据分析toryd

1、本数据集的数据内容与数据特征分析

列名

数据类型

含义

hotel

object

包含H1和H2,H1指假日酒店;H2指城市酒店

is_canceled

int64

1代表取消,O代表不取消

lead_time

arrival_date_year

入住年

arrival_date_month

入住月份

arrival_date_week_number

在第几周入住

arrival_date_day_of_month

在月份中几号入住

stays_in_weekend_nights

在周末住几晚

stays_in_week_nights

在一周之内住几晚

adults

成年人预订人数

children

float64

儿童预订人数

babies

婴儿预订人数

meal

不同种类餐食预订情况

country

不同国家简写

market_segment

市场划分,分为旅行社代理人和包价旅游承包

distribution_channel

分布渠道,同market_segment

is_repeated_guest

以前是否预订过

previous_cancellations

这次预订以前取消的次数

previous_bookings_not_canceled

这次预订以前没有取消的次数

reserved_room_type

预订房型,类别较多,以字母A-P划分

assigned_room_type

入住的房型,同reserved_room_type

booking_changes

变更预订次数

deposit_type

押金类型

agent

代理商ID

company

公司ID

days_in_waiting_list

证实预订前等待的天数

customer_type

顾客类别

adr

平均每日价格

required_car_parking_spaces

需要的停车位

total_of_special_requests

特殊需求数

reservation_status

订单状态

reservation_status_date

显示订单状态日期

2、数据分析的课程设计方案概述

1)数据收集:如何收集大量数据。

解决方案:通过和鲸社区和Kaggle查找需要的数据。

2)大数据分析:如何结合大数据生成的图表进行分析

解决方案:结合实际情况,如地理位置,活动节日等进行实际推断。

三、数据分析步骤

1、数据源

该数据集来自kaggle

2、数据清洗

检查是否能完整显示各行各列的数据

1#设置显示所有列2pd.set_option('display.max_columns',None)34#读取文件,并显示所有的数据5data=pd.read_csv('hotel_bookings.csv')6df=data.copy()7df.head()显示结果如下:

检查数据中是否有空数据

1'''2#检查数据中缺少的值3#1、先用isnull函数会返回一个布尔型数据框,其中每个元素都表示对应的数据是否为空。4#2、接着使用sum函数对数据为空的所有元素进行求和。5#3、使用布尔索引判断大于0的值,就能得到数据中存在缺失的值。6'''7df.isnull().sum()[df.isnull().sum()>0]

显示结果如下:

对有空数据的列进行数据清洗,并检查是否还存在空数据

1#进行数据清洗2#将agent列中选择所有缺失值的值。并将这些值更新为'Noagent'3df.loc[df.agent.isnull()==False,'agent']='Agent'4df.agent.fillna('Noagent',inplace=True)5#使用Unknown(未知)来填充country(国家)列缺少的值6df.country.fillna('Unknown',inplace=True)7#使用0来填充children(儿童预定人数)列缺少的值8df.children.fillna(0,inplace=True)9'''10#对company(公司ID)列进行更新11#某些行中,细分市场或分销渠道被指定为公司,其中公司行为空,将用Corporate(公司)填充这些空值12#将在公司栏中填写公司的非缺失值13#用Individuals(个人)填充公司列中剩余的缺失值14'''15df.loc[((df.market_segment=='Corporate')|(df.distribution_channel=='Corporate'))&(df.company.isnull()),'company']='Corporate'16df.loc[df.company.isnull()==False,'company']='Corporate'17df.company.fillna('Individuals',inplace=True)1819#查看数据之中是否还存在缺失值20df.isnull().sum()

删除重复冗余的数据,并对每个国家进行归纳整理,将每个国家归入对应的大陆上

3、大数据分析过程

通过pandas.crosstab()函数来生成数据表,方便查看数据间的关系。

1tbl=pd.crosstab(df.hotel,df.is_canceled,margins=True)2tbl

1tbl['cancel_percent']=tbl[1]*100/tbl['All']2tbl

1pd.crosstab(df.hotel,df.is_canceled,values=df.is_canceled,aggfunc='count',normalize=True).plot.bar()2plt.title('酒店取消预订情况')3plt.ylabel('取消预订比例')4plt.xlabel('酒店类型')5plt.show()显示结果如下:

分析:这里可以看出来,CityHotel(城市酒店)取消的人数更多,相比较于ResortHotel(假日酒店)多出了6.5个百分点,除去正常超额预订的情况,CityHotel的取消率还是过高,可能是因为城市酒店位置优越,方便前往商务场所或者旅游景点。此外,城市酒店的价格可能比假日酒店的价格更容易接受。

1sns.distplot(df.lead_time)2plt.show()

1plt.rcParams['figure.figsize']=[8,5]2sns.countplot(x='arrival_date_year',data=df,hue='hotel')3plt.xlabel('年份')4plt.ylabel('预订数量')5plt.title('每年的预订')6plt.show()

分析:从图中可以看出2016年的预订量是最高的,而2015年是最少的,可能2015年后市场需求增加、2015年后酒店更新和建立数量增加等。

1tbl=pd.crosstab(df.arrival_date_year,df.is_canceled,margins=True)2tbl3#添加一列cancel-percent(取消预订的百分比)来显示取消的预订占总预订的百分比4tbl['cancel-percent']=tbl[1]*100/tbl['All']5tbl

1tbl.drop('All',axis=0)['cancel-percent'].plot.bar()2plt.xticks(rotation=0)3plt.xlabel('Year')4plt.ylabel('Cancellation%')5plt.title('2015-2017年取消率')6plt.show()

df[df.is_canceled==1]['arrival_date_year'].value_counts()/len(df[df.is_canceled==1])显示结果如下:

分析:根据图标显示发现,酒店的预订数量和取消率连年增加,说明随着年份增加,酒店市场需求也再增加,随着市场的增加客户的选择更多,当发现有更加好的酒店时,就更容易取消预订过的酒店。也有可能是随着预订数量的增加,酒店进行了房间超售,导致客户不满或无房可住,导致预订取消率增加。

1plt.rcParams['figure.figsize']=[8,5]2sns.countplot(x='arrival_date_month',data=df,order=df.arrival_date_month.value_counts().index)3plt.title('每月预订数量')4plt.xlabel('预订月份')5plt.ylabel('预订数量')6plt.xticks(rotation=60,ha='right')7plt.show()

1plt.rcParams['figure.figsize']=[8,5]2sns.countplot(x='arrival_date_month',data=df,order=df.arrival_date_month.value_counts().index,hue='hotel')3plt.title('每月预订数量')4plt.xlabel('BookingMonth')5plt.ylabel('NumberofBookings')6plt.xticks(rotation=60,ha='right')7plt.show()

1tbl=pd.crosstab(df.arrival_date_month,df.is_canceled,margins=True)2tbl['cancel_percent']=tbl[1]*100/tbl['All']3tbl

#将上表中的取消预订的百分比进行绘制

1tbl.drop('All',axis=0)['cancel_percent'].plot.bar()2plt.title('每个月取消预订百分比')3plt.xlabel('月份')4plt.ylabel('取消预订百分比(%)')5plt.show()

分析:与其他月份相比,8月和7月的预定量是最高的,这期间一般是学校假期,学生群体更容易去其他地方旅游度假或参加聚会活动,所以假期也是假期预订量的关键。但通过后续的取消预订百分比图发现,7、8月份也是取消率最高的月份,根据上一个酒店会超售的分析,再次表明了,在节假日期间,酒店的预订量会过多和匆忙。

#绘制第几周入住的柱状图

1plt.figure(figsize=(10,15))2sns.countplot(x='arrival_date_week_number',data=df)3plt.title('每周入住数量')4plt.xticks(rotation='vertical')5plt.xlabel('每年的周数')6plt.ylabel('数量')7plt.show()

分析:不难发现,第33周的预订量是最高的,推算一下是在8月份附近,进一步支持了8月份节假日举行活动和旅游度假的说法。还看到临近年底与过年前夕,预订数量明显减少,特别是在51周,是预订量最低的一周,根据推算,是在12月份中旬,在国外,这个日子最接近圣诞节,说明人们在这一周会进行圣诞节的准备活动,不会过多的在意酒店预订。

1plt.figure(figsize=(7,7))2sns.distplot(df.stays_in_weekend_nights)3plt.title('周末入住持续天数')4plt.xlabel('周末入住天数')5plt.ylabel('密度')6plt.show()

1plt.figure(figsize=(7,7))2sns.boxplot(x='hotel',y='stays_in_weekend_nights',data=df)3plt.show()

分析:通过盒图发现,两个酒店在周末入住天数其实差不多,所以,周末在CityHotel和ResortHotel住的人只是进行短住,一般持续一两天,长期居住的人较少。

1plt.figure(figsize=(5,5))2sns.distplot(df.loc[(df.stays_in_week_nights==0)&(df.stays_in_weekend_nights==0)]['adults'])3plt.title('成年人预订人数图')4plt.ylabel('密度')5plt.xlabel('成年人预订人数')6plt.show()

分析:由图片可以得知,预订大部分人是单人和双人,只有少数的未成年人和极少数有三个人的预订。人数最多的是双人预订,大部分可能是夫妻和情侣入住,大多可能是以休闲或旅游为主。

#绘制婴儿预订入住图

1plt.figure(figsize=(5,5))2sns.distplot(df.babies)3plt.title('婴儿预订入住图')4plt.ylabel('密度')5plt.xlabel('婴儿数量')6plt.show()

分析:由婴儿预订入住图可以明确的看出,基本上入住的都是没有婴儿的人(排除可能将婴儿放置在亲戚或其他的可能),只有极少数人会带领一个婴儿入住酒店。表明,来入住酒店的人群多是公司旅行、单人旅行、情侣旅行等,只有极少数由婴儿的家庭来旅行。

1plt.figure(figsize=(8,8))2sns.countplot(x='country',data=df)3plt.title('国家地区频率分布')4plt.xticks(rotation=60,ha='right')5plt.ylabel('数量')6plt.xlabel('国家地区')7plt.show()

1tbl=pd.crosstab(df.country,df.is_canceled,margins=True)2#添加一列cancel-percent(取消预订的百分比)来显示取消的预订占总预订的百分比3tbl['cancel_percent']=tbl[1]*100/tbl['All']4tbl

1plt.figure(figsize=(7,7))2tbl.drop('All',axis=0)['cancel_percent'].plot.bar()3plt.title('国家地区取消预订百分比图')4plt.xticks(rotation=60,ha='right')5plt.ylabel('取消预订百分比(%)')6plt.xlabel('国家地区')7plt.show()

分析:从图中可以看出,Africa(非洲)的取消率是最高的,应该是源于签证的问题,因为欧盟有一些严格的规定(欧洲的国家取消比例要低很多),在上图中可以看出,除了未知地区,NorthAmerica(北美)客户的取消率是最低的,这可能是北约的原因。

#绘制市场划分图

1plt.rcParams['figure.figsize']=[7,7]2sns.countplot(x='market_segment',data=df)3plt.xticks(rotation=60,ha='right')4plt.title('市场划分图')5plt.ylabel('数量')6plt.xlabel('市场划分')7plt.show()

1tbl=pd.crosstab(df.market_segment,df.is_canceled,margins=True)2#添加一列cancel-percent(取消预订的百分比)来显示取消的预订占总预订的百分比3tbl['cancel_percent']=tbl[1]*100/tbl['All']4tbl

#绘制市场取消率图

1tbl.drop('All',axis=0)['cancel_percent'].plot.bar()2plt.title('市场取消率')3plt.xticks(rotation=60,ha='right')4plt.ylabel('取消预订百分比(%)')5plt.xlabel('市场划分')6plt.show()

分析:由市场划分图可以发现,绝大多数的记录是通过OnlineTA(在线旅行代理商)获得的,这表明在线旅行代理商在欧盟拥有强大的网络,在网络上有完善的预约流程。还发现有一些Complementary(补充)的记录,这表示可能是酒店方面有报销或补偿的政策。从市场取消率可以发现Undefined(未定义)的取消率是最高的,达到了百分百。这很不正常,查看市场划分数量表后发现,未定义数量有2条记录,这可能是由于系统错误,导致多了两条错误,并全部让其取消了。排除Undefined的记录后发现,OnlineTA的取消率是最高的,这表明,人们在看到网络上的酒店可能跟实际不符,可能导致预订取消的情况。

1sns.countplot(x='distribution_channel',data=df)2plt.title('市场分布渠道图')3plt.ylabel('数量')4plt.xlabel('市场分布渠道')5plt.show()

1tbl=pd.crosstab(df.distribution_channel,df.is_canceled,margins=True)2##添加一列cancel-percent(取消预订的百分比)来显示取消的预订占总预订的百分比3tbl['cancel_percent']=tbl[1]*100/tbl['All']4tbl

#绘制市场分布渠道百分比图

1tbl.drop('All',axis=0)['cancel_percent'].plot.bar()2plt.title('市场分布渠道百分比图')3plt.ylabel('取消预订百分比(%)')4plt.xlabel('分布渠道')5plt.show()

分析:在市场分布渠道图中可以发现,TA/TO(旅行代理商/旅行社)的预订量是最高的,说明酒店与TA/TO的联合合作。在市场分布百分比图中发现Undefined(未定义)的取消率是最高的,查看市场分布渠道数量表后发现,Undefined的数量为5条。将Undefined排除后,发现TA/TO的取消率是最高的,Corporate(公司)的取消率是最低的。这可能是因为公司预订是为了业务目的安排的,因此取消的风险可能较小,公司旅行还可能会有更多的提前安排和计划,这可能会使取消的可能性更小。

4、完整代码

四、总结

通过大数据分析,发现城市酒店的预定量比假日酒店的预定量多。可能是因为城市酒店位置优越,方便前往商务场所或者旅游景点。此外,城市酒店的价格可能比假日酒店的价格更容易接受。然而,城市酒店的预订取消率可能比假日酒店的高,可能是因为城市酒店的客户群更为多样化,其中可能包括许多商务旅客。这些商务旅客可能会因为工作原因或其他突发事件而不得不取消预订。而且,城市酒店的客户群还可能包括许多自由行旅客,这些旅客可能会因为个人原因而取消预订。相比之下,假日酒店的客户群可能更加稳定,因为假日酒店通常是为度假或休闲而安排的,因此客户可能不太可能因为工作或其他突发事件而取消预订。

根据国家地区的分析,酒店具有较多的欧盟客户,说明此数据集是来自于欧盟的酒店数据。这也说明了欧盟国家之间的贸易和经济联系较为紧密,欧盟的人们也更愿意前往邻国旅游。除欧盟本地外,还有不少其他国家和地区的客户,这可能是因为欧盟国家在旅游业方面具有较高的吸引力,包括丰富的文化、历史和自然风光。此外,欧盟国家的交通和通信设施也可能较为发达,使得前往这些国家旅游更加方便。根据分析还发现,酒店的客户中,北美洲的客户取消率普遍偏低而非洲的取消率较高,这说明了北美国家的经济和稳定性较高,因此可能会有较少的突发事件导致客户取消预订,另一方面,非洲国家可能存在较多的政治、经济和社会不稳定因素,这可能会导致客户更容易取消预订。例如,非洲国家可能存在较多的冲突和动乱,这可能会使客户担心前往这些国家的安全。此外,非洲国家的经济可能不太稳定,这也可能会使客户担心旅行的费用是否会发生变化。

2、收获

在这次设计过程中让我更加了解了什么是数据,了解了数据之间的关系,并让我更加熟悉了,pandas库、seaborn库、pyplot等方法的使用。这些可以帮助我对未来的趋势和变化进行预测,让我可以更好的了解市场与客户,可以通过大数据分析来提高业绩,这可以为我带来更多的竞争优势。

在这次的设计过程中,需要修改进步的地方还有很多,比如,可以更改绘图功能,也就是优化数据可视化工具,以便更好的呈现数据。如果可能,可以考虑引入机器学习,以提高效率。

THE END
1.中国汽车商业综合体行业现状调查分析及市场前景预测报告(2024年版)3、消费升级有望激发文教体旅行业写字楼需求 w 五、写字楼规划设计分析 . 1、写字楼建筑规划设计要点 C 2、写字楼配置规划要点 i 3、写字楼智能办公设计 r 4、写字楼生态办公设计 . 第三节 酒店 c 一、酒店行业运行现状 n 二、酒店市场需求分析 中 三、酒店市场竞争分析 智 四、酒店发展前景预测 林 五、...https://www.cir.cn/R_JiaoTongYunShu/66/QiCheShangYeZongHeTiWeiLaiFaZhanQuShi.html
2.中国养生型酒店行业运营动向及投资趋势前瞻报告20242030年*章 全球养生型酒店行业发展现状及趋势预测分析 25 *节 2024年全球养生型酒店产业发展分析 25 一、全球养生型酒店产业发展历史 25 二、世界养生型酒店发展现状 25 三、世界养生型酒店产业链探讨 26 四、2023-2024年世界养生型酒店市场需求分析 29 第二节 2024年世界部分国家养生型酒店产业发展分析 30 ...http://rachel20.blog.bokee.net/bloggermodule/blog_printEntry.do?id=58634518
3.2024本文主要介绍了五星级酒店行业的概述、市场发展分析、发展前景预测、投资分析、经营分析和风险控制等方面的内容。文章详细阐述了五星级酒店的定义、分类、发展历程及现状,以及产业链结构。同时,分析了五星级酒店市场规模及增长趋势、市场需求、竞争格局和主要品牌及经营策略。文章还探讨了五星级酒店的政策环境、经济环境、社...https://m.book118.com/html/2024/1114/6113223205010243.shtm
1.酒店市场需求的深度剖析与精准预测本文力图深入探讨了中国酒店市场需求的现状,并对未来五年内的市场需求进行预测。随着经济的发展、居民消费能力的提升以及旅游业的复苏,中国酒店行业正迎来重要的发展机遇。目前,中端、中高端酒店市场份额逐渐扩大,经营环境持续修复,行业加速向高端化转型升级。未来五年,预计酒店市场需求将继续增长,连锁化、智能化、复合化...https://www.jiudianrong.com/newsdetail/id/12138.html
2.酒店行业市场调研报告(通用17篇)C、未评星级酒店其经营弹性较大外客源比例为:12%;香港客源比例为:7%以上;澳门客源比例为:0.43%;台湾客源比例为:4.55%;可见,境外及港澳台客源占有一定比例,不容忽视,但同时显见,本地主体客源仍以国内客源为主,因此要求本酒店的整体布局、外观设计、功能配置应能适应市场需求,具有中国特色。 https://www.unjs.com/fanwen/Gongzuobaogao/diaoyanbaogao/gongzuobaogao_106315.html
3.酒店需求分析方法(通用8篇)酒店需求分析方法(通用8篇) 篇1:酒店需求分析方法 酒店需求分析报告 喜来登酒店与度假村集团是喜达屋酒店集团中最大的连锁旅馆品牌,而它也是集团中第二老的酒店品牌。喜来登公司主要分布在世界上最有吸引力的繁华的城市和度假村。喜来登公司为来自世界喜来登酒店各地(从阿根廷到津巴布韦)的商务客人和休闲旅游者提供高质量...https://www.360wenmi.com/f/filepmb31imu.html
4.酒店市场调研报告(通用15篇)随着社会不断地进步,越来越多的事务都会使用到报告,报告根据用途的不同也有着不同的类型。你所见过的报告是什么样的呢?下面是小编为大家整理的酒店市场调研报告,供大家参考借鉴,希望可以帮助到有需要的朋友。 酒店市场调研报告 1 一、曲靖市酒店行业的现状 曲https://www.ruiwen.com/diaoyanbaogao/7136790.html
5.酒店行业发展现状和未来前景分析报告精读此外,酒店行业还面临着人力资源短缺的问题。随着酒店数量的增加和服务质量的提升,对酒店从业人员的专业素质和技能要求也越来越高。然而,目前酒店业的人力资源供给并不能完全满足市场需求,这在一定程度上制约了酒店业的发展。 二、酒店行业未来前景分析 展望未来,酒店行业的发展前景依然广阔。随着国内外旅游市场的不断扩大...https://m.vzkoo.com/read/2024042540a9a2593c7e90431e64751c.html
6.中国养生型酒店行业运营动向及投资趋势前瞻报告20242030年第一章 全球养生型酒店行业发展现状及趋势预测分析 25 第一节 2024年全球养生型酒店产业发展分析 25 一、全球养生型酒店产业发展历史 25 二、世界养生型酒店发展现状 25 三、世界养生型酒店产业链探讨 26 四、2023-2024年世界养生型酒店市场需求分析 29 ...https://maimai.cn/article/detail?fid=1854305523&efid=ui6tB5SjZn7SK0B-68DKKw
7.酒店管理行业现状范文三、未来酒店市场需求分析 (一)酒店人才市场需求持续增加 随着我国经济水平的提高,飞速发展的经济形势下为我国酒店业的发展提供了基础,笔者通过对20多家酒店的走访,对150为中高层管理人员的调查结果显示,酒店业普遍缺乏高素质的专业人才,其中最为缺乏的是能够独当一面在各个专业领域内拥有丰富经验的总监、部门经理等中...https://www.gwyoo.com/haowen/219091.html
8.2019酒店管理专业市场调研报告你认为目前酒店管理专业在校学生最欠缺最应培养的职业能力是: 四、调研分析结论 (一)市场人才需求分析 1、酒店及相关企业对酒店管理专业高职毕业生有很大需求; 酒店行业是劳动密集型产业,提供了大量的就业岗位,加之酒店行业的进入门槛较低,高职中职学校的毕业生是酒店员工的重要来源。 https://www.czzy-edu.com/23/30/161/162/163/content_13765.html
9.北京市场分析招聘(工资待遇要求)北京鹏润国际大酒店北京市场分析招聘(北京鹏润国际大酒店):根据算法统计,北京市场分析工资拿8-10K占100%,招聘经验要求1-3年经验占比最多,要求一般,招聘学历要求本科学历占比最多,要求一般,更多北京市场分析招聘,请上职友集。https://www.jobui.com/company/11220934/salary/j/shichangfenxi/
10.酒店预订市场分析8篇(全文)连锁酒店市场分析 快捷酒店行业市场现状 住宿业是一个传统行业,从古代就有客栈,只要地球有人住宿需求就不会消失,只是形式会有演变。近年来,许多新酒店品牌不断涌现,各大品牌开始扎堆区域化竞争。面对有限的市场资源,如雨后春笋般出现的快捷酒店品牌竞争越来越白热化,甚至打起了价格战。随着入住率的不断下降,房租和人...https://www.99xueshu.com/w/file59au9zra.html
11.酒店项目可行性研究报告(发改委甲级资质)《酒店项目可行性研究报告》通过对项目的市场需求、资源支持、建设规模、环境影响、资金筹措、盈利能力等方面的研究,从技术、经济、工程等角度对项目进行调查研究和分析比较,并对项目建成以后可能取得的经济效益和社会环境影响进行科学预测,为项目决策提供公正、可靠、科学的投资咨询意见。 http://www.chinacir.com.cn/kyrd/312129.shtml
12.关于项目建议书范文(通用11篇)2、总体目标与分期目标:根据前述需求分析,提出项目建设的总体目标,包括:政务目标、业务目标、工程建设目标和建设规模、效益目标等;分阶段提出政务目标、业务目标、工程建设目标和建设规模、效益目标等,清晰界定各期目标的`边界和演进的内容,并用可考核、可量化的指标对目标进行刻画。 https://www.wenshubang.com/jianyishu/1798310.html
13.度假酒店市场定位分析度假村酒店怎样把握市场→MAIGOO知识摘要:度假酒店的市场定位很清晰,就是供人们度假型休闲娱乐的酒店,是酒店与旅游资源消费相结合的特色产物,对于度假酒店来说,找准市场定位,根据定位做好市场营销,把握好市场是很关键的,一般度假村酒店要注意打响知名度、开发度假产品、把握可进入性、平衡直销与分销的关系等。下面一起来看看度假酒店市场定位分析以及度假村...https://www.maigoo.com/goomai/284368.html
14.投资计划方案(通用14篇)市场分析: 酒店行业是一个高度竞争的市场,但随着人们收入水平的提高和旅游观念的改变,高端酒店的需求量正在不断增加。此外,随着中国经济的发展和旅游业的蓬勃发展,旅游市场将会更加巨大。据业内人士预测,未来几年内,国内旅游业的年增长率将保持10%以上,而旅游市场的增长,必将带动酒店业的发展。综合市场分析,该项目具...https://www.fwsir.com/fanwen/html/fanwen_20240718135729_3918799.html