预测酒店预订需求人工智能遇见磐创

在本文中,我将只向你展示建模阶段,仅使用Logistic回归模型,但是你可以访问完整的文档,包括在Github上进行的数据清理、预处理和探索性数据分析。

导入库

importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportconfusion_matrixfromsklearn.metricsimportclassification_reportimportwarningswarnings.filterwarnings("ignore")加载数据集

df=pd.read_csv('hotel_bookings.csv')df=df.iloc[0:2999]df.head()下面是数据集的外观。

它有32列,它的完整版本是:

['hotel','is_canceled','lead_time','arrival_date_year','arrival_date_month','arrival_date_week_number','arrival_date_day_of_month','stays_in_weekend_nights','stays_in_week_nights','adults','children','babies','meal','country','market_segment','distribution_channel','is_repeated_guest','previous_cancellations','previous_bookings_not_canceled','reserved_room_type','assigned_room_type','booking_changes','deposit_type','agent','company','days_in_waiting_list','customer_type','adr','required_car_parking_spaces','total_of_special_requests','reservation_status','reservation_status_date']根据我在Notebook上运行的信息,数据集中的NaN值可以在“country”、“agent”和“company”三列中找到

基于“lead_time”特征,我将“country”中的NaN值替换为PRT(葡萄牙),因为PRT是最常见的

我试图根据lead_time,arrival_date_month,和arrival_date_week_number替换“agent”特征上的NaN值,但大多数都是“240”作为最常见的代理。

在我阅读了在互联网上可以找到的数据集的描述和解释后,作者将“agent”特征描述为“预订的旅行社ID”。因此,那些在数据集中拥有“agent”的人是唯一通过旅行社订购的人,而那些没有“agent”或是Nan的人,是那些没有通过旅行社订购的人。因此,我认为最好是用0来填充NaN值,而不是用常见的代理来填充它们,这样会使数据集与原始数据集有所不同。

最后但并非最不重要的是,我选择放弃整个“company”特征,因为该特性中的NaN约占数据的96%。如果我决定修改数据,它可能会对数据产生巨大的影响,并可能会影响整个数据

拆分数据集

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.20,shuffle=False)训练和测试分成80%和20%。

拟合模型

model_LogReg_Asli是在使用超参数调优之前使用Logistic回归的原始模型,下面是模型预测。

模型性能

如上所述,Logistic回归模型的准确率约为69.3%。

模型参数

RandomizedSearchCV的Logistic回归分析

model_LR_RS是采用Logistic回归和超参数调整(随机)的模型。

如上图所示,带有RandomizedSearchCV的Logistic回归模型的结果与没有随机搜索的结果完全相同,为69.3%。

基于网格搜索CV的Logistic回归

model_LR2_GS是采用Logistic回归和超参数调整(网格搜索)的模型。

上图显示,使用网格搜索CV的Logistic回归模型具有相同的准确率,为69.3%。

模型评估

混淆矩阵

TN为真反例,FN为假反例,FP为假正例,TP为真正例,0不被取消,1被取消。下面是模型的分类报告。

在本文中,我再次使用Logistic回归进行测试,但是你可以使用其他类型的模型,如随机森林、决策树等。在我的Github上,我也尝试过随机森林分类器,但结果非常相似。

THE END
1.酒店预订需求(Hotelbookingdemand)数据分析作为一个数据分析领域的小白,深知前行之路的不易,在自主地系统学习python、sql以及统计学的相关基础知识之后,开始了第一个来自Kaggle的数据分析项目——Hotel booking demand,以学习为目的,主要参考Marcus Wingen的想法。路漫漫其修远兮,且行且珍惜。 一般的数据分析流程为明确问题、数据获取、数据清洗、数据统计和可视化...https://www.jianshu.com/p/d9687ce446c3
2.通过数据分析驱动用户增长知乎Live整理稿做分析的时间里面大概一半是一些 adhoc analysis,20%-30% 做一些对长期来看有好处的工作,比如说 pipeline 的工作把一些过程自动化。还有一部分时间就是看已有的一些 report/dashboard,包括监测有没有异常啊,产品的 performance 是否符合预期等等。 Q: 请问国内哪些行业对数据分析师需求量特别大?游戏行业怎么样?https://weibo.com/p/1001603993976268003547
3....有望带动大数据板块走强。消息面上:(1)近期根据Kaggle的晋级...这些技术的应用,能够显著降低企业在数据分析方面的成本和门槛,使更多中小企业也能享受到先进数据分析带来的好处。有机构表示,随着5G、物联网等新技术的发展,未来将有越来越多的数据需要被收集、存储和分析,这将极大增加市场对高效数据分析工具的需求,推动相关技术和服务的快速发展。https://xueqiu.com/9271268436/312867917
4.陈老师数据分析师八大能力培养part2沟通需求.pdf陈老师数据分析师八大能力培养part2沟通需求.pdf 279页内容提供方:183***7931 大小:22.57 MB 字数:约6.62万字 发布时间:2021-11-25发布于北京 浏览人气:22 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)陈老师...https://max.book118.com/html/2021/1125/6035141114004100.shtm
5.点击流数据驱动的网络零售产品短期需求预测,首发论文首先,在分析点击流特征的基础上,采用主成分分析对两类特征变量降维;其次,综合集合经验模态分解、变分模态分解和奇异谱分析,提出了一种双重分解机制;然后,结合回声状态网络与袋装算法建立集成学习;最后,使用Kaggle网站零售商真实点击流数据集实验研究,采用多种评价指标验证模型的有效性。本研究丰富了需求预测领域的研究,为...https://paper.edu.cn/releasepaper/content/202303-62
6.数据可视化系统开发入门:初学者指南实时性:数据可视化系统可以实时更新图表,反映最新的数据变化,有助于及时发现问题并做出决策。例如,实时监控网站的流量变化。 多源数据整合:可以同时处理和展示来自多个来源的数据,使用户能够从不同角度分析数据。例如,将公司财务数据与市场趋势数据结合起来进行综合分析。 定制化:用户可以根据自己的需求定制图表样式、布局和...https://www.imooc.com/article/368423
7.11月18日开盘必读资讯近日,国家数据局会同有关部门召开数字中国建设工作推进会议,对下阶段工作做出多项部署。会议指出,下一步,要因地制宜、多措并举、大力推进,努力完成《数字中国建设整体布局规划》2025年阶段性目标。具体来看,要持续深化数据要素市场化配置改革。健全完善数据基础制度,推动出台企业数据开发利用、数据产业高质量发展等政策文...https://www.jiuyangongshe.com/a/d0wghed1ux
1.基于python+django的旅游数据分析与推荐系统基于python + django 的旅游数据分析与推荐系统,为游客提供了智能化的旅游决策支持。 系统从多种途径收集旅游数据,包括旅游网站的用户评价、景点预订信息、酒店入住数据等。通过数据清洗和预处理,确保数据的准确性和可用性。 在分析方面,它能挖掘出有价值的信息。例如,分析景点的热门程度,依据不同季节、节假日的客流量...https://blog.csdn.net/QQ3295391197/article/details/143832491
2.数据分析项目案例数据lanhy的技术博客数据分析项目案例数据 项目概述 此项目是学习实践的一个小项目,内容涉及较为简单,仅以此练习验证所学,项目旨在通过对某平台图书数据爬取、处理、可视化等技术手段分析研究图书与读者偏好等因素的内在关联。 摘要 随着技术进步推动数码产品的迭代更新,人们能获得的娱乐形式趋于多样化,更多精彩刺激的娱乐休闲形式深受人们喜爱...https://blog.51cto.com/u_12959/12593466
3.爱数课实验首尔共享自行车需求数据可视化分析爱数课实验 | 首尔共享自行车需求数据可视化分析 爱数课:idatacourse.cn 领域:消费 简介:近些年,“共享单车”模式迅速地在全球各大城市中流行起来,但随着资本的逐步退潮,共享单车企业需寻求新的盈利模式,首要任务便是探究共享单车使用量的影响因素。本案例使用Matplotlib包和Seaborn的可视化库,对首尔地区一共享单车公司在...https://cloud.tencent.com/developer/article/1970491
4.2024精准免费大全(2024精选免费资源汇总)推荐明确需求在使用任何资源之前,首先要明确自己的需求。例如,如果你想学习编程,可以选择Coursera上的计算机科学课程;如果你想进行数据分析,可以利用Kaggle上的数据集。 制定计划制定一个详细的学习或工作计划,合理安排时间,确保能够充分利用这些免费资源。例如,每周安排固定的时间进行在线课程学习,或者每天花一定时间进行数据分析...https://www.scbeilejia.com/post/2754.html
5.AI培训数据全球及中国市场规模研究和预测2024本报告研究全球与中国市场AI培训数据的发展现状及未来发展趋势,分别从生产和消费的角度分析AI培训数据的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。 https://www.shangyexinzhi.com/article/22982279.html
6.综述翻译DeepLearningforCrossDomainFew虽然看起来这个问题已经解决,但重要的是要注意,这仅仅是一个封闭数据集中的实验结果。这些巨大的成就得益于对大量数据和标注的监督深度学习的需求,但这与实际应用仍存在显著差距。首先,在许多领域,数据标注是一个昂贵且耗时的过程,包括工业检测、濒危物种识别以及水下场景分析。为了解决这个问题,研究人员探索了半监督...https://www.51969.com/post/19718224.html