高校大数据实训课程系列案例之电影推荐系统

《高校大数据实训课程系列案例之电影推荐系统(Scala版)》教材官网

厦门大学林子雨编著

(E-mail:ziyulin@xmu.edu.cn)

全国高校大数据教学名师精品力作

资源全面,提供全方位一站式在线服务

教材已经由人民邮电出版社出版发行

ISBN:978-7-115-50306-0定价:45元

本页面内容导航

扫一扫访问本网页

教材简介

图书ISBN:978-7-115-50306-0人民邮电出版社

本书详细介绍了一个大数据应用案例——电影推荐系统,案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Kettle、Node.js等系统和软件的安装与使用方法。本案例采用Scala语言编写Spark程序。

本书适合用于高校大数据实训课程的教学,本书中的具体案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。

案例概述

本案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Kettle、Node.js等系统和软件的安装与使用方法。本案例采用Scala语言编写Spark程序。本案例适合用于高校大数据实训课程的教学。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。

本案例旨在帮助学生形成以下几个方面的能力:

(1)掌握Linux操作系统的安装和使用;(2)掌握Hadoop的安装和使用方法;(3)掌握关系数据库的原理以及MySQL数据库的安装和使用方法;(4)掌握使用IntelliJIDEA开发Scala程序的方法;(5)掌握ETL工具Kettle的安装和使用方法;(6)掌握Spark程序(包括SparkSQL程序和SparkMLlib程序)开发方法;(7)掌握推荐系统的原理;(8)掌握基于协同过滤的推荐算法的原理及其具体使用方法;(9)掌握数据挖掘的步骤和方法;(10)掌握基于js的网页开发方法;(11)掌握利用网页可视化呈现数据分析结果的方法。

本案例适用于以下对象:(1)高校(本科和高职)教师;(2)高校(本科和高职)学生;(3)大数据学习者。

本案例可以作为高校大数据实训课程的实践教学案例,建议安排80学时左右完成本案例。

本案例可以在单机、伪分布式、分布式集群环境下完成实验。对于Hadoop而言,三种模式的区别在于:(1)单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;(2)伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;(3)分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。

需要说明的是,高校采用真正分布式集群环境进行实验的必要性不强,很多高校也不具备多人同时开展分布式编程实践的大数据实验平台,因此,建议在伪分布式环境下完成本案例。

在使用伪分布式模式进行安装配置时,如果采用在Windows系统上安装Linux虚拟机的方式,则对计算机的配置要求较高,建议的计算机硬件配置为:50GB以上硬盘和8GB以上内存。如果采用双操作系统方式,开机启动后直接进入Linux系统,则使用普通的台式机或者笔记本电脑,都可以顺利完成本案例。

教材官网提供了全部软件的下载,要严格按照相应版本安装系统和软件,否则,可能会引起一些不必要的意外错误。

本案例采用电影评分数据集MovieLens,数据集中包含了三个数据文件:(1)用户评分数据集dat;(2)样本评分数据集txt;(3)电影数据集dat。可以访问教材官网的“下载专区”,到“数据集”目录中下载数据文件movie_recommend.zip获取数据集。

本案例需要在Linux系统环境下完成以下任务:(1)安装JDK;(2)安装关系型数据库MySQL;(3)安装大数据软件Hadoop;(4)安装大数据软件Spark;(5)安装开发工具IntelliJIDEA;(6)安装ETL工具Kettle;(7)使用Kettle将数据文件从Linux本地文件导入到HDFS;(8)使用协同过滤算法实现电影的推荐;(9)编写Spark程序实现电影推荐功能;(10)使用Node.js语言搭建动态网页呈现推荐结果。

图1-1给出了本案例的数据分析整体过程,具体如下:(1)使用Kettle将数据文件从Linux本地文件导入到HDFS;(2)使用Scala语言编写Spark程序,根据数据集训练模型,为用户推荐其最感兴趣的电影;(3)利用Node.js搭建动态网页呈现电影推荐结果。

图电影推荐系统的数据分析整体过程

下载专区

表1“下载专区”目录及其内容概览

实训样板工程

根据实验室打造“高校大数据实训课程样板工程”的实践经验,全面介绍高校大数据实训课程的教学方法和课程资源,包括课程设计目的要求、选题原则、设计内容、教学方法、授课过程、资源平台、教学管理平台等,为全国高校更好开展大数据实训课程建设提供参考。

课程亮点:高校大数据教学名师和企业大数据工程师联合指导、“教学过程一体化管理平台”和“高校大数据课程公共服务平台”全程助力、为高校量身定制的大数据实训案例教材、围绕工程教育认证要求制定课程内容

(2018年9月3日-28日林子雨老师指导厦门理工学院2015级本科生开展大数据实训)

拓展阅读

大数据学习路线图

大数据课程公共服务平台

致谢

本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生魏亮、曾冠华、程璐、林哲、郑宛玉、陈杰祥等同学以及厦门大学计算机科学系2015级本科生张庆晓和罗景亮同学等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。衷心感谢夏小云老师在教材校对工作中的辛勤付出!

THE END
1.电影票系统课程设计.docx电影票系统课程设计一、教学目标本课程旨在让学生了解和掌握电影票系统的相关知识,包括系统的设计、功能、操作等。具体目标如下:知识目标:使学生了解电影票系统的基本概念、原理和结构,包括用户购票、影院管理、票务查询等功能。技能目标:培养学生能够运用电影票系统进行购票、退票、改签等操作,并具备一定的系统维护和故障...https://www.renrendoc.com/paper/358658492.html
2.基于协同过滤算法的电影推荐系统的设计与实现.docx基于协同过滤算法的电影推荐系统的设计与实现摘 要在本文中,我们设计了一个基于用户行为模型的系统,旨在增加电影的数量,计算用户之间的相似度,并实现可以对电影进行信息爬取,向用户推荐相似电影的功能。该系统在基于用户的协作过滤算法中使用欧几里得公式来计算用户之间的相似度,通过该方式可以得到用户之间的相似度,以...https://max.book118.com/html/2022/0610/6104050043004155.shtm
3....分析的推荐系统研究——基于Hadoop的电影推荐系统的设计与实现...该【基于大数据分析的推荐系统研究——基于Hadoop的电影推荐系统的设计与实现 】是由【zzz】上传分享,文档一共【5】页,该文档可以免费在线阅读,需要了解更多关于【基于大数据分析的推荐系统研究——基于Hadoop的电影推荐系统的设计与实现 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章...https://www.taodocs.com/p-974435453.html
4.联邦推荐系统——个性化推荐与隐私安全的兼顾者智能互联网时代,我们的生活正被各式各样的推荐系统包围着。 从电商购物、在线视频到新闻流,推荐系统已然成为智能时代的关键技术,为我们提供着“千人千面”的服务。为了实现精准的推荐效果,推荐系统会收集大量用户行为数据。一般而言,收集的数据越多,对用户和推荐内容的了解就越全面和深入,推荐效果越精准。但随着数据安全...https://xie.infoq.cn/article/6bebbf1a280406b9f143a703e
5.毕业设计网写毕业设计程序定制餐厅的大数据分析系统 基于python的高校就业数据可视化分析 基于python的机器学习二手车价格分析预测系统 基于python电影推荐系统 Python开发培训原创课程来袭, 开启人工智能 信息可视化平台的设计与实现 基于python的中小学生运动会管理系统 基于Python的商品推荐系统的设计与实现 ...http://www.taolw.com/
1.springboot毕设电影推荐系统程序+论文本研究旨在设计并实现一个高效、准确的电影推荐系统程序,该程序能够综合考量用户的历史行为、电影的类型分类、用户评分以及电影的基本信息(如导演、演员、上映时间等),通过先进的推荐算法为用户提供个性化的电影推荐服务。同时,通过撰写详细的论文,深入分析系统的架构、算法原理、实现过程及性能评估,为同类系统的开发提供理...https://blog.csdn.net/wuzhou108/article/details/143608946
2.电影行业特效制作与影院管理方案66文库网(66wkw.com)正和优化,提高电影制作的整体效率。 (4)增强电影竞争力:在电影市场竞争激烈的环境下,特效制作技术成为 影片吸引观众、提高票房的重要手段。 1.3 影院管理的基本原则 影院管理是指对影院的运营、服务、技术、安全等方面进行综合协调和优化 以实现影院经营目标的过程。以下是影院管理的基本原则: (1)观众至上:影院管理应...https://m.66wkw.com/doc/133979.html
3.基于Spark的电影推荐系统设计与实现实时推荐模块使用Spark Streaming流处理的方式,保证电影推荐的实时性。又围绕推荐引擎做了详细设计,用数据预处理模块加速推荐计算,用日志模块更新推荐模型与推荐结果,用电影向量化模块扩充模型特征。然后,对电影推荐系统进行实现,主要对数据预处理模块、日志模块、电影向量化模块和四个推荐模块的实现进行了阐述。在实现过程中...https://mall.cnki.net/magazine/article/CMFD/1021127028.nh.htm
4.大数据技术之24电影推荐系统项目06项目以推荐系统建设领域知名的经过修改过的 MovieLens 数据集作为依托,以某科技公司电影网站真实业务数据架构为基础,构建了符合教学体系的一体化的电影推荐系统,包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。提供了从前端应用、后台服务、算法设计实现、平台部署等多方...https://cloud.tencent.com/developer/article/1430709
5.基于Python电影推荐系统爬虫Django框架协同过滤推荐算法数据...本系统web端的功能模块,主要实现影片显示、影片分类显示、热门影片排序显示、收藏影片排序显示、时间排序显示、评分排序显示、算法推荐、影片搜索、影片信息管理等功能,并进行数据库的详细设计,完成设计阶段的各项功能,并对此系统进行功能测试,最后,系统进行相关的实际应用操作,通过系统的使用,用户进入电影推荐系统,此系统可...https://www.jianshu.com/p/5188a9cc31d3
6.Spark平台下电影推荐系统的设计Spark Hadoop MLlib 协同过滤 电影推荐系统https://www.cnki.com.cn/Article/CJFDTotal-JYRJ202011006.htm