《高校大数据实训课程系列案例之电影推荐系统(Scala版)》教材官网
厦门大学林子雨编著
(E-mail:ziyulin@xmu.edu.cn)
全国高校大数据教学名师精品力作
资源全面,提供全方位一站式在线服务
教材已经由人民邮电出版社出版发行
ISBN:978-7-115-50306-0定价:45元
本页面内容导航
扫一扫访问本网页
教材简介
图书ISBN:978-7-115-50306-0人民邮电出版社
本书详细介绍了一个大数据应用案例——电影推荐系统,案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Kettle、Node.js等系统和软件的安装与使用方法。本案例采用Scala语言编写Spark程序。
本书适合用于高校大数据实训课程的教学,本书中的具体案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。
案例概述
本案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Kettle、Node.js等系统和软件的安装与使用方法。本案例采用Scala语言编写Spark程序。本案例适合用于高校大数据实训课程的教学。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。
本案例旨在帮助学生形成以下几个方面的能力:
(1)掌握Linux操作系统的安装和使用;(2)掌握Hadoop的安装和使用方法;(3)掌握关系数据库的原理以及MySQL数据库的安装和使用方法;(4)掌握使用IntelliJIDEA开发Scala程序的方法;(5)掌握ETL工具Kettle的安装和使用方法;(6)掌握Spark程序(包括SparkSQL程序和SparkMLlib程序)开发方法;(7)掌握推荐系统的原理;(8)掌握基于协同过滤的推荐算法的原理及其具体使用方法;(9)掌握数据挖掘的步骤和方法;(10)掌握基于js的网页开发方法;(11)掌握利用网页可视化呈现数据分析结果的方法。
本案例适用于以下对象:(1)高校(本科和高职)教师;(2)高校(本科和高职)学生;(3)大数据学习者。
本案例可以作为高校大数据实训课程的实践教学案例,建议安排80学时左右完成本案例。
本案例可以在单机、伪分布式、分布式集群环境下完成实验。对于Hadoop而言,三种模式的区别在于:(1)单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;(2)伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;(3)分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。
需要说明的是,高校采用真正分布式集群环境进行实验的必要性不强,很多高校也不具备多人同时开展分布式编程实践的大数据实验平台,因此,建议在伪分布式环境下完成本案例。
在使用伪分布式模式进行安装配置时,如果采用在Windows系统上安装Linux虚拟机的方式,则对计算机的配置要求较高,建议的计算机硬件配置为:50GB以上硬盘和8GB以上内存。如果采用双操作系统方式,开机启动后直接进入Linux系统,则使用普通的台式机或者笔记本电脑,都可以顺利完成本案例。
教材官网提供了全部软件的下载,要严格按照相应版本安装系统和软件,否则,可能会引起一些不必要的意外错误。
本案例采用电影评分数据集MovieLens,数据集中包含了三个数据文件:(1)用户评分数据集dat;(2)样本评分数据集txt;(3)电影数据集dat。可以访问教材官网的“下载专区”,到“数据集”目录中下载数据文件movie_recommend.zip获取数据集。
本案例需要在Linux系统环境下完成以下任务:(1)安装JDK;(2)安装关系型数据库MySQL;(3)安装大数据软件Hadoop;(4)安装大数据软件Spark;(5)安装开发工具IntelliJIDEA;(6)安装ETL工具Kettle;(7)使用Kettle将数据文件从Linux本地文件导入到HDFS;(8)使用协同过滤算法实现电影的推荐;(9)编写Spark程序实现电影推荐功能;(10)使用Node.js语言搭建动态网页呈现推荐结果。
图1-1给出了本案例的数据分析整体过程,具体如下:(1)使用Kettle将数据文件从Linux本地文件导入到HDFS;(2)使用Scala语言编写Spark程序,根据数据集训练模型,为用户推荐其最感兴趣的电影;(3)利用Node.js搭建动态网页呈现电影推荐结果。
图电影推荐系统的数据分析整体过程
下载专区
表1“下载专区”目录及其内容概览
实训样板工程
根据实验室打造“高校大数据实训课程样板工程”的实践经验,全面介绍高校大数据实训课程的教学方法和课程资源,包括课程设计目的要求、选题原则、设计内容、教学方法、授课过程、资源平台、教学管理平台等,为全国高校更好开展大数据实训课程建设提供参考。
课程亮点:高校大数据教学名师和企业大数据工程师联合指导、“教学过程一体化管理平台”和“高校大数据课程公共服务平台”全程助力、为高校量身定制的大数据实训案例教材、围绕工程教育认证要求制定课程内容
(2018年9月3日-28日林子雨老师指导厦门理工学院2015级本科生开展大数据实训)
拓展阅读
大数据学习路线图
大数据课程公共服务平台
致谢
本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生魏亮、曾冠华、程璐、林哲、郑宛玉、陈杰祥等同学以及厦门大学计算机科学系2015级本科生张庆晓和罗景亮同学等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。衷心感谢夏小云老师在教材校对工作中的辛勤付出!