高校大数据实训课程系列案例教材主页
厦门大学林子雨编著
ziyulin@xmu.edu.cn
扫一扫访问本网页
本页面内容导航
系列案例教材概览
教材案例介绍
1.案例1:电信用户行为分析
图书ISBN:978-7-115-50123-3人民邮电出版社
本案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Spring等系统和软件的安装与使用方法。本案例适合用于高校大数据实训课程的教学。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。
本案例旨在帮助学生形成以下几个方面的能力:
(1)熟悉Linux操作系统安装和使用;(2)熟悉Hadoop的安装和使用方法;(3)掌握HDFS基本原理和常用Shell命令使用方法;(4)掌握关系数据库的原理、MySQL数据库的安装和使用方法;(5)掌握IntelliJIDEA编写Scala程序的方法;(6)掌握编写Spark程序的方法;(7)掌握使用Spring框架进行网页开发的方法;(8)掌握通过网页进行数据可视化的方法。
本案例需要在Linux系统环境下完成以下任务:(1)安装JDK;(2)安装关系型数据库MySQL;(3)安装大数据软件Hadoop;(4)安装大数据软件Spark;(5)安装开发工具IntelliJIDEA;(6)在MySQL数据库中创建数据库、表和视图;(7)使用IDEA工具开发Spark程序进行数据分析;(8)使用IDEA工具编写Web程序;(9)使用SpringMVC框架开发网页应用实现可视化分析。
下图给出了本案例的数据分析整体过程,具体如下:(1)把电信用户行为数据集加载到HDFS中;(2)使用Scala语言编写Spark程序对HDFS中的数据进行用户行为分析,并把结果写入到MySQL数据库;(3)使用SpringMVC框架开发网页应用,对MySQL数据库中的数据进行可视化分析;(4)在网页中以图表形式对分析结果进行可视化呈现。
2.案例2:电影推荐系统
图书ISBN:978-7-115-50306-0人民邮电出版社
本案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Kettle、Node.js等系统和软件的安装与使用方法。案例采用Scala语言编写Spark程序。本案例适合用于高校大数据实训课程的教学。通过案例实践,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。
本案例旨在帮助学生形成以下几个方面的能力:(1)掌握Linux操作系统的安装和使用方法;(2)掌握Hadoop的安装和使用方法;(3)掌握关系数据库的原理以及MySQL数据库的安装和使用方法;(4)掌握使用IntelliJIDEA开发Scala程序的方法;(5)掌握ETL工具Kettle的安装和使用方法;(6)掌握Spark程序(包括SparkSQL程序和SparkMLlib程序)开发方法;(7)掌握推荐系统的原理和构建方法;(8)掌握基于协同过滤的推荐算法的原理及其具体使用方法;(9)掌握数据挖掘的步骤和方法;(10)掌握基于Node.js的网页开发方法;(11)掌握利用网页可视化呈现数据分析结果的方法。
本案例需要在Linux系统环境下完成以下任务:(1)安装JDK;(2)安装关系型数据库MySQL;(3)安装大数据软件Hadoop;(4)安装大数据软件Spark;(5)安装开发工具IntelliJIDEA;(6)安装ETL工具Kettle;(7)使用Kettle将数据文件从Linux本地文件导入到HDFS;(8)使用协同过滤算法实现电影的推荐;(9)编写Spark程序实现电影推荐功能;(10)使用Node.js语言搭建动态网页呈现推荐结果。下图给出了本案例的数据分析整体过程,具体如下:(1)使用Kettle将数据文件从Linux本地文件导入到HDFS,并在导入过程中对数据进行清洗;(2)使用Scala语言编写Spark程序,根据数据集训练模型,为用户推荐其最感兴趣的电影;(3)利用Node.js搭建动态网页呈现电影推荐结果。
系列案例在高校的应用
本套案例已经成功应用在高校教学实践中,获得了较好的效果。
2018年9月3日-28日,厦门理工学院计算机与信息工程学院软件工程专业2015级本科生大数据实训课程顺利进行,林子雨老师担任本次课程的授课教师。本次实训课程,共有44名软件工程专业2015级本科生参加,课程设计题目是《基于SparkMLlib的电影推荐》,累计4周84学时。
(上图厦门理工学院大数据实训课程课堂现场照片)
(上图林子雨老师在实训课程现场解答学生问题)
(2)应用情况2:第9期全国高校大数据课程教师培训交流班
(上图第9期大数据师资培训班合影)
(上图林子雨老师在培训教室解答学员老师的问题)
系列案例教材《前言》
大数据时代已经全面开启,高校承担着大数据人才培养的重任。北京大学、厦门大学、中国人民大学等一批高校在国内率先开设大数据课程;2016年,北京大学、中南大学、对外经贸大学等三所高校成为国内首批获得教育部批准设立“数据科学与大数据技术专业”的本科院校,此后,教育部又于2017年和2018年分别批准32所和248所本科院校设立数据科学与大数据技术专业。与此同时,根据教育部公布的“大数据技术与应用”专业备案和审批结果,截至2018年9月,已经有累计208所职业院校获批“大数据技术与应用”专业。随着大数据专业在国内众多高校的开设,大数据专业人才的培养迈入了全新的阶段。
大数据专业作为新生的“新工科”专业,在课程体系建设方面还处于摸索阶段,没有太多可供借鉴的现成经验,需要一大批热爱教学的高校教师积极投身课程体系和教材的建设工作中,共同推动全国高校大数据教学工作不断发展。笔者作为全国较早探索大数据教学的教师之一,编著了《大数据技术原理与应用》、《大数据基础编程、实验和案例教程》和《Spark编程基础》等系列教材,目前已经被国内众多高校采用,并成为京东、当当等各大网店畅销书籍,其中,《大数据技术原理与应用》是国内高校第一本系统性介绍大数据知识的专业教材,荣获“人民邮电出版社2017年度好书”和“中国工信出版传媒集团2018年优秀出版物奖三等奖”,与教材配套的《大数据技术原理与应用》MOOC课程,在中国大学MOOC平台的累计在线学习人数超过5万人,90%以上学习者给了五星级好评,在网易云课堂的在线学习人数超过6万人,99%网友给予了五星级好评。同时,笔者带领厦门大学数据库实验室团队建设了国内高校首个大数据课程公共服务平台,为全国高校大数据教学免费提供一站式服务,平台每年访问量超过200万次,成为全国高校大数据教学知名品牌。
通过大量的活动,笔者与全国高校广大大数据课程教师有了更深的接触和交流,也收集到了广大一线教师的核心教学需求。很多高校教师希望全国高校大数据教学工作者能够齐心协力,加快完善大数据课程体系,并形成与课程配套的系列教材。笔者带领的厦门大学数据库实验室团队,在过去五年,集中精力建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》。本套大数据实训课程系列教材的推出,标志着我们团队着力打造的从入门到进阶再到实训课程的大数据系列教材已经基本成型。多本教材之间,在知识体系上,合理分割,相互照应,前后承接,循序渐进,可以较好地服务于全国高校的大数据教学工作。
本教材由林子雨执笔。在教材撰写过程中,厦门大学计算机科学系硕士研究生魏亮、曾冠华、程璐、林哲、郑宛玉、陈杰祥等同学以及厦门大学计算机科学系2015级本科生张庆晓和罗景亮同学等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。同时,衷心感谢夏小云老师在教材校对工作中的辛勤付出!
本教材在撰写过程中,参考了大量网络资料,这里对网络资料作者的奉献性工作表示感谢。由于笔者能力有限,本书难免存在不足之处,望广大读者不吝赐教。