高校大数据实训课程系列案例教材主页

高校大数据实训课程系列案例教材主页

厦门大学林子雨编著

ziyulin@xmu.edu.cn

扫一扫访问本网页

本页面内容导航

系列案例教材概览

教材案例介绍

1.案例1:电信用户行为分析

图书ISBN:978-7-115-50123-3人民邮电出版社

本案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Spring等系统和软件的安装与使用方法。本案例适合用于高校大数据实训课程的教学。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。

本案例旨在帮助学生形成以下几个方面的能力:

(1)熟悉Linux操作系统安装和使用;(2)熟悉Hadoop的安装和使用方法;(3)掌握HDFS基本原理和常用Shell命令使用方法;(4)掌握关系数据库的原理、MySQL数据库的安装和使用方法;(5)掌握IntelliJIDEA编写Scala程序的方法;(6)掌握编写Spark程序的方法;(7)掌握使用Spring框架进行网页开发的方法;(8)掌握通过网页进行数据可视化的方法。

本案例需要在Linux系统环境下完成以下任务:(1)安装JDK;(2)安装关系型数据库MySQL;(3)安装大数据软件Hadoop;(4)安装大数据软件Spark;(5)安装开发工具IntelliJIDEA;(6)在MySQL数据库中创建数据库、表和视图;(7)使用IDEA工具开发Spark程序进行数据分析;(8)使用IDEA工具编写Web程序;(9)使用SpringMVC框架开发网页应用实现可视化分析。

下图给出了本案例的数据分析整体过程,具体如下:(1)把电信用户行为数据集加载到HDFS中;(2)使用Scala语言编写Spark程序对HDFS中的数据进行用户行为分析,并把结果写入到MySQL数据库;(3)使用SpringMVC框架开发网页应用,对MySQL数据库中的数据进行可视化分析;(4)在网页中以图表形式对分析结果进行可视化呈现。

2.案例2:电影推荐系统

图书ISBN:978-7-115-50306-0人民邮电出版社

本案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Kettle、Node.js等系统和软件的安装与使用方法。案例采用Scala语言编写Spark程序。本案例适合用于高校大数据实训课程的教学。通过案例实践,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。

本案例旨在帮助学生形成以下几个方面的能力:(1)掌握Linux操作系统的安装和使用方法;(2)掌握Hadoop的安装和使用方法;(3)掌握关系数据库的原理以及MySQL数据库的安装和使用方法;(4)掌握使用IntelliJIDEA开发Scala程序的方法;(5)掌握ETL工具Kettle的安装和使用方法;(6)掌握Spark程序(包括SparkSQL程序和SparkMLlib程序)开发方法;(7)掌握推荐系统的原理和构建方法;(8)掌握基于协同过滤的推荐算法的原理及其具体使用方法;(9)掌握数据挖掘的步骤和方法;(10)掌握基于Node.js的网页开发方法;(11)掌握利用网页可视化呈现数据分析结果的方法。

本案例需要在Linux系统环境下完成以下任务:(1)安装JDK;(2)安装关系型数据库MySQL;(3)安装大数据软件Hadoop;(4)安装大数据软件Spark;(5)安装开发工具IntelliJIDEA;(6)安装ETL工具Kettle;(7)使用Kettle将数据文件从Linux本地文件导入到HDFS;(8)使用协同过滤算法实现电影的推荐;(9)编写Spark程序实现电影推荐功能;(10)使用Node.js语言搭建动态网页呈现推荐结果。下图给出了本案例的数据分析整体过程,具体如下:(1)使用Kettle将数据文件从Linux本地文件导入到HDFS,并在导入过程中对数据进行清洗;(2)使用Scala语言编写Spark程序,根据数据集训练模型,为用户推荐其最感兴趣的电影;(3)利用Node.js搭建动态网页呈现电影推荐结果。

系列案例在高校的应用

本套案例已经成功应用在高校教学实践中,获得了较好的效果。

2018年9月3日-28日,厦门理工学院计算机与信息工程学院软件工程专业2015级本科生大数据实训课程顺利进行,林子雨老师担任本次课程的授课教师。本次实训课程,共有44名软件工程专业2015级本科生参加,课程设计题目是《基于SparkMLlib的电影推荐》,累计4周84学时。

(上图厦门理工学院大数据实训课程课堂现场照片)

(上图林子雨老师在实训课程现场解答学生问题)

(2)应用情况2:第9期全国高校大数据课程教师培训交流班

(上图第9期大数据师资培训班合影)

(上图林子雨老师在培训教室解答学员老师的问题)

系列案例教材《前言》

大数据时代已经全面开启,高校承担着大数据人才培养的重任。北京大学、厦门大学、中国人民大学等一批高校在国内率先开设大数据课程;2016年,北京大学、中南大学、对外经贸大学等三所高校成为国内首批获得教育部批准设立“数据科学与大数据技术专业”的本科院校,此后,教育部又于2017年和2018年分别批准32所和248所本科院校设立数据科学与大数据技术专业。与此同时,根据教育部公布的“大数据技术与应用”专业备案和审批结果,截至2018年9月,已经有累计208所职业院校获批“大数据技术与应用”专业。随着大数据专业在国内众多高校的开设,大数据专业人才的培养迈入了全新的阶段。

大数据专业作为新生的“新工科”专业,在课程体系建设方面还处于摸索阶段,没有太多可供借鉴的现成经验,需要一大批热爱教学的高校教师积极投身课程体系和教材的建设工作中,共同推动全国高校大数据教学工作不断发展。笔者作为全国较早探索大数据教学的教师之一,编著了《大数据技术原理与应用》、《大数据基础编程、实验和案例教程》和《Spark编程基础》等系列教材,目前已经被国内众多高校采用,并成为京东、当当等各大网店畅销书籍,其中,《大数据技术原理与应用》是国内高校第一本系统性介绍大数据知识的专业教材,荣获“人民邮电出版社2017年度好书”和“中国工信出版传媒集团2018年优秀出版物奖三等奖”,与教材配套的《大数据技术原理与应用》MOOC课程,在中国大学MOOC平台的累计在线学习人数超过5万人,90%以上学习者给了五星级好评,在网易云课堂的在线学习人数超过6万人,99%网友给予了五星级好评。同时,笔者带领厦门大学数据库实验室团队建设了国内高校首个大数据课程公共服务平台,为全国高校大数据教学免费提供一站式服务,平台每年访问量超过200万次,成为全国高校大数据教学知名品牌。

通过大量的活动,笔者与全国高校广大大数据课程教师有了更深的接触和交流,也收集到了广大一线教师的核心教学需求。很多高校教师希望全国高校大数据教学工作者能够齐心协力,加快完善大数据课程体系,并形成与课程配套的系列教材。笔者带领的厦门大学数据库实验室团队,在过去五年,集中精力建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》。本套大数据实训课程系列教材的推出,标志着我们团队着力打造的从入门到进阶再到实训课程的大数据系列教材已经基本成型。多本教材之间,在知识体系上,合理分割,相互照应,前后承接,循序渐进,可以较好地服务于全国高校的大数据教学工作。

本教材由林子雨执笔。在教材撰写过程中,厦门大学计算机科学系硕士研究生魏亮、曾冠华、程璐、林哲、郑宛玉、陈杰祥等同学以及厦门大学计算机科学系2015级本科生张庆晓和罗景亮同学等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。同时,衷心感谢夏小云老师在教材校对工作中的辛勤付出!

本教材在撰写过程中,参考了大量网络资料,这里对网络资料作者的奉献性工作表示感谢。由于笔者能力有限,本书难免存在不足之处,望广大读者不吝赐教。

THE END
1.基于协同过滤算法的电影推荐系统的设计与实现.docx基于协同过滤算法的电影推荐系统的设计与实现摘 要在本文中,我们设计了一个基于用户行为模型的系统,旨在增加电影的数量,计算用户之间的相似度,并实现可以对电影进行信息爬取,向用户推荐相似电影的功能。该系统在基于用户的协作过滤算法中使用欧几里得公式来计算用户之间的相似度,通过该方式可以得到用户之间的相似度,以...https://max.book118.com/html/2022/0610/6104050043004155.shtm
2.还是推荐电影,这次是基于物品的协同过滤用A看过的电影的评分,和其他电影的相似度相乘(红框),然后再把相乘后的结果加和(绿框),得出最后的推荐度。这里可以看到,应该向A推荐《寻龙诀》,和上一篇文章用基于用户的协同过滤算法结果是一致的。 #总结# 推荐算法的几个基本思想: 根据和你共同喜好的人来给你推荐(基于用户的) ...https://www.jianshu.com/p/92ef794d6e2b
3.SparkMLlib系列(二):基于协同过滤的电影推荐系统利用Spark在内存迭代运算、机器学习领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对Spark MLlib不太了解的,请阅读我的上一篇博客。http://www.360doc.com/content/16/1116/17/37466175_607043529.shtml
1.ssm协同过滤算法的电影推荐系统(10145)ssm协同过滤算法的电影推荐系统(10145) 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码+SQL脚本) 配套文档(LW+PPT+开题报告) 远程调试控屏包运行 三、技术介绍 Java语言 SSM框架 SpringBoot框架 Vue框架 JSP页面 Mysql数据库 IDEA/Eclipse开发 四、项目截图...https://blog.csdn.net/m0_72438098/article/details/143893991
2.python协同过滤算法实现电影推荐协同过滤是一种常用的推荐算法,它基于用户的历史行为和其他用户的行为进行推荐。在电影推荐中,协同过滤算法可以根据用户对电影的评分来推荐相似的电影给用户。 下面是一个简单的Python代码实现电影推荐的协同过滤算法: importnumpyasnp# 电影评分数据ratings={'Alice':{'Transformers':3,'Star Wars':4,'The Dark Kni...https://www.ctyun.cn/zhishi/p-332954
3.基于协同过滤算法的电影推荐系统(亮点:智能推荐协同过滤算法...5.1.2 付费电影 付费电影会根据购买的电影类型来进行协同过滤! 5.1.3 协同过滤算法的应用 原始推荐如下: 集成协同过滤算法之后,电影的推荐会随着用户的喜欢程度进行自动排序,排名靠前的为用户点击次数、点赞次数等行为来控制! 5.1.4 电影论坛 5.1.5 电影资讯 ...https://blog.51cto.com/u_14519396/8678575
4.基于协同过滤的电影推荐系统的设计与实现(协同过滤推荐算法伪代码)Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等,并且,在 Mahout 中还加入了对ApacheHadoop的支持,使这些算法可以更高效的运行在云计算环境中。 https://cloud.tencent.com/developer/article/2059754
5.基于混合推荐算法的电影推荐系统设计与实现推荐算法自诞生以来,并不是完美无缺的,传统的推荐算法存在着或多或少的不足,比如传统的推荐算法通常会存在数据稀疏性、冷启动,推荐精度不高等问题,为了降低这些问题对推荐系统带来的不足,研究学者和专家通过不同的研究来改善以及优化不同的算法,弥补原始算法的缺陷。本文针对传统协同过滤算法中数据稀疏性以及推荐准确度...https://wap.cnki.net/touch/web/Dissertation/Article/1023602428.nh.html
6.基于知识图谱的推荐算法研究综述可解释推荐是指解释推荐理由问题的推荐算法,在向用户提供推荐结果的同时,还提供解释以阐明推荐的原因[23]。这样有助于提高推荐算法的多样性、有效性和准确性,有利于用户理解并采纳推荐结果[24-25]。 早期的推荐多数是基于内容的推荐或基于协同过滤的推荐,基于内容的推荐方法通过对用户或者项目的属性信息进行建模,是基...https://www.fx361.com/page/2023/0113/16791653.shtml