林子雨:厦门大学大数据课程与教材体系建设经验分享(全文版)

厦门大学计算机科学系林子雨博士/助理教授

大数据专业作为典型的“新工科”专业,在课程体系建设方面还处于摸索阶段。厦门大学数据库实验室作为全国高校知名的大数据教学团队,在过去六年(2013年-2019年)集中精力建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》、高校大数据实训课程系列案例教材以及大数据通识导论课程及其配套教材,初步形成了从入门到进阶再到实训课程的大数据课程和教材体系。

平台为全国高校提供大数据教学一站式“免费”服务,内容包括大数据专业建设方案、系列课程教材、讲义PPT、习题、实验、案例、教师备课指南、学生学习指南、授课视频、教师培训交流、大数据教学研讨会。

图第1届全国高校大数据教学研讨会合影

图第10期大数据师资培训班合影

厦门大学数据库实验室团队从2013年至今,一直专注于大数据教学工作,建设了大数据入门课程及其配套教材《大数据技术原理与应用》、大数据进阶课程及其配套教材《Spark编程基础》、高校大数据实训课程系列案例教材以及大数据通识导论课程及其配套教材,初步形成了从入门到进阶再到实训课程的大数据课程和教材体系。

(1)导论课程《大数据技术原理与应用》及教材

(2)进阶课程《Spark编程基础》及教材

(3)大数据实训课程及教材课程定位:实训课程,掌握大数据技术综合运用能力授课对象:计算机、软件工程、数据科学与大数据技术等理工科专业大学生(本科或高职)课程教材:林子雨.大数据实训案例之电信用户行为分析(Scala版),人民邮电出版社,2019年4月.林子雨.大数据实训案例之电影推荐系统(Scala版),人民邮电出版社,2019年4月.

课程定位:紧紧围绕通识教育核心理念,努力培养学生的数据意识、数据思维、数据伦理和数据能力。授课对象:非计算机专业大学生(尤其是文科专业)课程教材:林子雨.文科大数据通识导论,高等教育出版社,2019年(即将出版).

1.课程定位

授课对象:大学生(计算机、软件工程、数据科学与大数据技术等专业)知识储备:编程、操作系统、数据库

2.课程教材

教材定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带,为读者在大数据领域“深耕细作”奠定基础、指明方向。教材内容包括Hadoop、HDFS、HBase、NoSQL、云数据库、MapReduce、流计算、图计算、数据可视化、Spark等。

3.学时安排

课程共16周,每周2学时,总计32学时(理论32学时,可以另外安排16个实验上机学时)。

4.实验内容

(1)章节实验

实验一:熟悉常用的Linux操作和Hadoop操作实验二:熟悉常用的HDFS操作实验三:熟悉常用的HBase操作实验四:NoSQL和关系数据库的操作比较实验五:MapReduce初级编程实践

(2)综合案例

采用2000万条用户购物数据集,案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法,案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。

5.课程视频

6.课程资源

大数据技术进阶学习课程

授课对象:大学生、研究生(计算机、软件工程、数据科学与大数据技术等专业)

知识储备:Java编程、数据库、操作系统、Hadoop

先修课程:入门级大数据课程,比如:大数据技术原理与应用

(1)选择编程语言

选择教材时,必须首先确定编程语言。Spark支持多种编程语言:Scala、Java、Python、R。Spark首选语言是Scala,其次可以把Python作为开发Spark的语言。

Spark这个软件本身就是使用Scala语言开发的,采用Scala语言编写Spark应用程序,可以获得最好的性能。关于采用哪种语言编写Spark应用程序,这里强调两点:

(a)Java代码太繁琐。在大数据应用场景中,不太适合使用Java,因为,完成同样的任务,Scala只需要一行代码,而Java则可能需要10行代码;而且,Scala语言可以支持交互式编程,大大提高了程序开发效率,而Java则不支持交互式执行,必须编译以后运行。

(b)Python语言并发性能不好。在并发性能方面,Scala要明显优于Python,而且,Scala是静态类型,可以在编译阶段就抛出错误,便于开发大型大数据项目,此外,Scala兼容Java,运行在JVM上,可以直接使用Java中的HadoopAPI来和Hadoop进行交互,但是,Python与Hadoop之间的交互非常糟糕,通常都需要第三方库(比如hadoopy)。

(2)在线教程

(3)纸质教材

披荆斩棘,在大数据丛林中开辟学习捷径填沟削坎,为快速学习Spark技术铺平道路深入浅出,有效降低Spark技术学习门槛资源全面,构建全方位一站式在线服务体系

本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、SparkMLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。

(b)厦门大学林子雨,郑海山,赖永炫编著《Spark编程基础(Python版)》,人民邮电出版社,预计2019年8月上市销售。

3.课时安排

课程共16周,每周2学时,总计32学时理论课程。各高校可根据实际情况,再额外增加16学时实验上机。

4.交叉知识

本课程涵盖知识内容包括:操作系统(Linux)、分布式存储(HDFS、HBase)、分布式计算(SparkCore)、流计算(SparkStreaming)、机器学习(SparkMLlib)、查询分析(SparkSQL)、日志采集(Flume)、消息分发(Kafka)、数据仓库(Hive)、关系数据库(MySQL)、机器学习/数据挖掘等知识。同时要掌握开发工具Eclipse、IntelliJIDEA以及编译打包工具sbt和Maven等。

图《Spark编程基础》教材中涉及的交叉知识

实验1-Linux系统的安装和常用命令

实验2-Scala编程初级实践

实验3-Spark和Hadoop的安装

实验4-RDD编程初级实践

实验5-SparkSQL编程初级实践

实验6-SparkStreaming编程初级实践

实验7-Spark机器学习库MLlib编程实践

1.基本信息

*实训课程需要达到的专业工程认证毕业要求:

(1)指标点4.1:针对软件开发特定需求,了解信息学科发展动态;(2)指标点9.1:正确理解个人与团队的关系,理解团队合作的重要性,具备在多学科背景下团队合作的意识和能力;(3)指标点9.2:在多学科背景的团队下,理解团队成员的不同角色在团队中的作用,能够作为个体或团队成员完成所承担的任务;(4)指标点10.2:具有书面表达与沟通能力、科技论文与技术报告写作能力,能够撰写报告和设计文稿;(5)指标点11.2:了解市场、用户的需求变化以及技术发展,提出技术改造、系统更新、效能改进的方案。

(上图实训课程课堂照片)

*实训教室:数字内容与信息智能处理实验室

实验室位于厦门理工学院精工园1号楼416教室,建于2008年6月,实验室面积约120平方米,设备总额约46万元。实验室配备具有较强的数据运算与图形图像处理能力的计算机,能满足图形图像处理、遥感图像处理、数据挖掘、大数据等课程的需求。

主要仪器设备:DellOptiPlex7040计算机61台,主要技术参数:CPU:Intel酷睿i5-6500;内存:16GB;硬盘:1TB*2;显示器:23寸LCD。

大数据环境搭建:本次实训课程没有采用任何厂商的大数据实验平台。实验室机房里面的电脑使用Windows7操作系统,在实训课程中,由学生自己在Windows7系统中安装虚拟机软件VirtualBox,然后,在VirtualBox软件中安装Linux虚拟机(Ubuntu16.04),再在Linux虚拟机中安装各种大数据软件,构建“伪分布式”的大数据实验环境。由于机器的内存有16GB,所以,整个实训过程,运行非常流畅。

*实训管理系统:本次实训课程采用“教学过程一体化管理平台”,对教学全过程进行高效的信息化管理。该系统具备课程资源管理、学生管理、授课过程管理、授课质量分析、成绩自动统计等功能。

*实训成果文档:团队建设和奖惩制度、文献综述、项目开发计划、需求分析说明书、系统设计说明书、项目代码、项目答辩PPT、用户手册。

2.目的、任务和要求

1).课程设计目的

(上图实训课程林子雨老师在上课)

2).课程设计任务与要求

本课程设计项目涉及数据的预处理、数据的存储、数据查看、算法编写、算法应用和大数据结果展现等全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Spark、SparkMlib、IntelliJIDEA(简称IDEA)、Node.js等系统和软件的安装和使用方法。通过本项目,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。

本课程设计项目需要完成以下任务:

本课程设计任务遵循真实的企业标准开发流程,使学生了解和体会商业项目开发的过程与环境。指导其完成制定开发计划、分析系统需求、设计系统架构及功能,让学生通过团队合作,在预定周期内完成软件项目的开发,从而训练学生的编程开发、文档撰写、统筹规划、分工协作等技能及能力。

(上图林子雨老师在解答学生问题)

3.课程设计内容

课程设计题目:基于SparkMLlib的电影推荐

设计一个基于协同过滤算法的电影推荐算法,采用Scala语言编写SparkMLlib程序实现该算法,利用已有的训练数据集对算法进行训练得到电影推荐模型,并用测试数据集进行电影推荐,最后,将推荐结果进行可视化展现。

基本需求包括:

(1)数据ETL:可以把保存在文本文件中的数据集,通过ETL工具,加载到分布式文件系统HDFS中。

(2)编写Spark程序实现电影推荐功能:采用Scala语言,编写SparkMLlib程序,对HDFS中的数据进行分析,实现电影推荐算法;

(3)可视化:采用可视化技术,把分析结果展现给用户。

(上图不同团队之间在互相交流学习)

4.课程设计的教学方法

课程设计采用“技术教学+项目实践”的形式,以技术教学作为项目实践的准备和基础,以项目实践强化技术教学的效果,并训练学生的团队协作、交流沟通以及实施商业项目开发的能力。

技术教学环节采用的教学方法包括:

项目实践环节采用的教学方法包括:

(上图项目答辩最佳团队获得林子雨老师赠书)

5.课程教材

林子雨编著《大数据案例之电影推荐系统》,人民邮电出版社,2019年4月.

6.授课过程

7.实训成果文档

实训成果文档包括:团队建设和奖惩制度文献综述项目开发计划需求分析说明书系统设计说明书项目代码项目答辩PPT用户手册

(上图实训课堂上学生团队在讨论解决问题)

8.教学管理平台

本次实训课程采用“教学过程一体化管理平台”,对教学全过程进行高效的信息化管理。该系统具备课程资源管理、学生管理、授课过程管理、授课质量分析、成绩自动统计等功能。

9.大数据课程公共服务平台

10.学生作品

紧紧围绕通识教育核心理念,努力培养学生的数据意识、数据思维、数据伦理和数据能力。授课对象:非计算机专业大学生(尤其是文科专业)

2.培养目标

本课程旨在实现以下几个培养目标:

(1)引导学生步入大数据时代,积极投身大数据的变革浪潮之中

(2)了解大数据概念,培养大数据思维,养成数据安全意识

(3)认识大数据伦理,努力使自己的行为符合大数据伦理规范要求

(4)熟悉大数据应用,探寻大数据与自己专业的应用结合点

(5)激发学生基于大数据的创新创业热情

3.课程内容

大数据时代已经全面开启,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。了解大数据概念、具备大数据思维,是新时代对人才的新要求。本课程高屋建瓴探讨大数据,内容深入浅出,简单易懂,适合非计算机专业(尤其是文科专业)学生学习。课程内容包括大数据概述,大数据与云计算、物联网和人工智能,大数据技术,大数据应用,大数据安全,大数据思维,大数据伦理,数据共享,数据开放,大数据交易和大数据治理等。

4.课程教材

林子雨.文科大数据通识导论,高等教育出版社,2019年(即将出版).

厦门大学数据库实验室在过去四年投入大量精力建设了丰富的大数据课程资源,总体而言,我们的课程建设模式如下:以大量教学实践推动课程和教材建设、以平台思维促进教学资源汇聚和共享、以迭代方法不断优化升级教学内容、自我造血为课程建设提供稳定资金保障。

THE END
1.手把手教你用java+swing+mysql写一个学生管理系统模块不清楚如何使用java代码去操作数据库进行增删改查一些列操作,不清楚java代码和数据库(mysql、sqlserver)之间怎么联系起来。 一个系统本质上就是一系列的模块组合起来的,只要懂了一个模块的实现,其他的自然而然的也就不难。 今天,我们通过做一个学生管理的一个通俗模块,去给大家演示如何用java+swing+mysql去实现一个...https://www.jianshu.com/p/4cdcc6a89836
2.[项目分享]JSP+Servlet+JDBC实现的学生信息管理系统张有路项目来源于:https://gitee.com/liu_xu111/JavaWeb01 这次分享一个学生管理系统,我感觉这是程序员在大学时期的毕设和课程设计选择最多的课题,当然也包括我。 本系统基于JSP+Servlet+Jdbc的学生信息管理系统。涉及技术少,易于理解,适合JavaWeb初学者学习使用。 难度等级:简单 技术栈 编辑器 Eclipse Version: 2019-...https://www.cnblogs.com/zcr3108346262/p/12525181.html
3.20152016Java期末考试真题100道(附答案解析)33. Java的JVM是指() A、由Java操作的家用设备(通常是一个漂亮的小烤箱); B、Java源代码的编译器; C、运行Java 所需的硬件设备; D、Java字节代码的解释程序[正确选项] ; 34. 关于异常,下列说法正确的是( ) A、异常是一种对象[正确选项] ; B、一旦程序运行,异常将被创建; C、为了保证程序运行速度,要...https://m.360docs.net/doc/fc920301.html
4.PatternRecognitionandMachineLearning中英文+答案微信Java开发工具包,支持包括微信支付、开放平台、公众号、企业微信、视频号、小程序等微信功能模块的后端开发。 上传者:qq_41701956时间:2024-11-15 c语言通讯录管理系统源码.rar c语言通讯录管理系统源码 上传者:qq_39220145时间:2024-11-15 如何制作MC(需要下载海龟编辑器2.0,下载pyglet==1.5.15) ...https://www.iteye.com/resource/phoenix198425-10049946
5.Java程序设计(第4版)辛运帏习题参考答案.pdf(2)校验代码一由字节码校验器完成。 (3)运行代码由运行时解释器完成。 2.类卜载器 JaVa运行时系统区别为待来自不同源的类文件。它可能从本地文件系统中下载类 k件,也可能从IniCrnE上使用类F载器下载类文件。运行时系统动态决定程序运行时 所需的类文件,并把它们卜载到内存中.将类、接口与运行时系统相连接...https://m.book118.com/html/2024/1021/6054054121010234.shtm
1.基于Java控制台学籍信息管理系统源码+题目课程设计大作业题目:一、编写一基于集合操作的学籍管理系统,包括对学生的添加、查找、删除、显示操作。 要求,分别用ArrayList和HashMap两种集合结构实现,其中HashMap结构实现“学号”-“学生”,也就是学号到学生的映射。 提示及思路: 1、学生 Student类:具有四个属性,分别是姓名,性别,年龄和学号。 https://blog.csdn.net/VX_laoxuezhangzy/article/details/143729315
2.学生学籍管理系统(含java源代码)1、学生学籍管理详细设讣学号: _姓名: _班级: _一、设计题目:学生学籍管理二:设计内容:设计GUI学生学籍管理界面,用户可以加入学生信息,并对基本信息进行修改,添加,査询,删除。三:设计要求:进行简单的学生信息管理。四:总体设计登陆界面的设计(2)主窗体的设计(3)添加学生信息窗体(4)査询学生信息窗体(5)修改学生...https://m.renrendoc.com/paper/151881130.html
3.javaWeb实现学生信息管理系统java这篇文章主要为大家详细介绍了javaWeb实现学生信息管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下本文为大家分享了javaWeb实现学生信息管理系统,供大家参考,具体内容如下初始版初始版是没有加分页的。因为没怎么学过前端,界面很丑陋。主要技术:JSP,JavaBean,servlet,JDBC主要页面...https://www.jb51.net/article/132980.htm
4.Java版学生成绩管理系统,附源码[通俗易懂]对于计算机专业的学生来讲,一定对于学生成绩管理系统课程设计十分印象深刻。设计、上机、编码、写报告、答辩等一系列流程,虽然很简单,但也可以综合运用我们所学的一些知识了。 今天就来复习以下这个课题,用JavaSE 来实现该课题,也算是补上当初上课的时候没有好好写的遗憾吧。 https://cloud.tencent.com/developer/article/2105592
5.自考《互联网数据库》实践考核模拟题汇总自考1.在数据库管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。在这几个阶段中,数据独立性最高的是( )阶段。 A.数据库系统 B.文件系统 C.人工管理 D.数据项管理 2.层次模型不能直接表示( ) A.1:1关系 B.1:m关系 C.m:n关系 D.1:1和1:m关系 ...https://www.educity.cn/zikao/145525.html
6.2023届电子信息与计算机工程系优秀毕业设计作品毕业设计6.基于java的学生文档管理系统 2019级计算机科学与技术 杜燕华 新时代的来到,互联网对各行各业都产生着重大影响与改变,尤其互联网技术对人们的生活都带来了许多便捷,让人们的生活发生了巨大变化。 本学生文档管理系统采用了现代化的技术栈,其中后端使用SpringBoot框架进行开发,前端采用了流行的VUE3框架以及elementUI...https://www.cdutetc.cn/c/4c068411-751b-4f12-b725-f69e34c010a3.html
7.尚硅谷Java大型企业级医疗项目尚医通项目实战课程(视频+代码+资料...尚硅谷Java大型企业级医疗项目尚医通项目实战课程(视频+代码+资料+笔记) 百万资源 3个月前发布 关注私信 0160 尚医通是一个网上预约挂号系统,包含后台管理系统和前台用户系统,采用前后端分离开发模式。 尚医通是采用Vue3全家桶、TypeScript、Vite、Pinia、Element-plus等技术栈开发的在线医疗服务平台,集成了多家医院的挂...https://www.bw1.net/5774/
8.基于SpringBoot+Vue开发的权限管理系统毕设二开项目首选本项目是由潘老师亲自开发的用于快速二开的前后端分离的权限管理系统,基于该项目可以快速地进行二次开发后台管理系统,适合任何类型的毕设选题,所有的权限都已经做好,菜单、路由和权限都在后台管理好了,你只需要专注于业务部分代码的开发即可,非常适合那些想自己开发毕设项目但自己又不会搭建项目基础框架和实现权限控制的...https://www.panziye.com/javacode/4192.html
9.阅读下列Java源文件,并回答问题。publicclassSpeak{C. java.exe和java.exe D. jad.exe和java.exe 查看完整题目与答案 【单选题】能将用JAVA语言编写的源代码转换成字节码的命令是()。 A. java ...查看完整题目与答案 建筑工程>二级建造师>管理考试题目 【简答题】Java源文件的扩展名为___,Java字节码文件的扩展名为___。 查看完整题目与答案 【单...https://www.shuashuati.com/ti/4dae5bff3f594df08ea4435ac1f44cd7.html
10.java学生信息管理系统源代码mob64ca12e08acf的技术博客Java学生信息管理系统源代码实现教程 1. 简介 本教程将教会你如何使用Java语言实现一个学生信息管理系统的源代码。这个系统将能够管理学生的基本信息,包括姓名、年龄、性别等,并提供添加、删除、查询和修改学生信息的功能。 2. 实现步骤 下面是实现这个系统的步骤,我们将使用面向对象的思想,将学生信息封装成一个类,并...https://blog.51cto.com/u_16213365/7002931