关键词:学习行为数据;学习结果;数据结构;学习预警;可视化分析
一、研究背景
移动终端、教育APP、自带设备等技术工具的广泛应用,正对传统学习环境进行着重塑和再造,整合学习终端、学习资源和学习服务的混合式学习环境,逐渐成为新常态。学习者的学习方式也由原来的正式学习(指课堂环境下的学习)转变为正式学习和非正式学习(包括校园内学习、工作场所学习和家庭学习等)的无缝对接,形成一个连续性的个人学习空间。学习者只需在当前的学习情境下选择合适技术支持的学习终端,即可进行数字化学习。伴随着学习方式的转变,学习评价的科学性和有效性探索也在发生变化,如何基于全学习过程数据进行形成性评价和课程学习预警,成为当前学习评价所面临的重要问题。
美国2016国家教育技术计划《未来学习准备:重塑技术在教育中的角色》FutureReadyLearning:ReimaginingtheRoleofTechnologyinEducation)在“使用评价数据更好的支持学习”部分中提出,要更好地利用教育数据系统,来提升技术支持学习工具和资源的质量和效果,利用数据促进个性化学习[1]。我们可以看到,基于学习数据集进行环境分析,改善学习服务以促进个性化学习,是未来教育发展的一个重要取向。与此同时,致力于对学习者及其所在情境中产生的数据,进行测量、搜集、分析和报告的学习分析、教育大数据和人工智能技术的快速兴起,为开展形成性评价和学习预警提供了技术上的可能性。
本研究探索混合式学习环境下,如何整合正式学习和非正式学习下的行为数据进行课程学习结果预警,并通过设计预警系统实现学习过程的动态监控,从而为开展精准教学和学习干预提供有效依据。
二、国内外研究现状分析
(一)学习预警的分类及其跟踪反馈的差异研究
根据预警对象的不同,我们可以将学习预警分为三种类型:
第三种是针对教师和学习者同时提供的双向预警,系统帮助教师制定针对个别学习者的培养方案,以有效提高学生的学习成绩。例如,普渡大学的课程信号系统,通过预测学生成功算法对考试分数、排名、学习进度等数据进行分析计算,确定学生存在学习失败的可能性,分别向教师和学生发送不同的预警信息。教师根据预警信息,结合学生的学业表现,及时给予课外谈话、心理辅导等形式进行干预支持[5]。
通过对学习预警的分类和学习预警的跟踪反馈形式可以看出,学习预警系统往往以学生为中心,其出发点和落脚点在于辅助学习者提高绩效,而其研究重点落在如何通过分析学习过程数据来发现学习存在的问题上。
(二)学习预警的基础技术与数据收集研究
(三)在线学习预警模型与系统构建研究
Hoonuit在线学习平台致力于指导教师尽早识别处于学习失败危险中的学生,并整合有影响力的干预工作流程,有效地跟踪学生的进度,从而提高学生的毕业率[12],Hoonuit配合使用干预反应模型(RTI)和多层次支持系统(MTSS),该系统支持教师参与决策过程,提供了一个可以根据每个学生的需求定制的直观的预警解决方案。此外,Hoonuit通过与微软合作,使得教育部门和其他教育机构可以在云平台上运行Hoonuit的数据程序,保障了动态数据的及时连接、转换、清理和验证。通过MicrosoftAzure(人工智能学习托管平台)可以及时发布早期预警信息,预警系统可以通过向教师通报学生的风险严重程度以及引起风险的原因,从而起到筛选或诊断的作用。
(四)学分制环境下学业预警机制的实践探索与分类标准研究
除了对学习预警探索外,还有研究者对学生在校学业情况进行预警分析。例如,袁安府等通过德尔菲法确定学业预警的指标要素,并结合理论、专家意见等方面指导,构建了大学生学业预警评价指标体系,确立了学业预警帮扶机制。该机制由建立学业预警帮扶领导机制、学业预警学生的帮扶、建立帮扶人员的激励机制三方面组成,实践数据表明,使用了学业预警的学生辍学率明显降低[13]。
尽管学习预警研究在模型设计、反馈警示、学业分析等方面已取得初步成果,但在教育大数据、人工智能和学习分析背景下,对数据采集的粒度、技术实现机制、预警状态识别等方面还存在不足,具体包括:(1)数据采集面较为单一,传统课堂学习数据与在线学习数据割裂。后期仍需要整合学习者的全学习过程数据并进行分析,以提高学习预警的准确度;
缺乏能够从课程学习过程层面进行预警的系统:已有研究多从理论层面设计学习预警模型以及学业预警系统,而在学习过程中进行预警设计与技术实现上的研究则相对薄弱。
针对上述问题,本研究将在数据整合、预警系统技术实现、可视化输出等方面进行突破,通过整合预警数据采集、动态分析和可视化输出等模块形成一套预警服务模式。
三、学习预警模型设计与数据源分析
(一)数据集驱动的学习预警模型设计
要使学习预警能够有效精准的预测学生的学习结果,需要对学习者的全学习过程数据进行采集和分析。学生学习方式的多样化和学习场景的分割性,决定了学习预警要体现在不同学习环境下的多样化学习行为数据进行整合与评估,以形成一条以学习者为中心的学习数据链。在结果输出方面,利用可视化分析技术给学习者和教师提供反馈或评价环,不仅可以让教师了解学习过程中的资源使用状况、学习参与状况、学习活跃度等,而且可以通过预测分析对结果状态进行评估和分类,识别出学困生。
之前,我们对学习预测的设计取向进行了全面分析,包括以混合式学习为情境取向、整合教学设计与学习分析的理论取向、基于学习状态和行为表现的数据取向、以机器学习为分析主导的方法取向、面向个性化学习结果反馈的结果取向[15]。
基于上述设计取向,我们进一步以个性化学习分析理论、交互理论、计算思维、可视化技术为指导,提取问题建模与系统设计、个性化学习活动过程分析、不同交互层级数据采集、学习状态可视化输出等思想,最终设计了以学习者为主体中心、以学习数据链为分析对象、以个性化学习预警为服务目标的学习预警模型,如图1所示。
该模型包括学习服务模块、信息采集模块、教育大数据仓库和云计算平台、数据处理模块、预测计算与分析模块、自动预警与可视化模块:
—学习服务模块是为学习者提供包含智慧教室和教育云服务平台的混合式学习场景,并对课堂学习环境下的面对面互动结果、学习笔记记录状态、学习注意力状态,以及网络环境下的学习任务完成结果、学习互动参与结果和学习测验结果进行追踪和记录。
——信息采集模块是从键击层、交互层、行为层等方面对数据进行采集,并通过教育大数据仓库实现对信息数据的再分类,形成以学习者为中心的数据链。
——教育大数据仓库是依据个人档案信息和个体不同学习表现建立的主题数据库,提供满足具体学习行为信息提取的数据分析环境,并将各数据库进行关联,实现后面分析需求的响应与反馈。该部分将对以个人档案信息数据为代表的关系型数据库和以学习过程和学习结果数据为代表的非关系型数据库进行分类处理,分别发挥传统数据库工具在结构化数据处理的优势,以及Hadoop在大规模非结构化数据的预处理优势,最后将两者处理后的数据存储至结构化数据库中。
——云存储池和云计算平台则是通过集群应用、网络技术和分布式文件系统等功能,将不同教育数据库通过软件集合起来进行协同工作,以提供数据存储和业务访问功能。
——数据处理模块是基于分布式处理系统采用批处理和流计算,对数据进行抽取、清洗、转换和集成加载[16]。预测计算与分析模块是采用层次分析法计算数据模块权重,并应用BP神经网络和关联规则,预测分析各数据模块关系与学习结果表现。
——自动预警与可视化模块是基于分析结果对预警结果状态、学习报表分析、预警过程分析进行输出,其中预警结果状态是基于预警计算数值采用可视化仪表盘方式进行标识。
(二)学习预警数据源分析
1.个人档案信息数据
该部分数据主要包括学生入学初始成绩、必修课程通过率、选修课程通过率、补考及重修因素、学位课程平均绩点等。其中,必修课和选修课课程通过率是对以往所修课程数进行统计,并进行数据折合转换得到的。补考及重修因素包含挂科、刷新绩点、因个人情况未进行考试等因素。学位课程平均绩点是依据学生具体成绩分数转换计算为绩点值。
个人档案信息数据反映学习者的整体学习水平和学习成绩的动态变化过程,基于该类数据既可以把握成绩变化趋势为成绩预测提供支持,又可以掌握学情了解学习者的学习表现风险区间,使预警结果能够符合学习者常态化学习状态[17]。
2.课堂学习行为数据
课堂学习行为数据的搜集,是指通过智能录播技术对学习者的行动表现进行的有效追踪和实时记录。在学习注意力表现上,应用国外研究者MirkoRaca等设计开发的课堂注意力评价系统,通过学习者头部和肢体的移动位置、移动方向以及写作活动分析其注意力状态[18]。
3.网络学习行为数据
四、学习预警系统的基础技术框架
(一)数据源
(二)数据集成
(三)数据管理
数据管理既包括线上和线下学习表现数据的分类与数据关联,也包括数据索引、查询、流处理与批处理的整合、数据分析与计算。数据管理的功能定位是对集成数据的管理,是形成有效精准预警信息的重要保障,也是保护隐私数据、确保数据安全的关键点。其目的在于保障高质量的学习结果预测,协调集成数据实现各种应用之间的可共享性,最后实现学习者与学习结果、预警信息的良好对接。在系统建设上,通过分布式文件系统、分布式数据库和并行计算模型进行架构实现。采用Hadoop分布式文件系统,对以学习者为中心的不同行为数据节点进行链接,为上层数据挖掘提供非结构化存储服务。采用MapReduce分布式并行计算模型对不同学习表现数据进行拆分,在不同计算节点上执行,最后整合计算结果。
(四)应用服务
(五)信息展示
信息展示层是学习预警系统的最高层,包括报表设计、可视化数据展示、图形监控和报警、移动终端的扩展和决策分析。预警系统综合考虑学习者的学习过程、学习结果、内容形式、表现方法等要素,利用可视化的技术手段,将阶段性学习结果输出为仪表盘等形式,对有效的学习结果预测和精准的学习预警分析进行更直观的反馈,从而帮助学习者更好地理解分析结果,支持决策行为。
五、学习预警系统的技术实现
学习预警系统要提供统一的对象工厂模型以及多种教学业务模式,应用支持向量机和机器学习方法进行数据分析[20]。在技术路线上,利用UML建模来设计核心数据模型,以ASP.NET为开发平台,采用Oracle数据库,基于Microsoft.Net后台开发及JQuery前台开发等开发预警系统。该系统具有高度的扩展性和可维护性,可动态管理教育大数据仓库内部数据分析环境,定期进行数据更新,使教育大数据仓库正常运行,并能够根据学习过程数据快速地进行动态分析,解决软件需求不确定性和软件开发实施速度之间的矛盾,满足学习预警的常态化监测需求。
(一)预警系统的数据结构及权重
学习预警的主要数据结构包括:教师表、课程表、选课表、考勤表、个人档案信息表、学习资料表、课堂学习行为数据表、网络学习行为数据表、测评任务表、操作日志表等,其属性和结构关系如图3所示。
在这些数据结构中,由课程表可以计算个人档案信息表的必修课与选修课数量,以及通过数量和绩点;由选课表计算出课程成绩和课程是否通过"由操作日志表和学习资料表获得网络学习行为中的发帖数量、回复数、浏览帖数量、完成进度、互动参与度等信息"由网络学习行为数据表、测评任务表和课堂学习行为数据表,计算出测评预警结果、课堂学习行为预警结果、网络学习行为预警结果。通过分析数据结构,可以解决数据关联、数据通信以及交互规范等基础性问题。
学习预警结果是基于数据模块计算得出的,而在模块权重方面,我们可采用层次分析法,对以往存在学习风险的学生,在不同数据模块的表现情况进行统计分析。具体过程包括:(1)构造判断矩阵,请评判专家按照九分位的比例标度,对上述同一层次的数据模块指标的相对重要性进行评判;(2)计算权重,依据层次分析计算公式,将上述十阶判断矩阵的各行向量进行几何平均、归一,得到各个数据模块的权重向量;(3)一致性的检验,为了评估预警系统的性能,判断其是否能给出精准的预警信息,需要检验判断矩阵是否具有较好的一致性。我们先根据指标公式计算得出一致性指标,之后与十阶判断矩阵的平均随机一致性指标值进行相除,从而得出判断矩阵的一致性比率。
(二)预警过程的监测与动态分析
(三)预警结果的可视化输出
1.数据可视化技术概述
数据可视化旨在借助于图形化手段,清晰有效地传达与沟通信息。为了有效地传达思想概念,图形形式与功能需要齐头并进,通过直观地传达关键维度与特征,实现对稀疏而又复杂的数据集的深入洞察。在本文中,数据可视化的对象主要包括:学习者在学习测评过程产生的有效数据、学习者学习过程中产生的交互行为数据、学习预警结果的信息展示。
2.插件式开发及highchart插件在预警系统中的应用
插件式开发是一种程序设计技术,是一种面向组件的软件开发方法。在插件结构的应用系统中,程序并不是单一的执行文件,而是由主程序和若干外部模块组成。这些模块是按照一定的规则编写,可以通过配置文件灵活地加人到系统中,也可以在程序运行时动态地加人到系统中。Highcharts是一个用JavaScript编写的图表插件库,可在预警系统中实现结果的可视化输出。它能够支持外部数据加载和数据动态性,支持多种数据形式。Highcharts结合Jquery等javascript框架提供的Ajax(—种创建交互式网页应用的网页开发技术)接口,可以实时地从考勤管理、作业管理、任务管理、互动管理、课堂表现和线上学习等模块取得数据,集成到中心服务器中并刷新图表,提供良好的用户体验。
因此,我们需要将不同业务系统的数据进行统一的采集、整理和管理,利用教育大数据仓库,为管理者提供有效的数据处理,从而能够进行集中的数据整合与分析,具体技术路线如图5所示。
ETL是将各个子系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起,为预警决策提供分析依据。ODS(OperationalDataStore)是操作型数据存储,0DS具备数据仓库的部分特征和OLTP系统的部分特征,它是“集成的、当前或接近当前的、不断变化的”数据,一般不保留数据的变动轨迹,是数据仓库体系结构中的一个可选部分;ODS层适合于数据整合度较低、时效性要求较高、适合基于源系统数据结构加工的应用;主要进行短期的、细节的、反映业务原貌的数据存储,直接提供基于源系统结构的简单原貌访问,同时,为商务智能环境中适合的业务需求提供支持。其原则是面向全局,数据整合;模型设计,灵活扩展,并提供规范和共享。服务层利用ODS支持的预警中心数据库,再利用Ajax技术从数据库中读取数据,最后配置Highchart/插件,实现预警信息决策支持和可视化展示。
3.可视化仪表盘输出预警结果
为检验系统的可行性和有效性,我们以某高校专业核心课程《数据库原理与技术》为试验对象,以学生档案数据、课堂学习表现数据、网络学习平台数据等为数据源,并将样本数据划分为训练样本和检验样本,应用该预警系统进行实际分析、系统预警总评结果,如图6所示,我们可以看出李文在红色预警区。基于以上分析结果,结合学生的实际学习成效,我们通过预警发现,学习者在课程学习表现上存在学习风险,这说明系统分析有较高的效度。
尽管预警系统在一定程度上能够识别出课程学习风险的学习者,但在数据量和分析算法上还存在一些局限,具体包括:(1)数据样本量影响预测精度;建立有效的神经网络需要较大规模样本,从而训练出较高效度模型;当前的分析数据主要以小样本为主,数据量有待进一步扩充;(2)预警指标权重设计需进一步优化;当前的指标设计主要基于已有数据和模块分析得出,在模型拟合度上还存在偏差,需要进一步扩充训练样本量,通过数据模拟出最优权重;
预测分析算法的局部最优问题,影响系统整体精度;后期仍需要对不同预测分析法进行比较分析,使模型的求解过程从局部最优收敛到全局最优。我们将进一步优化预警算法和参数设置,以提高系统运行的可靠性与稳健性。
六、结语
学习预警作为学习分析过程中的重要环节,为学习干预提供了科学依据,而自适应技术、人工智能和数据科学的发展,使得学习预警更加智能化和精准化。当前学习方式的多样化和学习数据的分布化,决定了要对不同学习环境下的数据进行整合分析。
本研究对学习预警系统的理论模型和基础技术框架进行了设计,并通过Oracle数据库、ASP.NET语言、Microsoft.Net等进行技术实现,提出了混合学习环境下面向课程的学习预警系统。后期,我们将进一步在教学实践中进行应用,探索不同学科下的课程预警效果,并对预警的精准性和用户体验进行迭代优化,以提高该系统的运行效度和鲁棒性。