地址:广州市经济技术开发区科学城232号
热线:40068-40020
邮编:510663
目录
1引言...............................................................................................................3
1.1数据挖掘前景..............................................................................................3
1.2高校数据挖掘人才培养及高校科研现状.......................................................3
2产品介绍........................................................................................................4
2.1数据挖掘辅助教学套件................................................................................4
2.2适用对象.....................................................................................................4
3产品构成........................................................................................................5
3.1数据挖掘辅助教学软件................................................................................5
3.1.1软件功能.......................................................................................5
3.1.2软件界面......................................................................................11
3.1.3运行环境......................................................................................12
3.2数据挖掘辅助教学多媒体软件...................................................................12
3.3数据挖掘辅助教学PPT..............................................................................15
3.4数据挖掘辅助教学实训教程.......................................................................16
3.5数据挖掘辅助教学案例库..........................................................................18
3.6云服务器(可选).....................................................................................18
4产品特点......................................................................................................19
4.1教师轻松教,学生轻松学..........................................................................19
4.2根据需要,灵活定制课件内容...................................................................19
4.3操作简单,维护方便.................................................................................19
随着我国高等教育结构的调整和规模的扩大,我国高等教育已经迈入大众化教育阶段,而科研工作也已成为高校除人才培养之外所承担的又一项重要工作,高校的科研活动和科研能力日益成为高校综合实力表征的重要指标之一。
2高校数据挖掘人才培养需求
目前,数据挖掘有关的书籍已经很多,但数据挖掘这门课程既强调深入的算法理论,又强调实际应用,因此,要真正讲好这门课,让学生既能掌握必要的理论基础,又能将数据挖掘理论和方法用于解决实际问题,对授课教师而言都有一定的难度。虽然国外已经有数据挖掘的商业软件,但通常是面向大型企业应用的,而且价格都比较昂贵,使很多大学不能建立有效的教学实习环境,缺乏相应的实验教材和讲义,导致数据挖掘课程的教学大多只能以讲解原理为主,实验环节非常薄弱,造成学生缺少数据挖掘实践经验、缺乏实践应用能力。因此高校迫切需要一款适合自己的,具有丰富数据挖掘实际应用案例的,以提高学员数据挖掘实际应用和动手能力为目的,寓教于学的高校数据挖掘教学套件。
2高校科研需求
许多高校为了更好地对学校科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据。但是,大多科研业务管理系统并没有对这些数据进行深入分析,对数据所隐藏的价值并没有充分挖掘利用。同样需要数据挖掘工具深挖科研信息的价值。
数据挖掘辅助教学套件是广州泰迪智能科技有限公司专门针对高校数据挖掘课程教学的实际情况,针对实验环节薄弱,学员实际应用能力差这一教学弱点设计开发的一系列教学套件。能够让老师在讲解数据挖掘算法理论的同时,通过实用的建模工具来模拟实际应用案例,同时采用软件辅助教学后,参加听课的学员可以很容易在教学实验室部署实验环境(我们能够为学员提供相应的多媒体软件、上机实验教材等,指导学生实践数据挖掘实际操作),在实验室环境下模拟实际应用,由此弥补学员实践经验的不足。在教学过程中,强化应用和实验,做到理论与实践的有机结合,使学生受益,老师授课方便。
顶尖数据挖掘辅助教学套件(TipDM-T6,简称T6)主要包含以下内容:
2数据挖掘辅助教学建模软件
2数据挖掘辅助教学多媒体软件
2数据挖掘辅助教学PPT
2数据挖掘辅助教学实训教程
2数据挖掘辅助教学案例库
2云服务器(可选)
2用数据挖掘进行科研的高校、研究所
特别说明:提供数据挖掘建模软件,同时协助和指导教师构建特定专业的预测模型及编写相应实验指导书。
3.1.
顶尖数据挖掘平台(TipDM)应用非常广泛,能够模拟以下众多方向的应用:
学生可以根据数据挖掘课程需要在(TipDM)软件平台上模拟各种数据挖掘实际应用,快速提高数据挖掘实践能力,增加数据挖掘应用经验。
顶尖数据挖掘平台(TipDM)包含了目前主流的各类算法,方便学员寓教于学,快速理解和学习算法,并可以在平台上进行算法对比,下面是顶尖数据挖掘平台(TipDM)主要算法功能:
数据探索是对导入系统中的数据进行初步研究,以便更好地理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。
模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证预测质量打下基础。
算法名称
算法描述
主成分分析
主成分析分析(PCA)是指用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,且相互之间又是无关的。
周期性分析
分析数据变化过程中,某些特征重复出现,连续的两次出现的客观规律。在时序预测时,经常要对样本数据进行周期性分析,以更好地理解样本数据变化的特点,为时序预测分析提供指导依据。
缺失值处理
样本数据中经常存在一些缺失值,在进行预测建模前,需要对缺失值按照某些规则进行处理。处理方法主要有:1)删除;2)数据补齐(人工填写、平均值填充、特殊值填充、热卡填充、K最近距离邻法、回归、期望值最大化方法等)。
坏数据处理
如果抽取数据中存在坏数据(脏数据),则需要对坏数据进行预处理。通常的做法是采用绝对均值法或莱因达法等对样本中的坏点数据进行剔除处理。
属性选择
由给定的属性构造或添加新的属性,以帮助提高精度和对高维数据结构的理解,是具有最佳预测准确率的子集。
数据规约
将属性数据按比例缩放,使之落入到一个小的特定区间。找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布。
离散处理
特征提取
主要对图像、声音、信号等数据源,通过图像处理、小波变换等建立一组新的、更紧凑的属性来表示数据的过程。如图像特征提取是指根据图像特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。
说明:版本不断更新,更多算法详见:www.tipdm.cn
分类是数据挖掘中应用得最多的方法。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
回归是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
分类与回归算法主要有:
l贝叶斯:朴素贝叶斯网络、贝叶斯信念网络
l决策树及表:决策表、CART决策树、ID3决策树、C4.5决策树
l神经网络:BP神经网络、LM神经网络、RBF神经网络、FNN神经网络、ANFIS神经网络、WNN神经网络
l回归分析:线性回归、逐步回归、逻辑回归、保序回归
l其它算法:AdaBoostM1算法、KStar算法、SVM支持向量机、K-最近邻分类
主要算法介绍:
输出示例
BP
神经网络
BP(BackPropagation)神经网络是是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。
LM
Levenberg-Marquardt是基于梯度下降法和牛顿法结合的优化算法,特点:迭代次数少,收敛速度快,精确度高。
FNN
模糊神经网络
模糊神经网络(FuzzyNeuralNetwork,FNN)是具有模糊权系数或者输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,它汇聚了神经网络与模糊系统的优点
RBF
径向基神经网络
径向基函数(RadialBasisFunction,RBF)神经网络是具有单隐层的三层前馈网络。它是一种局部逼近网络,能够以任意精度逼近任意连续函数,特别适合于解决分类问题。
ANFIS
自适应神经模糊推理系统
自适应神经模糊推理系统(AdaptiveNeuralFuzzyInferenceSystem,ANFIS)是功能上与一阶T-S模糊推理系统等价的自适应网络,它是将神经网络的学习机制引入模糊系统,构成一个带有人类感觉和认知成分的自适应系统。
WNN
小波神经网络
小波神经网络(WaveletNeuralNetwork,WNN)是基于小波变换而构成的神经网络模型,即用非线性小波基取代通常的神经元非线性激励函数(如Sigmoid函数),把小波变换与神经网络有机地结合起来,充分继承了两者的优点。
SVM支持向量机
支持向量机是V.Vapnik等人在研究统计学习理论的基础上发展起来的一种新的机器学习算法,它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力。
CART决策树
分类与回归树(classificationandregressiontree,CART),是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。
时序模式类算法主要有:
l指数平滑
l多元回归
lGM灰色理论
lRBF神经网络
lANFIS神经网络
lSVM支持向量机
指数平滑
GM
灰色理论
多元回归
SVM
支持向量机
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
聚类分析类算法主要有:
lK-均值算法
lEM最大期望算法
lDBScan密度算法
l改进K-均值算法
l多层次聚类
K-均值算法
K-均值聚类(K-meansclustering)是MacQueen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。
EM最大期望算法
最大期望(Expectation–Maximization,EM)算法是Dempster,Laind,Rubin提出的求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行MLE估计。
DBScan密度算法
DBScan(DensityBasedSpatialClusteringofApplicationswithNoise),是基于密度的聚类方法,它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。
多层次聚类
这种方法对给定的数据集合进行层次的分解,根据层次的分解如何形成,它又可分为凝聚法(也称自底向上方法)和分裂法(也称为从上向下方法)
关联分析类算法主要有:
lHotSpot关联规则
lApriori关联规则
lFP-Tree关联规则
lHOTSPOT关联规则
l灰色关联法
1、硬件环境
2CPU:P43.0G以上,建议使用双CPU
2内存:1GB以上
2硬盘:80G以上硬盘剩余空间
2、软件环境:Windows/Linux
结合课程教学需要,本套件提供配套的教学用多媒体软件,指导学生快速了解和掌握数据挖掘建模技术。
多媒体软件主要包含:混合编程、挖掘建模、完整案例、自动动手和交互练习等。以下是部分截图:
结合课程教学需要,数据挖掘辅助教学套件(TipDM-Res)同时提供配套的教学用PPT:
主要包含以下内容:
结合课程教学需要,数据挖掘辅助教学套件(TipDM-Res)提供实训教程,方便学生基于数据挖掘软件快速实现数据挖掘预测建模。
《数据挖掘:实用案例分析》中每个案例分别由挖掘目标的提出、分析方法与过程、建模仿真、核心知识点和拓展思考等内容构成,如下图示:
泰迪公司近10年来在电信、电力、金融、互联网、教育、水产、税务、生产制造等行业20多个数据挖掘应用整理成案例库,案例库包括项目背景、研究目标及详细的技术实现路线,并配完整的数据资料。
云计算作为网格计算的升级,在近几年来被提出,他具有超大规模、虚拟化、高可靠性、通用性强、高扩展性、按需服务、易用等优点,这些优点可被用来搭建系统解决海量数据挖掘的问题。
基于云计算的数据挖掘模式,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式。
传统教育方式以统一模式进行教学,无法针对不同程度的学习者提供最有效的教学。一种以学习者为主体,完全体现学习者的主动性、积极性,既可以进行个性化教学,又可以进行交互协作形式教学的新一代教育模式应运而生。其中一堂课中所包含的信息量也远远超过传统教育方式下教师凭一张嘴、一块黑板、一支粉笔完成的教学内容,大大提高了教学效率。
强调教与学双方主体的主动性与协作性,建立一个互动式的个性化学习环境,使教学双方主体能够充分发挥其主观能动性和创造性,以获得最佳教学效果。