地址:广州市经济技术开发区科学城232号
热线:40068-40020
邮编:510663
目录
1引言...............................................................................................................3
1.1背景............................................................................................................3
1.2目标............................................................................................................3
1.3联系我们.....................................................................................................4
2产品介绍........................................................................................................5
2.1大数据挖掘实战平台...................................................................................5
2.2适用对象.....................................................................................................5
3产品构成........................................................................................................7
3.1数据挖掘教学软件.......................................................................................7
3.1.1软件功能.......................................................................................7
3.1.2软件界面......................................................................................13
3.1.3运行环境......................................................................................14
3.2数据挖掘多媒体软件.................................................................................14
3.3数据挖掘教学PPT.....................................................................................17
3.4数据挖掘实训教程.....................................................................................18
3.5数据挖掘辅助教学案例库..........................................................................20
3.6大数据分析平台........................................................................................20
3.7大数据实战培训........................................................................................21
3.7.1环境部署......................................................................................21
3.7.2虚拟机资源..................................................................................21
3.7.3课程安排......................................................................................22
3.8云服务器(可选).....................................................................................23
4硬件配置及软件部署.....................................................................................25
4.1硬件清单...................................................................................................25
4.2数据挖掘平台配置.....................................................................................25
4.3大数据实战机器配置.................................................................................26
大数据挖掘实战平台建成后,将承担学校的科研和教学任务,为师生提供便利、实用和符合信息技术发展方向的大数据分析平台,同时该工程与实战中心也将满足本科生和研究生的教学需求,为培养各行业需要的大数据分析人才提供实训平台。大数据挖掘实战平台建设按照自顶向下的科学设计原则和分步实施建设的风控指导原则,将分为两个建设阶段。
实战平台建设中,将建立大数据科研平台。将云存储资源、服务器资源和网络资源整合,然后通过VMware搭建私有云平台,在私有云平台上搭建统一的数据挖掘平台和基于Hadoop的大数据分析平台,统一的数据挖掘平台供学校有数据挖掘与分析需求的教师访问(无需编程经验),以满足其数据处理需求。基于Hadoop的大数据分析平台供教师进行大数据处理与大数据算法分析使用(需有编程经验)。
在前面大数据科研平台建设的基础上,通过VMware私有云搭建大数据教学平台。通过该大数据教学平台的建设能让学生既掌握必要的理论基础,又能将大数据分析理论和方法用于解决实际问题。该大数据教学平台也能解决教学过程中实验环节非常薄弱,造成学生缺少数据挖掘实践经验、缺乏实践应用能力等问题。
大数据挖掘实战平台的建设采用四层架构,其整体架构如下图所示。
大数据挖掘实战平台底层数据处理平台采用云计算技术实现,基于云计算的基础设施层能充分保障资源的有效利用率和资源的动态伸缩性,云基础设施层上搭建了基于VMware的虚拟化层,该虚拟化层能充分保证业务的连续性和平台运行的可靠性。建立在虚拟化层上的统一数据挖掘平台TipDM能满足全校有数据挖掘需求的教师利用图形化的界面进行数据分析,而基于Hadoop的大数据实训平台(TipDM-Hadoop)能为大数据算法分析和大数据处理提供基础平台。位于架构最上层的大数据教学平台为培养大数据时代的数据科学家提供实训平台。
大数据挖掘实战平台建成后将极大地满足大数据时代高校师生数据分析的需求,也将为数据科学家的培养提供便利的基础设施环境,同时该工程与实战中心也将承接我省综改转型攻坚的部分重任。
感谢您选择广州泰迪科技公司的数据挖掘产品,在系统的使用过程中如果遇到问题,请通过如下的方式与我们联系,我们将为用户提供周到满意的服务。
传真:020-28871586
地址:广州经济技术开发区科学城科珠路232号
大数据挖掘与实战中心主要包括两大部分:
1、数据挖掘辅助教学套件(TipDM-T8)
2数据挖掘建模软件
2数据挖掘多媒体软件
2数据挖掘教学PPT
2数据挖掘教学案例库
2数据挖掘实训教程
2、大数据挖掘辅助教学平台
2大数据挖掘基础平台(TipDM-Hadoop)
2VmwareHDP虚拟机大数据实战培训教程
2用大数据挖掘进行科研的高校、研究所
特别说明:Hortonworks作为全球领先的大数据平台开发、咨询、培训和支持服务提供商,是下一代大数据平台Hadoop2.0的领导者。
Hortonworks的全球技术合作伙伴达140多个,比如微软、Teradata和Rackspace等都建立了各自的基于Hortonworks数据平台的生产线。
HortonworksHadoop培训认证课程代表了行业最高水平,也是业界公认的Hadoop权威认证。
目前我公司已与Hortonworks公司在培训、咨询和系统集成方面展开了深度合作。
建议:如果采用泰迪科技公司提供的大数据挖掘实战平台建设方案,泰迪公司将派出讲师对实战中心技术人员进行专业培训(或直接派讲师进行授课),课程结束后,学员可直接参加认证考试!
3.1.
顶尖数据挖掘平台(TipDM)应用非常广泛,能够模拟以下众多方向的应用:
学生可以根据数据挖掘课程需要在(TipDM)软件平台上模拟各种数据挖掘实际应用,快速提高数据挖掘实践能力,增加数据挖掘应用经验。
顶尖数据挖掘平台(TipDM)包含了目前主流的各类算法,方便学员寓教于学,快速理解和学习算法,并可以在平台上进行算法对比,下面是顶尖数据挖掘平台(TipDM)主要算法功能:
数据探索是对导入系统中的数据进行初步研究,以便更好地理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。
模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证预测质量打下基础。
算法名称
算法描述
主成分分析
主成分析分析(PCA)是指用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,且相互之间又是无关的。
周期性分析
分析数据变化过程中,某些特征重复出现,连续的两次出现的客观规律。在时序预测时,经常要对样本数据进行周期性分析,以更好地理解样本数据变化的特点,为时序预测分析提供指导依据。
缺失值处理
样本数据中经常存在一些缺失值,在进行预测建模前,需要对缺失值按照某些规则进行处理。处理方法主要有:1)删除;2)数据补齐(人工填写、平均值填充、特殊值填充、热卡填充、K最近距离邻法、回归、期望值最大化方法等)。
坏数据处理
如果抽取数据中存在坏数据(脏数据),则需要对坏数据进行预处理。通常的做法是采用绝对均值法或莱因达法等对样本中的坏点数据进行剔除处理。
属性选择
由给定的属性构造或添加新的属性,以帮助提高精度和对高维数据结构的理解,是具有最佳预测准确率的子集。
数据规约
将属性数据按比例缩放,使之落入到一个小的特定区间。找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布。
离散处理
特征提取
主要对图像、声音、信号等数据源,通过图像处理、小波变换等建立一组新的、更紧凑的属性来表示数据的过程。如图像特征提取是指根据图像特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。
说明:版本不断更新,更多算法详见:www.tipdm.com.cn
分类是数据挖掘中应用得最多的方法。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
回归是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
分类与回归算法主要有:
l贝叶斯:朴素贝叶斯网络、贝叶斯信念网络
l决策树及表:决策表、CART决策树、ID3决策树、C4.5决策树
l神经网络:BP神经网络、LM神经网络、RBF神经网络、FNN神经网络、ANFIS神经网络、WNN神经网络
l回归分析:线性回归、逐步回归、逻辑回归、保序回归
l其它算法:AdaBoostM1算法、KStar算法、SVM支持向量机、K-最近邻分类
主要算法介绍:
输出示例
BP
神经网络
BP(BackPropagation)神经网络是是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。
LM
Levenberg-Marquardt是基于梯度下降法和牛顿法结合的优化算法,特点:迭代次数少,收敛速度快,精确度高。
FNN
模糊神经网络
模糊神经网络(FuzzyNeuralNetwork,FNN)是具有模糊权系数或者输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,它汇聚了神经网络与模糊系统的优点
RBF
径向基神经网络
径向基函数(RadialBasisFunction,RBF)神经网络是具有单隐层的三层前馈网络。它是一种局部逼近网络,能够以任意精度逼近任意连续函数,特别适合于解决分类问题。
ANFIS
自适应神经模糊推理系统
自适应神经模糊推理系统(AdaptiveNeuralFuzzyInferenceSystem,ANFIS)是功能上与一阶T-S模糊推理系统等价的自适应网络,它是将神经网络的学习机制引入模糊系统,构成一个带有人类感觉和认知成分的自适应系统。
WNN
小波神经网络
小波神经网络(WaveletNeuralNetwork,WNN)是基于小波变换而构成的神经网络模型,即用非线性小波基取代通常的神经元非线性激励函数(如Sigmoid函数),把小波变换与神经网络有机地结合起来,充分继承了两者的优点。
SVM支持向量机
支持向量机是V.Vapnik等人在研究统计学习理论的基础上发展起来的一种新的机器学习算法,它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力。
CART决策树
分类与回归树(classificationandregressiontree,CART),是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。
说明:版本不断更新,更多算法详见:www.tipdm.cn
时序模式类算法主要有:
l指数平滑
l多元回归
lGM灰色理论
lRBF神经网络
lANFIS神经网络
lSVM支持向量机
指数平滑
GM
灰色理论
多元回归
SVM
支持向量机
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
聚类分析类算法主要有:
lK-均值算法
lEM最大期望算法
lDBScan密度算法
l改进K-均值算法
l多层次聚类
K-均值算法
K-均值聚类(K-meansclustering)是MacQueen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。
EM最大期望算法
最大期望(Expectation–Maximization,EM)算法是Dempster,Laind,Rubin提出的求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行MLE估计。
DBScan密度算法
DBScan(DensityBasedSpatialClusteringofApplicationswithNoise),是基于密度的聚类方法,它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。
多层次聚类
这种方法对给定的数据集合进行层次的分解,根据层次的分解如何形成,它又可分为凝聚法(也称自底向上方法)和分裂法(也称为从上向下方法)
关联分析类算法主要有:
lHotSpot关联规则
lApriori关联规则
lFP-Tree关联规则
lHOTSPOT关联规则
l灰色关联法
1、硬件环境
2CPU:P43.0G以上,建议使用双CPU
2内存:1GB以上
2硬盘:80G以上硬盘剩余空间
2、软件环境:Windows2003Sever
结合课程教学需要,教研版(TipDM-Res)提供配套的教学用多媒体软件,指导学生快速了解和掌握数据挖掘建模技术。
多媒体软件主要包含:混合编程、挖掘建模、完整案例、自动动手和交互练习等。以下是部分截图:
结合课程教学需要,数据挖掘辅助教学套件(TipDM-Res)同时提供配套的教学用PPT:
主要包含以下内容:
结合课程教学需要,数据挖掘辅助教学套件提供实训教程,方便学生基于数据挖掘软件快速实现数据挖掘预测建模。
《数据挖掘:实用案例分析》和《MATLAB数据分析与挖掘实战》中每个案例分别由挖掘目标的提出、分析方法与过程、建模仿真、核心知识点和拓展思考等内容构成,如下图示:
泰迪公司近10年来在电信、电力、金融、互联网、教育、水产、税务、生产制造等行业20多个数据挖掘应用整理成案例库,案例库包括项目背景、研究目标及详细的技术实现路线,并配完整的数据资料。
功能
模块
说明
云数据挖掘引擎
挖掘引擎
云分类引擎、云聚类引擎、云关联规则引擎、云智能推荐引擎等
调度系统
包括作业调度、作业监控和作业管理
主机监控系统
云平台监控系统
主要用来监控云计算平台的运行指标,可以实时监控云平台的运行情况,子节点运行情况,用来为系统增加/删除/更新节点提供知道依据。它主要包括:1)分布式文件系统监控;2)作业监控;3)云平台管理等功能
云数据挖掘算法库
分类算法
基于并行计算的分类算法,如:
1、朴素贝叶斯、贝叶斯网络
2、随机森林
3、神经网络
4、模糊神经网络
5、支持向量机
聚类算法
基于并行计算的聚类算法,如:1、K-Means算法2、Canopy算法3、FuzzyK-Means算法4、MeanShift算法
关联规则
基于并行计算的关联规则算法,如:1、二项集关联规则
2、推荐器算法
智能推荐
基于并行计算的智能推荐算法,如:1、基于用户的协同过滤算法
2、基于内容的协同过滤算法
使用10台实体服务器分别安装Windows764位操作系统或者Linux(Redhat6、CentOS6都可)64位操作系统,每台机器安装Vmware软件用于部署培训使用虚拟机。
每台实体服务器建立6个虚拟机(由HortonWorks提供),其虚拟机参数设置如下:
硬件
要求
备注
服务器数量
7(集群)+1(数据库服务器)+1(应用服务器)
CPU
厂家:Intel/AMD
主频:3000MHz+
核数:12+
L3缓存:15MB+
线程数量:12+
针对所有服务器
内存
16G+(集群)
8G+(数据库服务器)
8G+(应用服务器)
最少8G
硬盘
SATA/SAS
1T+200G,2个磁盘驱动器,每个500G+2个磁盘驱动器每个100G(用作系统盘)(集群)
1T+200G(数据库服务器)
300G+200G(应用服务器)
最少50G
网络
千兆以太网
固定IP
宿主机
支持虚拟化/64位系统
系统
CentOS6.464位
可为虚拟机系统
虚拟机资源列表如下:
软件
版本
CentOS6.4
64位
HDPHadoop平台
HDP2.0
包括服务:
HDFS
Yarn
MapReduce
Hive
HBase
Pig
Ganglia
Nagios
ZooKeeper
Ambari
1.5
HDP调度软件
Eclipse
4.3
Java开发IDE
Java
1.6
数据
包含培训使用各种数据
HDP平台包括的服务有:
培训使用HortonWorks提供的培训资料,帮助开发者了解HDP平台,理解开发Hadoop程序的基本原理,最后可以使培训者能自主开发Hadoop程序,同时进行培训后,学员可以有更大的机会通过HortonWorks培训师认证,其认证在业界是比较有含金量的。
课程安排:课程一共包含40课时,主要内容如下:
大纲
课程
Hadoop基础
培训准备:环境配置
单元1:理解Hadoop2.0和HDFS
单元2:开发MapReduce程序
Hadoop进阶
单元3:Map端流程—聚合
单元4:分区和排序
单元5:Hadoop输入输出格式
单元6:优化MapReduce任务
单元7:高级MapReduce特性
Hadoop应用
单元8:Hadoop单元测试编程
单元9:HBase编程
单元10:Pig编程
单元11:Hive编程
附录A:Oozie工作流
其他:交流
云计算作为网格计算的升级,在近几年来被提出,他具有超大规模、虚拟化、高可靠性、通用性强、高扩展性、按需服务、易用等优点,这些优点可被用来搭建系统解决海量数据挖掘的问题。
基于云计算的数据挖掘模式,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式。
硬件使用使用16台IBM机器,其中可以分为两部分,数据挖掘平台使用机器和大数据实战培训部分。其主要硬件要求以及说明如下表。
服务器名称
服务器型号
IBM机
x3650M4
6
XeonE5-2650
每16G/个
SAS硬盘/2个
每200G个
数据挖掘平台使用
X3650M4
10
每60G/个
每500G个
大数据实战培训使用/支持虚拟化
以上硬件配置供参考,同类配置亦可。
数据挖掘平台包括两部分,单机版算法以及云平台算法。其中云平台占用5台机器,数据挖掘平台主工程部署在1台机器,其拓扑图如下所示:
大数据实战机器配置主要是指针对学员使用的环境进行配置。初步估计60个客户端接入,那么10台IBM机器每台配置6个虚拟机即可。同时需保证每台虚拟机占有专属的IP,每个客户端可以远程桌面到虚拟机。