顶尖大数据挖掘实战平台(TipDMH8)产品白皮书刘名军

地址:广州市经济技术开发区科学城232号

热线:40068-40020

邮编:510663

目录

1引言...............................................................................................................3

1.1背景............................................................................................................3

1.2目标............................................................................................................3

1.3联系我们.....................................................................................................4

2产品介绍........................................................................................................5

2.1大数据挖掘实战平台...................................................................................5

2.2适用对象.....................................................................................................5

3产品构成........................................................................................................7

3.1数据挖掘教学软件.......................................................................................7

3.1.1软件功能.......................................................................................7

3.1.2软件界面......................................................................................13

3.1.3运行环境......................................................................................14

3.2数据挖掘多媒体软件.................................................................................14

3.3数据挖掘教学PPT.....................................................................................17

3.4数据挖掘实训教程.....................................................................................18

3.5数据挖掘辅助教学案例库..........................................................................20

3.6大数据分析平台........................................................................................20

3.7大数据实战培训........................................................................................21

3.7.1环境部署......................................................................................21

3.7.2虚拟机资源..................................................................................21

3.7.3课程安排......................................................................................22

3.8云服务器(可选).....................................................................................23

4硬件配置及软件部署.....................................................................................25

4.1硬件清单...................................................................................................25

4.2数据挖掘平台配置.....................................................................................25

4.3大数据实战机器配置.................................................................................26

大数据挖掘实战平台建成后,将承担学校的科研和教学任务,为师生提供便利、实用和符合信息技术发展方向的大数据分析平台,同时该工程与实战中心也将满足本科生和研究生的教学需求,为培养各行业需要的大数据分析人才提供实训平台。大数据挖掘实战平台建设按照自顶向下的科学设计原则和分步实施建设的风控指导原则,将分为两个建设阶段。

实战平台建设中,将建立大数据科研平台。将云存储资源、服务器资源和网络资源整合,然后通过VMware搭建私有云平台,在私有云平台上搭建统一的数据挖掘平台和基于Hadoop的大数据分析平台,统一的数据挖掘平台供学校有数据挖掘与分析需求的教师访问(无需编程经验),以满足其数据处理需求。基于Hadoop的大数据分析平台供教师进行大数据处理与大数据算法分析使用(需有编程经验)。

在前面大数据科研平台建设的基础上,通过VMware私有云搭建大数据教学平台。通过该大数据教学平台的建设能让学生既掌握必要的理论基础,又能将大数据分析理论和方法用于解决实际问题。该大数据教学平台也能解决教学过程中实验环节非常薄弱,造成学生缺少数据挖掘实践经验、缺乏实践应用能力等问题。

大数据挖掘实战平台的建设采用四层架构,其整体架构如下图所示。

大数据挖掘实战平台底层数据处理平台采用云计算技术实现,基于云计算的基础设施层能充分保障资源的有效利用率和资源的动态伸缩性,云基础设施层上搭建了基于VMware的虚拟化层,该虚拟化层能充分保证业务的连续性和平台运行的可靠性。建立在虚拟化层上的统一数据挖掘平台TipDM能满足全校有数据挖掘需求的教师利用图形化的界面进行数据分析,而基于Hadoop的大数据实训平台(TipDM-Hadoop)能为大数据算法分析和大数据处理提供基础平台。位于架构最上层的大数据教学平台为培养大数据时代的数据科学家提供实训平台。

大数据挖掘实战平台建成后将极大地满足大数据时代高校师生数据分析的需求,也将为数据科学家的培养提供便利的基础设施环境,同时该工程与实战中心也将承接我省综改转型攻坚的部分重任。

感谢您选择广州泰迪科技公司的数据挖掘产品,在系统的使用过程中如果遇到问题,请通过如下的方式与我们联系,我们将为用户提供周到满意的服务。

传真:020-28871586

地址:广州经济技术开发区科学城科珠路232号

大数据挖掘与实战中心主要包括两大部分:

1、数据挖掘辅助教学套件(TipDM-T8)

2数据挖掘建模软件

2数据挖掘多媒体软件

2数据挖掘教学PPT

2数据挖掘教学案例库

2数据挖掘实训教程

2、大数据挖掘辅助教学平台

2大数据挖掘基础平台(TipDM-Hadoop)

2VmwareHDP虚拟机大数据实战培训教程

2用大数据挖掘进行科研的高校、研究所

特别说明:Hortonworks作为全球领先的大数据平台开发、咨询、培训和支持服务提供商,是下一代大数据平台Hadoop2.0的领导者。

Hortonworks的全球技术合作伙伴达140多个,比如微软、Teradata和Rackspace等都建立了各自的基于Hortonworks数据平台的生产线。

HortonworksHadoop培训认证课程代表了行业最高水平,也是业界公认的Hadoop权威认证。

目前我公司已与Hortonworks公司在培训、咨询和系统集成方面展开了深度合作。

建议:如果采用泰迪科技公司提供的大数据挖掘实战平台建设方案,泰迪公司将派出讲师对实战中心技术人员进行专业培训(或直接派讲师进行授课),课程结束后,学员可直接参加认证考试!

3.1.

顶尖数据挖掘平台(TipDM)应用非常广泛,能够模拟以下众多方向的应用:

学生可以根据数据挖掘课程需要在(TipDM)软件平台上模拟各种数据挖掘实际应用,快速提高数据挖掘实践能力,增加数据挖掘应用经验。

顶尖数据挖掘平台(TipDM)包含了目前主流的各类算法,方便学员寓教于学,快速理解和学习算法,并可以在平台上进行算法对比,下面是顶尖数据挖掘平台(TipDM)主要算法功能:

数据探索是对导入系统中的数据进行初步研究,以便更好地理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。

模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证预测质量打下基础。

算法名称

算法描述

主成分分析

主成分析分析(PCA)是指用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,且相互之间又是无关的。

周期性分析

分析数据变化过程中,某些特征重复出现,连续的两次出现的客观规律。在时序预测时,经常要对样本数据进行周期性分析,以更好地理解样本数据变化的特点,为时序预测分析提供指导依据。

缺失值处理

样本数据中经常存在一些缺失值,在进行预测建模前,需要对缺失值按照某些规则进行处理。处理方法主要有:1)删除;2)数据补齐(人工填写、平均值填充、特殊值填充、热卡填充、K最近距离邻法、回归、期望值最大化方法等)。

坏数据处理

如果抽取数据中存在坏数据(脏数据),则需要对坏数据进行预处理。通常的做法是采用绝对均值法或莱因达法等对样本中的坏点数据进行剔除处理。

属性选择

由给定的属性构造或添加新的属性,以帮助提高精度和对高维数据结构的理解,是具有最佳预测准确率的子集。

数据规约

将属性数据按比例缩放,使之落入到一个小的特定区间。找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布。

离散处理

特征提取

主要对图像、声音、信号等数据源,通过图像处理、小波变换等建立一组新的、更紧凑的属性来表示数据的过程。如图像特征提取是指根据图像特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。

说明:版本不断更新,更多算法详见:www.tipdm.com.cn

分类是数据挖掘中应用得最多的方法。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

回归是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

分类与回归算法主要有:

l贝叶斯:朴素贝叶斯网络、贝叶斯信念网络

l决策树及表:决策表、CART决策树、ID3决策树、C4.5决策树

l神经网络:BP神经网络、LM神经网络、RBF神经网络、FNN神经网络、ANFIS神经网络、WNN神经网络

l回归分析:线性回归、逐步回归、逻辑回归、保序回归

l其它算法:AdaBoostM1算法、KStar算法、SVM支持向量机、K-最近邻分类

主要算法介绍:

输出示例

BP

神经网络

BP(BackPropagation)神经网络是是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。

LM

Levenberg-Marquardt是基于梯度下降法和牛顿法结合的优化算法,特点:迭代次数少,收敛速度快,精确度高。

FNN

模糊神经网络

模糊神经网络(FuzzyNeuralNetwork,FNN)是具有模糊权系数或者输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,它汇聚了神经网络与模糊系统的优点

RBF

径向基神经网络

径向基函数(RadialBasisFunction,RBF)神经网络是具有单隐层的三层前馈网络。它是一种局部逼近网络,能够以任意精度逼近任意连续函数,特别适合于解决分类问题。

ANFIS

自适应神经模糊推理系统

自适应神经模糊推理系统(AdaptiveNeuralFuzzyInferenceSystem,ANFIS)是功能上与一阶T-S模糊推理系统等价的自适应网络,它是将神经网络的学习机制引入模糊系统,构成一个带有人类感觉和认知成分的自适应系统。

WNN

小波神经网络

小波神经网络(WaveletNeuralNetwork,WNN)是基于小波变换而构成的神经网络模型,即用非线性小波基取代通常的神经元非线性激励函数(如Sigmoid函数),把小波变换与神经网络有机地结合起来,充分继承了两者的优点。

SVM支持向量机

支持向量机是V.Vapnik等人在研究统计学习理论的基础上发展起来的一种新的机器学习算法,它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力。

CART决策树

分类与回归树(classificationandregressiontree,CART),是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。

说明:版本不断更新,更多算法详见:www.tipdm.cn

时序模式类算法主要有:

l指数平滑

l多元回归

lGM灰色理论

lRBF神经网络

lANFIS神经网络

lSVM支持向量机

指数平滑

GM

灰色理论

多元回归

SVM

支持向量机

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。

聚类分析类算法主要有:

lK-均值算法

lEM最大期望算法

lDBScan密度算法

l改进K-均值算法

l多层次聚类

K-均值算法

K-均值聚类(K-meansclustering)是MacQueen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。

EM最大期望算法

最大期望(Expectation–Maximization,EM)算法是Dempster,Laind,Rubin提出的求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行MLE估计。

DBScan密度算法

DBScan(DensityBasedSpatialClusteringofApplicationswithNoise),是基于密度的聚类方法,它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。

多层次聚类

这种方法对给定的数据集合进行层次的分解,根据层次的分解如何形成,它又可分为凝聚法(也称自底向上方法)和分裂法(也称为从上向下方法)

关联分析类算法主要有:

lHotSpot关联规则

lApriori关联规则

lFP-Tree关联规则

lHOTSPOT关联规则

l灰色关联法

1、硬件环境

2CPU:P43.0G以上,建议使用双CPU

2内存:1GB以上

2硬盘:80G以上硬盘剩余空间

2、软件环境:Windows2003Sever

结合课程教学需要,教研版(TipDM-Res)提供配套的教学用多媒体软件,指导学生快速了解和掌握数据挖掘建模技术。

多媒体软件主要包含:混合编程、挖掘建模、完整案例、自动动手和交互练习等。以下是部分截图:

结合课程教学需要,数据挖掘辅助教学套件(TipDM-Res)同时提供配套的教学用PPT:

主要包含以下内容:

结合课程教学需要,数据挖掘辅助教学套件提供实训教程,方便学生基于数据挖掘软件快速实现数据挖掘预测建模。

《数据挖掘:实用案例分析》和《MATLAB数据分析与挖掘实战》中每个案例分别由挖掘目标的提出、分析方法与过程、建模仿真、核心知识点和拓展思考等内容构成,如下图示:

泰迪公司近10年来在电信、电力、金融、互联网、教育、水产、税务、生产制造等行业20多个数据挖掘应用整理成案例库,案例库包括项目背景、研究目标及详细的技术实现路线,并配完整的数据资料。

功能

模块

说明

云数据挖掘引擎

挖掘引擎

云分类引擎、云聚类引擎、云关联规则引擎、云智能推荐引擎等

调度系统

包括作业调度、作业监控和作业管理

主机监控系统

云平台监控系统

主要用来监控云计算平台的运行指标,可以实时监控云平台的运行情况,子节点运行情况,用来为系统增加/删除/更新节点提供知道依据。它主要包括:1)分布式文件系统监控;2)作业监控;3)云平台管理等功能

云数据挖掘算法库

分类算法

基于并行计算的分类算法,如:

1、朴素贝叶斯、贝叶斯网络

2、随机森林

3、神经网络

4、模糊神经网络

5、支持向量机

聚类算法

基于并行计算的聚类算法,如:1、K-Means算法2、Canopy算法3、FuzzyK-Means算法4、MeanShift算法

关联规则

基于并行计算的关联规则算法,如:1、二项集关联规则

2、推荐器算法

智能推荐

基于并行计算的智能推荐算法,如:1、基于用户的协同过滤算法

2、基于内容的协同过滤算法

使用10台实体服务器分别安装Windows764位操作系统或者Linux(Redhat6、CentOS6都可)64位操作系统,每台机器安装Vmware软件用于部署培训使用虚拟机。

每台实体服务器建立6个虚拟机(由HortonWorks提供),其虚拟机参数设置如下:

硬件

要求

备注

服务器数量

7(集群)+1(数据库服务器)+1(应用服务器)

CPU

厂家:Intel/AMD

主频:3000MHz+

核数:12+

L3缓存:15MB+

线程数量:12+

针对所有服务器

内存

16G+(集群)

8G+(数据库服务器)

8G+(应用服务器)

最少8G

硬盘

SATA/SAS

1T+200G,2个磁盘驱动器,每个500G+2个磁盘驱动器每个100G(用作系统盘)(集群)

1T+200G(数据库服务器)

300G+200G(应用服务器)

最少50G

网络

千兆以太网

固定IP

宿主机

支持虚拟化/64位系统

系统

CentOS6.464位

可为虚拟机系统

虚拟机资源列表如下:

软件

版本

CentOS6.4

64位

HDPHadoop平台

HDP2.0

包括服务:

HDFS

Yarn

MapReduce

Hive

HBase

Pig

Ganglia

Nagios

ZooKeeper

Ambari

1.5

HDP调度软件

Eclipse

4.3

Java开发IDE

Java

1.6

数据

包含培训使用各种数据

HDP平台包括的服务有:

培训使用HortonWorks提供的培训资料,帮助开发者了解HDP平台,理解开发Hadoop程序的基本原理,最后可以使培训者能自主开发Hadoop程序,同时进行培训后,学员可以有更大的机会通过HortonWorks培训师认证,其认证在业界是比较有含金量的。

课程安排:课程一共包含40课时,主要内容如下:

大纲

课程

Hadoop基础

培训准备:环境配置

单元1:理解Hadoop2.0和HDFS

单元2:开发MapReduce程序

Hadoop进阶

单元3:Map端流程—聚合

单元4:分区和排序

单元5:Hadoop输入输出格式

单元6:优化MapReduce任务

单元7:高级MapReduce特性

Hadoop应用

单元8:Hadoop单元测试编程

单元9:HBase编程

单元10:Pig编程

单元11:Hive编程

附录A:Oozie工作流

其他:交流

云计算作为网格计算的升级,在近几年来被提出,他具有超大规模、虚拟化、高可靠性、通用性强、高扩展性、按需服务、易用等优点,这些优点可被用来搭建系统解决海量数据挖掘的问题。

基于云计算的数据挖掘模式,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式。

硬件使用使用16台IBM机器,其中可以分为两部分,数据挖掘平台使用机器和大数据实战培训部分。其主要硬件要求以及说明如下表。

服务器名称

服务器型号

IBM机

x3650M4

6

XeonE5-2650

每16G/个

SAS硬盘/2个

每200G个

数据挖掘平台使用

X3650M4

10

每60G/个

每500G个

大数据实战培训使用/支持虚拟化

以上硬件配置供参考,同类配置亦可。

数据挖掘平台包括两部分,单机版算法以及云平台算法。其中云平台占用5台机器,数据挖掘平台主工程部署在1台机器,其拓扑图如下所示:

大数据实战机器配置主要是指针对学员使用的环境进行配置。初步估计60个客户端接入,那么10台IBM机器每台配置6个虚拟机即可。同时需保证每台虚拟机占有专属的IP,每个客户端可以远程桌面到虚拟机。

THE END
1.广东泰迪智能科技股份有限公司招聘广州泰迪智能科技有限公司是一家专业从事基于云计算技术的大数据挖掘应用研发、咨询和培训服务的高科技企业,不断推出顶尖大数据挖掘系列产品。 职位查看更多 销售经理 15-30k 广州-黄埔区3-5年 大专 渠道销售经理 15-30k 广州-黄埔区5-10年 大专 区域销售经理 ...https://www.liepin.com/company/12406309/
2.技能大师工作室学生走进泰迪智能科技开展企业见习活动11月18日,广东理工职业学院人工智能技术专业与广东泰迪智能科技股份有限公司联合开展学生企业见习活动。来自广东理工职业学院工作室的10名成员参与此次见习活动,泰迪智能科技校企合作经理吴桂锋、产品中心郭信佑出席本次活动。 活动仪始,吴桂锋经理带领广东理工职业学院学子参观了泰迪智能科技大数据人工智能展厅,吴桂锋经理全面...https://m.sohu.com/a/828468508_121304477/
3.张良均广东泰迪智能科技股份有限公司张良均目前担任广东泰迪智能科技股份有限公司、广州泰迪教育科技有限公司等19家企业法定代表人,同时在4家企业担任高管,包括担任广东泰迪智能科技股份有限公司董事长,经理,广州泰迪教育科技有限公司执行董事;二、张良均投资情况:张良均目前是4家企业直接控股股东,包括广州泰迪职业技能培训学校有限公司、控股比例达77.45%,广东...https://www.aiqicha.com/person?personId=17569936edf07f7d231e06d8f339ad60
4.广东泰迪智能科技股份有限公司职业技能人才培养评价一体化平台...2022年3月16日,广东省人力资源和社会保障厅根据《关于进一步做好职业技能等级认定工作的通知》(粤人社函〔2021〕76 号)精神,在全省范围内开展职业技能等级认定社会培训评价组织征集工作,确定广东泰迪智能科技股份有限公司(简称:泰迪科技)成为广东省社会培训评价组织,可向社会开展计算机程序设计员(3级、4级)职业技能等级...http://tipdm.gdskills.com/xq/news/detail?id=5519333217898496&part_name=%E8%B5%84%E6%96%99%E4%B8%8B%E8%BD%BD
5.广州泰迪智能科技有限公司广州泰迪智能科技有限公司是一家专业从事基于云计算技术的大数据挖掘应用研发、咨询和培训服务的高科技企业,不断推出顶尖大数据挖掘系列产品。 管理团队 黄震均 陈朝君 融资情况 未知 发展历史和介绍 泰迪科技是广州高新技术开发区内一家专业从事基于云计算技术的大数据挖掘应用研发、咨询和培训服务的高科技企业。公司开始...http://wydb.leshanvc.com/21026.html
1.广东泰迪智能科技股份有限公司广东泰迪智能科技股份有限公司招标采购专栏,每天实时更新有关广东泰迪智能科技股份有限公司招标公告、企业采购、拟在建项目等一系列商业信息,查询更多广东泰迪智能科技股份有限公司信息尽在比地招标网。http://www.bidizhaobiao.com/company_215964556470472704.html
2.计算机学院赴泰迪智能科技开展访企拓岗和校企合作活动本站讯 为进一步深化校企合作,推动产教融合,进一步提升人才培养质量,促进毕业生高质量就业,11月27日,计算机工程技术学院(人工智能学院)大数据教学部部长谢文达、副部长申艳丽、骨干教师朱弘旭前往广东泰迪智能科技股份有限公司(以下简称“泰迪智能科技”)产教融合实训基地参观交流。 https://www.gdit.edu.cn/jsj/2024/1202/c4619a110628/page.htm
3.广东泰迪智能科技股份有限公司招聘招聘信息公司简介 所有职位 公司简介 广东泰迪智能科技股份有限公司是专注于实验室建设、双师课堂、岗前培训及线上微服务,致力于为高校大数据人工智能应用型人才能力提升提供全方位教学服务。同时积极参与大数据人工智能人才培养体系及1+X标准建设。公司核心技术完全基于自主知识产权,将持续不断研发创新,为我国职业教育发展贡献绵薄...https://m.51job.com/jobs/all/co4082915.html
4.公司简介泰迪科技广东泰迪智能科技股份有限公司是一家专业从事大数据挖掘技术研发及咨询培训的高科技企业,是国内具有较强竞争力的大数据挖掘相关解决方案提供商。 公司自主研发出适合中国企业应用的“顶尖大数据挖掘(TipDM)”系列产品,并已成功应用于电力、教育、电信、金融、科研院所、政府机构等行业。 http://5iai.com/tipdm/gsjj/
5.企业实践广州新华学院携手泰迪智能科技开展大数据开发企业实践圆满结...12月3日,新华学院健康学院携手广东泰迪智能科技股份有限公司联合开展大数据开发企业实践活动圆满结束,健康学院专业老师陈键聪及来自信息资源管理专业2023级24名学生参与此次活动结业仪式。泰迪智能科技董事长张良均、校企合作经理吴桂锋、钟秋平出席。 此次活动为期三天,以“大数据开发”实战能力提升为核心,主要围绕Python编程、...https://blog.csdn.net/tipdm0301/article/details/144257756
6.广州泰迪智能科技有限公司广州泰迪智能科技有限公司2013年5月成立,主要从事大数据基础研究、培训、咨询服务,公司办公面积1000多平方米,位于广州市科学城益民科技园内。广州泰迪智能科技有限公司自成立以来,与Hortonworks、IBM、轻工业环境保护研究所、华南师范大学、华南理工大学等企业及高校广泛开展大数据研究及应用合作立足大数据领域,为企业提供基于ha...https://www.11467.com/qiye/34121787.htm
7.教育大数据行业发展现状及前景战略规划建议报告8.3.5 新开普电子股份有限公司——高校大数据及人工智能实验室 1、企业基本信息 2、企业经营情况 3、企业业务架构 4、企业教育大数据产品研发 5、企业教育大数据解决方案 6、企业教育大数据项目案例 7、企业业务布局战略&优劣势 8.3.6 广东泰迪智能科技股份有限公司——高校大数据实训平台 ...https://maimai.cn/article/detail?fid=1846094883&efid=fVq5WNoRddfGQrd6lI_77A
8.泰迪智能科技大数据挖掘企业服务平台“TipDM大数据挖掘建模平台”(以下简称平台)是由广东泰迪智能科技股份有限公司自主研发,基于Python引擎的数据挖掘建模平台。使用平台配置的开箱即用的算法组件,用户可在没有编程基础的情况下,通过拖拽的方式进行操作,将数据输入输出、数据预处理、挖掘建模等环节通过流程化的方式进行连接,帮助用户快速建立数据挖掘工程,提升数...https://cloud.tencent.com/developer/news/1092554
9.珠海科技学院哪些专业值得报?就业方向全面解读!—广东站—中国教育在线3.本专业与广东泰迪智能科技股份有限公司、珠海市统计局、国家统计局珠海调查大队等多家政企单位建立稳固实习基地和合作关系。 4.本专业就业面宽,就业率高,考研学科方向多。 就业去向 毕业生可在政府统计部门、经济管理部门和银行、保险、证券、投资、IT行业等企事业单位从事统计调查、统计计算、统计信息管理、数据分析...https://www.eol.cn/guangdong/gdgd/202406/t20240621_2618143.shtml