数据挖掘模型有:1.回归分析模型;2.决策树模型;3.人工神经网络模型;4.贝叶斯网络;5.支持向量机;6.聚类模型;7.关联模型;8.异常检测。其中,决策树模型、人工神经网络模型、贝叶斯网络和支持向量机,均属于分类模型。
回归分析,确定预测属性与其他变量间相互依赖的定量关系。包括:线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。其中,线性回归模型是数据挖掘中最简单的一种模型,适用范围非常广泛。
线性回归多应用于研究对象是连续型数据的情况。简单来说,它希望被研究的对象数据是一个连续变化的数值,例如收入或者是销售额,价格等等,而不是跳跃变化的数据如年龄,工龄等等。此方法可以用于研究自变量与因变量之间的关系,并分析自变量对于因变量的解释和影响程度。
决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。
主要的决策树算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处。
人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中,大量的节点(称”神经元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。
贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。主要是利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。
由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(TreeAugmentedNativeBayes)算法,它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。
支持向量机(SVM,SupportVectorMachine)是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法。
支持向量机的最大特点是根据结构风险最小化准则,以最大化分类间隔构造优异分类超平面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。对于分类问题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。
常用到的聚类算法:K均值、DBSCAN算法。它可以将数据对象聚成多个类。
Apriori算法是关联模型的常用算法。主要是用来发现描述数据对象间强关联特征的模式。建模的过程就是通过用户指定的最小支持度和最小置信度阈值来寻找强关联规则的过程。
目标是检测出与大多数对象不同的对象。异常对象也被称为离群点,因为在数据的散布图中,他们远离其他数据对象,异常对象的属性值显著地偏离预期的或常见的属性值。在人类社会、自然界以及数据集领域,大部分事件和对象,都是平凡的。然而,不平常、不平凡往往有着巨大的实际意义,异常检测就是找出这些不平常、不平凡。异常检测技术常被应用于信用卡的欺诈检测、对网络攻击的入侵检测、自然灾害研究、公共卫生医疗等领域。
延伸阅读
数据挖掘(DataMining,DM)又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的,先前未知的并有潜在价值的信息的非平凡过程。数据挖掘吸纳了统计学、模式识别、数据库、数据仓库、可视化、高性能计算等技术。