树模型wqbin

首先,在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割(输入特征x与logit之间是线性的,除非对x进行多维映射),而决策树可以找到非线性分割。

而树形模型更加接近人的思维方式,可以产生可视化的分类规则,产生的模型具有可解释性(可以抽取规则)。树模型拟合出来的函数其实是分区间的阶梯函数。

决策树学习:采用自顶向下的递归的方法,基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处熵值为0(叶节点中的实例都属于一类)。

其次,需要了解几个重要的基本概念:根节点(最重要的特征);父节点与子节点是一对,先有父节点,才会有子节点;叶节点(最终标签)。

一、决策树

决策树生成的数学表达式:

决策树的生成:

决策树思想,实际上就是寻找最纯净的划分方法,这个最纯净在数学上叫纯度,纯度通俗点理解就是目标变量要分得足够开(y=1的和y=0的混到一起就会不纯)。另一种理解是分类误差率的一种衡量。实际决策树算法往往用到的是,纯度的另一面也即不纯度,下面是不纯度的公式。不纯度的选取有多种方法,每种方法也就形成了不同的决策树方法,比如ID3算法使用信息增益作为不纯度;C4.5算法使用信息增益率作为不纯度;CART算法使用基尼系数作为不纯度。

决策树要达到寻找最纯净划分的目标要干两件事,建树和剪枝

建树:

(1)如何按次序选择属性

也就是首先树根上以及树节点是哪个变量呢?这些变量是从最重要到次重要依次排序的,那怎么衡量这些变量的重要性呢?ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数。决策树方法是会把每个特征都试一遍,然后选取那个,能够使分类分的最好的特征,也就是说将A属性作为父节点,产生的纯度增益(GainA)要大于B属性作为父节点,则A作为优先选取的属性。

(根据log(x)的函数可知,p值越小,熵越大,所以当分组完全是会出现p=0此时熵最大)

(2)如何分裂训练数据(对每个属性选择最优的分割点)

如何分裂数据也即分裂准则是什么?依然是通过不纯度来分裂数据的,通过比较划分前后的不纯度值,来确定如何分裂。

下面做具体的介绍:

——CART算法:既可以做分类,也可以做回归。只能形成二叉树。

分支条件:二分类问题

分支方法:对于连续特征的情况:比较阈值,高于某个阈值就属于某一类,低于某个阈值属于另一类。对于离散特征:抽取子特征,比如颜值这个特征,有帅、丑、中等三个水平,可以先分为帅和不帅的,不帅的里面再分成丑和中等的。

得分函数(y):就是上面提到的gt(x),对于分类树取得是分类最多的那个结果(也即众数),对于回归树取得是均值。

损失函数:其实这里的损失函数,就是分类的准则,也就是求最优化的准则

对于分类树(目标变量为离散变量):同一层所有分支假设函数的基尼系数的平均。

对于回归树(目标变量为连续变量):同一层所有分支假设函数的平方差损失

对于分类树(目标变量为离散变量):使用基尼系数作为分裂规则。比较分裂前的gini和分裂后的gini减少多少,减少的越多,则选取该分裂规则,这里的求解方法只能是离散穷举。关于基尼系数,可以参考周志华的西瓜书决策树那章,讲得比较简洁,也比较易懂。“直观来说,(数据集D的基尼系数)Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,因此Gini(D)越小,则数据集D的纯度越高。”

具体这个的计算,我觉得有例子才好理解,下面这个红绿球的例子很好的说明了,如何根据损失函数最小(也就是基尼系数最小)来选取分裂规则。最后GIINs2更小,因此选择它作为分类规则。

对于回归树(目标变量为连续变量):使用最小方差作为分裂规则。只能生成二叉树。

CART与逻辑回归的比较:

ID3算法:使用信息增益作为分裂的规则,信息增益越大,则选取该分裂规则。多分叉树。信息增益可以理解为,有了x以后对于标签p的不确定性的减少,减少的越多越好,即信息增益越大越好。

C4.5算法:使用信息增益率作为分裂规则(需要用信息增益除以,该属性本身的熵),此方法避免了ID3算法中的归纳偏置问题,因为ID3算法会偏向于选择类别较多的属性(形成分支较多会导致信息增益大)。多分叉树。连续属性的分裂只能二分裂,离散属性的分裂可以多分裂,比较分裂前后信息增益率,选取信息增益率最大的。

三种方法对比:

ID3的缺点,倾向于选择水平数量较多的变量,可能导致训练得到一个庞大且深度浅的树;另外输入变量必须是分类变量(连续变量必须离散化);最后无法处理空值。

C4.5选择了信息增益率替代信息增益。

CART以基尼系数替代熵;最小化不纯度而不是最大化信息增益。

剪树:

(2)如何停止分裂

下面这六种情况都会停止分裂。其中第一种其实属于树的完全长成,但这会出现过拟合问题,所有之前很流行一种抑制这种情况的方法,叫树的剪枝。树的剪枝分为预剪枝和后剪枝,预剪枝,及早的停止树增长控制树的规模,方法可以参考如下6点停止分类的条件。后剪枝在已生成过拟合决策树上进行剪枝,删除没有意义的组,可以得到简化版的剪枝决策树,包括REP(设定一定的误分类率,减掉对误分类率上升不超过阈值的多余树)、PEP,还有一种CCP,即给分裂准则—基尼系数加上惩罚项,此时树的层数越深,基尼系数的惩罚项会越大。

二、随机森林

尽管有剪枝等等方法,一棵树的生成肯定还是不如多棵树,因此就有了随机森林,解决决策树泛化能力弱的缺点。(可以理解成三个臭皮匠顶过诸葛亮)

随机森林在bagging的基础上更进一步:

1.样本的随机:从样本集中用Bootstrap随机选取n个样本

2.特征的随机:从所有属性中随机选取K个属性,选择最佳分割属性作为节点建立CART决策树(泛化的理解,这里面也可以是其他类型的分类器,比如SVM、Logistics)

3.重复以上两步m次,即建立了m棵CART决策树

4.这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类(投票机制有一票否决制、少数服从多数、加权多数)

THE END
1.树木3d模型max3dmax3d模型免费下载说明: 3dsMax工具内截图云检查是爱给网根据自动化脚本命令打开模型文件后自动截图生成,主要用于辅助判断预览图和实际模型的一致性。 提示: 由于云检查并不是人工进行的,此项检查存在诸多因素(如视角、背景默认设置不佳等)导致约有6%的模型还不能很好的展示,因此截图并不能完全代表模型的实际效果,仅供参考用,后续爱...https://www.aigei.com/item/shu_mu_3d_mo_xi.html
2.树形模型入门指南:从零开始的简易教程动态规划在树上的应用(树形DP):在优化问题中,通过分解问题,利用子问题的解来构建原问题的解。 高级树结构: B树:用于数据库索引和文件系统,具有更高的搜索效率和插入/删除性能。 红黑树:平衡二叉查找树,确保操作复杂度为O(log n)。 机器学习中的树模型: ...https://www.imooc.com/article/347026
1.大树景观树模型树木模型库3dsMax(.max)模型下载CG模型网(cgmodel.com)聚集了全球数百万三维艺术设计师,提供优质三维模型(大树,景观树,园林树,团状树,参天大树,苗条树,真实大树)模型素材下载,属于(树木)模型,下载3ds Max(.max)模型格式(大树,景观树,园林树,团状树,参天大树,苗条树,真实大树)模型,有版权的模型https://www.cgmodel.com/model/791298.html
2.树模型总结树模型有哪些树模型总结 文章目录 1. 决策树 1.0 问题汇总 1.1 原理 1.2 ID3、C4.5、CART 1.2.1 ID3 1.2.2 C4.5 1.2.3 CART 1.3 信息增益 vs 信息增益比 1.4 Gini指数 vs 熵 1.5 剪枝 1.6 总结 2. 随机森林(Random Forest) 2.1 集成学习方法 2.2 Bagging...https://blog.csdn.net/herosunly/article/details/103105859
3.树木智能建模(精选三篇)递归算法是分形几何中的经典算法, 在计算机程序中也普遍使用, 在研究图形方面时, 常用来构造分形模型。本文采用递归算法特定的形式生成分形树, 其基本原理是:先规定基本的生成元, 然后将这个基本的生成元在计算机上按照生成规则在每一个层次上不断重绘, 直至达到预设定的递归结束条件。规定不同的生成元可以生成不同...https://www.360wenmi.com/f/cnkey7w0iga3.html
4.树模型daiwk基础树模型 ID3 C4.5 CART CART,又名分类回归树,是在ID3的基础上进行优化的决策树,学习CART记住以下几个关键点: CART既能是分类树,又能是分类树; 节点分裂的依据: 分类树时,采用GINI值; 回归树时,采用样本的最小方差; CART是一棵二叉树 详见https://www.cnblogs.com/canyangfeixue/p/7802835.html ...https://daiwk.github.io/posts/ml-tree-models.html
5.大树3d模型大树模型图片素材免费下载3D溜溜网3d模型库,汇集多类型大树模型图片素材,帮设计师根据不同场景,寻找免费下载的三维立体,3dmax和C4D模型素材,找大树3d模型图片素材就来3D溜溜网。https://www.3d66.com/relation/relation_2071002_4.html
6.机器学习手把手教你学习决策树模型训练 以上面的训练数据集为例,其中食肉、产奶、有鳍、有毒分别为四个特征属性,类别则为标签列。目的是通过这些信息训练一个决策树模型,用于对给定的数据集进行分类。该样本数据集记作T,该数据集包含鱼类(C1),爬行动物(C2),哺乳动物(C3)三个类别,有食肉(P)、产奶(M)、有鳍(F)、有毒(V)四个特征属性...https://blog.itpub.net/70027824/viewspace-2960615/
7.BoostedTrees介绍·XGBoost中文文档·看云这是derivation(派生)的神奇部分。在对树模型进行重新格式化之后,我们可以用第 棵树来编写目标值如 : 其中 是分配给第 个叶子的数据点的索引的集合。 请注意,在第二行中,我们更改了总和的索引,因为同一叶上的所有数据点都得到了相同的分数。 我们可以通过定义 ...https://www.kancloud.cn/apachecn/xgboost-doc-zh/1945720
8.自动驾驶中的决策规划算法概述2. 决策树模型 决策/行为树模型[7]和状态机模型类似,也是通过当前驾驶状态的属性值反应式地选择不同的驾驶动作,但不同的是该类模型将驾驶状态和控制逻辑固化到了树形结构中,通过自顶向下的“轮询”机制进行驾驶策略搜索。这类决策模型具备可视化的控制逻辑,并且控制节点可复用,但需要针对每个驾驶场景离线定义决策网路...https://maimai.cn/article/detail?fid=1632742005&efid=-v_3-yQZIF8tka6AIpwz5A
9.12款树木绿色植物大树树干模型犀牛rhinoC4D3Dmax样图12款树木绿色植物大树树干模型犀牛rhinoC4D3Dmax样图 12款树木绿色植物大树干竹模型犀牛rhino/C4D/3Dmax/maya设计素材 风格: 12款 树木 绿色植物 大树 树干 模型 犀牛 rhino C4D 3DMAX 图文详情https://www.zhe2.com/note/617748222561