数据挖掘小白系列!XGBOOST参数超详解!参数选择,顺序,值一网打尽!|1.什么叫剪枝剪枝的作用是什么_宠物剪毛

0根据情况决定silent&booster&objective

->1n_estimator&eta

->2max_depthORgamma

观察模型处于什么样的状态（过拟合还是欠拟合，处于方差-偏差图像的左边还是右边？）决定是否需要剪枝（对于XGB这种树模型来说一般都是要的)

->3subsample(视情况在使用与否)&三个树的剪枝参数

“colsample_bytree”“colsample_bylevel”“colsample_bynode”

4alphaOR/ANDlambda正则化参数(受最大深度和和gamma影响)

PS:如果是大数据集就只能手动CV调

CV调节方式(P36)

让我们先从最原始的，设定默认参数开始，先观察一下默认参数下，我们的交叉验证曲线长什么样.在这里，我们要使用三组曲线。一组用于展示原始数据上的结果，一组用于展示上一个参数调节完毕后的结果，最后一组用于展示现在我们在调节的参数的结果。

说明:

弱分类器的数量,就是建立多少课树

作用:

n_estimators越大，模型的学习能力就会越强，模型也越容易过拟合

参数推荐:

一般都不会建议一个太大的数目，300以下为佳,如果数据量是几十万甚至百万可以适当调高。

注意点:

1树的数量前期影响模型效果大,后期减小,并且可能因为数量过多导致效果下降或者过拟合

控制抽样抽出来的样本量大概是多少(通常在样本量大的时候使用)

让模型更加集中于那些困难样本

可借助学习曲线一般（0.05，1，20）确定大范围

1数据量少时不推荐使用

迭代决策树时的步长（shrinkage），又叫做学习率（learningrate）。

越大，迭代的速度越快，算法的极限很快被达到，有可能无法收敛到真正的最佳。越小，越有可能找到更精确的最佳值，更多的空间被留给了后面建立的树，但迭代速度会比较缓慢。

一般和n_estimators交互,使用网格交搜索来同时确定两者参数值,一般在0.01~0.2之间

1从评估器角度出发,新建的评估器一定是要比之前的好,是当前最优.

booster'来控制我们究竟使用怎样的弱评估器。

不同情况下不同的弱评估器的选择对最后模型的效果影响很大。

gtree:默认

gnlinear:一般数据成线性关系时候使用

dart:比梯度提升树有更好的防过拟合功能

1数据量不大时:gbtree和dart效果是相似的。

objective来控制我们究竟使用怎样的损失函数

不同情况下不同的损失函数对最后模型的效果影响很大。

更多详见:

1分类型的目标函数导入回归类中会直接报错。

被称为“复杂性控制”（complexitycontrol），是Gain中的惩罚项,增加的叶子越多，结构分之差Gain会被惩罚越重在树的叶节点上进行进一步分枝所需的最小目标函数减少量,是用来防止过拟合的重要参数。对梯度提升树影响最大的参数之一。

设定越大，算法就越保守，树的叶子数量就越少，模型的复杂度就越低。

1学习曲线运行速度较缓慢并且曲线的效果匪夷所思,推荐使用xgboost.cv。

剪枝参数。

控制过拟合。

一般使用max_depth&colsample_bytree&colsample_bilevel

1最大深度的功能与参数gamma相似，因此如果先调节了，则最大深度可能无法展示出巨大的效果。当然，如果先调整了最大深度，则也有可能无法显示明显的效果。通常来说，这两个参数中我们只使用一个，不过两个都试试也没有坏处。

2学习曲线运行速度较缓慢并且曲线的效果匪夷所思,推荐使用xgboost.cv

都是控制正则化强度的参数。

我们可以二选一使用，也可以一起使用加大正则化的力度。当alpha和lambda都为0的时候，目标函数就是普通的梯度提升树的目标函数。

一般先用L2,效果还不好再加上L1,配合网格搜索。

1实际使用防止过拟合还是先考虑剪枝,或者是参数伽马。

调节样本不平衡的参数。

正负样本比例。

参数推荐&注意点:

官网上说，如果我们只在意模型的整表现，则使用AUC作为模型评估指标，使用scale_pos_weight来处理样本不平衡问题，如果我们在意预测出正确的概率，那我们就无法通过调节scale_pos_weight来减轻样本不平衡问题带来的影响。

这种时候，我们需要考虑另一个参数：max_delta_step。这个参数非常难以理解，它被称之为是“树的权重估计中允许的单次最大增量”，既可以考虑成是影响的估计的参数。xgboost官网上认为，如果我们在处理样本不均衡问题，并且十分在意得到正确的预测概率，则可以设置

max_delta_step参数为一个有限的数（比如1）来帮助收敛。max_delta_step参数通常不进行使用，二分类下的样本不均衡问题时这个参数唯一的用途。

nthread和n_jobs都是算法运行所使用的线程，与sklearn中规则一样，输入整数表示使用的线程，输入-1表示使用计

算机全部的计算资源。如果我们的数据量很大，则我们可能需要这个参数来为我们调用更多线程。

这个分数默认0.5，但其实这个分数在这种情况下并不有效。许多使用XGBoost的人已经提出，当使用回归的时候base_score的默认应该是标签的均值，不过现在xgboost库尚未对此做出改进。使用这个参数，我们便是在告诉模型一些我们了解但模型不一定能够从数据中学习到的信息。通常我们不会使用这个参数，但对于严重的样本不均衡问题，设置一个正确的base_score取值是很有必要的。

在xgb库和sklearn中，都存在空值生成树的随机模式的参数random_state。在之前的剪枝中，我们提到可以通过随机抽样样本，随机抽样特征来减轻过拟合的影响，我们可以通过其他参数来影响随机抽样的比例，却无法对随机抽样干涉更多，因此，真正的随机性还是由模型自己生成的。如果希望控制这种随机性，可以在random_state参数中输入固定整数。需要注意的是，xgb库和sklearn库中，在random_state参数中输入同一个整数未必表示同一个随机模

式，不一定会得到相同的结果，因此导致模型的feature_importances也会不一致。

XGBOOST自带importance参数说明:

XGBOOST自带importance实战:

Shap可视化可解释性特征重要性库(推荐先看):

树模型的优势之一：能够查看模型的重要性分数，可以使用嵌入法进行特征选择-P9

进化的学习曲线：方差与泛化误差8.细化学习曲线，找出最佳nestimators-P10

细化学习曲线，找出最佳eta-p16

使用网格搜索来查找最佳的参数组合(alpha和lambda)p25

细化学习曲线，找出最佳gamma-p31

使用xgboost调节gamma-p32

完整CV调参示例-p36

使用Joblib保存和调用模型p40

XGBvsGBDT核心区别1：求解预测值的方式不同GBDT中预测值是由所有弱分类器上的预测结果的加权求和，其中每个样本上的预测结果就是样本所在的叶子节点的均值。而XGBT中的预测值是所有弱分类器上的叶子权重直接求和得到，计算叶子权重是一个复杂的过程。

XGBvsGBDT核心区别2：正则项的存在

在普通的梯度提升树GBDT中，我们是不在目标函数中使用正则项的。但XGB借用正则项来修正树模型天生容易

THE END

数据挖掘小白系列!XGBOOST参数超详解!参数选择,顺序,值一网打尽!

如何剪切各种材料的技巧与方法详解塑料刀具金属切割机

人工智能复习题及答案

沙棘究竟是什么你了解沙棘吗沙棘是什么沙棘有什么功效与作用沙棘种植方法养生频道

数据挖掘小白系列!XGBOOST参数超详解!参数选择,顺序,值一网打尽!

松树的风水含义有哪些(家中适合养松树盆景吗)农村房屋设计图别墅设计

橙子树秋季剪枝技术？

红伊丁的功效与作用佩戴禁忌

《剪枝的学问》小记

骨干教师培训个人工作总结（精选10篇）

什么树的寄生茶有竹子寄生有什么功效普洱茶百科

国槐树怎么剪枝