Skip to main content
Version: 2.17.1

GBDT二分类

  • 算法介绍

    GBDT(Gradient Boosting Decision Tree)算法是一种基于决策树集成的机器学习算法。该算法由多棵决策树组成,每棵树负责解决一个子问题,最终通过合并所有树的结果来获得预测结果。其中,每棵树都根据前一棵树的残差进行训练,以使最终的预测结果逐步趋近于真实值。

  • 使用场景

    适用于小规模数据集,可处理非线性关系的特征,在二分类问题中表现较好。

  • 优势介绍

  1. 准确度较高;
  2. 能够处理非线性关系的特征,自动处理缺失值;
  3. 在建模时,不需要较多的特征筛选、变量重要性分析等。
  • 劣势介绍
  1. 模型训练过程较慢;
  2. 可能导致过拟合;
  3. 无法并行处理大规模数据。
  • 参数介绍

    仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:

页签参数参数名称是否必选参数描述默认值
数据源表名inputTable数据表
默认参数选择特征标签列labelColName输入表中作为标签的列
模型参数选择损失函数loss损失函数,包括deviance(对数似然)和exponential(指数损失)。deviance
模型参数最大弱学习器个数n_estimators最大弱学习器个数,调参时要注意过拟合或欠拟合,一般和learning_rate一起考虑。100
模型参数学习率步长learning_rate每个弱学习器的权重缩减系数,取值范围0-1,当取值为1时,相当于权重不缩减。较小的learning_rate相当于更多的迭代次数。0.1
模型参数子采样subsample取值范围(0,1],当取值为1,相当于无采样。小于1,按比例采样,得到的样本去构建弱学习器。1
调优参数树分裂时考虑的最大特征数max_features树分裂时考虑的最大特征数,默认为None,也就是考虑所有特征。可以取值有:log2,auto,sqrt。None
调优参数CART最大深度max_depthCART最大深度10
调优参数划分节点时需要保留的样本数min_samples_split当某节点的样本数小于某个值时,就当做叶子节点,不允许再分裂。默认是2。2
调优参数叶子节点最少样本数min_samples_leaf如果某个叶子节点数量少于某个值,会同它的兄弟节点一起被剪枝。默认是1。1
调优参数叶子节点最小的样本权重和min_weight_fraction_leaf如果小于某个值,会同其兄弟节点一起被剪枝。一般用于权重变化的样本。默认是0。0
  • 推荐参数值
  1. 树的数量:建议在100-1000之间选择;
  2. 决策树深度:根据实际情况选定,一般为3-8;
  3. 学习率:0.05-0.2较为合适;
  4. 叶节点最小样本数:5-20。
  • 调参建议
  1. 增大样本量来有效减小过拟合现象,可通过K折交叉验证实现;
  2. 采用特征选择来消除冗余特征;
  3. 通过减小学习率来降低预测偏差;
  4. 调整决策树的最大深度和叶节点最小样本数。