Skip to main content
Version: 2.17.1

GBDT回归

  • 算法介绍

    GBDT回归模型 (Gradient Boosting Decision Tree Regression) 是基于决策树的集成算法,它通过训练多个具有不同权重的决策树来预测数值型连续变量。与单独的决策树相比,GBDT可以在拟合复杂问题时获得更高的准确性和更低的误差率。

  • 使用场景

  1. 结构化数据:例如金融领域中的贷款等级评估,房地产领域中的房价预测、汽车保险行业中的赔偿金额计算等。结构化数据在特征和样本维度都比较明确,这种数据场景下GBDT回归模型的表现往往最好。

  2. 非结构化数据:例如图像、文本等非结构化的数据集,GBDT也可以通过将非结构化数据转换为结构化数据的方式进行预测。比如将图像的像素值作为特征输入到GBDT模型中进行训练和预测。

  3. 大规模数据:以上两类场景可能会遇到大规模的数据,而GBDT回归模型可以应对大规模可拓展的数据集。

  • 优势介绍
  1. 可解释性强、能够处理大规模、高度非线性的特征和样本数据;
  2. 能够有效地缓解高维稀疏数据问题和自适应地学习所有的特征。
  • 劣势介绍
  1. 运行时间较长、硬件需求较高、容易出现过拟合的情况;
  2. 需要精心设计超参数、对异常值较为敏感。
  • 参数介绍

    仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:

页签参数参数名称是否必选参数描述默认值
数据源表名inputTable数据表
默认参数选择特征标签列labelColName输入表中选择标签列名类型。
模型参数训练轮数n_estimators提升树的数量,即训练轮数。100
模型参数学习率learning_rate学习率。0.01
模型参数树的最大深度max_depth树的最大深度。30
  • 推荐参数值
  1. 学习率 (learning rate):指每次迭代的步长,控制着每棵树对最终预测结果的贡献大小。
  2. 基分类器 (base estimator):指基于前一轮残差训练出的决策树。
  3. 损失函数 (loss function):该模型使用的是平方误差损失函数。
  4. 树的数量(n_estimators):指建立的树的数量,即迭代次数,对应着学习器的数量。
  5. 树的深度 (max_depth):指每个分类器的最大深度。
  6. 最小分割样本数(min_samples_split):指决策树上一个节点所需要的最少样本数,对于较大的数据集,增加这个值可以使模型运行速度更快。
  7. 特征子采样比例 (feature subsampling ratio):指用于每个决策树训练中随机选择的特征的比例。
  • 调参建议
  1. 树的数量:增加树的数量可以提高模型的准确性,但也可能出现过拟合。因此,一般可以通过交叉验证来确定最佳的树的数量。
  2. 树的深度:树越深,模型的表达能力就越强,但也容易过拟合。因此,应当根据数据集的情况选取适当的树深度。
  3. 学习率:学习率越小,模型的收敛速度就越慢;学习率越大,可能会导致模型发生震荡而无法收敛。因此,需要根据实际问题和数据集来选择一个合适的学习率。
  4. 最小分割样本数和特征子采样比例:这两个参数主要用于控制模型的复杂度,可以适当调整以达到更好的泛化性能。
  5. 网格搜索或随机搜索:网格搜索或随机搜索都可以用来选取最佳超参数,但由于GBDT的超参数较多,随机搜索可能更加高效。