Skip to main content

Version: 2.17.1

GBDT回归

算法介绍
GBDT回归模型 (Gradient Boosting Decision Tree Regression) 是基于决策树的集成算法，它通过训练多个具有不同权重的决策树来预测数值型连续变量。与单独的决策树相比，GBDT可以在拟合复杂问题时获得更高的准确性和更低的误差率。
使用场景

结构化数据：例如金融领域中的贷款等级评估，房地产领域中的房价预测、汽车保险行业中的赔偿金额计算等。结构化数据在特征和样本维度都比较明确，这种数据场景下GBDT回归模型的表现往往最好。
非结构化数据：例如图像、文本等非结构化的数据集，GBDT也可以通过将非结构化数据转换为结构化数据的方式进行预测。比如将图像的像素值作为特征输入到GBDT模型中进行训练和预测。
大规模数据：以上两类场景可能会遇到大规模的数据，而GBDT回归模型可以应对大规模可拓展的数据集。

优势介绍

可解释性强、能够处理大规模、高度非线性的特征和样本数据;
能够有效地缓解高维稀疏数据问题和自适应地学习所有的特征。

劣势介绍

运行时间较长、硬件需求较高、容易出现过拟合的情况;
需要精心设计超参数、对异常值较为敏感。

参数介绍
仅支持通过可视化方式，配置读取该组件参数，参数详情如下表所示：

页签	参数	参数名称	是否必选	参数描述	默认值
数据源	表名	inputTable	是	数据表	无
默认参数	选择特征标签列	labelColName	是	输入表中选择标签列名类型。	无
模型参数	训练轮数	n_estimators	是	提升树的数量，即训练轮数。	100
模型参数	学习率	learning_rate	是	学习率。	0.01
模型参数	树的最大深度	max_depth	是	树的最大深度。	30

推荐参数值

学习率 (learning rate)：指每次迭代的步长，控制着每棵树对最终预测结果的贡献大小。
基分类器 (base estimator)：指基于前一轮残差训练出的决策树。
损失函数 (loss function)：该模型使用的是平方误差损失函数。
树的数量（n_estimators）：指建立的树的数量，即迭代次数，对应着学习器的数量。
树的深度 (max_depth)：指每个分类器的最大深度。
最小分割样本数(min_samples_split)：指决策树上一个节点所需要的最少样本数，对于较大的数据集，增加这个值可以使模型运行速度更快。
特征子采样比例 (feature subsampling ratio)：指用于每个决策树训练中随机选择的特征的比例。

调参建议

树的数量：增加树的数量可以提高模型的准确性，但也可能出现过拟合。因此，一般可以通过交叉验证来确定最佳的树的数量。
树的深度：树越深，模型的表达能力就越强，但也容易过拟合。因此，应当根据数据集的情况选取适当的树深度。
学习率：学习率越小，模型的收敛速度就越慢；学习率越大，可能会导致模型发生震荡而无法收敛。因此，需要根据实际问题和数据集来选择一个合适的学习率。
最小分割样本数和特征子采样比例：这两个参数主要用于控制模型的复杂度，可以适当调整以达到更好的泛化性能。
网格搜索或随机搜索：网格搜索或随机搜索都可以用来选取最佳超参数，但由于GBDT的超参数较多，随机搜索可能更加高效。