GBDT回归
算法介绍
GBDT回归模型 (Gradient Boosting Decision Tree Regression) 是基于决策树的集成算法,它通过训练多个具有不同权重的决策树来预测数值型连续变量。与单独的决策树相比,GBDT可以在拟合复杂问题时获得更高的准确性和更低的误差率。
使用场景
结构化数据:例如金融领域中的贷款等级评估,房地产领域中的房价预测、汽车保险行业中的赔偿金额计算等。结构化数据在特征和样本维度都比较明确,这种数据场景下GBDT回归模型的表现往往最好。
非结构化数据:例如图像、文本等非结构化的数据集,GBDT也可以通过将非结构化数据转换为结构化数据的方式进行预测。比如将图像的像素值作为特征输入到GBDT模型中进行训练和预测。
大规模数据:以上两类场景可能会遇到大规模的数据,而GBDT回归模型可以应对大规模可拓展的数据集。
- 优势介绍
- 可解释性强、能够处理大规模、高度非线性的特征和样本数据;
- 能够有效地缓解高维稀疏数据问题和自适应地学习所有的特征。
- 劣势介绍
- 运行时间较长、硬件需求较高、容易出现过拟合的情况;
- 需要精心设计超参数、对异常值较为敏感。
参数介绍
仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:
页签 | 参数 | 参数名称 | 是否必选 | 参数描述 | 默认值 |
---|---|---|---|---|---|
数据源 | 表名 | inputTable | 是 | 数据表 | 无 |
默认参数 | 选择特征标签列 | labelColName | 是 | 输入表中选择标签列名类型。 | 无 |
模型参数 | 训练轮数 | n_estimators | 是 | 提升树的数量,即训练轮数。 | 100 |
模型参数 | 学习率 | learning_rate | 是 | 学习率。 | 0.01 |
模型参数 | 树的最大深度 | max_depth | 是 | 树的最大深度。 | 30 |
- 推荐参数值
- 学习率 (learning rate):指每次迭代的步长,控制着每棵树对最终预测结果的贡献大小。
- 基分类器 (base estimator):指基于前一轮残差训练出的决策树。
- 损失函数 (loss function):该模型使用的是平方误差损失函数。
- 树的数量(n_estimators):指建立的树的数量,即迭代次数,对应着学习器的数量。
- 树的深度 (max_depth):指每个分类器的最大深度。
- 最小分割样本数(min_samples_split):指决策树上一个节点所需要的最少样本数,对于较大的数据集,增加这个值可以使模型运行速度更快。
- 特征子采样比例 (feature subsampling ratio):指用于每个决策树训练中随机选择的特征的比例。
- 调参建议
- 树的数量:增加树的数量可以提高模型的准确性,但也可能出现过拟合。因此,一般可以通过交叉验证来确定最佳的树的数量。
- 树的深度:树越深,模型的表达能力就越强,但也容易过拟合。因此,应当根据数据集的情况选取适当的树深度。
- 学习率:学习率越小,模型的收敛速度就越慢;学习率越大,可能会导致模型发生震荡而无法收敛。因此,需要根据实际问题和数据集来选择一个合适的学习率。
- 最小分割样本数和特征子采样比例:这两个参数主要用于控制模型的复杂度,可以适当调整以达到更好的泛化性能。
- 网格搜索或随机搜索:网格搜索或随机搜索都可以用来选取最佳超参数,但由于GBDT的超参数较多,随机搜索可能更加高效。