Skip to main content
Version: 2.17.1

SVR回归

  • 算法介绍

    SVR是一种支持向量回归模型,用于预测连续的输出值。该模型适用于有很多噪声和短暂信号干扰的数据集,以及需要具有非线性关系的问题。训练过程中, 将向量映射到一个高维空间,并使用核函数来度量它们之间的距离。通过寻找最佳分割超平面(或线),最小化预测误差就可以进行回归。

  • 使用场景

  1. 预测问题:例如股票价格、气象预测等。
  2. 异常检测:比如检测电力网络是否存在故障节点等。
  3. 文本分类:考虑文本相关的特征提取技术,如 NLP 中的词袋模型、TF-IDF 等。
  4. 数据降维:可以使用核主成分分析(Kernel PCA)来降低数据集的维度,从而提高计算效率和模型表现。
  • 优势介绍
  1. 可处理高维特征空间:由于 SVR 利用核函数将数据映射到更高维的空间,因此它能够自然而然地处理高维数据,不需要依靠特定的输入空间或领域知识来调整输入空间。
  2. 可处理非线性问题:通过使用核技巧,SVR 可处理比线性回归模型更为复杂的非线性问题,包括任意形状、高度交错的决策边界。
  3. 对噪声不敏感:SVR 使用损失函数最小化误差范围时采用的是 ε-不敏感损失函数,其思想是允许给出一些区间内的预测结果,使得算法与异常值及错误数据点分离更容易。
  4. 可通过调整参数来控制模型的精确度:ε 和 C 两个重要的模型参数可用于控制训练误差和测试准确度。
  • 劣势介绍
  1. 可能会适应过度:这种模型可能适应过度或者贴合部分训练样本,从而在面对新的未知数据集时表现不佳。
  2. 计算复杂度较高: SVM 需要优化特定的目标函数,在处理大量数据时可能会变得非常慢。。
  3. 对于小样本集,需要进行交叉验证来得出可靠性更强的预测结果.
  4. 异常点对模型影响比较敏感:SVR 可以适应少量异常点,但超过某个值后,它将无法正确拟合要素空间。
  • 参数介绍

    仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:

页签参数参数名称是否必选参数描述默认值
数据源表名inputTable数据表
默认参数选择特征标签列labelColName输入表中选择标签列名类型。
模型参数指定kernel类型kernelsvc中指定的kernel类型。 包括linear, poly, rbf, sigmoid, precomputed。rbf
模型参数训练结束误差边界tol误差项达到指定值时则停止训练。0.001
模型参数正则化系数C值越小,正则化越强,对误分类的惩罚减小,容错能力增强,泛化能力较强。1
模型参数优化算法的迭代次数max_iter优化算法的迭代次数。默认设置为-1,表示无穷大迭代次数。-1
  • 推荐参数值
  1. kernel:选择核函数,有 'linear'、'poly' 和 'rbf'可供选择,默认值为 'rbf'。其中,'linear'为线性核,在处理线性可分数据时的效果较好,'poly'为多项式核,在处理非线性图形数据时应用较多,'rbf'为径向基函数核,默认也是最广泛使用的核函数之一。
  2. C : 正则化参数,表示允许误分类的程度,通常使用交叉验证或网格搜索进行调整,默认值为 1.0.
  • 调参建议
  1. 在调整模型参数之前,先了解数据中特征的数量、范围和分布情况等,以及输出变量的值域和数量等信息。
  2. 启用交叉验证: 在 SVR 中,使用 参数 C 和 gamma 进行网格搜索以获取最佳的参数组合。可以使用 GridSearchCV 或 RandomizedSearchCV 这样的方法来自动化搜索最佳参数设置,同时减少过度拟合(overfitting)风险。
  3. 调整 C 值:选择合适的 C 值能够很好地平衡模型的泛化能力和正确性。C值越大,模型越复杂;C值越小,模型就越平滑 (smooth)。
  4. 调整 gamma 值:gamma 决定了映射到高维空间后样本的影响程度。当使用 rbf 核时,gamma 决定了核函数的单峰或多峰性等特征。在数据集中有许多特征时,在测试 gamma 值之前,可以使用 PCA 或 LDA 等降维算法来避免过拟合。
  5. 选择合适的核函数:多项式核、rbf 核和正弦核等可供选择,每个核函数都具有不同的复杂度和能力。可以采用不同的配置策略来测试每个核函数,并根据结果确定选用哪个核函数类型。比较不同核函数之间的 performance 可以通过 cross-validation 或 testing data 进行评估。