Skip to main content
Version: 2.17.1

线性回归

  • 算法介绍

    LinearRegression是一种线性回归模型,常用于预测数值型的连续变量。它采用最小化平方误差和的方法来拟合数据集,并试图找到一条直线来描述自变量与因变量之间的关系。这条直线可以被用来作出新的预测。

  • 使用场景

  1. 结构化数据:例如金融领域中贷款利率、房价等的预测、医学领域中慢性疾病预测等。
  2. 非结构化数据转化后的数据:例如文本分类中利用tf-idf特征矩阵进行的预测、图像处理中基于颜色特征和纹理特征建立的线性回归模型等。
  • 优势介绍
  1. 易于实现和解释:Linear Regression 的原理十分简单,公式易于理解,且容易可视化。
  2. 适用性广泛:线性回归可以处理大部分结构化数据场景,使求解特定问题变得非常方便。这样权衡准确性、速度和可解释性后,线性回归可能是你的第一选择。
  3. 计算速度快:计算量不大,参数少,直接利用矩阵运算,因此计算速度适中。
  4. 可点性强:结果有极强的解释性。每个特征的系数都能通过系数大小呈现出来,甚至可以通过数据标度得知该特征对响应变量的影响方向。
  • 劣势介绍
  1. 需要满足特定假设条件:与许多机器学习算法类似,线性回归算法也需要满足一些假设前提条件。常见的仅考虑影响目标变量的因素,不存在多重共线性体现为自变量之间存在严格的线性关系。
  2. 容易被离群值误导:线性回归对离群值非常敏感,只要有一个离群值或极端值就可以对模型产生很大影响。
  3. 必须存在线性关系:因为其是一种线性方法,所以会受到样本的线性限制。要想获得更好的结果必须指定正确的特征才能得到令人满意的结果。
  4. 不适用于非线性问题:Linear Regression 的主要缺点之一是不能很好地处理非线性数据和噪声的情况。
  • 参数介绍

    仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:

页签参数参数名称是否必选参数描述默认值
数据源表名inputTable数据表
默认参数选择特征标签列labelColName输入表中选择标签列名类型。
模型参数是否计算模型的截距fit_intercept默认True,是否计算模型的截距,为False时,则数据中心化处理。True
模型参数是否中心化normalize默认False,是否中心化,或者使用sklearn.preprocessing.StandardScaler()。False
模型参数是否拒绝覆盖原数据copy_X默认True,否则X会被改写。True
  • 推荐参数值
  1. fit_intercept:是否拟合截距,默认为True;
  2. normalize:是否对自变量先进行标准化处理再训练,默认为False。
  • 调参建议
  1. 对于小型数据集,fit_intercept 和 normalize 均可设置为默认值,不会影响模型性能;对于大型数据集,可以将 normalize 设置为 True 进行标准化处理。
  2. 如果数据中存在严重多重共线性问题,可以考虑使用正则化方法(如 L1 或 L2 正则化)来约束参数。
  3. 对于需要构建基于交互项或多项式功能的非线性模型的问题,可以结合特征工程的方法来提高模型的表现。