逻辑回归二分类
算法介绍
利用sigmoid函数将线性回归的结果转换为概率值,实现二分类。
使用场景
适用于二分类问题及预测概率值。
优势介绍
- 训练效率高;
- 输出结果为概率值;
- 表现稳定。
- 劣势介绍
- 仅适合于线性分布或近似线性分布的数据;
- 对数据中异常样本非常敏感。
参数介绍
仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:
页签 | 参数 | 参数名称 | 是否必选 | 参数描述 | 默认值 |
---|---|---|---|---|---|
数据源 | 表名 | inputTable | 是 | 数据表 | 无 |
默认参数 | 选择标签特征列 | labelColName | 是 | 输入表作为标签的列。 | 无 |
模型参数 | 选择惩罚项 | penalty | 是 | 包括L1和L2。l1正则化的损失函数不是连续可导的,而nettoncg, sag, lbfgs需要损失函数的一阶或二阶连续可导,支持l2。 | L2 |
模型参数 | 优化算法停止的条件 | tol | 是 | 优化算法停止的条件。当迭代前后的函数差值小于等于tol时就停止。 | 0.0001 |
模型参数 | 正则化系数 | C | 是 | 值越小,正则化越强。 | 1 |
模型参数 | 是否含有常数项 | fit_intercept | 是 | TRUE或FALSE,选择逻辑回归模型中是否会有常数项b。 | TRUE |
调优参数 | 用于标示分类模型中各种类型的权重 | class_weight | 是 | balanced,类库根据训练样本量来计算权重。某种类型的样本量越多,则权重越低。 | balanced |
调优参数 | 逻辑回归损失函数的优化方法 | solver | 是 | liblinear,使用坐标轴下降法来迭代优化损失函数。只支持OvR。lbfgs,拟牛顿法的一种。利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。newtoncg,牛顿法的一种。sag,随机平均梯度下降。每次迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的时候。 | liblinear |
调优参数 | 优化算法的迭代次数 | max_iter | 是 | 优化算法的迭代次数。 | 100 |
调优参数 | 子采样 | multi_class | 是 | 包括ovr和multinomial,multinomial即为MvM。若是二元逻辑回归,二者区别不大。 | ovr |
- 推荐参数值
- 正则化项选择:正则化项能减少过拟合的风险。可以根据实际情况选择L1/L2正则化项;
- 正则化参数α值:0.001-100;
- 特征筛选:逻辑回归需要先选定重要特征;
- 样本均衡问题:由于样本不平衡问题可能出现预测疑惑问题,建议在训练过程中采取平衡策略。
- 调参建议
- 增加新的特征, 删除冗余且无效的特征;
- 通过使用交叉验证选择最佳参数;
- 调整正则化参数α值;
- 对异常值进行处理(如,删除)。