Skip to main content

Version: 2.17.1

逻辑回归二分类

算法介绍
利用sigmoid函数将线性回归的结果转换为概率值，实现二分类。
使用场景
适用于二分类问题及预测概率值。
优势介绍

训练效率高；
输出结果为概率值；
表现稳定。

劣势介绍

仅适合于线性分布或近似线性分布的数据；
对数据中异常样本非常敏感。

参数介绍
仅支持通过可视化方式，配置读取该组件参数，参数详情如下表所示：

页签	参数	参数名称	是否必选	参数描述	默认值
数据源	表名	inputTable	是	数据表	无
默认参数	选择标签特征列	labelColName	是	输入表作为标签的列。	无
模型参数	选择惩罚项	penalty	是	包括L1和L2。l1正则化的损失函数不是连续可导的，而nettoncg, sag, lbfgs需要损失函数的一阶或二阶连续可导，支持l2。	L2
模型参数	优化算法停止的条件	tol	是	优化算法停止的条件。当迭代前后的函数差值小于等于tol时就停止。	0.0001
模型参数	正则化系数	C	是	值越小，正则化越强。	1
模型参数	是否含有常数项	fit_intercept	是	TRUE或FALSE，选择逻辑回归模型中是否会有常数项b。	TRUE
调优参数	用于标示分类模型中各种类型的权重	class_weight	是	balanced,类库根据训练样本量来计算权重。某种类型的样本量越多，则权重越低。	balanced
调优参数	逻辑回归损失函数的优化方法	solver	是	liblinear,使用坐标轴下降法来迭代优化损失函数。只支持OvR。lbfgs,拟牛顿法的一种。利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。newtoncg,牛顿法的一种。sag,随机平均梯度下降。每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。	liblinear
调优参数	优化算法的迭代次数	max_iter	是	优化算法的迭代次数。	100
调优参数	子采样	multi_class	是	包括ovr和multinomial，multinomial即为MvM。若是二元逻辑回归，二者区别不大。	ovr

推荐参数值

正则化项选择：正则化项能减少过拟合的风险。可以根据实际情况选择L1/L2正则化项；
正则化参数α值：0.001-100;
特征筛选：逻辑回归需要先选定重要特征；
样本均衡问题：由于样本不平衡问题可能出现预测疑惑问题，建议在训练过程中采取平衡策略。

调参建议

增加新的特征, 删除冗余且无效的特征；
通过使用交叉验证选择最佳参数；
调整正则化参数α值；
对异常值进行处理(如,删除)。