Skip to main content

Version: 2.17.1

DBSCAN

算法介绍
基于密度聚类的非参数算法，通过将数据点分为核心点、边界点和噪声点来实现聚类。
使用场景
数据集中存在明显的密度变化或离群点时较优。
优势介绍

不需要假设先验分布，适用于大多数数据集；
可以发现任意形状和大小的聚类。

劣势介绍

对超参数敏感，如半径大小和密度阈值等；
难以处理高维数据。

参数介绍
仅支持通过可视化方式，配置读取该组件参数，参数详情如下表所示：

页签	参数	参数名称	是否必选	参数描述	默认值
数据源	表名	inputTable	是	数据表	无
默认参数	选择特征列	selectedColNames	是	输入表中选择特征列名类型。	无
模型参数	半径	eps	是	用于设置密度聚类中的ε领域，即半径。	0.5
模型参数	最少的样本量	min_samples	是	用于设置ε领域内最少的样本量。	5
调优参数	最近邻搜寻方法	algorithm	是	包括auto、ball_tree、kd_tree、brute。在计算点之间距离的过程中，用于指定搜寻最近邻样本点的算法。默认为auto，表示密度聚类会自动选择一个合适的搜寻方法。如果为ball_tree，则表示使用球树搜寻最近邻。如果为kd_tree，则表示使用K-D树搜寻最近邻。如果为brute，则表示使用暴力法搜寻最近邻。	auto

推荐参数值

半径大小epsilon：0.1-0.5；
密度阈值min_samples：5-10。

调参建议

通过降低epsilon值使得点更容易被划分为核心点，从而提高聚类效果；
通过增加min_samples值可以剔除噪声和边缘点，提高聚类效果；
对于高维数据，可以考虑使用PCA或其他降维技术来减少特征数量，提高聚类效果；
可以通过多次试验，尝试不同参数组合，找到最优参数集。