Skip to main content
Version: 2.17.1

DBSCAN

  • 算法介绍

    基于密度聚类的非参数算法,通过将数据点分为核心点、边界点和噪声点来实现聚类。

  • 使用场景

    数据集中存在明显的密度变化或离群点时较优。

  • 优势介绍

  1. 不需要假设先验分布,适用于大多数数据集;
  2. 可以发现任意形状和大小的聚类。
  • 劣势介绍
  1. 对超参数敏感,如半径大小和密度阈值等;
  2. 难以处理高维数据。
  • 参数介绍

    仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:

页签参数参数名称是否必选参数描述默认值
数据源表名inputTable数据表
默认参数选择特征列selectedColNames输入表中选择特征列名类型。
模型参数半径eps用于设置密度聚类中的ε领域,即半径。0.5
模型参数最少的样本量min_samples用于设置ε领域内最少的样本量。5
调优参数最近邻搜寻方法algorithm包括auto、ball_tree、kd_tree、brute。在计算点之间距离的过程中,用于指定搜寻最近邻样本点的算法。默认为auto,表示密度聚类会自动选择一个合适的搜寻方法。如果为ball_tree,则表示使用球树搜寻最近邻。如果为kd_tree,则表示使用K-D树搜寻最近邻。如果为brute,则表示使用暴力法搜寻最近邻。auto
  • 推荐参数值
  1. 半径大小epsilon:0.1-0.5;
  2. 密度阈值min_samples:5-10。
  • 调参建议
  1. 通过降低epsilon值使得点更容易被划分为核心点,从而提高聚类效果;
  2. 通过增加min_samples值可以剔除噪声和边缘点,提高聚类效果;
  3. 对于高维数据,可以考虑使用PCA或其他降维技术来减少特征数量,提高聚类效果;
  4. 可以通过多次试验,尝试不同参数组合,找到最优参数集。