聚类
2018-04-30 20:45:25
  • 0
  • 0
  • 0

聚类分析是最常见的无监督学习任务,将一组数据按照内在的相似性划分为多个类别,使得同一个类别内的数据之间相似度较大,相互之间的距离较小;相反,对于不同类别的数据,它们之间的相似度较小,距离也比较远。

距离度量:聚类是一个基于距离划分数据集的过程,对于有序数据常用的距离方法是Minkowski距离,

层次聚类

将聚类堪称是一个按层次进行数据划分的过程,算法结束后将形成一棵聚类树。层次聚类按照执行的顺序不同,可以分为自底向上的合并方法,以及自顶向下的分裂方法

自底向上:初始将每一个数据点作为一个簇,然后选择最近的两个簇合并后进入下一层,反复进行下去得到一个聚类树,当数据点为两个点时可以采用距离度量的方式进行划分,当簇包含多个数据点时,需要采用最小/最大/平均距离的方法进行选择。

自顶向下:将全部的数据点作为一个簇,按照某个准则将簇分裂,在数据点中选择直径最大的两个点进行分裂(簇中最远的两个点之间的距离)

多种常见聚类方法

K-means聚类

谱聚类


 
最新文章
相关阅读