聚类
聚类分析是最常见的无监督学习任务,将一组数据按照内在的相似性划分为多个类别,使得同一个类别内的数据之间相似度较大,相互之间的距离较小;相反,对于不同类别的数据,它们之间的相似度较小,距离也比较远。
距离度量:聚类是一个基于距离划分数据集的过程,对于有序数据常用的距离方法是Minkowski距离,
层次聚类
将聚类堪称是一个按层次进行数据划分的过程,算法结束后将形成一棵聚类树。层次聚类按照执行的顺序不同,可以分为自底向上的合并方法,以及自顶向下的分裂方法
自底向上:初始将每一个数据点作为一个簇,然后选择最近的两个簇合并后进入下一层,反复进行下去得到一个聚类树,当数据点为两个点时可以采用距离度量的方式进行划分,当簇包含多个数据点时,需要采用最小/最大/平均距离的方法进行选择。
自顶向下:将全部的数据点作为一个簇,按照某个准则将簇分裂,在数据点中选择直径最大的两个点进行分裂(簇中最远的两个点之间的距离)
多种常见聚类方法
K-means聚类
谱聚类