模糊聚类(英語:Fuzzy clustering,亦称软聚类或软k-平均)是聚类的一种形式,在这种聚类中,每个数据点可以属于不止一个聚类簇。
聚类或聚类分析涉及将数据点分配到不同的聚类簇中,使得同一聚类簇中的项尽可能相似,而属于不同聚类簇的项尽可能不同。聚类簇是通过相似性度量来识别的。这些相似性度量包括距离、连通性和强度。可以根据数据或特定的应用选择不同的相似性度量。[1]
与硬聚类的比较
编辑在非模糊聚类(也称为硬聚类)中,数据被划分为完全不同的聚类簇,每个数据点只能严格属于一个特定的聚类簇。而在模糊聚类中,数据点可能同时属于多个聚类簇。例如,一个苹果可以是红色的或绿色的(硬聚类),但一个苹果也可以既是红色的又是绿色的(模糊聚类)。在这里,这个苹果可以在一定程度上属于红色,也可以在一定程度上属于绿色。苹果不再是只属于绿色 [绿色 = 1] 且不属于红色 [红色 = 0],而是可以以一定比例属于绿色 [绿色 = 0.5] 和红色 [红色 = 0.5]。这些值在0和1之间被归一化;然而,它们并不代表概率,因此这两个值的总和不需要等于1。
隶属度
编辑每个数据点(标签)都会被分配隶属度(英語:Membership grades)。这些隶属度表明了数据点属于各个聚类簇的程度。因此,位于聚类簇边缘、隶属度较低的点,其“身处该聚类簇”的程度可能低于位于聚类簇中心的点。
模糊C-平均聚类
编辑最广泛使用的模糊聚类算法之一是模糊C-平均聚类(英語:Fuzzy C-means clustering,简称FCM)算法。
历史
编辑模糊C-平均(FCM)聚类由J.C. Dunn于1973年提出,[2]并由James C. Bezdek于1981年进行改进。[3]
概述
编辑模糊c-平均算法与k-平均算法非常相似:
- 选择聚类数量。
- 随机为每个数据点分配其属于各个聚类簇的系数。
- 重复以下步骤直至算法收敛(即两次迭代之间系数的变化不超过给定的灵敏度阈值 ):
- 计算每个聚类簇的质心(计算方法见下文)。
- 对于每个数据点,计算其属于各个聚类簇的系数。
质心
编辑任何点 x 都有一个系数集合,用于表示该点处于第 k 个聚类簇的程度 wk(x)。在模糊c-平均中,聚类簇的质心是所有点的平均值,且按它们对该聚类簇的隶属程度进行加权;在数学上表示为:
其中 m 是控制聚类模糊程度的超参数(聚类越模糊,意味着该聚类越不清晰,一个数据点可以同时属于多个聚类簇)。该值越高,最终的聚类效果就会越模糊。
算法
编辑FCM算法试图根据某个给定的标准,将 个元素的有限集合 划分为 c 个模糊聚类簇。
给定有限的数据集,该算法返回一个包含 个聚类中心的列表 以及一个划分矩阵
,其中每个元素 表示元素 属于聚类簇 的程度。
FCM旨在最小化目标函数:
- ,
其中:
- 。
与K-平均聚类的比较
编辑K-平均聚类同样试图最小化上述目标函数,不同之处在于,在K-平均算法中,隶属度的值要么是0,要么是1,不能取介于两者之间的值,即 。在模糊C-平均中,模糊程度由参数 参数化,其中较大的 会导致更模糊的聚类。在 的极限情况下,隶属度 收敛于0或1,模糊C-平均的目标函数便与K-平均的目标函数一致。在缺乏实验或领域知识的情况下, 通常设置为2。该算法也能最小化聚类簇内的方差,但也存在与k-平均算法相同的问题:得到的最小值是局部最小值,且结果依赖于权重的初始选择。
实现
编辑相关算法
编辑能够自动确定聚类数量的模糊C-平均(FCM)可以提高检测的准确性。[6] 使用高斯混合模型并结合期望最大化算法是一种在统计上更加规范的方法,它也包含了类别的部分隶属关系这一思想。
示例
编辑为了更好地理解这一原理,下面提供了一个分布在x轴上的一维数据的经典示例。
传统上,该数据集可以被分为两个聚类簇。通过在x轴上选择一个阈值,数据被分成两组。生成的聚类簇标记为“A”和“B”,如下方图像所示。因此,属于该数据集的每个点将拥有1或0的隶属度系数。通过添加y轴来表示每个对应数据点的隶属度系数。
在模糊聚类中,每个数据点可以具有对多个聚类簇的隶属度。通过放宽隶属度系数只能严格为1或0的限制,这些值可以是1到0之间的任何范围。下图显示了前面聚类的数据集,但此时应用了模糊C-平均聚类。首先,可以生成定义两个聚类簇的新阈值。接下来,根据聚类簇的质心以及与每个聚类簇质心的距离,为每个数据点生成新的隶属度系数。
如你所见,中间的数据点同时属于聚类A和聚类B。0.3这个值即为该数据点对于聚类A的隶属度系数。[7]
应用与扩展
编辑聚类问题在表面科学、生物学、医学、心理学、经济学及许多其他学科中都有广泛应用。[8] 模糊c-平均已经在多个方面得到了扩展(如Gustafson-Kessel算法、Gath-Geva算法、可能性c-平均、基于核的模糊c-平均,以及部分提供质心的模糊c-平均)。[9]
生物信息学
编辑在生物信息学领域,聚类被用于众多应用中。其中一个应用是作为一种模式识别技术,用于分析来自RNA测序数据或其他技术的基因表达数据。[10] 在这种情况下,具有相似表达模式的基因被分组到同一个聚类簇中,不同的聚类簇则展现出明显且界限分明的表达模式。使用聚类有助于深入了解基因功能和调控机制。[8] 由于模糊聚类允许基因属于多个聚类簇,这就使得能够识别在特定条件下共调控或共表达的基因成为可能。[11] 例如,一个基因可能受到多个转录因子的作用,或者一个基因可能编码具有多种功能的蛋白质。因此,在这些场景下,模糊聚类比硬聚类更加合适。
图像分析
编辑在聚类图像中的对象时,模糊C-平均一直是图像处理中的一个非常重要的工具。20世纪70年代,数学家将空间项引入FCM算法中,以提高噪声条件下的聚类精度。[12] 此外,FCM算法已经被用来使用基于图像的特征(如Hu矩和Zernike矩)来区分不同的活动。[13] 另一方面,可以在定义于HSL色彩空间(HSL和HSV)三个分量上的模糊集上描述模糊逻辑模型;其隶属函数旨在描述遵循人类颜色识别直觉的颜色体系。[14]
市场营销
编辑在市场营销中,可以根据客户的需求、品牌偏好、心理图谱特征或其他营销相关的划分维度,将客户群体归入不同的模糊聚类。[來源請求]
图像处理示例
编辑使用k-平均聚类算法进行的图像分割早已被用于模式识别、目标检测和医学成像。然而,由于现实世界中的限制因素,如噪声、阴影和相机性能差异等,传统的硬聚类常常无法如上所述地可靠执行图像处理任务。[來源請求] 模糊聚类被提出作为在执行这些任务时更为适用的一种算法。右图展示了一幅在Matlab中经历了模糊聚类的灰度图像。[15] 原始图像显示在聚类图像旁边。颜色被用于视觉展示三个用于识别每个像素隶属度的不同聚类簇。在下方,提供了一个图表,定义了与其对应强度值相关联的模糊隶属度系数。
取决于要使用模糊聚类系数的具体应用,可以对RGB图像应用不同的预处理技术。将RGB转换为HCL是一种常见的做法。[16]
参见
编辑参考资料
编辑- ^ Fuzzy Clustering. reference.wolfram.com. [2016-04-26].
- ^ Dunn, J. C. A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters. Journal of Cybernetics. 1973-01-01, 3 (3): 32–57. ISSN 0022-0280. doi:10.1080/01969727308546046.
- ^ Bezdek, James C. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms. ISBN 0-306-40671-3.
- ^ Alobaid, Ahmad, fuzzycmeans: Fuzzy c-means according to the research paper by James C. Bezdek et. al, [2023-01-18]
- ^ Dias, Madson, fuzzy-c-means: A simple python implementation of Fuzzy C-means algorithm., [2023-01-18]
- ^ El-Khamy, Said E.; Sadek, Rowayda A.; El-Khoreby, Mohamed A. An efficient brain mass detection with adaptive clustered based fuzzy C-mean and thresholding. 2015 IEEE International Conference on Signal and Image Processing Applications (ICSIPA). 2015: 429–433. ISBN 978-1-4799-8996-6. doi:10.1109/ICSIPA.2015.7412229.
- ^ Clustering - Fuzzy C-means. home.deib.polimi.it. [2017-05-01].
- ^ 8.0 8.1 Ben-Dor, Amir; Shamir, Ron; Yakhini, Zohar. Clustering Gene Expression Patterns. Journal of Computational Biology. 1999-10-01, 6 (3–4): 281–297. CiteSeerX 10.1.1.34.5341 . ISSN 1066-5277. PMID 10582567. doi:10.1089/106652799318274.
- ^ Cococcioni, Marco; Lazzerini, Beatrice; Lermusiaux, Pierre. Adaptive Sampling Using Fleets of Underwater Gliders in the Presence of Fixed Buoys using a Constrained Clustering Algorithm. IEEE OCEANS'15. 2015-05-18: 1–6. doi:10.1109/OCEANS-Genova.2015.7271446. hdl:11568/749026 .
- ^ Valafar, Faramarz. Pattern Recognition Techniques in Microarray Data Analysis. Annals of the New York Academy of Sciences. 2002-12-01, 980 (1): 41–64. Bibcode:2002NYASA.980...41V. CiteSeerX 10.1.1.199.6445 . ISSN 1749-6632. PMID 12594081. S2CID 343093. doi:10.1111/j.1749-6632.2002.tb04888.x (英语).
- ^ Valafar F. Pattern recognition techniques in microarray data analysis. Annals of the New York Academy of Sciences. 2002 Dec 1;980(1):41-64.
- ^ Ahmed, Mohamed N.; Yamany, Sameh M.; Mohamed, Nevin; Farag, Aly A.; Moriarty, Thomas. A Modified Fuzzy C-Means Algorithm for Bias Field Estimation and Segmentation of MRI Data (PDF). IEEE Transactions on Medical Imaging. 2002, 21 (3): 193–199 [2011-10-02]. Bibcode:2002ITMI...21..193A. CiteSeerX 10.1.1.331.9742 . PMID 11989844. S2CID 8480349. doi:10.1109/42.996338. (原始内容 (PDF)存档于2011-10-02)..
- ^ Banerjee, Tanvi. Day or Night Activity Recognition From Video Using Fuzzy Clustering Techniques. IEEE Transactions on Fuzzy Systems. 2014, 22 (3): 483–493. Bibcode:2014ITFS...22..483B. CiteSeerX 10.1.1.652.2819 . S2CID 11606344. doi:10.1109/TFUZZ.2013.2260756.
- ^ Alireza, Kashani; Kashani, Amir; Milani, Nargess; Akhlaghi, Peyman; Khezri, Kaveh. Robust Color Classification Using Fuzzy Reasoning and Genetic Algorithms in RoboCup Soccer Leagues. RoboCup 2007: Robot Soccer World Cup XI. Lecture Notes in Computer Science 5001. 2008: 548–555. ISBN 978-3-540-68846-4. doi:10.1007/978-3-540-68847-1_59.
- ^ Fuzzy Clustering - MATLAB & Simulink. www.mathworks.com. [2017-05-03].
- ^ Lecca, Paola. Systemic Approaches in Bioinformatics and Computational Systems Biology. IGI Global. 2011: 9. ISBN 9781613504369.